DeepSeek-R1激起了开发人员极大的热情,社交媒体和社区网站上,大家兴奋地分享着自己的尝试,并交流着对他们的 AI 开发意味着什么。用户评论说,DeepSeek的搜索功能现在优于 OpenAI 和 Perplexity ,只有 Google 的 Gemini Deep Research 可以与之匹敌。
巧妙的技术解决方案。“首先,他们训练了一个混合专家模型(Mixture of Experts),这并不容易。人们难以追赶OpenAI,特别是在MOE架构方面,主要是因为存在大量不规则的损失峰值,数值并不稳定。但他们提出了非常巧妙的平衡方案,而且没有增加额外的技术修补。他们还在8位浮点训练方面取得突破,巧妙地确定了哪些部分需要更高精度,哪些可以用更低精度。据我所知,8位浮点训练的理解还不够深入,美国的大多数训练仍在使用FP16。”