无独有偶,近日知名的SemiAnalysis公开发布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的报告中称:DeepSeek论文中提到的600万美元成本仅指预训练运行的GPU成本,这只是模型总成本的一小部分,他们在硬件上的花费远高于5亿美元。例如为了开发新的架构创新,在模型开发过程中,需要投入大量资金来测试新想法、新架构思路,并进行消融实验。开发和实现这些想法需要整个团队投入大量人力和GPU计算时间。例如深度求索的关键创新—多头潜在注意力机制(Multi-Head Latent Attention),就耗费了数月时间。
如果这些仍然只是部分网友的争议观点,那么,最近由中国科学院深圳先进技术研究院、北京大学、01.AI、南方科技大学、Leibowitz AI等多个知名机构的研究团队联合发表的《Distillation Quantification for Large Language Models(大语言模型的蒸馏量化)》论文则显示DeepSeek V3的蒸馏过程可能主要来自GPT4o,且蒸馏程度较高。