自有老外为DeepSeek辩经:揭穿围绕DeepSeek的谣言(图)

大鱼新闻 科技 4 hours, 31 minutes

围绕 DeepSeek 的谣言实在太多了。

面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型,全世界已经陷入了没日没夜的大讨论。从它的模型能力是否真的先进,到是不是真的只用了 550W 进行训练,再到神秘的研究团队,每个角度都是话题。

虽然 R1 是开源的,围绕 DeepSeek 的各种夸张猜测还是层出不穷,有人说训练 R1 实际上使用的算力远超论文所说的,有人质疑 R1 的技术创新,甚至还有人说 DeepSeek 实际的目标是做空……

近日,知名生成式 AI 创业公司 Stability AI 的前研究主管 Tanishq Abraham 终于坐不住了,他撰文揭穿了围绕 DeepSeek 的一系列谬论。



行文直接了当,让人很快就可以了解实际情况。让我们看看海外一线 AI 研究者是怎么说的。



今年 1 月 20 日,DeepSeek 开源的强推理模型 R1 震撼了世人,与其他所有开源大语言模型(LLM)相比,该模型的不同之处在于以下几点:

性能实际上与 OpenAI 的 o1 一样好,这是一个先进的模型,标志着开源首次真正赶上闭源;

与其他先进模型相比,R1 是在相对较低的训练预算下完成的;

易于使用的用户界面,加上其网站和应用程序中具有可见思路链的良好用户体验,吸引了数百万新用户。

鉴于 DeepSeek(深度求索)是一家中国公司,美国及其一众科技公司纷纷指责新模型存在各种「国家安全问题」。因此,有关该模型的错误信息泛滥成灾。这篇博文的目的是反驳自 DeepSeek 发布以来许多与人工智能相关的极其糟糕的评论,并以一名工作在生成式人工智能前沿的 AI 研究人员的身份提供客观的看法。

让我们开始吧!

误解 1:DeepSeek 是一家突然冒出来的中国公司

完全错误,到 2025 年 1 月,全球几乎所有生成式 AI 研究人员都听说过 DeepSeek。DeepSeek 甚至在 R1 全面发布前几个月就已经预告了发布!

传播这种误解的人很可能不是从事人工智能工作的人,如果你不积极参与某个领域,就认为你对这个领域正在发生的事情了如指掌,这是荒谬且极其傲慢的。

DeepSeek 的第一个开源模型于 2023 年 11 月发布,它们是最先进的代码 LLM(DeepSeek-Coder)。如下图所示,DeepSeek 在一年的时间里持续发布新产品,R1 只是其中的一个:



DeepSeek 的模型进展。


罗马不是一天建成的,从 AI 创业公司的角度来看 DeepSeek 的进步速度也没有什么可疑的。人工智能领域一切都发展得如此之快,而且他们拥有一支显然很出色的团队,一年内取得如此大的进步在我看来是合理的。

如果你想知道还有哪些团队不为公众所知,但在人工智能圈却备受看好,这里面可以包括 Qwen(阿里巴巴)、YI(零一万物)、Mistral、Cohere 和 AI2。我要指出的是,它们都没有像 DeepSeek 那样持续推出 SOTA 模型,但它们都有潜力发布一流的模型,正如它们过去所展示的那样。

误解 2:训练模型不可能只花费 600 万美元,DeepSeek 在撒谎

这个说法很有意思。有人声称 DeepSeek 在撒谎,隐瞒了真实的训练成本,以此掩盖他们通过非法途径获取了由于出口管制本不该获得的算力。

首先,我们要理解这 600 万美元的数字从何而来。这个数字最早出现在 DeepSeek-V3 的论文中,该论文比 DeepSeek-R1 的论文早一个月发布:



DeepSeek-V3 的技术报告,发布于 2024 年 12 月 27 日

DeepSeek-V3 是 DeepSeek-R1 的基础模型,这意味着 DeepSeek-R1 就是在 DeepSeek-V3 的基础上增加了一些强化学习训练。从这个角度来说,这个成本确实不够准确,因为还未计入强化学习训练的额外成本。不过,强化学习训练的成本可能也就几十万美元。

那么,DeepSeek-V3 论文中提到的这个 550 万美元是否准确呢?根据 GPU 成本、数据集规模和模型规模的多项分析都得出了类似的估算结果。值得注意的是,虽然 DeepSeek V3/R1 是一个拥有 6710 亿参数的模型,但它采用了混合专家系统 (MoE) 架构,这意味着每次函数调用 / 前向传播只会用到约 370 亿参数,训练成本的计算也基于这个数值。

DeepSeek 报告的是基于当前市场 GPU 价格的估算成本。英伟达 AI 计算卡的价格并不固定,我们并不知道他们的 2048 块 H800 GPU 集群 (不是 H100!) 的实际成本。通常情况下,整体购买 GPU 集群会比零散购买便宜,所以实际的算力成本可能更低。

关键在于,这只是最终训练运行的成本,还有许多小规模的实验和消融实验,这也是一笔开销,但往往不会被计算在训练成本内。

此外,还有研究人员的薪资等其他成本。据 SemiAnalysis 报道,DeepSeek 的研究人员年薪据传高达 100 万美元,这与 OpenAI 或 Anthropic 等顶尖 AI 实验室的高薪资水平相当。

在比较不同模型的训练成本时,人们通常只关注最终训练运行的成本。但由于不实信息的传播,有人开始用这些额外的成本来质疑 DeepSeek 的低成本和运营效率。这种比较是极不公平的。其他 AI 前沿实验室在消融实验等各种实验和研究人员薪资方面的额外支出同样巨大,但在这些讨论中往往不会被提及!

误解 3:价格太便宜了,所有美国 AGI 公司都在浪费钱,这对英伟达来说极为不利

这又是一个相当愚蠢的观点。DeepSeek 在训练效率上确实比许多其他 LLM 要高得多。不仅如此,可能许多美国的前沿实验室在计算资源的使用上效率都不高。然而,这并不意味着拥有更多的计算资源是一件坏事。

最近,这样的观点比较盛行,这种观点可归因于他们并不理解扩展率(scaling laws),也不理解 AGI 公司 CEO 的思维方式(任何被视为 AI 专家的人都应该理解这些)。

最近几年 AI 领域的 Scaling Laws 已经证明了,只要我们持续向模型中投入更多的计算资源,性能就会不断提升。当然,随着时间推移,扩展的具体方法和侧重点也在变化:最初是模型规模,然后是数据集规模,现在是推理时的计算资源和合成数据。尽管如此,自 2017 年 Transformer 架构问世以来,「更多计算资源 = 更好性能」的总体趋势似乎一直成立。

更高效的模型意味着在给定的计算预算下,你可以榨取更多的性能,但更多的计算资源仍然会带来更好的结果。更高效的模型意味着你可以用更少的计算资源做更多的事情,但如果有更多的计算资源,你还能做得更多!

现在,你可能对扩展律有自己的看法。你可能认为即将出现一个瓶颈期,也可能像金融领域常说的那样,过去的性能并不代表未来的结果。但如果你想要理解最大的 AGI 公司正在做出的举措,这些看法其实并不重要。所有最大的 AGI 公司都在押注扩展律能够持续足够长的时间,以便实现 AGI 和 ASI。这是他们坚定的信念。如果他们深信不疑,那么唯一合理的举措就是获取更多的计算资源。

你可能会说英伟达的 GPU 很快就会过时,看看 AMD、Cerebras、Graphcore、TPU、Trainium 等等新产品的性能。市面上有数不清的 AI 专用硬件都在与英伟达竞争。未来可能会有一家公司胜出。到那时,AI 公司可能会转向使用它们的产品。但这都与 DeepSeek 的成功完全无关。

(平心而论,考虑到英伟达目前的市场主导地位和持续创新的能力,我还没有看到其他公司能够撼动英伟达在 AI 加速芯片领域霸主地位的有力证据。)

总的来说,我认为没有理由因为 DeepSeek 而不看好英伟达,用 DeepSeek 来论证这一点似乎并不恰当。

误解 4:DeepSeek 没有任何有意义的创新,只是在抄袭美国公司

错误。在语言模型的设计及其训练方式上,DeepSeek 有许多创新之处,其中一些创新比其他更为重要。以下列举了部分(并非详尽列表,详情请参阅 DeepSeek-V3 和 DeepSeek-R1 论文):

1. Multi-latent 注意力(MHA)—— 通常情况下,LLM 是基于多头注意力机制(MHA)的 Transformer 架构。DeepSeek 团队开发了一种 MHA 机制的变体,这种变体不仅更加节省内存,而且性能表现也更为出色。

2. GRPO 与可验证奖励。自从 o1 发布以来,AI 社区一直在尝试复现其效果。由于 OpenAI 对其工作原理保持高度封闭,社区不得不探索各种不同的方法以实现类似 o1 的结果。有许多研究方向,例如蒙特卡洛树搜索(Google DeepMind 在围棋中获胜所使用的方法),但这些方法最终被证明不如最初预期的那么有前景。另一方面,DeepSeek 展示了一个非常简单的强化学习(RL)流程实际上可以实现类似 o1 的结果。更重要的是,他们开发了自己版本的 PPO RL 算法,称为 GRPO,这种算法更高效且性能更优。AI 社区的许多人都在思考,为什么我们之前没有尝试过这种方法呢?

3. DualPipe—— 在多 GPU 上训练 AI 模型时,需要考虑效率问题。你需要确定模型和数据集如何在所有 GPU 之间分配,数据如何在 GPU 之间流动等。还需要尽量减少 GPU 之间的数据传输,因为这种传输速度很慢,最好尽可能在每个单独的 GPU 上进行处理。总之,设置这种多 GPU 训练的方式有很多种,DeepSeek 团队设计了一种名为 DualPipe 的新方法,这种方法更加高效且速度更快

非常幸运的是,DeepSeek 完全开源并详细记录了这些创新,这与美国的 AGI 公司不同。现在,每个人都可以利用这些进步来受益并改进自己的 AI 模型训练。

误解 5:DeepSeek 正在从 ChatGPT 吸取知识

OpenAI 曾经声称,DeepSeek 通过一种称为蒸馏的技术从 ChatGPT 中吸取知识。但在这里,蒸馏一词的使用显得有些奇怪。通常情况下,蒸馏指的是基于所有可能的下一个词(token)的完整概率(logits)进行训练,但 ChatGPT 甚至没有公开这些信息。

OpenAI 及其员工声称 DeepSeek 使用 ChatGPT 生成的文本对其进行训练。但他们没有提供任何证据,如果这是真的,那么 DeepSeek 显然违反了 ChatGPT 服务条款。不过我们对这一行为的法律后果尚不清楚。

需要注意的是,这仅在 DeepSeek 自己生成用于训练的数据时才成立。如果 DeepSeek 使用了来自其他来源的数据(目前有许多公开的数据集),这种形式的蒸馏或合成数据训练并不违反服务条款(TOS)。

尽管如此,这并不会减损 DeepSeek 的成就。对于研究人员来说,DeepSeek 更令人印象深刻的不是其效率方面,而是他们对 o1 的复现。此外,有研究者高度怀疑对 ChatGPT 进行蒸馏是否会有帮助,因为 o1 的 CoT(Chain-of-Thought)思维过程从未公开披露,那么 DeepSeek 是如何能够学习到它的呢?

此外,许多 LLM 确实在 ChatGPT(以及其他 LLM)生成的合成数据上进行训练,而且在任何新的互联网上抓取的数据中自然也会包含 AI 生成的文本。

总的来说,对于 DeepSeek 的模型表现优异仅仅是因为它蒸馏了 ChatGPT 的这一观点,确实忽略了 DeepSeek 在工程、效率和架构创新方面的实际成果,这些都在 DeepSeek 的技术报告中有详细说明。

我们应该担心中国在 AI 领域的领先地位吗?

或许有一点吧?

老实说,过去两个月里,中美在 AI 领域的竞争态势并没有太大变化。反倒是外界的反应相当激烈。中国在 AI 领域一直很有竞争力,但 DeepSeek 的出现让中国变得不容忽视。

关于开源,常见的观点是:既然中国 AI 比较落后,美国就不该公开分享技术,以免他们迎头赶上。

但显然,中国已经赶上来了,而且实际上他们早就做到了,甚至在开源领域处于领先地位。因此,封闭我们的技术是否真的能带来显著优势,这一点尚不明确。

值得注意的是,像 OpenAI、Anthropic 和 Google DeepMind 这样的公司,其模型确实比 DeepSeek R1 更强大。例如,OpenAI 的 o3 模型在基准测试中的表现非常出色,而且他们很可能已经在开发下一代模型了。此外,随着「星门计划」等大规模投资的推进,以及 OpenAI 即将完成的融资,美国的前沿 AI 实验室将有足够的计算资源来保持领先。

当然,中国也会在 AI 开发上投入大量资金。总体来看,竞争正在加剧!但我认为,美国的通用人工智能(AGI)前沿实验室继续保持领先的前景依然十分光明。

结论

一方面,部分人工智能从业者(尤其是 OpenAI 员工)正试图刻意淡化 DeepSeek 的成就;另一方面,某些专家和自封权威人士对 DeepSeek 的反应又显得过度夸张。需要明确的是:OpenAI、Anthropic、Meta、Google、xAI、英伟达等公司的发展远未终结;DeepSeek 对其成果的描述(很可能)并无虚假。

但必须承认,DeepSeek 值得获得应有认可,其推出的 R1 模型确实令人印象深刻。

 

相关新闻