中国大模型DeepSeek R1震撼世界,Meta连夜抄作业(图)

大鱼新闻 科技 1 day

惨烈的全球AI竞赛中,一个名不见经传的中国创业公司杀出重围。

没错,就是DeepSeek。

DeepSeek最近推出的DeepSeek R1,在数学、编程和推理任务上的表现,完全可以匹敌OpenAI o1。更重要的是,DeepSeek R1极大降低了使用成本,比o1低90%至95%。



在美国匿名职场论坛TeamBlind上,一名Meta公司员工发布涉深度求索的帖子“Meta生成式人工智能部门陷入恐慌”,引起广泛讨论。该员工在文中称,从深度求索发布DeepSeek-V3开始,就已经让Meta的Llama 4在各项测试中处于落后,“更糟糕的是,这家不知名中国公司仅为此花费了550万美元。”



DeepSeek R1采用了与ChatGPT o1相似的“思维链”方法,通过逐步推理来解决复杂任务,特别擅长数学和编程领域的问题。这种方法不仅提高了模型的效率,还显著降低了运算时间,同时保持了高水平的准确性。

那么DeepSeek R1到底有多强呢?

一个外国网友比较OpenAI o1和DeepSeek R1。他要求这两个模型实现一个内含红球的旋转三角形。他使用的提示是:“编写一个Python脚本,使一个红色弹跳球在三角形内运动,确保正确处理碰撞。让三角形慢慢旋转。用Python实现。确保球始终留在三角形内。”

AI大佬杨立昆也在社交媒体表达了对DeepSeek的看法,说“中国在AI领域超越了美国”的理解是错误的,正确的理解应该是“开源模型正在超越闭源模型。”

1

让DeepSeek R1杀出重围的武器:GRPO


DeepSeek R1使用GRPO技术在V3基础模型上训练出了R1-Zero。在这个过程中,它并没有使用蒙特卡洛树搜索或过程奖励建模,这使得模型更为精简且高效。

GRPO是一种强化学习算法。

在传统的强化学习中,模型根据环境提供的奖励信号来调整其行为。这个过程通常还需要另一个“批评模型”来评估当前策略的效果。然而,训练批评模型既复杂又会消耗大量计算资源。

而GRPO简化了这一流程。它不依赖批评模型,而是通过比较同组策略输出的相对奖励来优化策略模型。具体来说,GRPO通过对当前策略产生的一系列输出进行采样,并根据这些输出的表现相对优劣来调整策略。

此外,在处理答案的反思和重新评估时,模型利用了所谓的“Aha时刻”作为关键节点。为了解决R1-Zero版本的可读性问题,开发团队在冷启动数据上进行了SFT。

2

DeepSeek R1与OpenAI o1的基准性能比较




在数学方面,DeepSeek R1表现出色。在AIME 2024中,它评估了复杂的多步骤数学推理能力,DeepSeek R1的得分为79.8%,略高于o1的79.2%。在MATH-500中,DeepSeek R1以97.3%的成绩领先,超过o1的96.4%。这个测试评估了模型在多样化的高中级数学问题上的详细推理能力。

在编程方面,DeepSeek R1与OpenAI o1不相上下。Codeforces测试中,o1以96.6%微微领先,而DeepSeek R1为96.3%,表现也不逊色。SWE-bench Verified测试评估软件工程任务中的推理能力。DeepSeek R1的49.2%成绩略高于o1的48.9%。

在事实推理方面,o1略胜一筹。GPQA Diamond测试评估模型回答通用知识问题的能力。DeepSeek R1的得分为71.5%,略低于o1的75.7%。在MMLU测试中,o1以91.8%的成绩略胜DeepSeek R1的90.8%。这个测试涵盖各个学科并评估多任务语言理解能力

DeepSeek R1的实力与o1不相上下,但DeepSeek R1的开源性和极低成本使其成为了一个远比o1更有吸引力的选择。

3

DeepSeek的故事:制裁中突出重围


DeepSeek的故事始于2023年7月,浙江大学信息与电子工程专业的校友梁文锋创立了这家公司。

公司的成立,得益于梁文锋早年的前瞻性和远见。在预见到美国可能对中国实施更严格的技术制裁之前,梁在他的对冲基金High-Flyer的支持下,大量囤积了Nvidia A100芯片,这种芯片后来被美国禁止出口到中国。

面对芯片短缺的困境,DeepSeek没有选择退缩,反而激发了他们创新的潜能。他们重新设计了模型训练流程,减轻了对GPU的依赖。这种GPU在中国市场的性能被限制在其顶级产品的一半。尽管如此,R1模型仍能展示出卓越的计算效率和成本效益。

尽管面对外部压力,DeepSeek和其他中国AI公司如何在有限的计算资源下寻求效率的提升,已经成为一个行业议题。就像图夫茨大学教授Thomas Qitong Cao所言:“这种外部压力逼迫中国公司必须更加高效地使用他们有限的计算资源。”

未来,我们可能会看到中国的AI行业在这种压力下的进一步整合和发展。

超越OpenAI o1,DeepSeek-R1升至全球风格控制类第一

距离深度求索推理大模型 DeepSeek-R1 发布已经过去约一周时间。

然而,在海外社交媒体,乃至于华尔街上, DeepSeek-R1 的热度竟然才刚刚开始螺旋式上升。

1月24日,在国外大模型排名 Arena 上,DeepSeek-R1 基准测试已经升至全类别大模型第三,其中在风格控制类模型(StyleCtrl)分类中与 OpenAI o1 并列第一。而其竞技场得分达到1357分,略超 OpenAI o1 的1352分。

这是继 DeepSeek-V3 在剔除 OpenAI o1 等闭源模型排名开源模型类第一后,DeepSeek-R1 向全球最强 AI 大模型的再一次进击。

就在 Arena 放榜之后,全球关于 DeepSeek 的讨论再次升级。惊叹,溢美,甚至阴谋论都层出不穷。与此同时,美股市场 AI经济的狂欢,也开始在 DeepSeek 的影响下颤动。

美股的警钟


就在 DeepSeek-R1 获得风格控制类模型得分第一之后,鲜有发声的图灵奖得主,Meta AI 首席科学家 Yann LeCun 24日在社交媒体上表示:“当人们看到 DeepSeek 的表现,惊呼‘中国AI正在赶超美国’,但这种解读有误。更准确的结论是:开源模型正在超越闭源系统。DeepSeek的成功得益于开放生态,其创新基于前人成果的持续迭代。

DeepSeek-R1 的发布,宛如一颗沉重的石子打入AI行业与AI投资的湖水之中,甚至开始令越来越多人警觉 AI 投资可能存在的泡沫。

美股大V “THE SHORT BEAR”在社交媒体上表示,DeepSeek 创造了一个 AI 巨头们的痛苦时刻,而投资者必须对此敲响警钟。

“如果击败 OpenAI 所需要的金额是 5500万美元(包括5000个 H800 GPU和500万预训练费用),那么这个行业的商业化会比很多人预想的要快很多。”

该博客还指出:“根据红杉,美国AI公司每年必须产生约6000亿美元收入来支付其AI硬件费用。如果不跟进(投资支出)就会被淘汰,那么大额资本支出以保持竞争力就是必要的——但现在看来,这种冒险行为变得越来越无利可图。”

包括海外媒体 Vital Knowledge,德国世界报知名市场评论员 Holger Zschaepitz,都不约而同地把 DeepSeek 称之为“美国股市最大的威胁”。

海外知名财经博客 Zerohedge 24日撰文,称 DeepSeek 的出现和其廉价的训练成本,正在对美国此前宣布的5000亿美元AI基建计划形成巨大的打击。

网络社群里,越来越多的人把 DeepSeek 的出现与近期英伟达的回调联系在一起。

1月24日,英伟达股价大跌3.12%,报142.62美元/股,创下公司在年初 CES 展产品不及预期表现后的最大跌幅。

人红是非多

DeepSeek 火到什么程度?海外社交媒体已经对其进行“花式赞美”,称其不仅成本便宜,甚至只不过是一家对冲基金(幻方量化)的副产品。

当然,人红是非多——一个侧写来自于关于DeepSeek阴谋论的不断出现:一部分北美AI从业者普遍不相信 DeepSeek 的预训练费用只有区区不到 550 万美元。

一个极端例子是 AI 科技初创公司 Scale AI 创始人 Alexandr Wang——其在2025年达沃斯论坛上接受采访时,在未经任何证实的情况下声称 DeepSeek 囤有五万张英伟达 H100 GPU,但因为芯片禁运并未对外公布。

也有AI行业人士怀疑,DeepSeek可能存在过度拟合基准测试,在实际使用中可能会表现不佳。

“让硅谷的AI模型创业者相信这些数字是不现实的,许多人一年的工资都比 DeepSeek 的训练费用高。”有人对此评论道。

好在,DeepSeek 选择了最为开放的 MIT 标准作为开源协议。训练成本是否真的如此之低,有待公论。

近期,一则来自 Meta 匿名员工的消息称,Meta 内部近日启动了一项通过 DeepSeek 开源论文复现其大模型的工作,试图挖掘其是否真的只需要极低的预训练成本。

而届时,DeepSeek 是否真的能改变整个AI经济的模型架构,可能将会有一个分晓

 

相关新闻