OpenAI推Deep Research:复刻Google,致敬DeepSeek(图)
大鱼新闻 科技 3 hours, 23 minutes
刚推出o3-mini的OpenAI没闲着,昨天又马不停蹄地发布了一个新东西:能为用户独立工作的AI研究助手「Deep Research」。
Deep Research 是 ChatGPT 内嵌的一款增强工具,专为自动化复杂的在线多步骤研究任务而设计。不光中英文名字跟DeepSeek高度相似,就连功能也颇为相近:
用户只需输入提示,它就会在互联网上快速搜索、分析并整合上百个信息来源,最终生成质量媲美专业研究分析师的综合报告。
原本人类需要数小时完成的研究工作,Deep Research 在短短几十分钟内即可完成。其目标用户覆盖金融、科学、政策和工程等领域的专业人士。像是解读10-K财报、分析实验数据、研究法律案例、检索技术文档等复杂任务。同时也适用于需要精细研究的消费者。当购买汽车、电器、家具等高价值商品难以抉择时,Deep Research 就会提供高度个性化的消费建议。
1 优化版o3驱动 + 端到端RL训练
官方介绍,Deep Research由一个优化版的 o3 模型驱动,专注于网页浏览和数据分析,并基于端到端强化学习(RL)进行训练。它能做到在互联网上跨模态搜索、解读和分析大量文本、图片及 PDF 文件,同时根据实时信息动态调整搜索策略。
除网络搜索外,它还可以分析用户上传的文件并提取关键内容;使用Python工具制作数据可视化图表,将这些图表和网站抓取的图片整合到回复中;为了保证研究结果的可靠性,系统也会严格标注信息来源,精确引用原文中的相关段落。
2 怎么用,谁能用?
Deep Research 的使用非常简单:在 ChatGPT 界面选择“Deep Research”模式后,输入研究需求即可。如果有具体的参考资料,也可以直接上传文件提供更多上下文信息。
整个研究过程会在侧边栏实时显示进度和参考来源,通常耗时 5 到 30 分钟。这期间用户可以先去处理其他事务。研究完成后,系统会通知查看报告。未来几周内还将支持在报告中展示图表等可视化内容,提升阅读体验。
与注重实时多模态对话的 GPT-4o 相比,Deep Research 专注于深度研究,不仅能广泛收集信息,还会为每个结论附上详细的源头依据,最终生成一份完整且经过验证的研究成果,直接满足工作需求。
下面是一个OpenAI官网示例,展示用Deep research生成“零售业三年变革”报告的工作过程。值得注意的是,获得指令后它还主动要求用户澄清地域范围与关注维度,体现出类人交互能力。
只是由于Deep Research的计算需求非常高,查询耗时越长,所需的计算资源就越大。所以目前仅优先提供 Pro 每月100次查询额度,预计一个月内开放给Plus、Team和Enterprise用户。
OpenAI 还计划推出更快、更具成本效益的小型模型版本。未来允许连接到更专业的订阅数据源,使输出更加可靠和个性化。以及与能自动操作计算机的Operator结合,实现“行动—研究”闭环。
3 和DeepSeek比谁赢了?
说起来,OpenAI这款Deep Research由于命名与DeepSeek相似,又颇有赶着出来反击的意味,着实被广大推特网友调侃了一番。还预测今后各大模型厂商都要调转矛头,开启Deep系列了。
不过与其说 OpenAI此次的灵感来源于DeepSeek,倒不如说直接做了Google的伸手党。去年12月,Gemini订阅版本里就集成了「Gemini 1.5 Pro with Deep Research 」功能,同样是一款帮用户深度研究的智能体,也具备联网和上传文件的能力,只是底座模型并非推理模型。
鉴于大家都关心OpenAI Deep Research与DeepSeek R1“深度思考+联网功能”的技术对比。我们直接拿这个问题去问了该模式下的DeepSeek,得到以下这张表格:
可以看出,两者在几大维度上各有侧重和优缺。 Deep Research 适用于深入分析、长时推理和动态调整,尤其擅长专业级研究、商业报告和复杂数据解析。DeepSeek 更适合快速推理、代码生成和数学计算,主要面向开发者、学习者和基础信息检索。
然而,Deep Research 真正的突破点,以及几项在基准测试上超过 DeepSeek 的关键优势,并未在上表中被突出展示——即 HLE、GAIA 和 Expert-Level Tasks。
这都是什么意思?
HLE (Humanity’s Last Exam)翻译为“人类终极测试”,涵盖 100 多个学科,从语言学到航天科学、从经典文学到生态学,总计超过3,000道多选题和简答题。旨在评估AI表现是否达到人类水平。测试时会让AI和人类专家完成相同的任务,然后比较他们的表现,看看AI的输出质量是否能够媲美人类专家。
在这项测试中,Deep Research准确率高达26.6%,横扫包括o3-mini-high(得分13%)和Deep Seek R1(得分9.4%)在内的一切竞争对手。
GAIA 测试用于评估 AI 处理现实世界问题的能力。涵盖三个难度等级,要求 AI 具备推理、多模态理解、网页浏览和工具使用等能力才能成功完成任务。这里Deep Research 达到了当前最先进水平,并登顶外部排行榜。
不好理解的话,可以看下面这个官方挂出的level 3示例感受一下:
“1959 年 7 月 2 日,美国发布了加工水果、蔬菜及某些脱水类产品的等级标准。其中,“干燥和脱水”类别下明确标注为“脱水”的项目,以及“冷冻/冷藏”类别中完整名称包含该产品但未标注为“冷藏”的项目均适用该标准。截至 2023 年 8 月,这些标准中已有多少百分比(四舍五入到最接近的整数)被新版本取代?”——是不是觉得读明白都有困难…
Deep Research在完成识别 1959 年标准、收集相关标准、查找更新版本、评估更新比例、验证与补充这些思考步骤后,得出6/7的标准被取代。
有推特用户为了验证它的综合能力提出一系列问题,从总结历史到分析小说,再到研判财务违规,DeepSeek都回答得不错。但也提到Deep Research有一定限制,比如引用不完全,没有暂停按钮。但瑕不掩瑜,这仍然是“人类与AI协作的巅峰”。
再来是 Expert-Level Tasks。在内部评估中,Deep Research 获得领域专家认可,能够自动化完成复杂的研究任务,将原本需要数小时的手动调查大幅缩短。这一能力使其被认证为专业领域的重要辅助工具,为专家级研究提供高效支持。
杰克逊实验室和前纽约大学教授、人类免疫学家Derya Unutmaz使用Deep Research撰写了一份25页的癌症研究专利,表示质量完全过关,省下1万美元费用。
还转发了Deep Research媲美专业会计师的案例:一位即将搬离美国的用户,通过它获得了一份详尽的税务优化、法律和遗产规划建议,而这些问题连自己的CPA都没有解决。
Runway.com首席执行官Siqi Chen分享使用Deep Research研究女儿颅咽管瘤治疗方案的价值,已经超过了支付给私人研究团队的15万美元。
当然,必须有人用Deep Research写了一份DeepSeek的研发历史,并对未来发展做出推断。洋洋洒洒几千字下来,评论是:“疯狂”。
4 局限与未来
OpenAI表示,尽管Deep Research解锁了许多新功能,但仍处于早期阶段,存在一些局限性。包括幻觉问题(可能捏造事实或错误推断)、难以区分权威信息与传言、可信度校准不足、以及报告和引用格式上的轻微错误,同时某些任务的启动时间可能较长。不过,随着用户使用量的增加和模型的持续优化,这些问题有望在短时间内显著改善。
现在推特上的ChatGPT Pro用户评论区底下,已经有大批网友排队问问题,期待帮忙用Deep Research来解答了。可以想象,等这项功能向Plus用户开放后,OpenAI优化算力基础设施有多么迫在眉睫。在推理模型的进化带动下,AI辅助工具的发展正在从简单的对话助手,逐步向专业研究助手转变。
OpenAI这一波发力,是否从DeepSeek那儿赢回一些好感,能撬动用户的付费意愿了吗?
但这还没结束,Sam Altman已经透露,Deep Research并不是o3-mini的one more thing,过几天还有惊喜。
如果DeepSeek真地能让OpenAI重新支棱起来,对于用户来说,倒也不是一件坏事。
OpenAI CEO表态:无意起诉DeepSeek 会继续打造优异产品
快科技2月4日消息,据媒体报道,OpenAI CEO Sam Altman在接受媒体采访时表示,OpenAI没有计划起诉DeepSeek。
报道称,OpenAI上周曾表示,一些中国企业正在试图仿冒其先进的AI模型。
不过Altman在采访中明确表示:“不,我们目前没有计划控告DeepSeek,我们会继续打造优异的产品,以模型实力引领世界。”
他进一步强调:“DeepSeek的确是令人印象深刻的模型,但我们相信我们将继续向前沿推进,推出优异的产品,所以,我们乐见出现对手。”
他指出,尽管DeepSeek的表现引发了关于其是否对ChatGPT进行逆向工程的质疑,但OpenAI更专注于推动技术进步和保持领先地位。
他提到:“我们过去曾面对许多对手,但我想推动技术进步和保持领先,符合所有人的利益。”
值得一提的是,OpenAI自身也面临着多起侵犯知识产权的指控,这些指控主要与使用受版权保护的内容训练其生成式AI模型有关。
大摩为美国科技巨头打气:DeepSeek不会导致AI资本开支崩盘
快科技2月4日消息,据媒体报道,摩根士丹利(大摩)全球定量研究主管Vishwanath Tirupattur近日对DeepSeek的突破发表了看法。他认为,尽管DeepSeek的突破意义重大,但并不会导致AI及相关领域有显著影响力的相关巨头资本支出的崩溃。
Tirupattur指出,DeepSeek的进展虽然令人瞩目,但并非完全出人意料。在计算机发展史上,效率的大幅提升并不罕见。DeepSeek的突破本质上是一次显著的效率改进,这将推动增量需求的增长。
他提到,20世纪90年代计算成本的急剧下降为此提供了一个有益的参照。当时,投资热潮主要由两个因素驱动:一是企业更换折旧资本的速度,二是计算资本价格相对于产出价格的持续大幅下降。
如果DeepSeek带来的效率提升反映了类似的现象,那么AI资本成本可能会下降,这将有利于支撑企业的支出前景。
该图表展示了亚马逊AWS、微软MSFT和谷歌GOOGLE在2016年至2020年期间的大型资本支出数据
此外,Tirupattur还援引了著名的“Jevons悖论”来解释这一现象。该理论认为,随着技术进步降低资源使用成本,总体需求会增加,导致资源消耗总量上升。
换言之,更便宜、更普及的技术将增加其“消费”,推动AI从创新者阶段过渡到更广泛的应用阶段,为更快的LLM(大型语言模型)产品创新打开大门,实现更广泛的消费者和企业采用。长远来看,这将带来更大的生产力提升,加速实现AI的变革性承诺。
然而,值得注意的是,DeepSeek的横空出世也引发了欧美股市的剧烈动荡。据此前报道,英伟达等公司的市值在一天内大幅缩水。尽管市场已部分回暖,但如此巨大的波动仍引发了投资者对AI这一被广泛视为下一代变革性技术的担忧。
公开资料显示,摩根士丹利是全球领先的金融服务提供商之一,在多个领域具有显著的市场地位和影响力。公司曾多次入选《财富》世界500强和福布斯全球企业2000强榜单
Advertisements
相关新闻
- DeepSeek谈国足夺世界杯:比流浪地球容易 想点歪招(图)
- 中方代表:华为、TikTok、DeepSeek,美国还想禁多少(图)
- DeepSeek席卷全球,AI走进县城日常生活还要多久?(图)
- 扎克伯格2个月套现近8亿美元 将DeepSeek视为对手(图)
- 分析师:估计DeepSeek R1开发成本其实是26亿美元(图)
- 迫于DeepSeek压力OpenIA为ChatGPT推出新工具
- OpenAI执行长:“没计划”控告DeepSeek(图)
- DeepSeek登顶140国榜首 免费开源的真相是什么?(图)
- 数据显示DeepSeek美国流量暴增,ChatGPT下降明显(图)
- 中国红客联盟阻击针对DeepSeek的攻击?回应来了(图)