大鱼新闻 | 科技 | 别吹啦!9.11和9.9哪个大?AI大模型几乎全翻车了(组图)

别吹啦!9.11和9.9哪个大?AI大模型几乎全翻车了(组图)

大鱼新闻科技 1 month, 3 weeks

没眼看……“9.11 和 9.9 哪个大”这样简单的问题，居然把主流大模型都难倒了？？

强如 GPT-4o，都坚定地认为 9.11 更大。

谷歌 Gemini Advanced 付费版，同样的口径。

新王 Claude 3.5 Sonnet，还一本正经的给出离谱的计算方法。

9.11 = 9 + 1/10 + 1/100

9.9 = 9 + 9/10

到这一步还是对的，但下一步突然就不讲道理了

如上所示，9.11 比 9.90 大 0.01。

你想让我进一步详细解释小数的比较吗？

这你还解释啥啊解释，简直要怀疑是全世界 AI 联合起来欺骗人类了。

艾伦 AI 研究所成员林禹臣换了个数字测试，GPT-4o 依旧翻车，他表示：

一方面 AI 越来越擅长做数学奥赛题，但另一方面常识依旧很难。

也有网友发现了华点，如果是说软件版本号，那么 9.11 版本确实比 9.9 版本更大（更新）。

而 AI 都是软件工程师开发的，所以……

那么，究竟是怎么回事？

先进大模型集体翻车

一觉醒来，一众响当当的大模型开始认为“9.11>9.9”了？

发现这个问题的是 Riley Goodside，有史以来第一个全职提示词工程师。

简单介绍下，他目前是硅谷独角兽 Scale AI 的高级提示工程师，也是大模型提示应用方面的专家。

最近他在使用 GPT-4o 时偶然发现，当提问：

9.11 and 9.9——which is bigger?

GPT-4o 竟毫不犹豫回答前者更大。

面对这一常识性“错误”，他不死心地又去问了其他大模型，结果几乎全军覆没。

好家伙，身为一名提示工程师，他敏锐意识到可能是“打开方式有误”。

于是他又换了个问法，将提问限定在“实数”，结果还是翻车了。

不过，有网友试着给提问换了个顺序，没想到这下 AI 竟反应过来了。

看到 AI 对词序如此“敏感”，该网友进一步推测：

先问哪个更大，AI 会沿着明确路径开始比较数字。

但如果只是随便说说数字，没有明确目的，AI 可能会开始“胡思乱想”。

看到这里，其他网友也纷纷拿相同提示试了一把，结果翻车的不在少数。

面对这一个诡异的问题，国产大模型表现如何呢？

我们简单测试一番，问题也换成中文提问，结果翻车率也比较高，选取几个有代表性的展示：

Kimi 也是不加解释就直接给出错误结论。

智谱清言 App 上的 ChatGLM，自动触发了联网查询，然后描述了自己的比较方法，可惜却执行错了。

不过也有表现不错的，腾讯元宝先复述了一遍选项，然后直接做对。

字节豆包是少数能把比较方法描述清楚，而且用对的。甚至还联系实际举例来验证。

比较可惜的是文心一言，面对这个问题，也是触发了联网查询。

本来都已经做对了，但突然话锋一转又导向了错误结论。

不过从文心一言的思路解释上，也可以看出背后问题所在。

由于大模型以 token 的方式来理解文字，当 9.11 被拆成“9”、“小数点”和“11”三部分时，11 确实比 9 大。

由于 OpenAI 使用的 Tokenizer 开源，可以用来观察大模型是如何理解这个问题。

上图可以看出，9 和小数点分别被分配为“24”和“13”，小数点后的 9 同样也是“24”，而 11 被分配到“994”。

所以使用这种 tokenizer 方法的大模型会认为 9.11 更大，其实是认为 11 大于 9。

也有网友指出，像是书籍目录里第 9.11 节也比第 9.9 节大，所以最终可能还是训练数据里见这种见得多了，而手把手教基础算数的数据很少。

也就是问题本身对人类来说，一看就知道问的是算数问题，但对 AI 来说是一个模糊的问题，并不清楚这两个数字代表什么。

只要向 AI 解释明白这是一个双精度浮点数，就可以做对了。