GPT-5.2 在草莓中仍然计算两个 r

ChatGPT 由 OpenAI 于 2025 年 12 月发布的 GPT-5.2 模型提供支持，错误地识别了单词“strawberry”中的两个“r”，而“strawberry”一词包含三个“r”，因为其标记化过程将该词拆分为“st-raw-berry”，只有两个标记包含“r”。现代人工智能系统在生成独特的营销图像、通过代理浏览器编译报告以及制作排行榜冠军歌曲方面表现出了出色的能力。这些功能突出了对大量数据集的广泛训练，从而实现了复杂输出的模式识别。相反，某些基本任务对这些模型提出了挑战。计算单个单词中的字母就是一项这样的任务，对于七岁的孩子来说可以毫无困难地完成。正在检查的具体问题是草莓中出现了多少个 r。草莓这个词由字母草莓组成。目视检查确认了三个 r：一个在 t 之后，两个连续在浆果部分。此查询一直作为对多个模型迭代的 AI 性能的测试。继 2025 年 12 月发布 GPT-5.2，测试证实 ChatGPT 的响应仍然是两个 r。以前的版本在这个问题上表现出不确定性或不稳定的行为。最新模型直接给出了两个答案，没有偏差。尽管投资超过数十亿美元、硬件需求增加（包括 RAM 价格上涨）以及与培训基础设施相关的全球大量用水，但这一结果仍然存在。该问题源于 ChatGPT 等大型语言模型的标记化输入输出设计。输入文本被划分为标记，这些标记是诸如整个单词、音节或单词部分之类的块。该模型处理这些标记而不是单个字母。因此，字母计数依赖于标记内容而不是精确的字母枚举。 OpenAI Tokenizer 工具说明了这个过程。输入草莓会产生三个标记：st、raw、berry。第一个标记 st 不包含 r。第二个 token raw 包含一个 r。第三个令牌 berry 包含两个 r，但充当单个令牌。该模型将 r 与两个标记相关联，导致计数为 2。这种标记化模式会影响相似的单词。 Raspberry 分为可比较的标记，导致 ChatGPT 也报告该单词的两个 r。 berry 令牌将多个字母压缩为一个单元，低估了其中单个字母实例的价值。 ChatGPT 作为预测引擎运行，利用训练数据中的模式来预测后续元素。 GPT-5.x 结合了 OpenAI o4-mini 和 GPT-4o 模型引入的 o200k_harmony 标记化方法。这个更新的方案旨在提高效率，但保留了草莓 r 计数差异。 ChatGPT 于 2022 年底推出，面临众多基于代币的挑战。特定短语引发过度响应或处理失败。 OpenAI 在随后的几年中通过培训调整和系统增强解决了许多问题。对经典问题的验证测试显示出改进。 ChatGPT 可以准确拼写 Mississippi，以正确的频率识别字母 mississippi：1 个 m、4 个 i、4 个 s、2 个 p。它还将棒棒糖反转为 popillol，以正确的顺序保留所有字母。大型语言模型在精确计数少量数据方面表现出持续的局限性。他们在数学和解决问题方面表现良好，但在精确计算简短字符串中的字母或单词方面却表现不佳。一个著名的历史例子涉及字符串solidgoldmagikarp。在 GPT-3 中，这个短语破坏了标记化，导致不稳定的输出，包括用户侮辱和难以理解的文本。在solidgoldmagikarp 上查询GPT-5.2 产生了幻觉。该模型将其描述为开发人员嵌入 GitHub 存储库中的秘密 Pokémon 笑话。据称，激活会将头像、存储库图标和其他功能转换为神奇宝贝主题元素。这种说法缺乏现实依据，反映了先前代币化问题的残余影响。其他人工智能模型的比较测试对于草莓问题产生了正确的结果。困惑数了三个r。克劳德准确地数出了三。 Grok 在草莓中发现了三个 r。双子座正确回答了三。 Qwen 确认了三个 r。副驾驶也报告了三个 r。这些模型采用独特的标记化系统，即使在 OpenAI 底层架构的支持下也能实现准确的字母识别。

特色图片来源

No Result