Apple 最近的研究表明,在 GSM8K 数据集上获得高分的模型可能并不像看上去那么智能。
大型语言模型(LLM)因其看似令人印象深刻的推理能力而受到广泛赞誉。 OpenAI、Google 和 Meta 等公司的模型经常被视为能够解决复杂问题的强大工具,而 GSM8K 数据集等测试是衡量其推理能力的流行基准。
然而,苹果公司的研究将改变所谓的可信系统。
什么是 GSM8K 数据集?
GSM8K数据集(Grade School Math 8K)是用于评估大型语言模型(LLM)解决问题和推理能力的基准。它包含 8,000 多个小学水平的数学应用题,通常需要算术、逻辑推理和多步解决问题的技能才能得出正确答案。
GSM8K 数据集包括:
- 小学数学:这些问题旨在模仿 1-8 年级学生可能遇到的问题类型,例如基本算术、几何、代数和逻辑谜题。
- 文字问题:每个问题都以文字问题的形式呈现,要求模型解释问题,识别相关数字和运算,并求解方程。
- 用于LLM评估:该数据集经常被用作测试,以了解 OpenAI 的 GPT、Google 的模型或 Meta 的 LLaMA 等语言模型能够处理超出单纯文本预测的推理任务。
- 多步推理:问题需要多个步骤来解决,测试模型跟踪复杂推理序列的能力,而不是简单地产生单步答案。
GSM8K 数据集已成为评估法学硕士是否能够逻辑推理和解决现实问题的流行工具。然而,人们担心许多人工智能模型通过模式匹配而不是真实推理在该数据集上表现良好,因为它们可能在训练过程中遇到过类似的问题。
GSM8K 数据集对 LLM 的限制
苹果研究人员认为,这种成功可能更多地取决于复杂的模式匹配,而不是真正的逻辑推理。由于 GSM8K 数据集如此常用,因此存在数据污染的风险,这意味着许多法学硕士可能已经在训练期间发现了这些问题,从而夸大了他们表面上的智力。
为了解决这个问题,苹果开发了一个新的基准测试,称为 GSM-符号。该测试保留了 GSM8K 数据集的核心推理元素,但引入了不同的名称、数字和复杂性以及不相关信息等变化。
结果? 每个 LLM 都经过测试,包括 OpenAI 等模型 GPT-4 和元的 骆驼3,在面对这一新挑战时,性能显着下降。这表明 当变量发生变化时,法学硕士很难正确推理,进一步质疑他们实际解决问题的能力。
为什么 LLM 会陷入困境?
苹果公司的研究揭示了法学硕士的一个关键缺陷: 他们擅长检测训练数据中的模式,但缺乏真正的逻辑推理。例如,当数学问题包含不相关的细节时,例如采摘水果场景中猕猴桃的大小,许多法学硕士从方程中减去了不相关的细节,这表明他们无法辨别解决问题所需的信息。
在测试中 GSM8K数据集像 OpenAI 这样的法学硕士的模型表现比开源模型要好,但添加不相关信息时准确性的下降表明这些系统远未实现真正的智能。这对人工智能的未来发展具有深远的影响,表明虽然法学硕士可以模仿智能,但他们仍然难以真正理解背景。
更聪明的人工智能还是只是看起来更聪明?
苹果的研究强调了依靠 GSM8K 数据集等基准来评估人工智能智能的局限性。虽然这些测试可以测量模式识别,但它们并不总能捕捉到真正逻辑推理的细微差别。 GSM-Symbolic 基准测试的推出对人工智能处理不熟悉的变量和不相关信息的能力提供了更严格的测试,而这些能力对于解决现实世界的问题至关重要。
OpenAI 首席执行官 Sam Altman 甚至承认了这些挑战,并将当前的法学硕士称为“难以置信的愚蠢”尽管他们在独家采访中的外表令人印象深刻 麻省理工科技评论。对未来法学硕士的真正考验将是他们超越模式识别并发展更强大的解决问题能力的能力。
苹果公司的研究结果为法学硕士的现状提供了一个发人深省的视角。虽然模型是在数据集上训练的,例如 GSM8K 可能在受控环境中表现良好,但在更复杂的现实问题上进行测试时,他们的推理能力就会减弱。这凸显了进一步研究和开发的重要性,以确保人工智能模型超越表面智能并发展真正的逻辑推理技能。
目前至关重要的是,以健康的怀疑态度来缓和人们对人工智能的兴奋,重点关注更安全、更智能的人工智能系统,这些系统不仅仅可以处理模式识别。
图片来源: DC工作室/自由图