现代的AI模型正在以惊人的速度前进,但是我们评估它们的方式几乎没有跟上步伐。传统的基准测试告诉我们,模型是通过还是未能通过测试,但很少有见解就其执行方式或在不熟悉的挑战方面的表现。 Microsoft及其合作者的新研究工作提出了一个严格的框架,以重新构想我们评估AI系统的方式。
评估AI需要知道的
核心创新 引入 在这项研究中是一个称为 阿黛尔(Adele),带注释级别的缩写。 阿黛尔(Adele)不是孤立地测试模型,而是在同一集基于认知和知识的量表上分数模型和任务。结果是一个全面的概况,可以捕获任务的要求以及特定的AI系统是否具有处理它所需的功能。
阿黛尔(Adele)运作 18个一般量表,每个都反映了认知或领域知识的关键方面,例如推理,注意力或正式的主题专业知识。任务在每个维度上从0到5的额定值,表明该能力有助于成功完成任务完成。这种双侧注释在模型和任务之间创造了一种兼容性得分,从而有可能预测结果并在发生故障发生之前解释。

Adele与众不同的是其在精神计量学领域的基础,这是一个与衡量人类能力有关的领域。通过为AI调整这些人类评估工具,研究人员建立了一个可以由自动化系统可靠地使用的框架。阿黛尔(Adele)适用于20个已建立的AI基准的63个任务 16,000个例子。 然后,研究人员使用此数据集评估 15种大语言模型,包括GPT-4,Llama-3.1-405B和DeepSeek-R1-Dist-Qwen-32B等行业领导者。
该过程为每个模型生成能力概况。这些概况说明了成功率如何随不同技能的任务复杂性而变化,从而提供了对模型能力的细腻理解。雷达图表可视化在18个能力维度上的这些配置文件,从而揭示了仅原始基准分数不能不能不能的细微模式。
这种广泛的评估浮出水面,这些发现挑战了有关AI绩效和进步的当前假设。
- 第一的, 现有的AI基准通常无法测试他们声称的内容。例如,设计用于逻辑推理的基准也可能需要利基领域知识或高水平的元认知,从而稀释其预期的重点。
- 第二, 该团队在大语言模型中发现了独特的能力模式。以推理为中心的模型在涉及逻辑,抽象和理解社会环境的任务中始终优于其他人。但是,仅原始尺寸并不能保证优越性。过去的一个点,扩展模型在许多能力领域都产生了减少的回报。训练技术和模型设计似乎在精炼特定认知领域的性能方面起着更大的作用。
- 第三, 也许最重要的是,阿黛尔能够准确地预测不熟悉任务的模型成功。通过将任务需求与模型能力进行比较,研究人员实现了高达88%的预测准确性。这代表了依赖嵌入或微调分数的黑框方法的实质性飞跃,而没有任何了解任务难度或模型认知的理解。

该团队使用能力需求匹配方法,开发了一个能够在各种场景中预测AI行为的系统。无论是应用于新的基准测试还是现实世界中的挑战,该系统都提供了一种结构化且可解释的方法,用于预测故障并确定适合特定用例的模型。这种预测能力在可靠性和责任制不可谈判的高风险环境中尤其重要。
开发人员和决策者现在可以使用需求级评估来将系统与更大的信心相匹配,而不是基于一般声誉或有限的任务分数部署AI,而是可以使用需求级评估来匹配系统。这不仅支持更可靠的实施,而且支持更好的治理,因为利益相关者可以将模型行为追溯到可衡量的能力和局限性。
阿黛尔的含义超出了研究实验室。这种评估方法为标准化,可解释的评估提供了基础,可以支持从AI研究和产品开发到监管监督和公众信任的一切。随着通用AI嵌入教育,医疗保健和法律等部门,了解模型如何在培训环境之外的行为不仅变得有用,而且是必不可少的。
Adele的模块化设计使其可以适应多模式和具体的系统,从而进一步扩大其相关性。它与微软在AI中的重要性相吻合,而在最近的白皮书中回声呼唤了更透明,可转移和值得信赖的AI评估工具。
达到更智能的评估标准
对于围绕基础模型的所有乐观主义,迫在眉睫的风险之一是缺乏有意义的评估实践。 基准测试取得了进步,但它们也将我们的知名度限制在模型实际理解或在意外情况下如何行事。对于阿黛尔(Adele),我们现在有了改变这一点的途径。
这项工作将评估重新列为分数清单,而是系统和任务之间的动态交互。通过将绩效视为需求能力拟合的函数,它为对AI能力的更科学,可靠和细微的理解奠定了基础。该基金会不仅对技术进步至关重要,而且对在复杂的人类背景下负责AI的负责采用至关重要。