Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

新的压力测试框架揭示了高级AI推理中的缺陷

Kerem GülenbyKerem Gülen
29 7 月, 2025
in 研究
Home 研究
Share on FacebookShare on Twitter
Google Preferred Source

而高级AI系统称为 大型推理模型(LRMS) 在复杂的解决问题基准上表现出了令人印象深刻的性能,当前评估方法可能会高估它们的真实推理能力。根据Sajjad Ansari最近的一篇文章,一个新颖的多问题应力测试框架表明,即使是最先进的模型在更现实的条件下也很挣扎。

该框架,文章中详细介绍 休息:用于评估大型推理模型中多问题推理的压力测试框架,是由Tsinghua大学,Opendatalab,上海AI实验室和人民大学的研究人员开发的,以解决这些高级模型如何测试的关键差距。

为什么单个问题测试变得过时了

当前大多数用于评估LRM的基准,例如GSM8K和数学,一次通过一次提出一个问题来评估模型。这种方法具有两个重要的缺点,这些缺点限制了其衡量真实推理能力的有效性。首先,随着顶级模型获得接近完美的分数,这些基准的判别能力正在降低,因此很难区分它们之间的有意义的改进。例如,一些模型现在到达 97% 诸如Math500之类的基准测试的准确性,这是一种饱和水平,迫使昂贵的越来越多的数据集创建。

其次,单个问题测试无法反映现实的场景,在这种情况下,AI系统必须同时跨越多个干扰问题。技术支持,教育辅导或多任务AI助手等应用程序需要动态的认知负载管理,这是隔离测试无法衡量的技能。为了解决这个问题,研究人员开发了REST(通过同时测试通过推理评估),这种方法将现有基准的多个问题捆绑到单个提示中,以更好地模拟现实世界的需求。


随着其价值飙升,AI信托的巨大悖论正在下降


来自多问题应力测试的主要发现

通过将休息框架应用于 34 Advanced LRMS,研究人员发现了对其真正能力的一些开创性见解。评估,进行 7 不同的基准测试表明,当模型被迫同时处理多个问题时,性能会大大降低。

  • 显着的性能降解: 当用静止测试测试时,即使是诸如DeepSeek-R1之类的表现最佳模型也会显着下降。在诸如AIME24之类的具有挑战性的基准上,该模型的准确性几乎下降了 30% 与其在孤立问题测试中的表现相比。
  • 增强的判别能力: REST显着放大了单个问题测试中看起来相似的模型之间的性能差异。在Math500基准测试中,两个具有紧密初始分数的模型 93% 和 94.6% 显示出巨大的 22% 静止的性能差距,其准确性落在 66.75% 和 88.97%, 分别。
  • 培训方法见解: 该研究发现,使用通用方法进行微调的模型,例如在单个问题任务上进行加固学习,通常无法在多问题环境中保持其优势。但是,通过“ Long2short”技术训练的模型鼓励更简洁,更有效的推理,在压力下保持了更高的精度,这表明了未来发展的有希望的方向。

休息框架模拟了高 认知负荷,强迫模型动态分配资源,抵抗并发任务的干扰,并避免过度思考单个问题。该方法还允许对单个问题测试中看不见的错误进行更细微的分析,例如省略问题,其中模型忽略了以后的问题,并在提示中忽略了以后的问题,并且在其中错误地从多个问题中综合了答案。通过振兴现有数据集并反映现实世界中的需求,该框架为评估下一代推理AI系统提供了更可靠,更宽敞的范式。

Tags: LLMLRM

Related Posts

研究人员将超快激光实验增强了 20 倍

研究人员将超快激光实验增强了 20 倍

3 6 月, 2026
民意调查显示 71% 的美国人认为人工智能进步太快

民意调查显示 71% 的美国人认为人工智能进步太快

20 5 月, 2026
NordVPN 发现被盗的英国支付卡在暗网上售价 12 美元

NordVPN 发现被盗的英国支付卡在暗网上售价 12 美元

20 5 月, 2026
到 2030 年,数据中心和加密货币可能会使电力成本增加 57%

到 2030 年,数据中心和加密货币可能会使电力成本增加 57%

20 5 月, 2026
研究发现,人工智能技能现在对于职位晋升和加薪至关重要

研究发现,人工智能技能现在对于职位晋升和加薪至关重要

20 5 月, 2026
新的磁性芯片设计可能超越当今的人工智能加速器

新的磁性芯片设计可能超越当今的人工智能加速器

19 5 月, 2026
Please login to join discussion

Recent Posts

  • 谷歌人工智能搜索选择退出规则引发 Enviromates 浏览器的推出
  • 索尼公布 PS5 版《战神:Laufey》
  • 研究人员将超快激光实验增强了 20 倍
  • 微软推出适用于人工智能工作负载的 Surface RTX Spark Dev Box
  • 据报道,英特尔新款Core Ultra芯片供不应求

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.