Dataconomy CN
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy CN
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

研究:Genai评估的黄金标准

Kerem GülenbyKerem Gülen
12 5 月, 2025
in Research
Home Research

我们如何评估与测量工具相比,进化速度更快的系统?传统的机器学习评估植根于火车测试拆分,静态数据集和可再现的基准,不再足以实现现代Genai模型的开放式高风险功能。这个核心建议 位置纸 大胆但扎根:习惯于众包创新的人工智能竞赛应提升为Genai的经验评估的默认方法。这些比赛不仅是实用的。它们在确保结果的鲁棒性,新颖性和可信赖性方面在结构上是优越的。

为什么传统的ML评估不再起作用

最常规的 LLM评估 设置依赖于以下假设:训练和测试数据是独立于同一分布绘制的。这个基本的想法使该领域能够开发可再现的基准测试,例如MNIST或Imagenet,这反过来促进了数十年的进步。但是Genai模型在这些狭窄,结合良好的环境中并不运行。它们在没有明确地面真相的开放域中产生语言,图像和代码。输入可能是模棱两可的,并且输出的形式和质量各不相同。这些模型通常使用先前的输出作为未来的上下文,从而创建破坏核心统计假设的反馈循环。

结果,基准分数可能少说明模型质量,而更多地涉及测试数据是否泄漏到培训中。一旦公开了基准,就必须假设它已经被妥协。在这样的景观中,重现性和鲁棒性不能同样优先。现在必须将评估视为过程而不是静态对象。

当前的环境需要重新定义概括。我们必须询问它是否成功地解决了完全不熟悉的任务,而不是询问模型是否在已知分布的新数据上表现良好。这种以新颖性为中心的方法与人类评估智力的方式更加一致。它溢价了适应性而不是记忆。

这种转变是由权衡取舍。如果不冒险污染,则不能重复使用基准。评估任务必须动态生成或设计为本质上是无法复制的。这些要求使竞争擅长管理新颖性和规模,这是理想的框架。

泄漏和污染

泄漏不是附带问题。这是一个普遍的,通常未发现的问题,可能使整个评估无效。当评估数据与培训数据重叠时,即使是无意间的,得分也会夸大。 Genai模型尤其容易发生,因为他们的训练数据通常是广泛且文献不佳的。

竞赛已经表明了如何通过元数据,基于时间的工件或微妙的统计提示产生泄漏。他们还开创了解决方案:隐藏的测试集,随机抽样和降期后评估。这些实践是为了防止作弊而开发的,现在是科学保障的两倍。

人工智能竞赛可以并行大规模评估。成千上万的团队独立工作以解决相同的任务,浮出水面各种策略和方法。该量表允许静态基准无法匹配的经验见解。更重要的是,它分配了验证的负担,并揭示了孤立测试可能会错过的弱点。

通过将评估数据私有和脱机执行,竞争平台可防止在结构层面上泄漏。他们创造了一个可信赖的环境,结果既可比又可信。透明度也起着作用。参与者经常共享代码,日志和故障模式,创造了传统研究所缺乏的开放文化。

设计泄漏阻力

比赛还提供用于评估的建筑蓝图。策略包括:

  • 潜在的地面真相:在模型提交后收集标签。例如,蛋白质注释任务已将未来的实验室结果用作评估目标。
  • 新任务的新任务:诸如AI数学奥林匹克运动会之类的挑战使用新鲜的,人为设计的问题来确保模型没有看到类似的数据。
  • 后线测试:提交被冷冻并以后对看不见的数据进行测试,避免了任何事先暴露的机会。

这些方法不仅仅是聪明的 – 它们是必要的。随着模型的改善,评估标准也必须变得更加强大和抵抗利用。

其他新颖的方法正在吸引。 LiveBench不断从最近的出版物中更新其测试数据。 LM Arena Crowdsource等社区平台使用实时提示进行正面比较。这些格式具有创新性且有用,但它们具有自身的风险。公众投入仍然可能导致污染,人群判断可能会以微妙的方式偏向。相比之下,比赛可以进行精心策划的控制而无需牺牲量表。

纸以呼吁采取行动结尾。为了保持Genai研究的信誉,该领域必须:

  • 剥夺静态基准 支持可重复的可再生评估管道。
  • 将AI竞争视为核心基础设施 用于衡量模型进度,而不是作为副活动。
  • 应用反交易方案 在竞赛中开发为评估设计的标准实践。
  • 拥抱荟萃分析 竞争结果可以揭示跨任务和模型的广泛见解。

这些变化将使在学术界,工业和开源社区之间的激励措施保持一致。更重要的是,他们将恢复对模型绩效的经验主张的信任。


特色图像信用

Tags: 人工智能
Please login to join discussion

Recent Posts

  • 验证集
  • II型错误
  • 类型I错误
  • 测试集
  • SEQ2SEQ模型

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

Social icon element need JNews Essential plugin to be activated.
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.