我们如何评估与测量工具相比,进化速度更快的系统?传统的机器学习评估植根于火车测试拆分,静态数据集和可再现的基准,不再足以实现现代Genai模型的开放式高风险功能。这个核心建议 位置纸 大胆但扎根:习惯于众包创新的人工智能竞赛应提升为Genai的经验评估的默认方法。这些比赛不仅是实用的。它们在确保结果的鲁棒性,新颖性和可信赖性方面在结构上是优越的。
为什么传统的ML评估不再起作用
最常规的 LLM评估 设置依赖于以下假设:训练和测试数据是独立于同一分布绘制的。这个基本的想法使该领域能够开发可再现的基准测试,例如MNIST或Imagenet,这反过来促进了数十年的进步。但是Genai模型在这些狭窄,结合良好的环境中并不运行。它们在没有明确地面真相的开放域中产生语言,图像和代码。输入可能是模棱两可的,并且输出的形式和质量各不相同。这些模型通常使用先前的输出作为未来的上下文,从而创建破坏核心统计假设的反馈循环。
结果,基准分数可能少说明模型质量,而更多地涉及测试数据是否泄漏到培训中。一旦公开了基准,就必须假设它已经被妥协。在这样的景观中,重现性和鲁棒性不能同样优先。现在必须将评估视为过程而不是静态对象。
当前的环境需要重新定义概括。我们必须询问它是否成功地解决了完全不熟悉的任务,而不是询问模型是否在已知分布的新数据上表现良好。这种以新颖性为中心的方法与人类评估智力的方式更加一致。它溢价了适应性而不是记忆。
这种转变是由权衡取舍。如果不冒险污染,则不能重复使用基准。评估任务必须动态生成或设计为本质上是无法复制的。这些要求使竞争擅长管理新颖性和规模,这是理想的框架。
泄漏和污染
泄漏不是附带问题。这是一个普遍的,通常未发现的问题,可能使整个评估无效。当评估数据与培训数据重叠时,即使是无意间的,得分也会夸大。 Genai模型尤其容易发生,因为他们的训练数据通常是广泛且文献不佳的。
竞赛已经表明了如何通过元数据,基于时间的工件或微妙的统计提示产生泄漏。他们还开创了解决方案:隐藏的测试集,随机抽样和降期后评估。这些实践是为了防止作弊而开发的,现在是科学保障的两倍。
人工智能竞赛可以并行大规模评估。成千上万的团队独立工作以解决相同的任务,浮出水面各种策略和方法。该量表允许静态基准无法匹配的经验见解。更重要的是,它分配了验证的负担,并揭示了孤立测试可能会错过的弱点。
通过将评估数据私有和脱机执行,竞争平台可防止在结构层面上泄漏。他们创造了一个可信赖的环境,结果既可比又可信。透明度也起着作用。参与者经常共享代码,日志和故障模式,创造了传统研究所缺乏的开放文化。
设计泄漏阻力
比赛还提供用于评估的建筑蓝图。策略包括:
- 潜在的地面真相:在模型提交后收集标签。例如,蛋白质注释任务已将未来的实验室结果用作评估目标。
- 新任务的新任务:诸如AI数学奥林匹克运动会之类的挑战使用新鲜的,人为设计的问题来确保模型没有看到类似的数据。
- 后线测试:提交被冷冻并以后对看不见的数据进行测试,避免了任何事先暴露的机会。
这些方法不仅仅是聪明的 – 它们是必要的。随着模型的改善,评估标准也必须变得更加强大和抵抗利用。
其他新颖的方法正在吸引。 LiveBench不断从最近的出版物中更新其测试数据。 LM Arena Crowdsource等社区平台使用实时提示进行正面比较。这些格式具有创新性且有用,但它们具有自身的风险。公众投入仍然可能导致污染,人群判断可能会以微妙的方式偏向。相比之下,比赛可以进行精心策划的控制而无需牺牲量表。
纸以呼吁采取行动结尾。为了保持Genai研究的信誉,该领域必须:
- 剥夺静态基准 支持可重复的可再生评估管道。
- 将AI竞争视为核心基础设施 用于衡量模型进度,而不是作为副活动。
- 应用反交易方案 在竞赛中开发为评估设计的标准实践。
- 拥抱荟萃分析 竞争结果可以揭示跨任务和模型的广泛见解。
这些变化将使在学术界,工业和开源社区之间的激励措施保持一致。更重要的是,他们将恢复对模型绩效的经验主张的信任。