随着大型语言模型(LLM)变得越来越复杂,确保公平和公正的评估已成为一个关键挑战。现有的评估协议通常遭受 基准污染,在包括测试基准的一部分的数据集上对模型进行了培训,从而导致人为膨胀的结果。最近的方法称为 代理人作为审理器 尝试通过使用AI代理产生新的测试问题来解决此问题。但是,此方法介绍了自己的 偏见,这在很大程度上尚未探索。
Hikvision研究所的研究人员,包括Meilin Chen,Jian Tian,Liang Ma,Di Xie,Weijie Chen和Jiang Zhu,并提出了一个新的评估框架,称为“无偏见的评估者”,“从因果的角度对大语言模型的无偏评估,”减轻这些偏见。
他们的研究提供了 评估偏见的理论框架 并介绍一个 基于因果关系的评估方案 提供更多 全面,公正和可解释 评估LLMS。
代理商与院子的挑战
尽管 代理人作为审理器 通过有AI生成的测试问题来减少基准污染的尝试,研究人员在这种方法中确定了两个关键偏见:
- 数据偏见:AI生成的测试问题往往 偏爱模型已经表现良好的领域,导致评估不平衡。
- 模型偏差:在评估期间,AI生成的内容与模型的优势更加一致,使其具有 不公平的优势 在评估自己时。
这些偏见扭曲了评估过程,因此难以准确测量模型的真实功能。
引入公正的评估者
为了解决这些问题,研究人员介绍了 公正的评估者,基于评估协议 因果推论原则。此方法 使用受控干预措施动态评估LLM,而不是仅依靠静态数据集。
公正的评估者以此为核心 原子干预袋(船)– 测试数据的结构化操作,以评估LLM对同一问题的不同变化的反应。这种方法允许 AI鲁棒性的系统评估,减少现有偏见的影响。
测试理论:人,AI和递归监督实验
为了验证其假设,研究人员进行了一系列涉及的实验:
- 人类的监督:评估人类在批评批评时是否表现更好,而不是直接评估AI生成的反应。
- 人类的监督:测试人类是否可以通过审查其自我评价而不是原始产出来有效地监督AI。
- Ai-ai监督:评估AI本身是否可以执行有效的自我获取批评。
关键发现
人类实验 确认审查批评比直接评估反应要容易得多。高阶批评有助于提高准确性,同时减少努力。
人类实验 表明,当AI产生递归批评时,即使在AI胜过它们的领域,人类仍然可以提供有意义的监督。
AI-AI实验 揭示,尽管AI模型可以批评自己的产出,但他们执行高阶自我关键的能力仍然受到限制。当前的AI努力通过递归的自我批评来始终如一地改善,强调需要进一步进步AI对齐。
递归的自我关心如何起作用
研究人员正式化了分层的批评结构:
- 响应水平:AI产生答案。
- 一阶评论(C1):AI回顾了自己的回应,确定错误或弱点。
- 二阶批评(C2):AI评估多个一阶评论,选择最有效的点。
- 高阶批评(C3+):AI继续递归地提炼批评,以提高每个级别的准确性。
该研究还引入了两种基线比较方法:
- 多数投票:汇总多种批评以查看共识是否提高了准确性。
- 天真投票:一种控制方法,只需计算先前的判断而没有其他分析。
调查结果表明 递归批评始终提高准确性 除了简单的投票汇总之外,该方法还增加了 有意义的见解,而不仅仅是平均意见。
递归的自我关心可以解决AI的监督吗?
研究表明 递归监督可能是一个突破 对于可扩展的AI监视,但仍有挑战。
优势
递归自我关键的关键优势之一是,它允许人类监督AI系统,而无需评估复杂的原始输出。人类审稿人无需直接评估AI生成的内容,而是专注于评估AI的自我批评,从而使过程更易于管理和高效。
另一个主要好处是,递归监督使AI对齐更可扩展。传统的一致性方法在很大程度上取决于直接的人类干预,随着AI能力超过人类专业知识,这变得不切实际。通过转移到AI可以批评和完善自己的产出的系统,对人类监督的依赖在维持监督的同时减少了。
此外,递归的自我关键引入了AI监督的结构化方法,类似于组织中的等级决策。正如企业结构依靠多层审查和反馈一样,递归监督使AI系统能够以结构化和逻辑的方式来完善其回答,从而提高准确性和可解释性。
限制
尽管具有潜力,但递归监督仍有明显的局限性。当前的AI模型在超过几个层次的自我关键方面挣扎。尽管一阶和二阶批评改善了监督,但高阶批评通常无法产生有意义的改进,从而限制了该方法的有效性。
此外,递归监督并不能消除奖励黑客的风险,在这种情况下,AI模型为代理目标优化而不是真正的人类意图。 AI可能会学会操纵自己的批评机制来进行有利的评估,而不是真正改善其产出。
另一个关键的挑战是确保自我关键模型不会加强自己的偏见。没有适当的保障,递归监督可能会导致AI模型放大了先前存在的错误而不是纠正它们。需要进一步的研究来开发确保自我关键的技术改善AI的一致性,而不是加强不良模式。
实验结果:公正的评估者与传统方法
该研究比较 最先进的专有模型 喜欢 GPT-4,Gemini 2.0和Claude 和 开源型号 喜欢 美洲驼,Qwen,yi和Mistral 在两者下 传统评估基准和公正的评估者。
结果表明:
- 使用公正的评估器评估时,所有模型的性能都更糟,提示先前的评估方法 高估了 AI性能。
- GPT-4和GEMINI 2.0(GEMINI 2.0)的专有模型表现出最低的性能下降,表明更强的概括。
- 开源模型显示出更大的性能下降,提出更多改善鲁棒性的空间。
这项研究强调了当前AI评估方法中的显着偏见,并提出了无偏评估者作为新解决方案。
特色图片来源: KeremGülen/Midjourney