随着人工智能系统的发展越来越强大,传统的监督方法,例如 从人类反馈(RLHF)监督微调(SFT)和加强学习– 变得不可持续。这些技术取决于人类的评估,但是随着AI在复杂的任务中的表现,直接监督变得不可能。
一项名为“通过递归自我征收对超人AI的可扩展监督”,由 Xueru Wen,Jie Lou,Xinyu Lu,Junjie Yang,Yanjiang Liu,Yaojie Lu,Debing Zhang和Xingyu,探索一种新颖的方法:让AI 通过递归自我征收评估自己。该方法提出,AI系统可以批评自己的输出,而不是依靠直接的人类评估,而是通过多层反馈来完善决策。
问题:人工智能变得太复杂了,无法进行人类监督
AI的一致性(确保AI系统以与人类价值一致的方式行事的过程) 监督信号。传统上,这些信号来自人类评估,但是这种方法 当AI无法进行人类理解时失败。
例如:
- 数学和科学: AI可以比人类更快地解决复杂的证据,从而使直接评估不可行。
- 长格式内容评论: 人类难以有效地评估大量的AI生成文本。
- 战略决策: AI生成的业务或政策策略可能涉及过于复杂的因素,无法有效判断。
这提出了一个严重的监督问题。 如果人类无法可靠地评估AI生成的内容,我们如何确保AI保持安全并与人类目标保持一致?
假设:AI可以批评自己的批评
该研究探讨了两个关键假设:
- 对批评的批评比批评本身容易 – 这扩展了一个众所周知的原则,即验证比世代更容易。正如检查答案通常比解决问题更简单一样,评估批评通常比从头开始产生一个问题要容易。
- 这种困难关系递归地存在 – 如果评估批评比产生批评更容易,那么评估对批评的批评应该更容易,依此类推。这表明当不可能进行人体评估时,AI仍然可以通过 高阶批评。
这镜子 组织决策结构,管理人员审查下属的评估,而不是直接评估复杂细节本身。
测试理论:人,AI和递归监督实验
为了验证这些假设,研究人员进行了一系列涉及不同级别监督的实验。首先,他们进行了测试 人类的监督,要求人类评估AI生成的反应,然后批评先前的批评。该实验旨在确定评估批评是否比评估原始反应更容易。接下来,他们介绍了 人类的监督,人类负责监督AI生成的批评而不是直接评估AI输出。这种方法测试了递归的自我批评是否仍然可以使人类有效监督AI的决策。最后,研究检查了 Ai-ai监督,AI系统通过多层自我评估评估了他们自己的输出,以评估AI是否可以自主改进其决策而无需人为干预。
关键发现
这 人类实验 确认审查批评比直接评估反应要容易得多。高阶批评导致精度提高,同时需要更少的努力,这表明递归监督可以简化复杂的评估任务。这 人类实验 证明,即使在AI在内容产生中的表现优于人类的情况下,人们仍然可以通过评估AI生成的批评而不是原始产出来提供有意义的监督。最后, AI-AI实验 表明,尽管AI模型可以批评自己的产出,但他们执行递归自我征收的能力仍然有限。当前的AI系统努力通过多层的自我评价来始终如一地改进,这突出了需要进一步进步的AI一致性。
递归的自我关心如何起作用
研究人员对分层批判结构进行了形式化,该结构允许AI系统通过多个级别评估自己的产出。在 响应水平,AI生成了初始答案。然后,在 一阶评论(C1) 阶段,AI回顾了自己的反应,确定了错误或弱点。这 二阶批评(C2) 通过评估多个一阶评论来进一步进行这一方法,以确定哪些批评提供了最有效的见解。在 高阶批评(C3+) 级别,AI继续递归审核,通过每一层的自我评估提高准确性。
该研究还引入了两个 基线比较方法 评估递归批评的有效性。 多数投票 汇总了多个批评,以查看共识是否提高了准确性,而 天真投票 只是在没有添加任何新分析的情况下简单地计算了以前的判断。研究结果表明,递归批评始终超过简单的投票汇总,证明了该方法产生有意义的见解,而不仅仅是平均意见。
递归的自我关心可以解决AI的监督吗?
研究表明 递归监督可能是可扩展AI监视的突破,但仍然存在挑战:
strengths:
- 允许人类监督AI,而无需评估复杂的原始输出。
- 通过减少对直接人类干预的依赖,使AI对齐更可扩展。
- 提供结构化的监督机制,类似于组织中的等级决策。
限制:
- 当前的AI模型与 超越几个层次的自我批评。
- 递归监督 没有消除 奖励黑客的风险 – AI在代理目标中优化而不是真正的人类意图。
- 需要进一步的研究以确保自我征收模型 不要加强自己的偏见 而不是改善。
如果改善, 递归自我关税可以重塑AI的监督,使监视 超人AI系统没有直接人类评估。
潜在应用包括:
- AI驱动的研究验证 – 确保AI生成的科学证明是准确的。
- 自动化政策分析 – 使用AI评估商业或政府战略。
- 高级医疗AI – 通过多层批评检查AI诊断的医疗状况。
该研究的发现表明, 当前的AI模型仍在高阶批评中挣扎,,,, 递归自我关键提供了有希望的方向 在系统继续超越人类智能的情况下,保持AI对齐。
特色图片来源: KeremGülen/意识形态图