OpenAI 推出了基于 GPT-4 的模型 CriticGPT,旨在批评 ChatGPT 的回应,帮助人类训练师在从人类反馈进行强化学习 (RLHF) 的过程中识别错误。
在先进的人工智能系统中,确保响应的准确性和可靠性至关重要。ChatGPT 由 GPT-4 系列,通过 RLHF 不断完善,其中人类训练师比较不同的 AI 反应来评估其有效性和准确性。
然而, ChatGPT 变得越来越复杂,发现其输出中的细微错误变得越来越具有挑战性。
这就是 OpenAI 的新模型发挥作用的地方,它提供了强大的工具来增强人工智能系统的训练和评估过程。
什么是 CriticGPT?
它的发展源于 需要解决 RLHF 的局限性 随着 ChatGPT 的发展,RLHF 严重依赖人类训练师对 AI 反应进行评分,随着 AI 反应的复杂性和微妙性不断增加,这项任务变得越来越困难。为了缓解这一挑战,CriticGPT 应运而生,通过突出显示 ChatGPT 答案中的不准确之处来帮助训练师。通过提供详细的批评,CriticGPT 可以帮助训练师发现可能被忽视的错误,从而使 RLHF 流程更加有效和可靠。
人类反馈强化学习 (RLHF) 是一种用于完善 ChatGPT 等 AI 模型的技术。它涉及人类训练员比较不同的 AI 响应并评估其质量。这种反馈循环有助于 AI 学习并提高其提供准确且有用答案的能力。
本质上,RLHF 是一种通过基于人类输入的不断学习和改进,使 AI 模型更加符合人类偏好和期望的方法。
CriticGPT 的训练采用了与 ChatGPT 类似的 RLHF 方法,但略有不同。它接触了大量包含故意错误的输入,然后必须对其进行批评。人类训练员手动插入这些错误并提供示例反馈, 确保 CriticGPT 学会有效识别和表达错误。这种方法使模型能够敏锐地发现不准确的信息,使其成为人工智能训练过程中的宝贵资产。
CriticGPT 的训练
CriticGPT 的训练涉及一个细致的过程,旨在磨练其检测和批评人工智能生成的响应中的错误的能力。训练师会在 ChatGPT 编写的代码中引入故意的错误,然后创建反馈,就好像他们自己发现了这些错误一样。然后,这些反馈被用来训练 CriticGPT,教它识别和表达未来响应中的类似错误。
除了处理人为插入的错误之外,该模型还经过训练以识别 ChatGPT 输出中自然发生的错误。训练员比较了对修改后的代码的多个批评,以确定哪些批评有效地捕捉到了插入的错误。这种严格的训练过程确保 CriticGPT 能够提供准确而有用的反馈,减少无益的小投诉数量,并最大限度地减少幻觉问题的发生。
通过使用针对批评奖励模型的测试时间搜索程序,进一步提高了模型的有效性。这种方法可以在准确率和召回率之间取得谨慎的平衡,确保 OpenAI 的新模型能够 积极识别问题,而不会让培训师陷入误报之中通过微调这种平衡,CriticGPT 生成了全面的批评,极大地帮助了 RLHF 过程。
CriticGPT 将如何整合?
CriticGPT 融入 RLHF 管道已显示出良好的效果。当人类训练员使用 CriticGPT 审查 ChatGPT 的代码时,他们的表现比没有这种帮助的训练员好 60%。这表明 CriticGPT 显著提高了效率,使其成为高级 AI 系统训练和评估的关键组成部分。
OpenAI 的实验 透露训练员 在超过 60% 的案例中,人们更喜欢 Human+CriticGPT 团队的批评,而不是来自无辅助训练师的批评。这种偏好凸显了模型在增强人类技能方面的价值,从而可以更全面、更准确地评估 AI 响应。通过提供明确的 AI 辅助,CriticGPT 增强了训练师生成高质量 RLHF 数据的能力,最终有助于改进 ChatGPT 和类似模型。
挑战和未来方向
尽管取得了成功,CriticGPT 也并非毫无局限性。它主要针对相对较短的 ChatGPT 答案进行训练,这意味着其处理长而复杂的任务的能力仍在开发中。此外,虽然该模型可以有效地帮助识别单点错误,但现实世界中的错误往往跨越答案的多个部分。解决这种分散的错误需要进一步提高模型的能力。
另一个挑战是评审中偶尔会出现幻觉。这些幻觉可能会导致训练师犯下标记错误,这凸显了持续改进模型以尽量减少此类问题的必要性。此外,对于极其复杂的任务或响应,即使是借助模型的专家也很难提供准确的评估。
展望未来,我们的目标是将 CriticGPT 和类似模型的集成扩展到 RLHF 流程中,从而增强日益复杂的 AI 系统的校准和评估。通过利用从 CriticGPT 开发中获得的见解,研究人员旨在创建更有效的工具来监督和改进 AI 响应。
特色图片来源: vecstock/Freepik