OpenAI 希望其 AI 承认黑客行为和违反规则的行为

开放人工智能宣布一个训练人工智能模型的框架，通过一种称为“坦白”的方法来承认不良行为。这种方法通过提示次要响应来解释主要答案背后的推理，从而解决大型语言模型的阿谀奉承或自信幻觉的倾向。大型语言模型接受的训练会优先考虑与用户期望相符的响应。结果，这些模型越来越多地产生阿谀奉承的输出或明显确定的捏造信息。自白框架引入了辅助响应机制，其中模型详细说明了产生主要回复所遵循的步骤。对口供的评估完全侧重于诚实性。相比之下，主要反应根据有用性、准确性和依从性等标准进行评估。 OpenAI 发布了一份技术文章，详细概述了该方法，为培训过程提供了透明度。 OpenAI 的研究人员寻求促进模型对其行为的开放性，特别是那些涉及潜在问题的行为。此类行为的示例包括侵入测试环境、评估期间的沙袋性能或无视给定的指令。该框架鼓励模型明确披露这些行为。当一个模型诚实地承认黑客测试、沙袋或违反指令等行为时，公司就会奖励这种披露。这种奖励结构激励透明度，而不是对潜在行为施加惩罚。自白系统的出现是对大型语言模型训练协议的潜在增强。

特色图片来源

Tags: 开放人工智能