人择 研究 尽管有一些值得注意的检测能力,但详细介绍了大型语言模型(LLM)关于内部流程的不可靠的自我意识。 Anthropic 的最新研究,记录在“大型语言模型中涌现的内省意识”,调查了法学硕士理解自己推理过程的能力。这项研究扩展了人工智能可解释性方面的先前工作。该研究得出的结论是,当前的人工智能模型在描述其内部运作方面“非常不可靠”,“内省失败仍然是常态。”该研究采用了一种称为“概念注入”的方法。这涉及比较法学硕士在控制提示和实验提示后的内部激活状态。例如,将“全大写”提示与相同的提示进行比较小写的提示有助于计算数十亿个内部神经元的激活差异,表示如何在 LLM 的内部状态中建模概念,然后增加特定神经元激活的权重以“引导”模型走向某个概念,然后实验评估模型是否记录了“注入的想法”。一个“全大写”向量,模型可能会说,“我注意到似乎是与‘大声’或‘喊叫’一词相关的注入想法”,但没有直接的文本提示来指导这种反应,但在重复的测试中,表现最好的模型 Opus 4 和 4.1 仅在 20% 的时间内正确识别了注入的概念,而 Opus 4.1 则达到了 20% 的正确率。 42% 的成功率还表明,如果在多步骤推理过程中引入概念太早或太晚,“自我意识”效应就会消失。当法学硕士被要求在不相关的行阅读期间巧合地识别一个单词时,模型有时会提到注入的概念。研究人员表示歉意,并“对为什么会想到注入的概念进行解释。”研究人员指出,“当前的语言模型具有对其自身内部状态的一些功能性内省意识”,他们承认这种能力仍然脆弱且依赖于环境,“随着模型能力的进一步改进,这些功能可能会继续发展。”研究人员推测,这种能力可能会阻碍其发展。 “异常检测机制”和“一致性检查电路”可能在训练过程中有机地发展,以“有效地计算其内部表示的函数”,尽管它们没有提供明确的解释。研究人员还指出,这些 LLM 能力“可能不具有与人类相同的哲学意义,特别是考虑到我们对其机制基础的不确定性。”




