新研究表明，即使记忆被删除，人工智能逻辑仍能幸存

Goodfire.ai 研究人员分离出 AI 神经网络中的记忆和推理路径，详细信息见 10 月底的预印本纸。研究表明，大型语言模型中的这些功能有明显的分离。当记忆路径被移除时，模型就失去了 97% 逐字背诵训练数据的能力。然而，他们的“逻辑推理”能力基本保持完好。研究人员根据“曲率”将重量成分从高到低排列。在艾伦人工智能研究所的 OLMo-7B 语言模型中，第 22 层显示，底部 50% 的权重组件对记忆数据的激活程度高出 23%。相反，前 10% 的人对一般非记忆文本的激活程度高出 26%。这种机械性的分裂允许通过外科手术去除记忆，同时保留其他能力。删除排名底部的组件消除了记忆；保留排名靠前的人可以解决问题。算术运算似乎与记忆共享神经通路，而不是逻辑推理。移除记忆电路导致数学成绩骤降至 66%，而逻辑任务几乎保持不变。这也许可以解释为什么人工智能模型在没有外部工具的情况下难以处理数学问题，依赖于记忆的事实，如“2+2=4”，而不是计算。人工智能“推理”包括评估真/假陈述和遵循 if-then 规则等能力，这些能力在记忆删除后仍然存在。这与证明或解决新问题所需的更深入的“数学推理”不同，当前的人工智能模型即使具有完整的模式匹配能力，也很难做到这一点。这些信息删除技术的未来发展可以使人工智能公司从神经网络中删除受版权保护的内容、私人信息或有害的记忆文本，而不会破坏变革性的任务性能。然而，研究人员表示，由于神经网络中信息存储的分布式特性，他们的方法“不能保证完全消除敏感信息”。理解这种区别涉及“损失景观”，即基于内部设置或“权重”的人工智能模型预测准确性的可视化。 “损失”衡量错误，损失低表明错误很少。 “景观”映射了所有可能的设置组合的错误率。在训练过程中，人工智能模型会调整权重以最大程度地减少错误，从而在这种景观中有效地“滚下山”。研究人员分析了损失景观的“曲率”，测量模型性能对神经网络权重微小变化的敏感性。高曲率表示尖锐的峰和谷，这意味着微小的变化会产生显着的影响。低曲率意味着平坦的平原，变化的影响最小。这些曲率值用于对权重分量进行排序。科学家们利用 K-FAC（克罗内克因子近似曲率）发现，个体记忆的事实会在景观中产生尖锐的、特殊的尖峰，而这些尖峰在平均后会变平。相比之下，推理能力依赖于许多不同的输入，保持一致、适度的曲线。研究人员指出，“实现许多输入所使用的共享机制的方向会连贯地增加，并且平均保持高曲率”，描述了推理路径。相反，记忆使用“与特定示例相关的特殊尖锐方向”，这些方向在平均时显得平坦。该技术在多个 AI 系统上进行了测试，包括 Allen Institute 的 OLMo-2 系列（70 亿和 10 亿参数版本）和 ImageNet 上的定制 8600 万参数 Vision Transformers（ViT-Base 模型）。他们还针对 BalancedSubnet 等现有方法验证了研究结果。有选择地删除低曲率权重组件导致记忆内容召回率从接近 100% 下降到 3.4%。逻辑推理任务保持了基线性能的 95% 到 106%。逻辑任务包括布尔表达式评估、逻辑演绎谜题、对象跟踪、用于是/否推理的 BoolQ、用于常识推理的 Winogrande 以及用于科学问题的 OpenBookQA。数学运算和闭卷事实检索，与记忆共享路径，在编辑后性能下降至 66% 至 86%。事实证明，算术特别脆弱，在移除低曲率组件后，即使使用相同的推理链，计算也会失败。该团队解释说，“算术问题本身是以 7B 规模来记忆的，或者因为它们需要狭隘的使用方向来进行精确计算。”开卷问答依靠提供的上下文，几乎保持了全部性能。机制分离因信息类型而异；像国家首都这样的常见事实在编辑后变化很小，而像公司首席执行官这样的罕见事实下降了 78%，这表明根据训练中的信息频率进行不同的神经资源分配。 K-FAC 技术优于现有的记忆消除方法，对未见过的历史报价实现了 16.1% 的记忆，而 BalancedSubnet 的记忆率为 60%。视觉转换器表现出类似的模式，删除记忆路径后，之前标记错误的图像的准确率恢复了 66.5%。研究人员承认其局限性；被删除的记忆可能会随着进一步的训练而恢复，因为当前的忘却方法主要是抑制信息。数学在消除记忆后变得脆弱的原因尚不清楚，某些复杂的能力是否被错误地识别为记忆也不清楚。此外，用于测量模型“景观”的数学工具在极端情况下可能不可靠。

特色图片来源

No Result