Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

人择研究发现人工智能对其自身想法的自我意识有限

Aytun ÇelebibyAytun Çelebi
12 11 月, 2025
in Industry, Research
Home Industry
Share on FacebookShare on Twitter

人择 研究 尽管有一些值得注意的检测能力,但详细介绍了大型语言模型(LLM)关于内部流程的不可靠的自我意识。 Anthropic 的最新研究,记录在“大型语言模型中涌现的内省意识”,调查了法学硕士理解自己推理过程的能力。这项研究扩展了人工智能可解释性方面的先前工作。该研究得出的结论是,当前的人工智能模型在描述其内部运作方面“非常不可靠”,“内省失败仍然是常态。”该研究采用了一种称为“概念注入”的方法。这涉及比较法学硕士在控制提示和实验提示后的内部激活状态。例如,将“全大写”提示与相同的提示进行比较小写的提示有助于计算数十亿个内部神经元的激活差异,表示如何在 LLM 的内部状态中建模概念,然后增加特定神经元激活的权重以“引导”模型走向某个概念,然后实验评估模型是否记录了“注入的想法”。一个“全大写”向量,模型可能会说,“我注意到似乎是与‘大声’或‘喊叫’一词相关的注入想法”,但没有直接的文本提示来指导这种反应,但在重复的测试中,表现最好的模型 Opus 4 和 4.1 仅在 20% 的时间内正确识别了注入的概念,而 Opus 4.1 则达到了 20% 的正确率。 42% 的成功率还表明,如果在多步骤推理过程中引入概念太早或太晚,“自我意识”效应就会消失。当法学硕士被要求在不相关的行阅读期间巧合地识别一个单词时,模型有时会提到注入的概念。研究人员表示歉意,并“对为什么会想到注入的概念进行解释。”研究人员指出,“当前的语言模型具有对其自身内部状态的一些功能性内省意识”,他们承认这种能力仍然脆弱且依赖于环境,“随着模型能力的进一步改进,这些功能可能会继续发展。”研究人员推测,这种能力可能会阻碍其发展。 “异常检测机制”和“一致性检查电路”可能在训练过程中有机地发展,以“有效地计算其内部表示的函数”,尽管它们没有提供明确的解释。研究人员还指出,这些 LLM 能力“可能不具有与人类相同的哲学意义,特别是考虑到我们对其机制基础的不确定性。”


特色图片来源

Tags: 人择研究

Related Posts

谷歌解雇高级采购团队 "不可能的" HBM 供应紧张

谷歌解雇高级采购团队 "不可能的" HBM 供应紧张

26 12 月, 2025
保时捷 2025 年假日广告因完全不使用人工智能而走红

保时捷 2025 年假日广告因完全不使用人工智能而走红

26 12 月, 2025
科学家发现超过17,000个新物种

科学家发现超过17,000个新物种

26 12 月, 2025
Nvidia 与 AI 芯片初创公司 Groq 签署 200 亿美元许可协议

Nvidia 与 AI 芯片初创公司 Groq 签署 200 亿美元许可协议

26 12 月, 2025
字节跳动在 2025 年重大道德打击中解雇了 120 名员工

字节跳动在 2025 年重大道德打击中解雇了 120 名员工

25 12 月, 2025
中国反对美国对半导体征收新关税

中国反对美国对半导体征收新关税

25 12 月, 2025
Please login to join discussion

Recent Posts

  • 阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态
  • Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时
  • 华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"
  • NVIDIA 在 GitHub 上开源 CUDA Tile IR
  • MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.