一项来自 纽约大学和图宾根大学,领导 Hanna M. Dettki,Brenden M. Lake,Charley M. Wu和Bob Rehder,询问AI是否可以像人类一样推理原因,或者它是否依赖于模式。他们的论文,“大型语言模型是否像我们一样因果原因?更好?”,探测四个流行的模型 – GPT-3.5,GPT-4O,Claude-3和Gemini-Pro,以查看它们是掌握复杂的因果结构还是仅模仿人类的人类语言。
该研究如何在AI中测试因果推理
研究人员将人类推理与四个LLM进行了比较 –GPT-3.5,GPT-4O,Claude-3和Gemini-Pro-使用 对撞机图,在因果推理中进行的经典测试。要求参与者(人类和人工智能)在某些因果关系中评估事件的可能性。核心问题:llms的原因是人类以同样的方式而有因果关系,还是遵循其他逻辑?
主要发现:AI可以推理,但不像人类
结果揭示了 一系列因果推理 在AI模型中。
- GPT-4O和Claude-3 表现最多 规范推理,这意味着他们比人类参与者更遵循概率理论。
- Gemini-Pro和GPT-3.5另一方面,显示了更多 关联推理,这意味着它们更多地依赖于统计模式,而不是严格的因果逻辑。
- 所有型号都表现出偏见,偏离预期的原因。然而, Claude-3是最少偏见的,这意味着它最紧密地遵循数学因果规范。
有趣的是, 人类经常采用启发法 偏离严格的概率理论,例如“解释”效应,观察到一个原因降低了另一种效果。尽管AI模型识别出这种效果,但根据培训数据和环境,他们的响应差异很大。
人工智能与人类推理:基本差异
研究中最有趣的见解之一是LLM 不要只是模仿人类的推理– 他们的因果关系不同。与人类的判断在不同情况下保持相对稳定的人不同, AI模型根据领域知识调整了推理 (例如,经济学与社会学)。
- 特别是GPT-4O,将因果关系视为确定性,假设某些原因始终会产生特定的影响。
- 相比之下,人类不确定性的因素,承认因果关系并不总是绝对的。
这表明虽然AI可以 更精确 在某些结构化任务中 缺乏灵活性 在处理模棱两可或多元造成的情况时的人类思想。
为什么这对于AI在决策中很重要
该研究揭示了一个重要的局限性: 在没有强大的指导的情况下,LLM可能无法推广其因果知识。 这对于从医学诊断到经济预测中部署AI在现实世界决策中具有关键意义。
LLM在基于概率的推论中可能会超过人类的表现,但是其推理基本上仍然有所不同 – 通常缺乏人类在日常问题解决的直觉,适应性逻辑。
换句话说,人工智能可以理解因果关系,但不像我们。
特色图片来源: KeremGülen/意识形态图