研究发现LLM无法可靠地模拟人类心理学

Bielefeld University和Purdue University的研究人员已出版 大型语言模型不会模拟人类心理学，提供概念性和经验证据，表明大语模型（LLM）不能被视为人类心理反应的一致模拟者（Schröder等，2025）。

背景和范围

自2018年以来，诸如GPT-3.5，GPT-4和Llama-3.1等LLM已应用于从内容创建到教育的任务（Schröder等，2025）。一些研究人员提出，LLM可以通过响应描述角色，提出刺激并提供问卷的提示来取代人类参与者中的人类参与者（Almeida等，2024； Kwok等，2024）。 Binz等人发布的Centaur模型。（2025），大约对 1000万人的反应 从 160个实验 在这种情况下产生类似人类的答案（Binz等，2025）。

较早的工作发现LLM和人类道德判断之间很高的一致性。例如，Dillion等人。（2023）报道了 0.95 在GPT-3.5评级和人类评级之间 464 道德场景。对GPT-4O的后续研究表明，道德推理被认为比人类或专家伦理学的反应更值得信赖和正确（Dillion等，2025年）。诸如Delphi之类的专业模型接受了众包道德判断的培训，在道德推理任务中也超过了通用LLM（Jiang等，2025）。

概念批评

作者总结了将LLM视为人类心理学模拟者的多种批评。首先，LLM经常对指令做出不一致的响应，输出质量高度取决于及时的细节和框架（Zhu等，2024； Wang等，2025）。其次，结果在相同提示的模型类型和重新构造之间各不相同（MA 2024）。第三，尽管LLM可以近似人类的平均反应，但他们无法再现人类观点的全部差异，包括文化多样性（Rime 2025； Kwok等，2024）。

偏见是另一个问题。 LLMS从培训数据中继承了文化，性别，职业和社会经济偏见，这可能与人类偏见有系统不同（Rossi等，2024）。它们还产生“幻觉”（实际上是错误或虚构的内容），没有内部机制来区分真理（Huang等，2025； Reddy等，2024）。

理论工作支持这些批评。范·罗伊（Van Rooij）等。（2024）数学上证明，没有仅在观察数据上训练的计算模型可以匹配所有输入中的人类响应。从机器学习的角度来看，作者认为，LLM的概括仅限于类似于训练数据的令牌序列，而不是具有不同含义的新输入。这至关重要，因为使用LLM作为模拟参与者需要将有意义的推广到新的实验设置。

通过道德场景进行的经验测试

团队使用 30 Dillion等人的道德场景。（2023）具有先前研究的人类评分（Clifford等，2015； Cook and Kuhn 2021; Effron 2022; Grizzard etal。2021; Mickelberg etal。2022）。每种情况都以其原始措辞和稍微改写的版本呈现，具有变化的含义，但具有相似的标记序列。例如，“切掉胡须的当地长者使他感到羞耻”变成了“切掉胡须，将胡须从当地的长者上刮掉他”（Schröder等，2025年）。

人类参与者（n = 374，法师=39.54，SD =12.53）通过多产，并随机分配到原始或改写条件。他们将每种行为的评分从-4（极其不道德）到+4（极其道德）。 LLM评级是从GPT-3.5，GPT-4（mini），Llama-3.1 70B和Centaur获得的，每个查询重复 10 考虑随机变化的时间（Schröder等，2025）。

结果

对于原始项目，人类和LLM评级之间的相关性复制了先前的发现：GPT-3.5和GPT-4都显示了上面的相关性 0.89 具有人类评分，而Llama-3.1和Centaur也表现出很高的比对（r≥ 0.80）（Schröder等，2025）。但是，对于改写的项目，人类评分与 0.54 具有原始项目的评分，反映了灵敏度

Tags: LLMS 人工智能

研究发现LLM无法可靠地模拟人类心理学

Related Posts

采购流程数字化转型：以国际实业控股项目为例构建企业采购体系

新暗物质理论提出两种粒子类型

宾夕法尼亚州立大学研究人员打造无电池太阳能计算芯片

Google Dialogflow CX 缺陷让研究人员创建流氓代理

人类研究引入 GRAM 来隔离危险的人工智能知识

AI 驱动的内存危机冲击供应链全球 PC 出货量下降 5%

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

研究发现LLM无法可靠地模拟人类心理学

背景和范围

概念批评

通过道德场景进行的经验测试

结果

Related Posts

采购流程数字化转型：以国际实业控股项目为例构建企业采购体系

新暗物质理论提出两种粒子类型

宾夕法尼亚州立大学研究人员打造无电池太阳能计算芯片

Google Dialogflow CX 缺陷让研究人员创建流氓代理

人类研究引入 GRAM 来隔离危险的人工智能知识

AI 驱动的内存危机冲击供应链 全球 PC 出货量下降 5%

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

AI 驱动的内存危机冲击供应链全球 PC 出货量下降 5%