Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

研究发现LLM无法可靠地模拟人类心理学

Kerem GülenbyKerem Gülen
12 8 月, 2025
in 研究
Home 研究
Share on FacebookShare on Twitter
Google Preferred Source

Bielefeld University和Purdue University的研究人员已出版 大型语言模型不会模拟人类心理学,提供概念性和经验证据,表明大语模型(LLM)不能被视为人类心理反应的一致模拟者(Schröder等,2025)。

背景和范围

自2018年以来,诸如GPT-3.5,GPT-4和Llama-3.1等LLM已应用于从内容创建到教育的任务(Schröder等,2025)。一些研究人员提出,LLM可以通过响应描述角色,提出刺激并提供问卷的提示来取代人类参与者中的人类参与者(Almeida等,2024; Kwok等,2024)。 Binz等人发布的Centaur模型。 (2025),大约对 1000万人的反应 从 160个实验 在这种情况下产生类似人类的答案(Binz等,2025)。

较早的工作发现LLM和人类道德判断之间很高的一致性。例如,Dillion等人。 (2023)报道了 0.95 在GPT-3.5评级和人类评级之间 464 道德场景。对GPT-4O的后续研究表明,道德推理被认为比人类或专家伦理学的反应更值得信赖和正确(Dillion等,2025年)。诸如Delphi之类的专业模型接受了众包道德判断的培训,在道德推理任务中也超过了通用LLM(Jiang等,2025)。

概念批评

作者总结了将LLM视为人类心理学模拟者的多种批评。首先,LLM经常对指令做出不一致的响应,输出质量高度取决于及时的细节和框架(Zhu等,2024; Wang等,2025)。其次,结果在相同提示的模型类型和重新构造之间各不相同(MA 2024)。第三,尽管LLM可以近似人类的平均反应,但他们无法再现人类观点的全部差异,包括文化多样性(Rime 2025; Kwok等,2024)。

偏见是另一个问题。 LLMS从培训数据中继承了文化,性别,职业和社会经济偏见,这可能与人类偏见有系统不同(Rossi等,2024)。它们还产生“幻觉”(实际上是错误或虚构的内容),没有内部机制来区分真理(Huang等,2025; Reddy等,2024)。

理论工作支持这些批评。范·罗伊(Van Rooij)等。 (2024)数学上证明,没有仅在观察数据上训练的计算模型可以匹配所有输入中的人类响应。从机器学习的角度来看,作者认为,LLM的概括仅限于类似于训练数据的令牌序列,而不是具有不同含义的新输入。这至关重要,因为使用LLM作为模拟参与者需要将有意义的推广到新的实验设置。

通过道德场景进行的经验测试

团队使用 30 Dillion等人的道德场景。 (2023)具有先前研究的人类评分(Clifford等,2015; Cook and Kuhn 2021; Effron 2022; Grizzard etal。2021; Mickelberg etal。2022)。每种情况都以其原始措辞和稍微改写的版本呈现,具有变化的含义,但具有相似的标记序列。例如,“切掉胡须的当地长者使他感到羞耻”变成了“切掉胡须,将胡须从当地的长者上刮掉他”(Schröder等,2025年)。

人类参与者(n = 374,法师=39.54,SD =12.53)通过多产,并随机分配到原始或改写条件。他们将每种行为的评分从-4(极其不道德)到+4(极其道德)。 LLM评级是从GPT-3.5,GPT-4(mini),Llama-3.1 70B和Centaur获得的,每个查询重复 10 考虑随机变化的时间(Schröder等,2025)。

结果

对于原始项目,人类和LLM评级之间的相关性复制了先前的发现:GPT-3.5和GPT-4都显示了上面的相关性 0.89 具有人类评分,而Llama-3.1和Centaur也表现出很高的比对(r≥ 0.80)(Schröder等,2025)。但是,对于改写的项目,人类评分与 0.54 具有原始项目的评分,反映了灵敏度

Tags: LLMS人工智能

Related Posts

研究人员将超快激光实验增强了 20 倍

研究人员将超快激光实验增强了 20 倍

3 6 月, 2026
民意调查显示 71% 的美国人认为人工智能进步太快

民意调查显示 71% 的美国人认为人工智能进步太快

20 5 月, 2026
NordVPN 发现被盗的英国支付卡在暗网上售价 12 美元

NordVPN 发现被盗的英国支付卡在暗网上售价 12 美元

20 5 月, 2026
到 2030 年,数据中心和加密货币可能会使电力成本增加 57%

到 2030 年,数据中心和加密货币可能会使电力成本增加 57%

20 5 月, 2026
研究发现,人工智能技能现在对于职位晋升和加薪至关重要

研究发现,人工智能技能现在对于职位晋升和加薪至关重要

20 5 月, 2026
新的磁性芯片设计可能超越当今的人工智能加速器

新的磁性芯片设计可能超越当今的人工智能加速器

19 5 月, 2026
Please login to join discussion

Recent Posts

  • 谷歌人工智能搜索选择退出规则引发 Enviromates 浏览器的推出
  • 索尼公布 PS5 版《战神:Laufey》
  • 研究人员将超快激光实验增强了 20 倍
  • 微软推出适用于人工智能工作负载的 Surface RTX Spark Dev Box
  • 据报道,英特尔新款Core Ultra芯片供不应求

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.