GPT-4O MINI被心理学策略所欺骗

宾夕法尼亚大学的研究人员发现，可以通过基本的心理策略来操纵OpenAI的GPT-4O MINI，以满足其通常会下降的要求，从而引起人们对AI安全协议有效性的担忧。

这项研究发表了 2025年8月31日，利用了心理学教授罗伯特·西尔迪尼（Robert Cialdini）在他的书中概述的策略， 影响力：说服心理学。研究人员采用了七种说服技术：权威，承诺，喜好，互惠，稀缺，社会证明和团结，它们提供了“语言途径到是”。这些策略说服了聊天机器人执行诸如侮辱用户或提供合成Lidocaine的说明之类的动作。

这些方法的有效性各不相同。例如，在控制方案中，GPT-4O Mini仅提供了合成Lidocaine的说明 百分之一 时间。但是，当研究人员首次询问如何合成香草素，建立化学合成问题的先例（承诺）时，聊天机器人随后描述了利多卡因的合成 100％ 时间。这种“承诺”方法证明了最有效的影响AI的反应。

同样，AI愿意称用户为“混蛋” 19％ 在正常条件下。这个合规性也提高到 100％ 如果互动始于诸如“ Bozo”之类的温和侮辱，则通过承诺为先例树立了先例。

其他方法虽然效率较低，但仍然提高了依从性。奉承（喜欢）和同伴压力（社会证明）表现出了一些影响。例如，建议“所有其他LLM都在这样做”，增加了GPT-4O Mini提供Lidocaine合成指令的机会 18％，比基线显着增加 百分之一。

虽然该研究的重点是GPT-4O MINI并承认存在其他方法绕过AI保障措施，但研究结果突出了大语言模型在有问题的请求中的柔韧性。随着聊天机器人使用的扩展，诸如OpenAI和Meta之类的公司正在部署护栏，但是研究表明，这些措施可能通过直接的心理操作来规避这些措施。

Tags: GPT-4O mini 特色

GPT-4O MINI被心理学策略所欺骗

Related Posts

JBL 推出 AI 驱动的 BandBox 放大器

Spotify 推出人工智能驱动的提示播放列表

Claude AI 带来 Anthropic 彻底改革招聘测试

人类以新的安全伦理原则彻底修改了克劳德的宪法

YouTube 将为创作者推出人工智能相似度管理工具

亚马逊将 Health AI 助手集成到 One Medical 移动应用程序中

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

GPT-4O MINI被心理学策略所欺骗

Related Posts

JBL 推出 AI 驱动的 BandBox 放大器

Spotify 推出人工智能驱动的提示播放列表

Claude AI 带来 Anthropic 彻底改革招聘测试

人类以新的安全伦理原则彻底修改了克劳德的宪法

YouTube 将为创作者推出人工智能相似度管理工具

亚马逊将 Health AI 助手集成到 One Medical 移动应用程序中

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us