Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

GPT-4O MINI被心理学策略所欺骗

Kerem GülenbyKerem Gülen
1 9 月, 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

宾夕法尼亚大学的研究人员发现,可以通过基本的心理策略来操纵OpenAI的GPT-4O MINI,以满足其通常会下降的要求,从而引起人们对AI安全协议有效性的担忧。

这项研究发表了 2025年8月31日,利用了心理学教授罗伯特·西尔迪尼(Robert Cialdini)在他的书中概述的策略, 影响力:说服心理学。研究人员采用了七种说服技术:权威,承诺,喜好,互惠,稀缺,社会证明和团结,它们提供了“语言途径到是”。这些策略说服了聊天机器人执行诸如侮辱用户或提供合成Lidocaine的说明之类的动作。

这些方法的有效性各不相同。例如,在控制方案中,GPT-4O Mini仅提供了合成Lidocaine的说明 百分之一 时间。但是,当研究人员首次询问如何合成香草素,建立化学合成问题的先例(承诺)时,聊天机器人随后描述了利多卡因的合成 100% 时间。这种“承诺”方法证明了最有效的影响AI的反应。

同样,AI愿意称用户为“混蛋” 19% 在正常条件下。这个合规性也提高到 100% 如果互动始于诸如“ Bozo”之类的温和侮辱,则通过承诺为先例树立了先例。

其他方法虽然效率较低,但仍然提高了依从性。奉承(喜欢)和同伴压力(社会证明)表现出了一些影响。例如,建议“所有其他LLM都在这样做”,增加了GPT-4O Mini提供Lidocaine合成指令的机会 18%,比基线显着增加 百分之一。

虽然该研究的重点是GPT-4O MINI并承认存在其他方法绕过AI保障措施,但研究结果突出了大语言模型在有问题的请求中的柔韧性。随着聊天机器人使用的扩展,诸如OpenAI和Meta之类的公司正在部署护栏,但是研究表明,这些措施可能通过直接的心理操作来规避这些措施。

Tags: GPT-4O mini特色

Related Posts

JBL 推出 AI 驱动的 BandBox 放大器

JBL 推出 AI 驱动的 BandBox 放大器

23 1 月, 2026
Spotify 推出人工智能驱动的提示播放列表

Spotify 推出人工智能驱动的提示播放列表

22 1 月, 2026
Claude AI 带来 Anthropic 彻底改革招聘测试

Claude AI 带来 Anthropic 彻底改革招聘测试

22 1 月, 2026
人类以新的安全伦理原则彻底修改了克劳德的宪法

人类以新的安全伦理原则彻底修改了克劳德的宪法

22 1 月, 2026
YouTube 将为创作者推出人工智能相似度管理工具

YouTube 将为创作者推出人工智能相似度管理工具

22 1 月, 2026
亚马逊将 Health AI 助手集成到 One Medical 移动应用程序中

亚马逊将 Health AI 助手集成到 One Medical 移动应用程序中

22 1 月, 2026
Please login to join discussion

Recent Posts

  • Barret Zoph 将领导 OpenAI 积极的商业转型
  • Substack 推出 Beta TV 应用程序,进入客厅
  • LiveKit 作为 ChatGPT 语音模式背后的引擎,估值达 10 亿美元
  • 收购 Bending Spoons 后,Vimeo 开始裁员
  • 亚马逊准备新一轮裁员,AWS和Prime Video受到冲击

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.