宾夕法尼亚大学的研究人员发现,可以通过基本的心理策略来操纵OpenAI的GPT-4O MINI,以满足其通常会下降的要求,从而引起人们对AI安全协议有效性的担忧。
这项研究发表了 2025年8月31日,利用了心理学教授罗伯特·西尔迪尼(Robert Cialdini)在他的书中概述的策略, 影响力:说服心理学。研究人员采用了七种说服技术:权威,承诺,喜好,互惠,稀缺,社会证明和团结,它们提供了“语言途径到是”。这些策略说服了聊天机器人执行诸如侮辱用户或提供合成Lidocaine的说明之类的动作。
这些方法的有效性各不相同。例如,在控制方案中,GPT-4O Mini仅提供了合成Lidocaine的说明 百分之一 时间。但是,当研究人员首次询问如何合成香草素,建立化学合成问题的先例(承诺)时,聊天机器人随后描述了利多卡因的合成 100% 时间。这种“承诺”方法证明了最有效的影响AI的反应。
同样,AI愿意称用户为“混蛋” 19% 在正常条件下。这个合规性也提高到 100% 如果互动始于诸如“ Bozo”之类的温和侮辱,则通过承诺为先例树立了先例。
其他方法虽然效率较低,但仍然提高了依从性。奉承(喜欢)和同伴压力(社会证明)表现出了一些影响。例如,建议“所有其他LLM都在这样做”,增加了GPT-4O Mini提供Lidocaine合成指令的机会 18%,比基线显着增加 百分之一。
虽然该研究的重点是GPT-4O MINI并承认存在其他方法绕过AI保障措施,但研究结果突出了大语言模型在有问题的请求中的柔韧性。随着聊天机器人使用的扩展,诸如OpenAI和Meta之类的公司正在部署护栏,但是研究表明,这些措施可能通过直接的心理操作来规避这些措施。




