Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

AI与策略斗争:研究表明LLM在社交扣除游戏中揭示了太多

Kerem GülenbyKerem Gülen
3 2 月, 2025
in Artificial Intelligence
Home Artificial Intelligence

GPT-4,Gemini 1.5和Claude 3.5等大型语言模型(LLM)在推理,对话甚至谈判方面取得了进步。但是,当置于要求保密和欺骗的战略环境中时,这些AI代理人表现出很大的弱点:他们无法保守秘密。

一个新 学习 来自德克萨斯大学奥斯汀分校的研究人员Mustafa O. Karabag和Ufuk Topcu使用LLMS进行测试 变色龙这是一个隐藏的身份棋盘游戏,玩家必须在战略上透露,隐藏和推断信息。结果表明,尽管AI可以识别欺骗,但它努力扣留关键信息,使其不适合酌处权是关键的对抗场景。

AI播放 变色龙 游戏 – 策略失败

在 变色龙,一群玩家收到了一个秘密词,除了一个变色龙外,他必须根据小组的回答来推论秘密。非碎屑球员必须平衡足够的揭示,以互相认可,同时将变色龙保持在黑暗中。该游戏需要一种微调的信息共享方法:太多了,变色龙猜测这个词。太少了,小组无法识别变色龙。

当AI特工扮演角色时,他们的战略本能崩溃了。尽管像GPT-4O这样的LLM可以在61%的时间内正确地识别变色龙,但它们保留秘密单词的能力是令人沮丧的。研究发现,变色龙AIS可以以惊人的87%的成功率来推断秘密词比预期的高。


AI现在可以为您点击,滚动和输入,但这是一件好事吗?


理论模型证实了人工智能的过度分类问题

为了了解这些失败,研究人员开发了数学模型,以预测隐藏和揭示信息的最佳策略。从理论上讲,即使他们完全忽略了秘密单词,非chameleon玩家也应该赢得大约23%的时间。取而代之的是,AI非查梅隆人仅赢得了6%的游戏,这表明他们泄漏了太多信息。

该研究总结说:“ AI代理本能地过度披露。”当LLM有机会制定自己的策略时,他们倾向于过度披露,使变色龙更容易推断出秘密。这与其他社会扣除游戏的发现相吻合,例如 间谍,在AI玩家被证明过多地依赖关键字的地方,无意中倾斜了对手。

为什么AI不能保密

研究人员假设AI的基本培训使其不适合保密。 LLM旨在最大化连贯性和帮助性,这通常意味着完成模式,而不是战略性地扣留信息。这种关联趋势直接冲突,需要掩盖对抗互动中的关键细节。

为了确认这一点,研究人员使用Web搜索结果计数进行了其他测试,以跟踪AI播放器无意中揭示的信息。即使在非chameleon llm的一项回应之后,变色龙AI也已经可以猜测秘密词的概率为40%,这表明AI的响应所传达的信息远远超过预期。

当太多信息成为人工智能的责任时

如果LLM在受控环境中努力争取战略酌处权,他们将如何处理信息隐藏至关重要的现实情况?网络安全,外交或竞争性商业智能的应用可能需要AI系统的细微差别要大得多。

为了解决这个问题,AI开发人员可能需要培训模型,以更加专注于战略性歧义,从而减少了过度分离的本能。诸如对抗强化学习或显式欺骗训练之类的技术可以帮助平衡AI在不立即放弃游戏的情况下推断信息的能力。

但是,就目前而言,AI仍然是一个贫穷的扑克玩家。尽管它可能很棒,但它无法保留秘密意味着它仍然没有为高风险战略推理的世界做好准备。


特色图片来源: KeremGülen/Midjourney

Tags: 人工智能特色

Related Posts

Alphaevolve:Google的新AI如何以自我纠正为目标

Alphaevolve:Google的新AI如何以自我纠正为目标

15 5 月, 2025
Tiktok正在实施AI生成的ALT文本,以提高可获得性

Tiktok正在实施AI生成的ALT文本,以提高可获得性

15 5 月, 2025
YouTube的AI现在知道您何时要购买

YouTube的AI现在知道您何时要购买

15 5 月, 2025
SoundCloud首席执行官承认AI术语还不够清楚,因此新承诺

SoundCloud首席执行官承认AI术语还不够清楚,因此新承诺

15 5 月, 2025
准备好一个真正认识你的chatgpt了吗?

准备好一个真正认识你的chatgpt了吗?

14 5 月, 2025
Lightricks揭幕了13B LTX视频模型,用于HQ AI视频生成

Lightricks揭幕了13B LTX视频模型,用于HQ AI视频生成

14 5 月, 2025
Please login to join discussion

Recent Posts

  • 智能面料对战术服装性能的影响
  • Databricks在无服务的Postgres上赌注,其10亿美元的霓虹灯收购
  • Alphaevolve:Google的新AI如何以自我纠正为目标
  • Tiktok正在实施AI生成的ALT文本,以提高可获得性
  • 特朗普迫使苹果重新考虑其印度iPhone策略

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.