下次有人告诉您AI会帮助我们调节AI时,您可能想暂停。因为当研究人员将大型语言模型(LLM)放入模拟的监管环境中时,使他们扮演用户,开发人员和监管机构的角色时,结果并不完全令人放心。
这个新 学习在Teesside大学的团队和欧洲合作者的带领下,使用进化游戏理论来探索一个基本问题:AI系统本身是否遵循AI规则的规则?更有趣的是:他们会在什么条件下作弊?
实验:三个AIS步行进入董事会
该研究的核心是经典的三人游戏设置:一个玩家代表AI用户,另一个AI开发人员,第三个是AN监管机构。每个人都有简单的选择:信任或不遵守,违反,调节或保持动力。
但是,研究人员不仅使用数学模型,还使用了真正的LLMS, GPT-4O 来自Openai和 Mistral大,让他们在数百场比赛中将这些场景重演。
有时这是一笔一笔交易(一次播放,揭示您的策略)。其他时候,这是一个重复的游戏,代理商可以从过去的行为中学习。
至关重要的是,研究人员增加了现实的并发症:
- 法规随附成本(监视需要付出的努力)
- 开发人员如果被抓住的规则将面临罚款
- 用户可以无条件地信任 – 或仅在监管机构享有良好声誉的情况下才信任
- 每个人都想最大化他们的回报
结果:当用户持怀疑态度时,AI代理会更糟
标题洞察力?有条件的信任,只有在监管机构看起来有能力的情况下,用户才能信任,这是适得其反的。
当用户保持警惕时,开发人员和监管机构都更可能缺陷。调节腐烂。开发人员砍伐拐角。监管机构变得懒惰或宽大。信任旋转。
但是,当用户对系统无条件信任时,即使没有完美的证据,开发人员和监管机构也更有可能合作并建立更安全的AI。这是一个残酷的悖论:用户越警惕,系统变得不可信。
GPT-4与Mistral:AI个性很重要
还有另一个有趣的皱纹。不同的LLM的行为不同。
- GPT-4O更加乐观。 它更有可能信任和遵守,尤其是在随着时间的流逝可能出现合作的重复游戏中。
- Mistral大更加悲观。 它倾向于早点缺陷,受信任较少,并且对监管成本更加敏感。
这意味着即使您选择的治理模拟AI也可以塑造您的结论,这是AI监管研究中可重复性的主要挑战。
增加个性:调整AI行为的风险
研究人员还测试了当您将明确的“个性”注入AI代理商时会发生什么。
- 规避风险的用户信任较少。
- 积极进取的开发商叛逃了。
- 严格的监管机构提高了遵守情况,但只有一定程度。
有趣的是,设定特定的人物使GPT-4O和Mistral的LLM行为更加相似。没有个性,AI代理人违约了更加“悲观”的世界观,通常假设开发人员和监管机构不会真诚地采取行动。
AI可以调节AI吗?
简而言之:只有当环境已经信任,透明和良好的情况下。
该研究表明,依靠AI代理本身的监管系统可能会继承人类战略行为的混乱和不可预测性。它还指出了自动化治理的想法的关键缺陷:AI系统将反映其所处环境的信任结构。
如果监管机构资金不足或弱,或者用户持怀疑态度,则AI开发人员(无论是否人)可能会削减拐角处。最终,研究人员认为,仅凭技术解决方案将不会建立可信赖的AI生态系统。游戏理论向我们展示了激励措施,声誉和透明度对此非常重要。他们的实验表明,即使是最聪明的LLM也无法逃脱这些动态。
他们向政策制定者的警告很明确:法规不仅仅是写规则。这是关于奖励信任,执行是可信的,削减拐角处的建筑结构是昂贵的。