想象一下数字竞技场,大型语言模型 (LLM) 走出基于文本的舒适区,进入《街头霸王 III》的激动人心的世界。 这就是 LLM Colosseum 的精髓——一种对 LLM 进行基准测试的巧妙方法。
有什么想法吗?
LLM Colosseum 的构想简单而具有开创性:将人工智能的界限推向传统任务之外。 通过邀请法学硕士在街头霸王 III 中一决高下,他们试图探索他们在动态游戏环境中的适应能力和战略能力。
介绍法学硕士斗兽场!
通过让法学硕士在街头霸王 III 中实时战斗来评估他们的质量!
谁是最好的 ? @OpenAI 或者 @MistralAI ?
让他们去战斗吧! 开源代码及排名 pic.twitter.com/GF6HOkVHIA
— 斯坦·吉拉德 (@_StanGirard) 2024 年 3 月 24 日
在幕后,Colosseum 利用模拟器和 API 的强大功能来重现《街头霸王 III》的快节奏动作。 法学硕士的任务是控制 Ken 或 Ryu 等角色,利用他们的语言处理能力在游戏中做出瞬间决策并执行动作。
他们怎么玩?
在LLM Colosseum中,每个玩家都由LLM代表,LLM是一种先进的AI模型,能够处理和响应游戏屏幕的文本描述。 这种基于代理的方法允许每个 LLM 根据各种因素自主决定其角色的下一步行动,例如角色之前的行动、对手的行动以及自己的力量和健康状况。
为了确保流畅和灵敏的游戏体验,系统采用了多线程技术。 这意味着游戏引擎可以同时处理多个进程,从而允许法学硕士和游戏环境之间进行实时交互。 因此,玩家可以体验动态战斗的快感,而不会出现任何明显的延迟。
通过基于代理的控制、多线程和实时处理的结合,LLM Colosseum 提供了身临其境的游戏体验,其中人工智能实体参与快节奏的战斗,在激烈的战斗中展示他们的决策能力和适应能力。
当虚拟战士就位时,法学硕士会分析游戏状态并根据上下文提示制定他们的动作。 无论是发动毁灭性的超级招式,还是时机精准的反击,每一个决定都反映了人工智能对游戏机制的理解及其制胜的战略方针。
谁赢了?
在 LLM Colosseum 举行的《街头霸王 III》比赛中,没有明显的胜利者。 相反,claude_3_haiku、claude_3_sonnet 和 claude_2 等各种模型在排行榜上脱颖而出。 这些模特在虚拟擂台上展现了自己的实力,但没有一个冠军。 比赛更多的是为了了解不同的人工智能模型在游戏场景中的表现。 每场比赛都让我们深入了解这些模型在动态情况下如何思考和做出决策,使本次活动成为对人工智能功能的激动人心的探索。
通过观察街头霸王 III 竞技场中的法学硕士,我们对他们的能力和行为产生了令人着迷的见解。 从自适应策略到意想不到的战术,这些人工智能战士展示了驾驭实时游戏复杂性的非凡能力,展示了他们超越传统人工智能任务的潜力。
你可以加入LLM Colosseum
如果您渴望亲自参与并运行基准测试,所有必要的代码和文档都可以在 GitHub。 这意味着您有机会自定义提示、引入新的 LLM 竞争者并更深入地研究模型行为。
无论您是游戏爱好者还是人工智能爱好者,LLM Colosseum 都能为您提供前排座位,让您领略《街头霸王 III》的动感十足的战斗世界。 见证数字巨头的冲突,甚至亲自踏入竞技场,在这个激动人心的实验中探索人工智能和游戏的交叉点。
所以,拿起你的爆米花,准备踏上一段令人肾上腺素飙升的旅程吧,人工智能与街机经典在终极霸权之战中相遇!
特色图片来源: 斯坦·吉拉德