显然，LLM 下棋真的很糟糕

AI语言模型能下棋吗？这个问题引发了最近对大型语言模型 (LLM) 处理国际象棋任务的效果的调查，揭示了关于其优势、劣势和训练方法的意外见解。

虽然有些模型甚至在最简单的国际象棋引擎上也表现不佳，但其他模型（例如 OpenAI 的 GPT-3.5-turbo-instruct）却显示出令人惊讶的潜力，指出了对人工智能开发的有趣影响。

针对国际象棋引擎测试法学硕士

研究人员测试了各种法学硕士，要求他们以特级大师的身份下棋，并以代数符号提供游戏状态。最初的兴奋集中在法学硕士在大量文本语料库上训练后是否可以利用嵌入的国际象棋知识来有效地预测动作。

然而，结果表明 并非所有法学硕士生来平等。

这学习从较小的模型开始，例如 美洲驼-3.2-3b，有 30 亿个参数。在与 Stockfish 的最低难度设置进行 50 场比赛后，该模型输掉了每一场比赛，未能保护其棋子或保持有利的棋盘位置。

测试升级到更大的模型，例如 美洲驼-3.1-70b 及其指令调整的变体，但它们也很挣扎，只显示出轻微的改进。其他型号，包括 Qwen-2.5-72b 和 命令-r-v01，延续了这一趋势，表明人们普遍无法掌握基本的国际象棋策略。

转折点来了 GPT-3.5-turbo-指令，即使在引擎的难度级别增加的情况下，它也能在对抗 Stockfish 时表现出色。与面向聊天的同行不同 GPT-3.5-涡轮 和 GPT-4O，经过指令调整的模型始终能够产生获胜的动作。

该研究的主要发现提供了宝贵的见解：

随着人工智能的不断改进，这些经验教训将为提高跨学科模型性能的策略提供参考。无论是国际象棋、自然语言理解还是其他复杂的任务，了解如何训练和调整人工智能对于释放其全部潜力至关重要。

特色图片来源: 彼得·马考斯基/未飞溅