目前网络上有非常多 LLM 大语言模型,就 AI 聊天机器人来说,训练数据越多,基本上就越厉害,但如果应用在格斗游戏就不是这样,最近国外有人将 LLM 与《街头霸王》游戏结合,测试 14 个大语言模型,最终获胜的反而都是小模型。

这个开源项目叫做 LLM Colosseum,由 Stan Girard 和 Quivr Brain 开发,根据介绍,这款游戏是在模拟器中运行,允许 LLM 操作游戏中的角色并进行对决(角色仅限使用 Ken),每个人都能下载安装这个项目自行测试。
Amazon 员工 Banjo Obayomi 几天前分享一篇他使用这项目来测试 14 个 LLMs 的结果,内容也有详细说明 LLM 是怎么控制《街头霸王》游戏中的角色。 LLM 会不断读取游戏的当前状态,如:角色位置、生命值和分数,这些数据会被翻译成一个提示,如:可采取的动作和建议的策略,以便于 LLM 的理解和使用:

LLM 接收到这个提示后,会分析当前游戏状态并决定接下来的行动,转化为游戏指令,并在模拟器里实施,像是靠近、后退、波动拳、升龙拳:

从博主 Matthew Berman 分享的视频,可以看到一个比较完整的对决,左边是 MISTRAL SMALL 模型,右边是 MISTRAL MEDIUM 模型,两个模型打起来还蛮顺的,不过有个细节可以注意,这些二个模型似乎都没有所谓的防守动作,就只是移动、攻击这样。 如果是跟人类对打,没意外人类很容易就赢了:

无论如何,这是一场 LLM 之间的战斗,最终是 MISTRAL SMALL 获胜,小模型比大模型还强。 由此可见,不同于 AI 聊天,格斗游戏最看重的是速度和反应,LLM 小模型通常具有较低的延迟和速度。
Matthew Berman 视频后半段还有安装 LLM Colosseum 项目的教程步骤,想要自己玩玩看的人推荐看一下。
而 Banjo Obayomi 测试的 14 个大语言模型,最终获胜的是 claude_3_haiku,总共进行 314 场比赛。 他也发现到小模型延迟较低,每场比赛的反应时间都更快、动作也更多,因此 Anthropic 的 Claude 拿下前面位置也不意外:

不过 LLM 虽然很聪明,但也不是没有缺点,有时候还是会出现一些特殊状况,像是「幻觉」、「拒绝游玩」。 另外每个 LLM 也有独自的游戏风格,有些喜欢激进的攻击,有些则是采取更具防御性的反击,甚至还有不断重复发送相同动作的垃圾攻击:
