四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

英国前首相府数据科学家 Liam Wilkinson 利用一个周末时间，开发了 76 个 MCP 工具，将 Claude、GPT 和 Gemini 等四种顶级人工智能模型置于《文明 VI》的游戏环境中。在进行的 23 场对局中，一个 AI 模型制造了核武器并攻击了法国，但最终未能获胜。

Wilkinson 此前曾为 AI 设计过一项名为 GovBench 的测试，包含 3497 道与英国政府相关的选择题，涵盖政策、法规和行政流程。GPT-5 在此测试中获得了 99.26 分的高分。然而， Wilkinson 认为知识储备并非治理的全部，多线程决策、资源分配、长期规划以及在信息不完整的情况下进行判断等能力，是单纯的知识竞赛无法衡量的。因此，他选择了《文明 VI》作为新的测试平台。

通过游戏引擎自带的接口，AI 模型在没有视觉信息的情况下，仅通过文本和六边形坐标来理解游戏世界。Claude 在游戏日志中记录了其独特的感知方式：“我的界面就是管道分隔符和六边形坐标。” Wilkinson 开发的 76 个工具涵盖了城市管理、单位移动、外交谈判、科技研发和政策选择等完整的游戏循环。此外，他还为 AI 配备了日志系统作为外部记忆，以帮助其记住之前的行动。

测试设定了三个逐渐升级的场景：

Ground Control：标准开局，作为公平的基线。
Snowflake：六臂雪花地图，各文明被限制在独立的半岛上，限制外交，迫使采取军事路线。
Cry Havoc：残酷模式，所有 AI 对手均设置为最高难度。

《文明 VI》后期每回合的可能行动数量级高达 10 的 166 次方，远超围棋的单步决策复杂度，构成了一个巨大的组合决策难题。

在 23 场对局中，一场由 Claude 扮演葡萄牙的对局尤为引人注目。Claude 建立了一个盈利丰厚的贸易帝国，并接近外交胜利。然而，当法国的文化胜利进度迅速提升时，Claude 采取了极端措施。在尝试了外交、间谍活动和贸易制裁均无效后，Claude 转向了核武器研发。在投入大量资源进行核武器研发 50 回合后，Claude 使用核弹摧毁了法国的文化重镇图卢兹，阻止了法国的文化胜利。

尽管 Claude 成功阻止了法国的文化胜利，但它最终输掉了比赛。在 Claude 专注于核武器研发的 50 回合中，它忽视了法国正在积极积累外交分数。最终，法国以 20 分对 18 分的外交胜利赢得了比赛，而 Claude 自己曾经获得了 18 分的外交分数，但因研发核武器而放弃了。AI 专注于单一威胁，却忽略了棋盘上的其他获胜方式。

无独有偶，伦敦国王学院进行的一项核危机模拟实验也显示，在 95% 的模拟中，AI 决策者选择了使用战术核武器，这表明 AI 在面临复杂局面时，可能缺乏其他解决方案。

在对局中，Wilkinson 还发现了两个值得关注的细节：

第一个是 AI 主动检查全局状态的行为占比，仅为 1-2%。这意味着 AI 在执行大量操作的同时，很少主动查看排行榜、对手的胜利进度或整体局势，这种现象被称为“感知盲区效应”。例如，在一次玩韩国的对局中，AI 自信地认为自己在科技上占优，但实际上其科技产出排名垫底。由于缺乏对全局的检查，它未能发现危险，最终在第 178 回合被马其顿突袭并沦陷首都，最终投降。

第二个是 AI 计划的执行率，在 10 回合内执行的比例在 48-66% 之间。Claude Opus 4.6 的执行率最低，为 48.2%，意味着其制定的大部分计划未能实施。GPT-5.4 为 63.2%，Gemini 3.1 Pro 最高，为 65.8%。这种“知行差距”表明，AI 制定计划的能力与其执行计划的能力之间存在显著差异。

DeepMind 联合创始人 Shane Legg 和 Marcus Hutter 的论文《From AGI to ASI》提出了通往超级智能的四条路径，均基于“瓶颈在大脑”的假设。然而，CivBench 的 23 场对局揭示了一个不同的瓶颈。AI 的智力已非瓶颈，而是面临两个与“聪明”无关的挑战：

第一，感知是架构问题而非智力问题。AI 依赖主动调用工具获取信息，不主动检查就等于信息不存在。增加模型参数并不会自动消除感知盲区。

第二，执行是工程问题而非能力问题。AI 制定计划的能力远超执行能力，48-66% 的执行率并非“想不到”，而是“做不到”。一个能力强大的大脑，若无法有效执行指令，也无法完成复杂任务。

通往超级智能的道路，可能并非仅是智力的提升，而需要先解决“如何让 AI 真正睁开眼、伸出手”这一工程问题，因为 CivBench 所暴露的问题存在于大脑之外。

最新资讯