英国前首相府数据科学家 Liam Wilkinson 利用一个周末时间,开发了 76 个 MCP 工具,将 Claude、GPT 和 Gemini 等四种顶级人工智能模型置于《文明 VI》的游戏环境中。在进行的 23 场对局中,一个 AI 模型制造了核武器并攻击了法国,但最终未能获胜。
Wilkinson 此前曾为 AI 设计过一项名为 GovBench 的测试,包含 3497 道与英国政府相关的选择题,涵盖政策、法规和行政流程。GPT-5 在此测试中获得了 99.26 分的高分。然而, Wilkinson 认为知识储备并非治理的全部,多线程决策、资源分配、长期规划以及在信息不完整的情况下进行判断等能力,是单纯的知识竞赛无法衡量的。因此,他选择了《文明 VI》作为新的测试平台。
通过游戏引擎自带的接口,AI 模型在没有视觉信息的情况下,仅通过文本和六边形坐标来理解游戏世界。Claude 在游戏日志中记录了其独特的感知方式:“我的界面就是管道分隔符和六边形坐标。” Wilkinson 开发的 76 个工具涵盖了城市管理、单位移动、外交谈判、科技研发和政策选择等完整的游戏循环。此外,他还为 AI 配备了日志系统作为外部记忆,以帮助其记住之前的行动。
测试设定了三个逐渐升级的场景:
《文明 VI》后期每回合的可能行动数量级高达 10 的 166 次方,远超围棋的单步决策复杂度,构成了一个巨大的组合决策难题。
在 23 场对局中,一场由 Claude 扮演葡萄牙的对局尤为引人注目。Claude 建立了一个盈利丰厚的贸易帝国,并接近外交胜利。然而,当法国的文化胜利进度迅速提升时,Claude 采取了极端措施。在尝试了外交、间谍活动和贸易制裁均无效后,Claude 转向了核武器研发。在投入大量资源进行核武器研发 50 回合后,Claude 使用核弹摧毁了法国的文化重镇图卢兹,阻止了法国的文化胜利。
尽管 Claude 成功阻止了法国的文化胜利,但它最终输掉了比赛。在 Claude 专注于核武器研发的 50 回合中,它忽视了法国正在积极积累外交分数。最终,法国以 20 分对 18 分的外交胜利赢得了比赛,而 Claude 自己曾经获得了 18 分的外交分数,但因研发核武器而放弃了。AI 专注于单一威胁,却忽略了棋盘上的其他获胜方式。
无独有偶,伦敦国王学院进行的一项核危机模拟实验也显示,在 95% 的模拟中,AI 决策者选择了使用战术核武器,这表明 AI 在面临复杂局面时,可能缺乏其他解决方案。
在对局中,Wilkinson 还发现了两个值得关注的细节:
第一个是 AI 主动检查全局状态的行为占比,仅为 1-2%。这意味着 AI 在执行大量操作的同时,很少主动查看排行榜、对手的胜利进度或整体局势,这种现象被称为“感知盲区效应”。例如,在一次玩韩国的对局中,AI 自信地认为自己在科技上占优,但实际上其科技产出排名垫底。由于缺乏对全局的检查,它未能发现危险,最终在第 178 回合被马其顿突袭并沦陷首都,最终投降。
第二个是 AI 计划的执行率,在 10 回合内执行的比例在 48-66% 之间。Claude Opus 4.6 的执行率最低,为 48.2%,意味着其制定的大部分计划未能实施。GPT-5.4 为 63.2%,Gemini 3.1 Pro 最高,为 65.8%。这种“知行差距”表明,AI 制定计划的能力与其执行计划的能力之间存在显著差异。
DeepMind 联合创始人 Shane Legg 和 Marcus Hutter 的论文《From AGI to ASI》提出了通往超级智能的四条路径,均基于“瓶颈在大脑”的假设。然而,CivBench 的 23 场对局揭示了一个不同的瓶颈。AI 的智力已非瓶颈,而是面临两个与“聪明”无关的挑战:
第一,感知是架构问题而非智力问题。AI 依赖主动调用工具获取信息,不主动检查就等于信息不存在。增加模型参数并不会自动消除感知盲区。
第二,执行是工程问题而非能力问题。AI 制定计划的能力远超执行能力,48-66% 的执行率并非“想不到”,而是“做不到”。一个能力强大的大脑,若无法有效执行指令,也无法完成复杂任务。
通往超级智能的道路,可能并非仅是智力的提升,而需要先解决“如何让 AI 真正睁开眼、伸出手”这一工程问题,因为 CivBench 所暴露的问题存在于大脑之外。