全球快播:Science:DeepMind又一突破,AI玩转了西洋陆军棋,跻身历史top3
对棋类游戏的掌握程度,一直是判断人工智能(AI)是否真正智能的依据之一,因为这类游戏可以被用来评估 AI 代理在受控环境下自主开发和执行策略的能力。
【资料图】
如今,AI 在此前尚未掌握的经典棋类游戏 Stratego(西洋陆军棋)中,表现出了人类专家级一般的水准——
以97%的最低胜率击败了其他 AI 机器人;在 Gravon 平台上与人类专业玩家对弈,取得了84%的总胜率,在年初至今和历史排行榜上都排在前三名。
值得注意的是,这一惊人表现是在没有部署任何搜索方法的情况下实现的,这是 AI 之前在棋类游戏中取得多个里程碑式成就的关键。
(来源:维基百科)
相关研究论文以“Mastering the game of Stratego with model-free multiagent reinforcement learning”为题,已发表在权威科学期刊 Science 上。
多年来,Stratego 一直是人工智能行业的下一个前沿领域之一。Stratego 玩家既需要有像玩国际象棋一样的长期战略性思考,也需要能够像打扑克一样处理不完全的信息。
不完全信息,意味着参与人在进行博弈时不清楚博弈中的某些要素。例如,在桥牌游戏中,玩家并不清楚其他玩家手中的牌,在拍卖会中,竞拍人并不清楚其他竞拍人对物品的估价。
这个名为“DeepNash”的 AI 代理出自 DeepMind,在他们看来,这代表了一个非凡的成果;同样,Stratego 社区也认为,这用现有技术是不可能实现的。
Stratego 诞生于 1947 年,与中国陆军棋不同,其军衔、棋子数量较多,棋盘设计较为简单,没有铁路、行营,也没有裁判,当两方棋子相遇后,才会揭开来判断大小。二者的相同之处,都是以夺得对方军旗或消灭所有可移动的棋子为胜利标志。
图|陆军棋与 Stratego
Stratego 便是一种不完全信息游戏。与之相反,国际象棋、跳棋、日本将棋和围棋可看作完全信息博弈,因为双方完全清楚游戏规则,当前局面对方可能的下法等信息。
而且,Stratego 具有非常复杂的结构,其博弈树具有10^535种可能的状态,比无限德州扑克(10^164)和围棋(10^360)都要多。
另外,在特定情况下,Stratego 玩家需要在游戏开始时推理出多于10^66对可能的排布,而在德州扑克中,这一数字仅为 10^6;完全信息游戏则没有这一阶段,相对更为简单。
具体游戏规则为:两方将所有己棋竖立、以正面朝后的方式排布,然后轮流移动一枚己棋;可以将棋子沿纵横方向移动一格至空格或敌棋处,但需要维持正面朝后;如果一方棋子到达敌棋处,便将两棋公开,一般胜方这一棋子会被放回原位且正面继续朝后,输方这一棋子则被移除游戏。
图|胜负关系判定(来源:维基百科)
提前计划的能力,一直判断某一 AI 技术/代理是否成功的核心问题,Stratego 等不完全信息游戏,则常被用来测试 AI 代理依次做出相对缓慢、慎重和合乎逻辑的能力大小。
然而,目前利用不完全信息搜索技术来掌握 Stratego 是不可能的。
据论文描述,DeepNash 使用了一种博弈论的、无模型的深度强化学习方法 R-NaD,无需搜索,便能以从头开始的自我博弈方式来学习如何掌握游戏策略,比如虚张声势。
正如冯·诺伊曼(von Neumann)所描述的那样:“现实生活由‘虚张声势’‘欺骗的小策略’‘问问自己别人会认为我打算做什么’组成。”
图|DeepNash(蓝色)在与人类(红色)的对阵中表现出“虚张声势”。正面虚张声势(A);负面虚张声势(B);DeepNash 将一个斥候伪装成一个间谍,并获得情报(C)。(来源:该论文)
研究团队表示,这项工作引入了一种新的博弈论方法,与最先进的基于搜索的学习方法截然不同,在训练过程中不执行任何形式的搜索或显式对手建模,只依赖于在测试时使用一些游戏特定的启发式教学。
展望未来,目前还没有迹象表明 R-NaD 在零和的双人游戏设定之外会如何发展。
然而,研究团队却认为,它或许可以解锁深度学习方法在现实世界中具有不完全信息特征的巨大空间的多智能体问题中的进一步应用。例如,最先进的双人扑克方法已经成功应用在六人扑克中。
该方法在这类不完全信息场景下或许有很多潜在应用,包括人群和交通建模、智能电网、拍卖设计和市场问题等。
参考链接:
www.science.org/doi/10.1126/science.add4679
标签: