热门看点：1000个教AI打电竞的人

2022-10-24 08:37:24来源：36氪

你在丛林的边缘出生，来到这个世界要学的第一件事，叫做“生存”，需要学会采集生活物资，知道猎杀或者躲避敌人。初始，你的水、食物数值为100，血量也是100；当水和食物二缺一时，就会在每个时间单位掉10滴血，血量变为0时，你将失去生命特征死亡。

【资料图】

在危机四伏的丛林中行走，除了掉血而亡，还有好几种死法，比如遭敌人猎杀成为“盘中餐”、不小心踩到致命岩浆等。此时，系统告诉你，当下是猎杀敌人的最佳时机，能快速积累助你“丛林逃生”的分数，但你可能错过击杀NPC获取升级装备的机会，你是要分数还是要装备呢？当背包装满时，你是选择卖掉部分攻击装备，腾出空间储存应急药物和生存物资，还是无论如何坚决不把武器装备拱手于敌人？

这些问题并非假设，而是AI在一场赛事中真实面临的选择。而将AI置于这种两难境地的，是超参数科技的研究员们。今年4月，他们依托Neural MMO（简称NMMO）学术环境，发起系列「NMMO海量AI团队生存挑战赛」，探索海量AI的智能决策能力。截至今日，AIcrowd平台数据显示，有1000多位选手参与其中，他们来自不同的国家，大多是行业从业者和高校学生。

一个海量AI智能决策“比武场”

在地球生命的早期，生物有机体非常简单。它们是微小的单细胞生物，几乎没有协调能力。然而，数十亿年的进化通过竞争、合作和自然选择，形成了复杂的生命形式，以及复杂的人类智能。

NMMO正是受此启发，模拟地球生命之间的竞争与合作，通过设计游戏规则、海量AI竞争与合作，以及标准的大规模强化学习算法，刺激AI在没有监督的情况下学习复杂的策略和技能，看是否能演进出更复杂的智能。它由麻省理工学院博士生Joseph Suarez开发，结合了大型多人在线角色扮演游戏（MMORPG）玩法，是一个面向强化学习、支持海量AI研究的学术环境。

对大多数游戏玩家来说，MMORPG并不陌生，风靡全球的《魔兽世界》就是最经典的MMORPG游戏。这类游戏的特点在于强社交属性，以及丰富的交互和持续更迭的游戏内容。NMMO很像游戏，不同的是玩家为AI，而非人类。

AI会作为玩家降生在游戏地图的边缘。整个地图是一个抽象的生态系统，设置了可供饮用的水、可获取食物的森林、碰到即致命的岩浆、可转化为存储食物资源的鱼和能生产高级魔法弹药的水晶石等16种自然资源或元素。每个AI拥有局部的“视野”，需要水和食物来生存，当身体中储存的水和食物低于一定量的时候，AI的生命值就开始下降。

NMMO中存在近战、远程、魔法三种攻击方式，三者互相克制，是一种石头剪刀布式的博弈。此外，AI之间除了互相攻击，还可以攻击NPC，由此获得金钱和盔甲、武器等装备。

AI们需要完成探索、觅食、战斗和升级装备等多重任务，并根据这些技能的等级计算分数。这是一场AI小队间的竞争，一支队伍的得分将由某一项最高的个体得分所决定。因此，AI小队需要实现高效分工合作，不同的AI承担不同的角色任务，以最优团队策略去获取游戏的最终胜利。

在这个过程中，AI与NPC、队友、敌方之间需要进行丰富的交互和博弈，非常考验AI自身的智能决策能力。AI要想在资源有限而竞争者众的环境中更好地生活，就要学会让步和协调双方利益，比如给队友送人头，甚至和敌方合作获取更好的装备。

一场硅基生命体的“社会实验”

在超参数科技的研究员陈嘉欣看来，NMMO的优势在于它是一个支持海量AI共存、交互，并涌现策略的生态系统。她所在的团队目前正围绕“AI社会”概念展开一系列的研究项目，其核心在于探索海量AI相互影响下所形成的自运转社会系统，而在强化学习领域颇具影响力的NMMO符合这类研究对环境的基本需求。

因此，超参数科技联合麻省理工学院、清华大学深圳国际研究生院，以及数据科学挑战平台AIcrowd，共同主办「NMMO海量AI团队生存挑战赛」的系列竞赛，并向全球AI研究者、爱好者发出邀请。

陈嘉欣介绍，不同于打麻将、斗地主这类任务定义简单而明确的游戏，NMMO是一个复杂的开放世界，有基本的采集、生存逻辑，也有战斗、装备系统，“AI需要做符合底层规则和逻辑的行为”。但这只是进行研究的基础条件，若想深入探索“AI社会”概念，促使海量AI涌现出更丰富、复杂的策略，研究员们需要对NMMO进行改良，重新设计交互、博弈机制。

在8月的新赛事中，研究员们引入了职业分工、毒圈机制、交易系统等新元素，通过加长决策链条进一步仿真现实世界的决策环境，将AI的决策难度再抬上一个等级。

新增的职业分工相当于是AI在这个虚拟世界中所承担的“社会角色”。相较一开始就设定好固定角色的普通游戏，NMMO赛事里的AI可以在八种不同的职业中进行自主选择。研究员们很喜欢这种有灰度的设置，期待看到AI在博弈中演化出属于自己的角色。事实正是如此，赛事平台视频回放显示，AI小队在自主探索的过程中，逐渐出现了队内的职业分工，这种行为也在一定程度上提升了小队的整体效率。

而与职业分工息息相关的另外两种设定——装备系统和交易系统，则使AI小队之间涌现出更加丰富、复杂的交互行为，AI们不再局限于互相攻击、抢夺资源，可以自由买卖装备、食物等物品，并根据不同的情况给物品定价。因此，有参赛者选择避开冲突性高的进攻型策略，转向致力于“搞钱”的迂回路线。研究者们观察到，有AI小队演化出了“低买高卖”的经济学行为，在众多的竞争队伍中赢得自己的相对优势，最终也取得不错的比赛成绩。

无论是整个团队做好高效分工去正面对战，还是另辟蹊径去集体遨游商海，都让NMMO呈现出更接近人类社会的面貌。如果说最初的NMMO更像纯粹的自然界，只为活命的AI更像野生动物；那经过更新迭代的NMMO俨然已迈入人类社会，AI们也开始了商业文明之旅。

一群探索技术边界的“先行者”

在上千个参赛者提交的比赛策略中，其实没有关于AI智能决策问题的直接答案，但研究员们认为NMMO是“现实世界在虚拟环境的映射”，研究AI在环境中的每一个行动、决策都能带来新的启发和思考，最终会向着解决现实世界中具有挑战性的实际问题转化，真正帮助相应领域的发展。

超参数科技高级研发总监朱晓龙观察到，在数字化、智能化转型的时代大背景下，其实存在非常多智能决策应用场景，比如智能运输调度、经济政策制定等，而NMMO系列挑战赛或能起到助推器的作用。比如，Salesforce Research和哈佛大学的研究，就是通过在类似的仿真环境中观察AI对税收政策的反应，帮助使用者推演出最优解决思路，最后实践证实了AI对于政策设计和提高社会福利具有促进意义。

随着AI研究者和行业实践者更多地进行联合探索，AI近几年已经逐步成为“显学”，从仅能被感知到影子的“推荐算法”变为产品的核心组成部分，近期风头无两的“AI绘画”正是典型代表。这一切从Google两个研究员开始，2012年他们在实验室训练深度学习网络，指导计算机去画猫脸图片。历经十年技术更迭、沉淀，AI绘画终于迎来爆发，出现如DALL·E2、Midjourney、Stable Diffusion等令人惊叹的成果，并在短短几个月内实现飞速更新和广泛应用。

放在十年前，人们很难想象的是，有一天，AI会跑到文学艺术的领地上来。正如当下，研究者们也很难预料NMMO赛事所做的技术探索未来会迸发出怎样的革新力量，最终能创造出怎样的全新物种。唯一可以确定的是，AI作为数字智能时代最受关注的前沿技术之一，将深度融入人类的未来生活。

标签：