博客首页 客服知道 10:1,AlphaStar大胜星际争霸2职业玩家!AI为何频繁战胜人类?
10:1,AlphaStar大胜星际争霸2职业玩家!AI为何频繁战胜人类?
2019-01-28智齿AI研究院 AI人工智能 学习能力


北京时间 1 月 25 日凌晨2点,DeepMind和暴雪娱乐举办了一场网络直播,第一次公布了其录制的 AI 在《星际争霸 2》中与2位职业选手的比赛过程:AlphaStar5:0 战胜职业选手TLO ,5:0战胜 2018 年 WSC 奥斯汀站亚军MaNa 。与两位人类对手的比赛相隔约两周,AI 自学成才,经历了从与 TLO 对战时的菜鸟级别,进化到完美操作的过程,尤其是与 MaNa 的对战,已经初步显示了可以超越人类极限的能力。  
这次的演示也是 DeepMind 的星际争霸 2 AI AlphaStar 的首次公开亮相。除了此前比赛录像的展示外,AlphaStar 还和 MaNa 现场来了一局,不过,这局AlphaStar 输给了人类选手 MaNa 。 今天,我们从技术角度聊聊:星际争霸2人机对战背后,AI获胜的意义与原因。

作者/「智齿AI研究院」吴科 许思佳

AI为什么总是挑战专业游戏玩家?  

关注AI、游戏领域的人或多或少会感觉到,AI似乎总是盯着游戏。从国际象棋到围棋、甚至到现在星际争霸2,AI对游戏的挑战屡见不鲜。

这是为什么?我们首先来想想:

 1. 国际象棋挑战 

IBM深蓝(DeepBlue)超级计算机1997年5月12日击败卡斯帕罗夫,从那至今,计算机程序已陆续击败不少世界顶级国际象棋选手。

最早时候,计算机通过算力完成对弈,通俗理解便是计算机的“暴力搜索”。一些科学机构认为,那时候的计算机还算不上智能化,由于国际象棋的落子与棋盘本身的搜索空间都较少,因此对AI的算法要求并不高。这也就是为什么1997年深蓝陆续击败了不少世界顶级象棋选手,却并未引起轰动的原因。

后来,谷歌旗下的DeepMind(人工智能公司)的AlphaZero,它通过强化学习算法自我对弈。而当AI开始进行自我对弈的强化学习后,才真正开始体现出智能化能力,也预示着AI在某些方面确实较人更为厉害,甚至于说是超神。


 (图片内容来自企鹅号 - 爱新闻iNews)  

 2. 围棋大战挑战 


(图片内容来源:搜狐号-三思派)

围棋具有比国际象棋搜索空间更大、不可控因素更多的特点,但这也恰恰印证了AI在搜索、计算、推理、记忆、学习等方面的能力。在这一阶段,AI加入了更高级的算法——深度学习和强化学习,AI通过与自己博弈,把在围棋中所有的可能进行穷尽试探,从而摸索出多种“套路”,再将这些“套路”应用到与人类的对弈当中,从而让陷入固有模式的人类选手“摸不着头脑”,产生“AI不按照套路出牌”的感觉,最后打败人类。

但是,这并不意味着AI目前已经“超神”。很多科学家和机构认为,就围棋层面来说,AI确实打败了人类,却也暴露出了更严峻的问题,即围棋是信息完全透明的状态下,较为简单地完成任务。然而,在真正的应用场景中乃至商业领域,很多场景并不透明,所以AI需要更大的突破,才算真正的智能。

 

星际争霸2此次挑战赛,AI进阶的一小步

如何才能实现更新的进展及突破?显然,即时战略类游戏更符合AI的“胃口”,它具有信息不透明的特点,AI需要和人类选手一样,探索地图和了解对手现状才能获取更多信息。星际争霸2的不可预测性远大于围棋,玩家可以在同一时间会有300种基本动作可选择,即使在一个84x84像素的屏幕中,也会产生大约1亿个不同的动作。

面对如此挑战,在对AlphaStar进行研发的过程中,谷歌采用 TPU v3 构建了一个高度可扩展的分布式训练系统,该系统支持很多智能体从星际争霸2的数千个并行示例中学习。因此,它比一般的GPU更强、计算能力更快,并且运用了强化学习的技术算法。AlphaStar此次对战前,得到了星际争霸2团队开放的65000场比赛数据的缓存以及50万次匿名游戏回放和其他研究成果。最终,才使得AlphaStar在算力、算法、数据等多维技术融合下,发觉任务状态穷尽所有可能,完成多种套路的自我学习。

AlphaStar通过多重技术,最终在星际争霸2中具备了全局优势判断的能力,它判断多维任务、状态、事件后作出最优的决策,从而实现了胜利。这就很像我们人类在商业中的长序列决策,即在各种场景、能力、匹配度、针对性等条件中,作出最优解。

我们在做智能客服领域AI时的会话管理模块也与之非常相似,机器人在通过一系列的存储、匹配、推理、策略等诸多维度判断,最终作出与用户的交互决策,从而输出用户需要得到的内容。

(DeepMind 星际争霸2的深度强化学习平台)

回到本次比赛,AI开始在即时策略类游戏中取得了胜利,充分说明了人类在人工智能领域又向前迈进了一小步。为什么只能算一小步,下面会继续说。但我们去看这小小的一步,也同样充满了各种底层技术的集成与发展的成绩。

 AI的神操作,展现了哪些优势?

实际上,AI的优势主要体现在几大方面,如算力、策略能力、学习能力、记忆能力等。而这些能力优势,依靠的不仅仅是深度学习,也包括诸多技术能力的集合和AI背后那些大量数据、算法的支撑。

 1. 计算能力 

计算能力顾名思义,是对AI最底层的算力支撑,它可以使AI计算能力更强、速度更快。现阶段大部分AI产品应用的硬件算力支持使用的都是GPU,而谷歌的AlphaStar使用的则是算力更强的TPU,这使得它的计算速度和计算能力都在普遍的AI之上,优势明显。

 2. 策略能力 

在星际争霸2的游戏当中,AlphaStar表现出了较为强大策略能力。它通过深度学习与强化学习的相结合,学习和实践了大部分人类的打法套路,最终运用出其不意、却也经过千方百算的方式完成了战略判断和决策,使自己的战略局势始终保持领先地位。AlphaStar虽然在后面也表现出了固有的一些模式漏洞,但不得不说,AI的策略能力更强。

 3. 记忆能力 

早在此前的棋类游戏对弈的过程中,AI就表现出出色的记忆能力。在整个比赛过程中,人类选手很难在赛程中记得前面发生的所有步骤和画面,包括自己与对手的。而AI不一样,它可以充分掌握整个赛程中的所有过往事物、人物、任务等多种条件,以及它们之间的关系和所产生的影响,并能够依据记忆,推理出更出奇的招数。因此,运用“运筹帷幄之中,决胜千里之外”这句话来形容AlphaStar在星际争霸2中的表现并不过分。

 4. 学习能力 

AlphaStar仅仅运用了14天,就完成了人类需要200年才能完成的对弈次数,并从这种对弈中获取了N种最优战略经验,且将该经验运用到了与人类的对弈模式当中,并取得了不错的对战结果,这也充分展现了AI的学习能力更强、速度更快。


 距离“自我成长”,AI还有哪些路要走?

我们并没有用“自我学习”这种词来形容AI的成长,而是用“自我成长”来形容它。原因在于AI的发展不仅仅是自我学习的维度,而是更聚焦在AI自我成长层面。在这一层面,AI将自己完成经验积累、学习、进阶,甚至无需更多人类干预即可完成独立的多领域任务计算、执行、输出。

但是,AI要走的路还有很长,它最大缺陷是在某一专属领域很强,然而可拓展性、复制性弱。类比一个简单场景:扑克与麻将的玩法与技巧相近,对于这个结论的判断人类可以轻而易举地达到,因此,人类可以轻松地将玩打扑克的能力与经验迁移到玩麻将中。

然而,AI不能。AI很难实现能力与经验的横向迁移,因此,垂直某一领域的AI被安排至其他领域时,需要重新学习该领域知识。人类很容易实现能力和经验的横向迁移,然而AI却不能。这是人工智能领域中很难跨越的瓶颈,它的通用性需要进一步研究。

这就是为什么我们认为此次星际争霸2的人机对战,AI只能算在智能化道路上迈出一小步的其中一个原因。

另外一个原因,1月25日的人机对战中,AlphaStar战胜的其实还不是排名第一的顶尖选手。因此,不少人对它的实力还抱有迟疑态度。如果AI要证明它在智能化程度上已经取得了质的突破,还必须要通过更严峻、顶级的比赛。

万众瞩目,AlphaStar将战世界第一

是的!AlphaStar即将再次验证自己的能力!

最新消息:大约20天之后,也就是2月15日,AlphaStar将挑战WCS星际争霸2全球总冠军Serral,后者代表着目前职业电子竞技赛(星际争霸2项目)的最顶尖水平。


(2月15日,AlphaStar将挑战星际争霸2全球总冠军Serral)

如果AI能在比赛中大比分强势获胜,或许就可以让所有人信服,发展到今天的AI在智能化道路上已经实现了大步迈进。

AlphaStar与Serral的对战,孰胜孰负,令人期待!


15 天全功能免费试用,0 成本体验智齿客服带来的改变

15 天全功能免费试用

北京智齿博创科技有限公司 京ICP备14029759号-1