最终决战！OpenAI将挑战Dota2最强战队、TI 8冠军OG

作者：机器之心来源：机器之心公众号

分享到：

03-27

机器之心报道

参与：李泽南、李亚洲

OpenAI 今日宣布，它们的游戏人工智能 OpenAI Five 将于 4 月 13 日与人类进行最终决战，此次比赛的对手是 Dota 2 世界冠军团队 OG。

虽然在去年 8 月的 Dota2 国际邀请赛（TI8）上，连续输给 paiN 以及由大 B 神、xiao8、430、ROTK、狗哥这些中国 Dota 届元老组成的战队，但 OpenAI 并没有因为挑战失败而放弃尝试。这一次他们直接选择了与 TI8 上的冠军团队过招。

看来在最近 6 个多月的时间里，人工智能又学会了一些新的技术？

这次比赛的规则类似于 TI8 时 OpenAI Five 与职业战队的比赛：

18 名英雄可选：斧王、水晶室女、死亡先知、撼地神牛、矮人直升机、巫妖、巫魔巫师、死灵法师、痛苦女王、剃刀、隐刺、影魔、斯拉克、矮人火枪手、斯温、潮汐猎人、冥界亚龙、巫医。镜像匹配：瘟疫法师、矮人火枪手、冥界亚龙、水晶室女、巫妖。
无圣剑、魔瓶
无召唤物，无幻象
无扫描

值得注意的是，TI8 比赛期间，去除掉了「5 个无敌信使」的限制，因为这个条件会极大的影响游戏的真实性。

本次 OpenAI Five Finals 赛事直播地址：https://www.twitch.tv/openai
比赛时间：北京时间 4 月 14 日凌晨 2：30 分（美国太平洋时间 4 月 13 日 11：30）

OpenAI Five：挑战人类的成与败

人工智能在围棋上击败人类之后，很多技术人员就开始展望 AI 在视频游戏中的表现了。2017 年的 Dota2 国际邀请赛 TI7 上，OpenAI 推出的人工智能横空出世，在人类巅峰对决的比赛现场 1v1 打败了世界顶级玩家。

在那场一对一表演赛中，OpenAI 的人工智能打败了 Danylo "Dendi" Ishutin，一名在职业生涯中赢得超过 70 万美元奖金的职业玩家。OpenAI 的 bot 在第一场比赛开始约 10 分钟打败了 Dendi。在第二场比赛中 Dendi 放弃，并拒绝进行第三场比赛。

Dendi 在比赛前接受采访，作为第一个在公开比赛中被 AI 击败的职业选手，他领教了人工智能在单挑时的应变能力。

单挑可能还不具有太多说服力，Dota2 是一个 5v5 的多人对战游戏，很快 OpenAI 就开启了更为正式的「10 人对决」之旅。2018 年 6 月，这家公司提出的「OpenAI Five」又在 5v5 多人对局中击败了由前职业玩家、游戏解说组成的天梯 6000 分级别战队，并宣布会于 TI8 上亮相和真正的职业选手过招，一时吸引了人们的关注。

Dota2 是目前全球最为流行，也最复杂的电子竞技游戏之一。其最负盛名的赛事「TI」每年都会吸引上千万玩家的关注。

面对 AI 的挑战，人类跃跃欲试，在 TI8 上很多参赛队伍都报名想参加 OpenAI Five 的比赛，OpenAI 遇到的第一个对手是来自巴西的战队 paiN，后者也是 TI8 决赛阶段第一支被淘汰的队伍。有了 AlphaGo 的「前车之鉴」，人们纷纷预测 AI 稳赢，然而人类职业玩家却让 OpenAI 尝到了失败的滋味。

paiN 选择了开雾直接冲进天辉野区，四人围攻落单的潮汐，抢到了一血。OpenAI 也展示出了人工智能「不聪明」的一面，在塔下不断插眼。虽然在随后的比赛中双方有来有往，但人类玩家逐渐掌握了计算机的套路，在 50 分钟的比赛后打爆了对方的水晶。

在 Open AI Five 对阵 paiN 的比赛中，人工智能对于自己获胜概率的预测。

这场失利让大家对于 AI 的期待有所下降，随后在第二场比赛中，由 Burning、Xiao 8、430、ROTK 和 Sansheng 组成的「中国 Dota2 元老队」也顺利击败了 OpenAI Five，让人工智能的 TI8 之旅最终以失败告终。

第二场比赛中，人类用了 45 分钟拿下胜利，人头比 48 比 43。

解决 5v5 的核心问题

虽然首次挑战职业玩家没有成功，但 OpenAI Five 的尝试为人工智能领域技术的发展有着很大意义——它解决一个重要问题：强化学习在如此复杂、需要长期策略的游戏环境下是否依然奏效？

通过自我对抗学习，OpenAI Five 每天相当于玩 180 年的游戏。训练上，它使用 256 块 GPU、12 万 8000 个 CPU 核心使用近端策略优化（Proximal Policy Optimization）方法进行训练。当每个英雄使用单独的一个 LSTM，模型就可以在没有人类数据的情况下学到可识别的策略。这表明强化学习即使没有根本性的进步，也能够产生大规模但也可接受的长期规划。这出乎了 OpenAI 研究人员起先的预料。

为了训练每个英雄，OpenAI 使用了两种机器学习技术：长短期记忆网络（LSTM）和近端策略优化（Proximal Policy Optimization）。

为什么使用 LSTM 其实很好理解：打 Dota2 需要长期策略，敌方英雄的每一个当前行为都会对之后的行为产生影响。LSTM 是一种循环神经网络（RNN），它比普通的 RNN 更适合于处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM 有一个叫做 Cell 的元素，能够分辨出输入的信息是否有用，是否需要记住。

每一个 bot 的神经网络包含一个单层的、拥有 1024 单位的 LSTM，观察游戏的局势然后做出相应的行为。下图这个互动演示就是可以让你理解每个 bot 是如何做出指令的，这些画面就是 Dota 2 的 API 所观察到的。

如何让五个神经网络协作团战是另一个让不少人好奇的地方，这其实也是建立在奖励机制上。OpenAI 为 AI 模型开发了一个叫 Team Spirit 的超参数，数值从 0 到 1，数字越小每个神经网络就越「自私」，相反则越考虑团队的整体利益。到最后，OpenAI 发现将 Team Spirit 设置为 1 都能赢得比赛。

在训练初期，研究员其实会将数值调整的很小，这样 AI 会更考虑自身的奖励，学习如何分路、对线、提供金钱和经验。等到每个神经网络学会了基本的策略和玩法后，研究员才将数值慢慢提高。

由于所有参数都是随机，AI 没有引入任何人类的经验，所以 AI 没有 1-5 号位的概念，不会区分辅助和 carry，出装备也是从头开始学习。

在第一场游戏中，英雄漫无目的地在地图上探索，而在几个小时的训练后，出现了规划、发育或中期战斗等概念。几天后，智能体能一致地采用基本的人类策略：试图从对手偷财富、推塔发育、在地图旋转控制英雄以获得线路优势。通过进一步的训练，它们开始学会了 5 个英雄一起推塔这样的高级策略。

TI8 冠军 OG 战队

OpenAI 卷土重来，这一次直接选择挑战目前人类最强战队 OG，展示了自己的强大自信。这次的「最终对决」，OpenAI 直接以 Finals 为名，看来是最后一战了。更令人兴奋的是，它的对手 OG 绝非等闲之辈。

OG 战队前身为 Monkey Busniess 战队，后被一家游戏直播平台收购改名为 OG。2015 年，OG 战队在决赛中击败了 Secret 战队，夺得法兰克福特锦赛冠军，从此一战成名。

2016 年，OG 战队虽然在上海锦标赛中失利，却于当年在马尼拉再次奋起夺得第二个特锦赛冠。

冠军团队也并非一帆风顺的。在 2016 年 TI 赛惨败之后，OG 战队经历了一波换血：去掉了 Cr1t-、Miracle-和 MoonMeander，新加入 Jerax、Ana 和 s4。重生之后的 OG 随即斩获了波士顿特锦赛的冠军，之后于 2017 年获得基辅特锦赛冠军。

TI5-TI7 期间，OG 取得了 7 个官方特锦赛中的 4 个冠军，这是一支顶级的世界强队。

但 OG 真正的传奇，展现在 TI8 的舞台上。

TI8 自 2018 年 8 月 15 日温哥华开战后，OG 先以 2：1 击败 PSG.LGD，取得胜者组冠军。而后，打落败者组的 PSG.LGD 在败者组决赛中以 2:0 战胜 EG 挺进总决赛。TI8 决赛成为了 OG 与 LGD 的恩怨局。

8 月 26 日，在总决赛的精彩对决中，最终 OG 更胜一筹，3：2 赢得 LGD，在全世界面前捧起了 TI 冠军盾，而 N0tail 与 JerAx 也成功拿下四大联赛大满贯。

小结

虽然 TI8 期间，OpenAI Five 与职业选对的「表演赛」输的惨不忍睹，但让我们看到了人工智能在游戏领域的创新与突破。此次 OpenAI Five 最终决战 TI 8 冠军 OG，无论结果如何终将为 OpenAI 的 Dota2 游戏项目划上一个句号。希望时经一年，OpenAI Five 能带来更为惊艳的表现。

最后，去年的「大巴黎，咚咚咚」，今年上海 TI 9 加油啊……小编要去现场！！！

vivo互联网将于 3 月 30 日举办「亿级用户的智能体验交付之路」主题沙龙，邀请 vivo 大数据专家、高级算法工程师为大家做精彩分享。点击「阅读原文」参与报名。

查看原文

阅读39633

决战 dota2

关注机器之心微信号：almosthuman2014