腾讯 AI「绝悟」KPL 击败职业玩家联队,晋升王者荣耀电竞职业水平

时间:2019-08-15 来源:www.rourkelalife.com

11: 46

来源:同步机器的心脏

腾讯AI“启蒙”KPL击败了职业球员队伍,提升了国王的荣耀电子竞技专业水平

参与:泽南,杜维

昨天下午,腾讯在吉隆坡举行的King's Glory最高规格电子竞技活动KPL世界杯半决赛中的战略合作AI“启蒙”,通过了专业团队带来的水平测试,升级到专业级别电子竞技。

“启蒙”是由腾讯AI实验室和King's Glory团队共同探索的前沿研究项目。在King's Glory世界冠军杯半决赛的特别会议上,这个人工智能在专业团队带来的5v5级测试中进行了测试。获胜,首次击败King Glory游戏中的活跃职业球员。

虽然AI曾经被人类击败,但它仍然稳定地赢得了16分钟的对决。

2018年12月,在King Glory的KPL秋季决赛期间,由腾讯AI实验室和King Glory共同开发的研究项目 - 战略合作AI“启蒙”首次亮相,并接受了由前职业KPL球员组成的人力队伍和专业评论。水平测试(平均水平超过99%的玩家),最终实现胜利。昨天,启蒙运动击败了一支由四名中国球员和一名马来西亚球员组成的职业球队。

游戏视频从3分40秒开始:

OpenAI Five未能在Dota2上挑战专业团队。在比赛之前,研究人员是否对“启蒙”有信心?腾讯人工智能实验室的技术团队告诉机器的核心:“基于之前的内部基准测试,我们认为可能性仍然相对较大。但这是”启蒙“第一次被分部团队测试,少了比起最后一秒。很难说我们已经完全掌握了。在整个测试中,职业选手表现出很高的表现水平和卓越的水平。战略和协作能力体现在“启蒙” “测试表现类似于日常测试,我们非常满意。

这一次,战斗中的五个人类对手是活跃的玩家:eStar Pro,EMC的Sun,Nova的Seek,KingZone的夜晚,以及马来西亚的M8HEXA的Mike。

6e40742001c1427fb0506f6d94ddb555.jpeg

在游戏中,蓝方是人类团队,红方是启蒙。人类选择了曹操,纳克鲁鲁,武则天,狄仁杰和张飞的阵容;人工智能控制着菩提达摩,雅典娜,王昭君,于吉和牛德的五位英雄。

腾讯人工智能实验室表示,该游戏是固定的十大英雄,但职业玩家可以自由发挥。开发团队希望将来继续扩大英雄池的规模。

bd1ba9e1c26543c3a5bb27473889ebb0.jpeg

对阵双方阵容的人机对战。

另一个值得关注的话题是AI的手速限制。腾讯人工智能实验室表示,这套启蒙类似于人类限制手的速度,因为游戏本身具有一般攻击和技能限制,所以整体来说是一个相对公平的游戏。

人类采取血液并摧毁AI,但它没有帮助。

人工智能依赖于完整自我游戏的策略,这与人类玩家完全不同。在游戏中,我们可以看到AI不仅限于命令英雄,中间道路和道路英雄的不同“位置”。相反,它致力于最大化赚钱的效率,每个英雄获得的金币数量往往是平均的。另一方面,即使它是坦克英雄,购买的设备往往是积极的。

c916666a10eb44f98fb2a65cb620268e.gif

在游戏开始时,“启蒙运动”没有选择传统的人类阵容策略。相反,双C英雄余吉和王昭君首先清理了第一波中线并压制敌人。然后他转向压制曹操血行的道路。

与此同时,“真棒”方雅典娜和牛默合作赢得了自己的第一个蓝色buff,并中途杀死了小兵来填补血液,然后共同赢得了他们的第一个红色buff。

路,曹操和塔杀了翟姬并赢得了“人”方血。

比赛进行到4分10秒。方吉基,王昭君,佛法和牛魔鬼都压制了中间道路,而“人类”方曹操被杀了一半的血,而妮可露露被佛法收回。拳击,“无知”拉回了一个城市。

fdf4ceff0e1c45338be3ecb98a2bae57.gif

团队合作:“启蒙运动”有四个人追逐Nakolulu,AI Dharma将Naco Lulu踢进AI组,然后四个AI完美匹配以赢得他们的第一次杀戮。

随后,方吉基,王昭君,达摩和牛某继续前进,赢得了第二座塔的“人”方面;和张飞共同杀害。

在比赛的第9分钟,人类球员抓住了人工智能主宰的机会,武则天开辟了一支AI团队。然而,人类玩家没有把优势变成胜利的优势 - 只有AI道路的第二座塔被拆除了。

游戏进入中期,人工智能和人类玩家的经济并未开放太多。我们看到王昭君和AI的牛德经常使用大新兵来清除防线 - 在AI看来,所有技能都由奖励机制服务,重要性没有差别。这个场景之前曾出现在与人类的OpenAI Five游戏中,所以即使这次主持人不再发声,而是在思考:人工智能是否这样做?

.

比赛进行到15分10秒,进入游戏中最激动人心的部分。 “至尊启蒙”方玉基,王昭君,达摩和牛默在路上举行一组,攻击“人”一面的道路,然后双方的英雄们冲向混战。

此时,“人”方武当天被放大,协助自己的狄仁杰杀死敌人王昭君,而“启蒙”方玉基则射杀了妮可露露。 “启蒙运动”方牛魔术放大并协助自己的佛法杀死敌人狄仁杰。与此同时,“天启”方雅典娜赶紧杀死敌人武则天。此时,“人”英雄只留下了曹操和张飞。

然后,“至尊启蒙”方玉基成功杀死了张飞的敌人,而“人”方曹曹则回到了城市归来。然而,曹操在一天内表现不佳,只能被“忠实的”方思英雄杀死。

dc63181b9cac4306a7a6cea33b2e24f5.gif

“启蒙”的四位英雄完美匹配,最终杀死了塔。

但是在游戏结束时,“人类”英雄群体的消亡后,“绝对的启蒙”再次显示了人工智能的顽固方面:当对方没有人时,军队线被压在水晶之下,它不会选择直接推动水晶,但在计算总收入后,它选择先推出最后一个塔,然后是水晶。直到胜利。

b9bccc6a4fee4cb8b144b6b58b1fc5c1.gif

在“人类”英雄组织消亡后,“绝对启蒙”选择推倒最后一座塔。

实现AI宏观战略框架

高性能游戏AI的研究与开发是算法与算法的结合,需要优化的算法平台和优化算法的不断完善。根据腾讯人工智能实验室的说法,该团队的一些成员来自Go的AI“Jiyyi”团队,该团队整合了AI Lab的研究和工程人才,并整合了腾讯科技与工程部基础设施平台部门的人才。分部(TEG)。主要工作包括优化模型,功能,计算能力和数据,机器虚拟化,构建和优化数据处理,并行计算和机器学习培训平台。

从业余时间的顶部到专业水平,AI经历了哪些改进?据报道,“绝对启蒙”版本的测试建立了一个基于“观察 - 行动 - 奖励”的深层强化学习模型。在没有人类数据培训的情况下,人工智能从Tabula Rasa开始,让AI与自己作斗争。

“启蒙”的人工智能模型使用384个GPU和85,000个核心CPU。每天自我对抗的平均战斗次数相当于人类训练440年,训练期持续半个月以上。 AI探索从0到1的成功经验,并学习如何站立,玩耍,协助和避免伤害的常识。更有趣的是,AI还探索了与人类常规实践不同的新策略。该团队还创建了一个单一模型模型,以提高培训效率,优化沟通效率,提高AI的团队合作能力,并使用零和奖励和惩罚机制,以允许AI最大化团队利益,使其发挥决定性作用,并有一个良好的行为。

AI Kings Glory游戏的难点在于需要通过不完整的信息和高复杂性做出复杂而快速的决策。在一张大而不完整的地图上,10名参与者在战略规划,英雄选择,技能应用,路径探索和团队合作等方面面临着大量不间断和即时的选择,这带来了极其复杂的局面。预计操作可能性高达10,并且宇宙中的原子总数仅为10到80次幂。

如果AI能够在如此复杂的环境中学习,分析,理解,推理,制定决策并实时行动,它可以在变化和复杂的现实环境中发挥更大的作用。因此业界认为,下一个AI里程碑可能诞生于复杂的策略游戏中。世界顶级科技公司正在推进此类研究,例如Google DeepMind(星际争霸2),Facebook(星际争霸2)和Open AI(Dota 2)。

在去年腾讯AI实验室提交的论文《Hierarchical Macro Strategy Model for MOBA Game AI》中,我们可以理解“启蒙”背后的人工智能技术。

研究人员发现,建模策略阶段对于MOBA游戏中的AI性能至关重要。然而,教授智能机构学习宏观战略运作是非常具有挑战性的。首先,很难在数学上定义宏观策略,例如围攻和线路推进。此外,在OpenAI Five的强化学习框架中添加宏观策略需要相应的实施得到回报,但学习宏观战略操作本身就是一个复杂的过程。

因此,作者认为监督学习是一种更好的解决方案,因为高质量游戏的回放可以充分利用来学习宏观策略和相应的执行实例。应该指出的是,通过监督学习学到的宏观战略和实施可以进一步用作强化学习的初始策略。

1c715e80b5f347ab97246e06239e3df3.jpeg

(a)国王的荣耀游戏界面。玩家使用左下角的虚拟按钮来控制移动,使用右下角来控制技能。玩家可以通过屏幕和左上角的小地图观察环境。 (b)MOBA样本地图。双方队伍均以蓝色和红色为代表,每支队伍有9个防守塔和1个基地。四个野生区域分别标记为1,2,3和4。

MOBA AI宏观战略模型的设计灵感来自人类参与者的战略决策。在MOBA游戏中,经验丰富的人类玩家完全理解游戏的每个阶段,例如开放时段,线路时段,游戏中间和后期游戏。在每个阶段,玩家必须注意游戏地图并根据情况决定将英雄送到哪里。例如,在比赛期间,玩家将更多地关注自己的线路而不是支持队友。然而,在游戏的中后期阶段,玩家将更加关注战斗场地并前进到敌人基地。

宏观战略运作过程可以概括为“阶段识别 - >焦点预测→执行”。为了对这个过程进行建模,作者提出了一个双层宏观战略架构,例如阶段层和关注层:

舞台层旨在识别当前游戏阶段,以便关注层可以更清楚地知道聚焦的位置。

注意层旨在预测地图上适合发送英雄的最佳位置。

阶段和注意层为宏执行提供了高级指导。建模细节详述如下。宏模型的网络架构几乎与OpenAI Five中使用的网络架构相同,只是前者受到监督和学习。经过一些小的修改后,作者将其应用于《王者荣耀》。

1cc164684e494a168c66b04cf9a3278c.jpeg

分层宏策略模型的网络架构。

cd50c24e4ab146e29eab203b35e7a1d9.jpeg

(a)在阶段层建模的主要资源(即图中圈出的防御塔,基地,龙和暴君)。 (b)阶段层中标签提取的一个例子。

0b8313f8d2ae4f418554a0f2a70e7547.jpeg

对于不同类型的英雄,最热的区域(红色圆圈)也不同。

未来可以预期“启蒙”

“启蒙”这个名字意味着很大的理解力。它的技术开发始于2017年12月。除了出现在KPL之外,1v1版“启蒙”也首次在ChinaJoy举行,这是一个昨天在上海举行的国际数字互动娱乐展览会。公众首次亮相并为顶级业余选手开启了为期四天的体验测试。据报道,在第一天的504次测试中,“启蒙”测试的胜率为99.8%,而且只有一场比赛失利(另一方是全国服务第一职位的荣耀之王)。

腾讯表示,加强学习游戏AI的研究有助于人类在实施人工智能(AGI)的道路上走得更远。腾讯AI实验室将在不久的将来以纸张和其他形式进一步分享更多技术细节。

“应用程序,一方面,”电子竞技“将成为短期内战略协作AI”启蒙“的主要应用场景。凭借算法和数据的优势,AI可以为专业人员提供数据,战略和协作。 “实时分析和建议,以及不同优势和水平的专业陪练,”腾讯人工智能实验室说。“另一方面,依靠腾讯丰富的资源,我们将进一步开放研究方资源,用于游戏应用。”

腾讯表示,将在8月18日开放未开放计划中分享更多细节。

0db09e607ce340a5b681234311c9307e.jpeg

腾讯AI实验室一直是强化学习研究的先驱。自2016年以来,人工智能“美术”(Fine Art)的研发,现已成为中国国家围棋团队培训的特殊人工智能; 2017年,启动了“启蒙”研发;在2018年,“启蒙”达到了业余的顶级水平,腾讯也在射击类顶级AI竞赛中赢得了VizDoom冠军,并在《星际争霸 2》首先开发出一款能够击败内置AI的代理商。

腾讯副总裁姚星表示,“电子竞技”将成为短期内战略合作AI“启蒙”的主要应用场景。作为数字时代最受欢迎的运动,电子竞技已成为2018年亚运会的表演活动。中国队获得两枚金牌和一枚银牌。与传统体育一样,电子竞技专业球员也需要手眼协调,对战略和运营的快速反应,团队合作以及大量的艰苦训练。凭借其在算法和数据方面的优势,AI为专业玩家提供数据,战略和协作的实时分析和建议,以及不同级别和级别的专业陪练。过去,科学技术促进了电子竞技的专业发展,人工智能可以促进中国电子竞技在未来保持领先地位。

“游戏是对现实世界的模拟,只有一个特定目标的模拟,这是人工智能学习的完美测试场所,”腾讯AI实验室说。 “但我们的目标从来都不仅仅是游戏人工智能,但我们希望人工智能在学习如何做出数以千计的小决策之后能够实现更大的目标。在短期内,我们仍然希望将人工智能的战略合作推向极致水平。 “启迪”的能力不断提高,我们也可能会受到顶级专业团队的考验。

在长期应用中,“启蒙”将成为腾讯克服人工智能 - 人工智能最终研究问题的关键一步。 AGI代表人工智能的发展,可以在通用系统中执行各种复杂命令,达到或超过人类水平,从“极端艺术”到“启蒙”,不断让AI从0到1

仅提供信息存储空间服务。

达摩

曹操

牛妖

王昭君

阅读()