您现在的位置是: 首页 > 创业创新 >

DeepMind的AI击败了星际争霸顶级玩家

DeepMind的AlphaStar AI程序最近以5-0击败了两名顶级职业星际争霸玩家。
 DeepMind的AI击败了星际争霸顶级玩家

DeepMind团队撰写了有关他们玩StarCraft II的 AI程序AlphaStar的文章。AI程序玩了两个不同的高级职业玩家,将5场比赛都输给了0。尽管自2009年以来研究人员一直在开发AI来玩StarCraft,但在与人类玩家的年度比赛中, “ [甚至]目前最强大的机器人都在业余人类上玩水平。”
 DeepMind的AI击败了星际争霸顶级玩家

出于许多原因,教授AI程序来玩实时策略(RTS)游戏具有挑战性。首先,与经典战略游戏(如国际象棋或围棋)不同,玩家无法随时看到整个游戏的状态。动作的效果可能不会在很长一段时间内得到回报,并且玩家必须实时连续动作,而不是交替交替地进行单个动作。而且,游戏的动作空间更大:“星际争霸”游戏可以包含数十座建筑物和数百个单位,可以按层次进行分组和控制,而不是少数几个可以明确定义的合法动作的“碎片”。

2017年,DeepMind在博客中与StarCraft的制造商暴雪娱乐(Blizzard Entertainment)建立了合作伙伴关系,以 开发用于玩游戏的AI。DeepMind开源PySC(一种围绕Blizzard的StarCraft II API的Python包装器),是他们研究工作的一部分。最新的公告是他们工作成果的更新。
 DeepMind的AI击败了星际争霸顶级玩家

AlphaStar使用深度神经网络来控制其行为。网络的输入是来自游戏界面的数据,输出是游戏的命令。尽管尚未发布完整的技术细节,但该博客确实指出,该网络由“到单元的躯干躯干(类似于关系型深度强化学习),结合了深层的LSTM核心,具有功能的自回归策略负责人组成。指针网络和集中的[sic]值基准。”

该网络首先通过监督学习在人类玩家之间公开可用的示例游戏中进行训练。然后,使用该网络或代理的副本来创建多代理“联盟”。他们互相对抗,并使用强化学习(RL)技术改进了比赛。随着时间的流逝,特工被冻结,他们的新副本被添加到联赛中以供RL改进。通过这种方式,系统可以通过训练来自旧副本的新代理来探索新策略,同时通过使学习过它们的代理保持不变来“记住”先前学习的策略。为了训练联盟,DeepMind构建了一个分布式系统,该系统在Google的v3 TPU上运行了14天 ,每个代理使用16个TPU。比赛中使用的最终特工由联盟中特工的“最有效的策略组合”组成。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
Top