Science最新:DeepMind部署自学AI,攻陷FPS“雷神之锤”


大数据文摘编辑部出品
用ai攻占了国际象棋和围棋高地之后,deepmind在第一人称射击游戏(fps)上也有了新进展。
1997年5月“深蓝”击败国际象棋世界冠军卡斯巴罗夫,有玩家在庆幸,我不下象棋,只下围棋。
2017年5月alphago打败围棋世界冠军柯洁,有玩家庆幸,还好,我不下棋。
2018年6月,openai 人工智能在dota2 5v5模式中以4000分水平击败人类玩家,依旧有玩家庆幸,我不玩rpg(角色扮演)对战,我只玩fps(第一人称射击)。
如今,fps也被ai攻陷。
近日,deepmind的研究人员在本周的《科学》杂志上发表了一篇论文,描述描述了一个完全无监督的自学程序,不仅能够学习如何玩“ quake iii arena ”(雷神之锤iii竞技场,一款第一人称射击游戏),还能设计出胜过人类团队的新颖战略。
国际象棋和围棋最初是用来模拟战争游戏的,但却对战争复盘的不好。因为这类游戏通常涉及一个或多个队友和敌人。而且一个优秀的战争游戏必然是三维展开。
deepmind使用的ai叫for the win(ftw),本质是用卷积神经网络直接通过屏幕上进行训练,屏幕数据会被传递到两个lstm网络或能够学习长期依赖性的网络。这两个lstm一个是在快速时间尺度上,另一个是在慢速时间尺度上运行。它们通过目标耦合,能够对游戏世界进行预测并通过模拟游戏控制器输出动作。
ftw总共训练了30个游戏角色,为他们提供了一系列队友和对手,并随机选择游戏阶段,以防止他们通过记忆惯性做出选择。每个角色都明确自己的奖励信号,从而拥有自己独特的目标(比如夺取旗帜)。此外,他们利用双层流程(two-tier process )来优化内部奖励,通过这些奖励加强学习,来制定最重要的游戏策略。每个角色都单独玩了大约450,000场比赛,相当于拥有大约四年的经验。
训练过后的ftw在地图,团队名单和团队规模选择方面都可以作出有利的选择。他们学习了类似人类的行为,例如跟随队友,在对手的基地露营,以及在一波攻击中捍卫他们自己的基地。而随着训练的进行,他们还学会避免人类玩家的一些弱点,比如过于关注队友的行为。
在一场有40名人类参加的比赛中,人类和ai在比赛中随机匹配(对手或队友),结果,ai大胜人类玩家,ftw的elo评级(相当于获胜的概率)为1600,而最好的人类玩家也只有1300,人类玩家平均评级为1050。
伦敦全球大学计算机科学教授,deepmind科学家thore graepel表示,这项工作显示了多智能体培训(multiagent)推动人工智能发展的潜力。这是人机交互和系统相互补充或协同工作的研究的一个重大进步。
ai训练思路
游戏分为两个阵营,两方的大本营在游戏时候开会随机设置在地图的两端。游戏中的玩家可以在游戏地图中“瞎逛”,借助地图中的建筑物、数目以及其他物品与玩家进行互动。
在游戏中,如果一方用激光击败了其他玩家,被击中的玩家丢掉旗帜,回大本营重生。
deepmind采用的ai玩家会和人类有同样的视角,ai不知道其他玩家的信息,包括位置、状态等。另外这款游戏比其他棋牌游戏更能接近真实的战场。ai玩家从零开始,用强化学习训练,在游戏的开始,真实加入战场的ai角色是随机选择的,这会使得智能体的行为更能接近最初设置的策略目标。
每个智能体都能够为自己制定策略,这意味着不同角色会采用不同的战术,即不同ai玩家有不同的专攻方向。
当然,也会有限制,即在每1000次迭代后,系统会比较策略并评估整个团队在模仿与学习能力。如果一个智能体的获胜机会低于另一个智能体的70%,那么较弱的智能体会复制较强的智能体。同时,强化学习还要求ai通过其他指标的对比进行调整。
ai玩家在一开始就像一张白纸,研究人员给他们的目标不仅是游戏结束时候的得分,还要关注在游戏前期的得分。研究人员指出,如果奖励机制只和游戏结果有关(输/赢/平局),显然限制太少,导致学习效果非常不好,所以需要考虑动态的奖励机制,即根据游戏的点数流来变动。
当初始位置是随机生成时,ai通常击败人类玩家。即使人类已经练习了12个小时,他们仍然能够赢得25%的比赛,平局6%,剩下的是负。
然而,当两名职业游戏测试人员得到一张特别复杂的地图时,这张地图ai并没有见过。重新让ai在这张地图上训练的话,只需要6个小时的训练就能脱颖而出。
这一结果没有在论文说明,而是在向新闻界提供的一份补充文件中作了说明。
目前人们仍然可以在经过精心设计的定位战中击败ai,因为现实生活很少提供这样复盘重来的机会,毕竟淮海战役只能打一次!
相关报道
/2019/05/30/deepminds-ai-can-defeat-human-players-in-quake-iii-arenas-capture-the-flag-mode/


什沙海开锁《24小时什沙海开锁》
ZUO风尚男装自由、活力 展现自我的态度
硫酸亚铁煜恒净水最环保,治理污水废水最可靠!
水性哑光树脂Acure 116缘禾源禾化工
河北优质的约翰逊管绕焊机生产厂家 圣航
Science最新:DeepMind部署自学AI,攻陷FPS“雷神之锤”
加盟除甲醛有实力吗
有了空调还需要装地暖?荣事达智能发热地板为你解答!
V定制·整木家居加盟地区在哪里?想考察一下
石排机械下水道疏通、马桶疏通、化粪池清理、防水补漏
连云区双层悬浮式拼装地板使用频率-石家庄国林
TPEE美国杜邦原料-杜邦TPEE总代理商
儿童反光安全背心三角架
HMD9101防爆投光灯吊杆式60W防爆照明灯
牛蛙连锁店有哪些 投资加盟虾先生与蛙小姐开启创业收益之旅31891x
引出棒认准又丰牌、合金加热带、高温电阻带
供应优质冬瓜味糖浆/沙布列900g风味糖浆/批发/采购
河北直缝钢管厂家
利川出租吊车之怎么去判断吊车的故障
河北盛义厂家直销高速旋风除尘器