玩躲猫猫游戏AI主动发展出相似人类的攻防战略

放大字体  缩小字体 2019-09-19 18:43:25 作者:责任编辑NO。邓安翔0215浏览次数:3131  
AI进行游戏的场景示意图。图片来历:OpenAI公司

  原标题:玩躲猫猫游戏 AI学会攻防术

  来历:科技日报

  尽管机器学习在比如围棋和Dota 2等杂乱游戏中取得了明显前进,但在这些范畴把握的技术并不一定能推行到实在场景中实践运用。越来越多的研讨人员正在寻求树立一种机器智能,使其行为、学习和进化更像人类。

  总部坐落旧金山的OpenAI公司近来宣布的一篇新论文提出,在儿童的“躲猫猫”游戏中练习模型,并在数以千万计的比赛中使它们彼此对立,可导致模型主动发展出相似人类的行为,然后进步智力并改进后续举动的功能。

  为什么挑选躲猫猫?

  该论文的榜首作者、OpenAI研讨员博文·贝克以为,躲猫猫被选为一个风趣的起点,首要是由于其规矩很简略。一切游戏中的署理(Agent,也称智能体,指能自主活动的软件或硬件实体)都被模仿为球形方针,可履行3种类型的操作:导航、捉住并移动物体、确定方针,且只能由该署理的队友解锁。

  研讨人员在模仿的、物理接地的环境中放置了1—3个“躲藏者”和1—3个“寻觅者”,房间的鸿沟是静态墙。环境中还包含不同尺度的可移动箱子和可移动坡道。

  研讨人员运用强化学习来练习游戏署理,并遵从简略的躲猫猫规矩:躲藏者成功躲过寻觅者的追逐,或是寻觅者成功找到躲藏者。

  AI怎么玩躲猫猫?

  在经过数亿次的游戏后,AI署理阅历了几个阶段的战略发展进程。

  在初始阶段,躲藏者(蓝色)和寻觅者(赤色)经过在空间中移动而不操作任何物体,拟定了十分粗糙的逃避和追逐战略。

  在阅历2500万个回合后,游戏变得愈加杂乱。躲藏者学会了移动和确定在环境中的箱子和路障,以在自己周围树立堡垒,这样寻觅者就永久看不到它们了。不仅如此,他们还拟定了和谐战略,例如彼此传递物体,以加速制作堡垒的进程。

  但是,在游戏进行了7500万回合之后,寻觅者发现了一个反战略。他们学会了在躲藏者的要塞周围移动一个坡道,并用它来爬过墙面。

  作为回应,躲藏者学会了将坡道移入他们的房间,因而寻觅者无法用它来跳过墙面。

  跟着环境变得越来越杂乱,躲藏者学会了运用细长箱子制作更强壮的“堡垒”。尽管OpenAI以为这将是终究的战略,但在游戏进行到3.8亿回合时,寻觅者再次成功反击,找出一种方法来跳到一个盒子上并运用动力在它上面“冲浪”,跳过墙面进入堡垒。

  在最终阶段,躲藏者学会在制作堡垒之前确定一切箱子,以避免“箱子冲浪”。

  研讨人员将这些不同战略的演化称为“来自多智能体主动课程的紧迫技术发展”。“主动课程”这一术语是本年由DeepMind发明的,适用于多个署理逐步发明新使命以在特定环境中彼此应战。OpenAI的研讨人员以为,这个进程在自然挑选方面具有相似之处。

  这项研讨为啥很重要?

  鉴于躲猫猫相对简略的方针,经过竞争性自我游戏练习的多个署理学会了运用东西,并选用人类相关技术来取胜。OpenAI以为,这为未来的智能署理开发和布置供给了一个有远景的研讨方向。OpenAI正在开源其代码和环境,以鼓舞在该范畴进一步研讨。

  OpenAI的终究方针是构建能够在一个通用体系中履行多项使命的人工通用智能(AGI)。尽管或许会有不同的方针,但OpenAI正在大力出资由大规模核算才能完成的强化学习研讨。OpenAI最近与微软签署了一份价值10亿美元的为期10年的核算合同。

  躲猫猫游戏研讨也激发了OpenAI,由于跟着环境杂乱性的添加,游戏中的署理不断地经过新战略自我习惯新的应战。贝克表明:“假如扩展像这样的流程,并将其放入更杂乱的环境中,那么你或许会得到满足杂乱的署理,以便为咱们处理实践使命。”

  应战在哪里?

  游戏署理有时会表现出令人惊奇的行为。例如,躲藏者企图彻底逃离游戏区域,直到研讨人员对此施加赏罚。

  其他应战或许归因于模仿环境设计中的物理缺点。例如,躲藏者了解到,假如他们在角落处向墙面推进斜坡,斜坡将由于某种原因穿过墙面然后消失。这种“做弊”说明晰算法的安全性怎么在机器学习中发挥关键作用。研讨人员说:“在它发作之前,你永久不会知道。这类体系总是存在缺点。咱们所做的基本上是调查,以便咱们能够看到这种古怪的工作发作,然后试着修正物理缺点。”

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!