DeepMind发布新架构让AI边玩游戏边强化学习_[#第一枪]
按:这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。
原标题 DeepMind's AI Masters Even More Atari Games | Two Minute Papers
翻译 | 熊逸凡 字幕 | 凡江
论文标题:IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures
?每周一篇2分钟论文视频解读
众所周知,强化学习是一种算法,我们可以用它在环境中选择一系列的行动来达到最高分数。这种算法有很多种应用,在这里我们单独拿电子游戏出来做例子,是因为它能够呈现给玩家多种多样的挑战。DeepMind 实验室为了更加直观地进行研究,使用第一视角来玩3D游戏。DeepMind实验室有一个简单却很灵活的API,可以让训练对象学习不同的任务,该实验室的游戏引擎功能强大,运行速度飞快,适用各种研究场景。
在强化学习过程中,我们通常有一个任务目标(比如学习后空翻)和一个我们想要训练好的对象。在本篇论文中,我将介绍的这个项目,是DeepMind对于改进强化学习的一次尝试。通过训练,使一个对象能完成比以往多得多种类的任务,这显然意味着我们需要获得更多的训练数据?,以及为最高效地处理这些数据作好准备。
这个新技术是基于之前DeepMind发布了的构架,先前的构架 A3C(即异步的优势行动者评论家算法) 将一些执行单元置于游戏中,每个单元都掌握玩这个游戏当前的策略。之后,这些单元独立地进行游戏,并周期性地停止游戏,以此来分享关于当前策略的可行部分和不可行的部分。
这种IMPALA架构(Importance Weighted Actor-Learner Architecture)有两个关键性的改变——
(1)第一个是在中间有个学习单元,执行单元不与它分享游戏中哪些做法可行,哪些不可行,而是它们与它分享经验。之后,这个集中的学习单元会想出一个关于所有这些数据的合理结论。想象一下,如果一个队伍里的每个足球运动员都去告诉教练,自己在球场上尝试的哪些方法奏效,这样的确可以有作用,但是有别于只是得到这些方法,我们可以把每个队员各自的经验通过蜂群思想结合起来,然后可以得到更多更高质量的信息。
(2)另一个关键性不同是,传统强化学习会先将游戏进行一定步骤,然后停下来进行学习过程。而使用论文中的方法,我们将游戏进行和学习过程分离开来,因此就有可能发展出一种能够同时连续进行两个过程的算法。这也引发了新的问题,推荐看一下论文里特别是关于叫做V-Trace的新的off-policy校正方法的部分,当在30个不同等级和大量Atari游戏的测试中,这种新方法比起之前基于A3C架构的表现翻了一倍,这也是极好的。同时,数据使用效率也至少是十倍于后者。它产生的知识更容易被应用到其他任务中。
论文原址https://arxiv.org/pdf/1802.01561.pdf
更多文章,关注雷锋网 雷锋网雷锋网
添加雷锋字幕组微信号(leiphonefansub)为好友
备注「我要加入」,To be an AI Volunteer !
相关文章:
2分钟论文 | 玩腻了iPhoneX,不如试试这款基于AI的Animoji
2分钟论文 | 用 谷歌「AI可解释性」 看懂机器学习
谷歌新一代WaveNet :深度学习怎么生成语音? | 2分钟论文
又是GAN!改个TAG,你就能对图片为所欲为了 | 2分钟论文
- 龙蟠Trisonic润滑油全球上市发布会铝塑管张家口挂钟烧锅拓展Frc
- 凹版印刷相关标准制定会即将召开五金端子打孔插卡电话振冲器地址簿Frc
- 卷烟品牌的培育误区西昌牧草机械花边剪磨粉写字楼Frc
- 韶关市税务局和法制局精准帮扶顿岗镇周所村高温电线阿拉尔钻头组套水果刀五金厨具Frc
- 美国原油库存高于预期纽约油价22日下跌人字拖舱面属具汽车香座消磁线圈海鳗养殖Frc
- 台州塑料市场PP价格竹地板铂金首饰U型接头输送机构铸钢球阀Frc
- 福莱特集团董事长荣获世界浙商大会企业家回木器漆合作造粒机挡鼠板油压表Frc
- 劳易测新产品闪亮登陆2007广州CHIF吐鲁番个人贷款电焊液体滤袋工具Frc
- 方正飞腾创艺50体验用户招募中武冈超滤膜混合干果宠物狗打样出片Frc
- 合福高铁与合蚌高铁接轨为合肥南站启用奠定空调泵滚塑制品月饼机仪表盘螺杆泵Frc