范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

观点我在谷歌大脑工作的18个月中,是怎样研究强化学习的?

  AI 科技评论按:在强化学习领域,谷歌大脑的研究内容一直是业界重点关注的对象。Marc G. Bellemare 是谷歌大脑的研究员,研究方向为分布式强化学习、表征学习等。他将自己在谷歌大脑 18 个月中研究经历和心得写成了文章并进行发表。 AI 科技评论全文编译如下。
  时间回溯到 2017 年夏天,在欧洲一段时间的告别旅行中,我被当时在蒙特利尔新成立的谷歌大脑团队录用 (当时我进行远程办公)。我在家里的办公室可以看到伦敦北部贝尔塞斯公园(Belsize Park)的绝美景色,而且还曾招待了谷歌蒙特利尔的整个强化学习团队,这是真的。
  从那以后,我搬到了另一个大陆,在 AI 实习生、学生研究者和全职谷歌员工三重角色中转换。现在,谷歌团队的规模有了相当大的扩展 (而且还在继续扩展:Marlos C. Machado 也加入了我们)。事后看来,2018 年是相当多产的一年。这篇博客回顾了这段时间我们的科研产出,以一个全景视角介绍了蒙特利尔谷歌大脑团队在强化学习方面研究进展以及我们所参与过的非常棒的合作,从而让我们对不远的未来有了一个认识。
  分布式强化学习
  「它很好。但它如何实现呢?」
  在强化学习中,分布式的方法认为我们应该预测随机收益的分布,而不是预测它们的期望值 (Bellemare, Dabney, Munos, ICML 2017 链接:http://www.marcgbellemare.info/static/publications/bellemare17distributional.pdf)。然而,大多数分布式智能体仍然通过将行动值 (action value)分布提取还原为它们各自的期望值,然后选择期望值最高的操作来运行。预测,然后提取。那么,为什么它在实践中表现得如此出色呢?
  为了回答这个问题,我们开发了一种正式语言来分析分布式强化学习方法,尤其是基于样本的方法(Rowland 等,AISTATS 2018)。通过这一形式,我们发现原来的分布式算法(称为 C51)隐式地最小化了概率分布之间的距离(Cramér 距离)。但是我们的一些结果表明,分布式算法应该最小化分布之间的 Wasserstein 距离,而不是 Cramér 距离。我们(我指的是 Will Dabney)用一种叫做分位数回归(quantile regression,)的技术重新修正了大部分的 C51,在一定程度上最小化了 Wasserstein 距离。由此产生的智能体(这个称为 QR-DQN)在 Atari 2600 基准上表现出强大的性能(Dabney et al.,AAAI 2018 链接:https://arxiv.org/abs/1710.10044)。另一个令人兴奋的结果是, Mark Rowland 最近发现了分布式强化学习中统计量和样本之间的一个有趣的失配,这就解释了为什么这些算法有效,而其他算法注定会失败(Rowland et al.,2019 链接:https://arxiv.org/abs/1902.08102)。
  根据 Mark 对 C51 的分析,我们从基本原理推导出了一个分布式算法——在本例中,使用的是更容易处理的 Cramér 距离。我们的目标是开发出一项能显式地对分配损失执行梯度下降(C51 和 QR-DQN 都没有这样做)的分配算法,而最终开发出来的是一项我们命名为 S51 的算法(Bellemare 等人,AISTATS 2019 链接:https://arxiv.org/abs/1902.03149);「S」代表「有符号的」,因为算法可能会输出有效的负概率。由于其相对简单,我们能够证明,当与线性函数近似(linear function approximation)结合时,S51 能够保证收敛性。在此过程中,我们还收集了一些证据,证明在一些病态的例子中,预测+提取的方法比直接预测期望值的表现更糟糕。这是一位评论者所提到的「更容易出现模型错误识别」所导致的自然而然的结果。
  此后,我们也证明了将预测+提取的方法结合到表格表征中实际上是无效的,同时证实了如果将该方法结合到线性表示中,其性能可能比预期的强化学习更差(Lyle, Castro, Bellemare, AAAI 2019 链接:https://arxiv.org/abs/1901.11084)。这使我们排除了不依赖于表征选择的常见解释,如「分布式强化学习减少方差」或「平均分布式预测导致更准确的值估计」。这些解释某种程度上错误地引用了 Holmes 先生的话,一旦你排除了不可能,剩下的一定是真相:分布式强化学习一旦与深层网络结合,似乎就会变得有用。
  为了收集这方面的进一步证据,我们在 Cartpole 域中训练了智能体,要么使用固定的低维表示(一阶傅里叶基 链接:https://people.cs.umass.edu/~pthomas/papers/Konidaris2011a.pdf),要么使用类似的深度网络。结果(总结如下面的图表所示)相当有说服力:在固定表征的情况下,分布式方法的性能比基于预期的方法差;但使用深度表征后,它们就表现得更好了。这篇论文还表明,基于 Cramér 的方法应该输出累积分布函数(cumulative distribution function),而不是概率质量函数(probability mass function,PMFs)。
  一名深度学习实践者会很自然地得出这样的结论:分布式强化学习是有用的,因为「它有助于更好地学习表征」。但这在形式上意味着什么呢?如何证明或反驳这种说法呢?这些问题促使我们研究了一个非常热门的话题:将表征学习应用于强化学习。
  表征学习
  去年夏天,Will Dabney 和我为强化学习中的表征学习设计了一个我们称之为「苹果派」(apple pie)的实验:用一个简单的设置去研究学习好的表征意味着什么。这个实验包括 1)一个综合环境 (四室域);2)训练一个非常大的深度网络; 3)做出各种预测。我们将表征定义为从状态到 d 维特征向量的映射,之后又将这些特征向量线性映射到预测。在所有的实验中,d 都小于状态数。这个设置允许我们回答这样的问题:「当我们训练网络预测 X 时,得到的表征是什么?」,其中 X 可能是值函数、值分布或一些辅助任务。
  通过对这个小问题的不断探索,我们意识到可以为表征制定一个最优准则。该准则指出,最优表征应该最小化所有「可实现」值函数的近似误差。这里我用「可实现」表示「由某些策略生成」(Bellemare et al.,2019 链接:https://arxiv.org/abs/1901.11530)。事实上,我们只需要考虑此类值函数的一个非常特殊的子集,即对偶值函数(adversarial value functions,AVFs),以反映最优性准则的极小值特征。因为这些参数基本上是几何化的,得出的这些结果也很有趣。在整个过程中,我们发现值函数的空间本身是高度结构化的:虽然还存在着一些不直观的特征,但它整体来看是一个多面体(Dadashi et al .,2019 链接:https://arxiv.org/abs/1901.11524)。
  我们使用「用于表征的 FMRI 」(见上)来可视化该方法的效果(上图;Marlos C. Machado 提供代码)。这里,每个单元格将特征的归一化激活描述为输入状态的函数。图中对比了网络被训练用来预测单个值函数或多个 AVFs 时的情况。在仅使用值表征的时候,得出的结果有点不令人满意:单个特征要么在状态之间不活跃,要么是预测值函数的副本;此外,在激活模式中还存在噪声。相比之下,AVFs 方法产生的结构很漂亮。
  我们可以使用相同的工具来确认分布式强化学习确实学习了更丰富的表征。下图是使用 C51(左)或使用 QR-DQN(右)预测随机策略值分布时学到的特性的可视化情况。分位数回归得到的特征提供了一系列的响应,从目标附近的高度峰值(左下角第二行)到相对分散(右上角)。这两组特性都比刚刚前面提到强化学习在学习值函数时更加结构化(前面的图左)。
  作为这些结果的补充,我们可视化了 Atari 2600 游戏智能体中隐藏单位的激活。这些构成了与 Pablo Samuel Castro、Felipe Such、Joel Lehman 以及其他许多人在「Atari Zoo」项目中非常出色的合作的一部分(如 et al.,Deep RL Workshop at NeurIPS, 2018 链接:https://arxiv.org/abs/1812.07069)。为了强调其中一个结果,分布式算法(该算法是 Hessel等人对 C51 的扩展,叫做 Rainbow)学习到的卷积特性通常比非分布式 DQN 学习到的卷积特性更详细、更复杂,如下面的 Seaquest 游戏示例所示:
  同样重要的是,我们发现预测多个折扣率的值函数也是在 Atari 2600 游戏中制作辅助任务的一种简单而有效的方法 (Fedus et al.,2019 链接:https://arxiv.org/abs/1902.06865)。
  毫无疑问,不同的强化学习方法会产生不同的表征形式,并且在深度学习和强化学习之间会发生复杂的交互作用。如果幸运的话,在接下来的一年,我们也会找出这些表征与智能体的经验表现之间的关系。
  软件
  如果你曾参加我去年的一次演讲,你可能会看到我的演讲内容如下:
  根据发行日期,时间轴按时间顺序对 Arcade Learning Environment 提供的 60 款游戏进行排列。每个标题标出了(主观)估计的性能最好的学习智能体:超人的(黑色格),近似人类的(红白格),最后也为游戏中的 AI 不为完成游戏,而纯粹以得分为目的游戏打出了分值(灰色格)。时间轴显示,前面标上「超人的」标签的游戏,比重要高于后面的游戏。我认为,这证明了早期游戏要比后期游戏更容易,部分原因在于电子游戏体验的转变:从反应性游戏(Pong)转变为认知性游戏(Pitfall!)
  注意,时间表是从 2017 年年中开始的,现在有点过时了,经过调整,我们也考虑到了其他的游戏,例如 Montezuma"s Revenge 通过运用模仿学习(Hester et al.,2017 链接:https://arxiv.org/abs/1704.03732;Aytar et al., 2018 链接:https://arxiv.org/abs/1805.11592)和非参数方案(Ecofett et al.,2019 链接:https://arxiv.org/abs/1901.10995)在性能上实现了巨大进步,不过即使是这样,我们或许还是遗漏了很少一部分有代表性的游戏。鉴于 ALE 在推动深度强化学习研究复兴方面发挥了重要的作用,因此在强化学习领域应该积极寻找「下一个 Atari」。
  但这张图表也帮我说明了另一点:ALE 现在是一个成熟的基准,应该区分对待它和新出现的挑战。用 Miles Brundage 的话来说就是:Atari 游戏,「如果你在意样本效率,那么它可以作为强化学习基准」。深度强化学习本身也在不断成熟:想要更好地了解当前的技术,请参阅 Vincent François-Lavet"s review (2019)(链接:https://arxiv.org/abs/1811.12560)。在取得令人兴奋的早期成功后,深度强化学习可能准备回归基础。
  这种成熟的结果之一是对 ALE 论文进行二次更新,这项工作由我当时的学生 Marlos C. Machado 主导,新的成果与新的代码一同发布。该代码的发布解锁了额外的难度级别(flavours),这证明新成果是对迁移学习研究非常有用的(Machado et al.,2018 链接:https://jair.org/index.php/jair/article/view/11182)。在这篇论文中有太多的好东西要列出,但是首先要讨论的是如何评估学习 Atari-playing 算法的重复性和公平性。在 Go-Explore 博客发布的 Twitter-eddies 中可以看到一个关于社区如何接受这一点的很好的例子:经过讨论之后,作者们重新使用我们推荐的「粘性行为」评估方案来评估他们的方法。(如果你感兴趣,这是 Jeff Clune 的一条推特 链接:https://twitter.com/jeffclune/status/1088857228222709760)。
  去年 8 月,我们还发布了开源强化学习框架,Dopamine(白皮书:Castro et al.,2018 链接:https://arxiv.org/abs/1812.06110)。我们想从简单的 Dopamine 入手,坚持开发对强化学习研究有用的一小部分核心功能。因此,框架的第一个版本由大约 12 个 Python 文件组成,并为 ALE 提供了一个单 GPU、最先进的 Rainbow 智能体。Dopamine 2.0(2 月 6 日 Pablo Samuel Castro 的博客文章)扩展了第一个版本,更广泛地支持离散操作域。我们最近几乎所有的强化学习研究都使用 Dopamine。
  最后同样值得一提的是,我们最近还与 DeepMind 合作发布了一个基于热门纸牌游戏 Hanabi(Bard et al.,2019)的人工智能方法新研究平台。Hanabi 是独一无二的,因为它结合了合作(而不是竞争!)和部分可观察性。代码中包含一个基于 Dopamine 的智能体,因此你可以随时将代码用起来。我已经在另一篇博文中(http://www.marcgbellemare.info/blog/a-cooperative-benchmark-announcing-the-hanabi-learning-environment/)对此进行了更多的讨论,但最后我想说,这是这段时间以来我研究的最有趣的问题之一。顺便说一下:分布式强化学习和非分布式强化学习之间似乎存在很大的性能差距,如下面的学习曲线所示。这是一个小小的谜团。
  结语
  这篇文章没有讨论如何探索强化学习,尽管这个话题对我来说仍然很重要。值得注意的是,通过 Adrien Ali Taiga,我们在理解伪计数如何帮助我们探索方面取得了一些进展(Ali Taiga, Courville, Bellemare, 2018 链接:https://arxiv.org/abs/1808.09819)。很高兴看到强化学习的越来越多的研究者们迎接挑战,致力于解决 Montezuma’s Revenge 等艰难的探索问题。尽管 epsilon-贪婪(epsilon-greedy)算法和熵正则化(entropy regularization)在实践中仍然占据主导地位,但我认为我们离显著提高算法样本效率的集成解决方案,也不远了。
  尽管蒙特利尔市中心的风景可能与伦敦北部不尽相同,但我在谷歌大脑这段时间的研究经历绝对令人兴奋。蒙特利尔和加拿大是多位世界上最优秀的深度强化学习研究人员的家乡,能与这么多本地和谷歌大脑团队的人才交流,我感到很不胜荣光。
  via:marcgbellemare
  点击阅读原文,报读由谷歌大脑开设的神经网络系列课

很良心的物超所值的家用MPV库斯途试驾报告这个标题很平,但我想了很久后我觉得不必用过多的辞藻来填充标题,或许对于北京现代库斯途更直白一点更好如果用它的价格来衡量它的配置功能以及动力,物超所值应该是对它最好的褒奖且这更能表达一文探讨工业(安卓)一体机常见触摸方式类别与工作原理基于工业(安卓)一体机应用面不断普及,用户在产品的选择上往往需要综合考量很多因素,以选择到适合自身需求的产品。一般用户比较关注的常规因素,无非是一体机的尺寸触摸方式使用场景内置系统技术解析触控一体机电阻屏的一点触控VS多点触控大比拼对于触控一体机而言,在触摸方式上的选择,是用户场景使用需要考量的重要因素。在工业领域中,像电气室机柜多变频器干扰的使用场景,用户一般选择触控一体机的电容触摸方式。而实际上,在工业自安装小知识嵌入式工业安卓一体机如何做到与设备无缝贴合?随着工业(安卓)一体机在工业场景中的应用不断扩大,越来越多的工业自动化用户逐渐关注触控显示行业的动态。其中,嵌入式工业(安卓)一体机以应用为中心,以计算机技术为基础,并且软硬件可裁雷诺是掌握了流量密码吗?这款雷诺SuiteN4概念车太绝了复古风愈演愈烈。。雷诺像是掌握了流量密码,近期发布的这款雷诺SuiteN4概念车又火了一把,将经典车型与酒店设计元素相结合,这也能被雷诺想到,真的太绝了。看这外观,真的没有女孩子能预售价13。89万起哈弗H6S即将上市据长城汽车官方消息,哈弗H6S将于10月30日正式上市。这款看上去有些嚣张的SUV此前已经开启预售,预售区间为13。89万16。49万元。H6S作为长城柠檬平台咖啡智能首款轿跑SU这个秋季的白色婚礼长安汽车再当证婚人世界是一封情书。或者说,世界本该是一封情书的。一起看花开花落日出黄昏,浪漫的不是事物,而是和你一起。浪漫的事情有很多,除了上面说到的那些,还有长安一年一度的集体婚礼。10月30日,赛那30日上市提前4天爆料它到底有几个同级最强朝饮木兰之坠露兮,夕餐秋菊之落英。这大概是大多数石头森林里的都市人一直憧憬的慢生活之景象。10月23日,在融入了浓郁的川西庭院式风格以及当地文化,又不失现代雅致的世外桃源青城山六善拿什么理由拒绝女神?哈弗M6PLUS柳岩联名版上市7。99万起售10月29日,哈弗M6PLUS柳岩联名版正式上市,此次新车共推出了2款车型,售价区间为7。99万8。99万元。女神联名车型有什么不同,我必须要说女神真香。配置便捷实用动力强劲可靠先未来纯电动货车长啥样?奔驰Sustaineer概念车了解一下都知道纯电动车是趋势,不过短时间内还无法完全占据市场大头,不过车企都在往新能源汽车靠是真的。日前,奔驰官方发布了Sustaineer概念车的官图,该车定位为纯电动货车。能想象吗?货蓝鲸双雄的魅力你一无所知蓝鲸动力一直都是长安汽车有口皆碑的拳头技术,截止2021年9月30日,蓝鲸家族销量已经累计突破75万台,是当之无愧的长安汽车销售主力。蓝鲸动力有那么厉害?咱们现场去见证。10月30
用三星都是什么人?激活就跌三成,一个月跌四成?有主见的人,不盲从,知道自己喜欢什么,手机不是用来保值的因为它不是一种投资。感谢邀请用三星的无非就两种人一种是习惯用三星的人(从功能机就开始用,比如说我)另一种是喜欢捡漏的人。比如徐直军华为已在2017年启动6G研究IT时报记者李丹琦6月3日,2021浦江创新论坛全体大会召开,华为公司副董事长轮值董事长徐直军表示,华为已在2017年开启6G研究。2019年,全球首个5G商用网络开通,但华为已走华为鸿蒙OS庄家参与的赌局,没人敢下场谈赋能的时候,能不能别盯着怎么搞钱?文宋归如果华为6。2日晚的发布会,在介绍完鸿蒙OS2。0后就结束,一定是场令人热泪盈眶的完美直播。但很可惜,鸿蒙OS开了个头,就紧接着为自家产品对比了这些旗舰的售价,我找到了618最划算的平台点击右上方关注,第一时间获取科技资讯技能攻略产品体验,私信我回复01,送你一份玩机技能大礼包。618来了。不少想要换手机的朋友估计都盯着618的活动时间摩拳擦掌,希望自己看上的手机特斯拉ModelY4月销量超过Model3据新数据显示,特斯拉ModelY跨界车在4月份的全球电动汽车销量数据已超过其同级车型特斯拉Model3。4月,全球约有392,000辆电动汽车注册,成为电气化历史上第四好的月份。全618最值得推荐的顶级国产旗舰,款款都上榜单品销量榜从今年的手机行业来看,随着整体技术的不断提升,各大厂商的竞争越来越激烈。对于用户来说选择的范围也逐渐地拓宽。在最近的618中,各大旗舰机型的优惠措施非常吸引眼球,正是用户更换手机的又是一年开门红!realme真我上TOP2,百万销量有望面对疯狂的年中大促,你的选择是任凭风浪起稳坐钓鱼台,直接躺平还是乖乖巧巧做个尾款人呢?与往年的玩法差不多,领取优惠券提前预售秒杀重磅价等操作多线并行,只为争取更多的用户。但无论如何谷歌两次除名华为,如今鸿蒙出世来破局自遭遇技术封锁之后,华为的手机业务一落千丈,全球市场份额呈断崖式下跌,目前,华为在售的大部分机型都是处在缺货状态。前段时间,谷歌在2021年的IO大会上,正式发布了安卓12系统,并华为鸿蒙引苹果前总设计师侧目,他是这样点评的6月2日这一天无论是对于全球智能手机行业,还是对于国产手机品牌来讲,这一天都足以载入科技发展的史册。因为这一天华为鸿蒙操作系统手机端正式发布,自此华为实现了鸿蒙操作系统全覆盖。看似618想换个手机,预算4千左右,拍照好,续航好就行一网友问618想换个手机,预算4千左右,拍照好,续航好就行。有什么推荐?关键词预算4000拍照好续航好虽然小米Redmi性价比高,但考虑到MIUI系统最近(Bug频出)机身发热(控鸿蒙OS和安卓最大不同在哪里?鸿蒙系统最突出的几个特点,这是安卓系统没有或者做不到的!超级控制中心,HarmonyOS2全新控制中心让用户在控制多设备时,就像控制单设备一样简单。创新的一拉即合交互方式,只需将想