范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

训练Rainbow需要1425个GPUDay?谷歌说强化学习可以降低计算成本

  机器之心报道
  编辑:陈萍、小舟
  DeepMind 提出的 Rainbow 算法,可以让 AI 玩 Atari 游戏的水平提升一大截,但该算法计算成本非常高,一个主要原因是学术研究发布的标准通常是需要在大型基准测试上评估新算法。来自谷歌的研究者通过添加和移除不同组件,在有限的计算预算、中小型环境下,以小规模实验得到与 Rainbow 算法一致的结果。
  人们普遍认为,将传统强化学习与深度神经网络结合的深度强化学习,始于 DQN 算法的开创性发布。DQN 的论文展示了这种组合的巨大潜力,表明它可以产生玩 Atari 2600 游戏的有效智能体。之后有多种方法改进了原始 DQN,而 Rainbow 算法结合了许多最新进展,在 ALE 基准测试上实现了 SOTA 的性能。然而这一进展带来了非常高的计算成本,拥有充足计算资源的和没有计算资源之间的差距被进一步拉大。
  在 ICML 2021 的一篇论文《Revisiting Rainbow: Promoting more Insightful and Inclusive Deep Reinforcement Learning Research》中,研究者首先讨论了与 Rainbow 算法相关的计算成本。研究者探讨了通过结合多种算法组件,以小规模实验得到与 Rainbow 算法一致的结果,并将该想法进一步推广到在较小的计算预算上进行的研究如何提供有价值的科学见解。
  论文地址:https://arxiv.org/abs/2011.14826
  Rainbow 计算成本高的一个主要原因是学术研究发布的标准通常是需要在大型基准测试(例如 ALE,其中包含 57 款强化学习智能体能够学会玩 Atari 2600 游戏)上评估新算法。通常使用 Tesla P100 GPU 训练模型学会玩一个游戏大约需要五天时间。此外,如果想要建立有意义的置信边界,通常至少执行 5 次运行。
  因此,在全套 57 款游戏上训练 Rainbow 需要大约 34,200 个 GPU hour(约 1425 天)才能提供令人信服的性能实验数据。这样的实验只有能够在多个 GPU 上并行训练时才可行,这使得较小的研究小组望而却步。
  Rainbow 算法
  与原始 Rainbow 算法的论文一样,在 ICML 2021 的这篇论文中,研究者评估了在原始 DQN 算法中添加以下组件的效果:双 Q 学习(double Q-learning)、优先经验回放(prioritized experience replay,PER)、竞争网络、多步学习、分布式强化学习和嘈杂网络。
  该研究在四个经典控制环境中进行评估。需要注意的是,相比于 ALE 游戏需要 5 天,这些环境在 10-20 分钟内就可以完成完全训练:
  左上:在 CartPole 中,游戏任务是智能体通过左右移动平衡推车上的一根杆子;右上:在 Acrobot 中,有两个杠杆和两个连接点,智能体需要向两个杠杆之间的连接点施加力以抬高下面的杠杆使其高于某个高度要求。左下:在 LunarLander 中,智能体的任务是将飞船降落在两个旗帜之间;右下:在 MountainCar 中,智能体需要在两座山丘之间借助一定的动力将车开到右边的山顶。
  研究者探究了将每个组件单独添加到 DQN 以及从完整 Rainbow 算法中删除每个组件的效果,并发现总的来说每一个算法组件的添加都确实改进了基础 DQN 的学习效果。然而,该研究也发现了一些重要的差异,例如通常被认为能起到改进作用的分布式 RL 自身并不总是能够产生改进。实际上,与 Rainbow 论文中的 ALE 结果相反,在经典控制环境中,分布式 RL 仅在与其他组件结合时才会产生改进。
  上图显示了在 4 个经典控制环境中,向 DQN 添加不同组件时的训练进度。x 轴为训练 step,y 轴为性能(越高越好)。
  上图显示了在 4 个经典控制环境中,从 Rainbow 中移除各种组件时的训练进度。x 轴为训练 step,y 轴为性能(越高越好)。
  研究者还在 MinAtar 环境中重新运行了 Rainbow 实验,MinAtar 环境由一组五个小型化的 Atari 游戏组成,实验结果与原 Rainbow 论文类似。MinAtar 游戏的训练速度大约是常规 Atari 2600 游戏的 10 倍,其中后者的训练速度是在最初的 Rainbow 算法上评估的。此外,该研究的实验结果还有一些有趣的方面,例如游戏动态和给智能体添加基于像素的输入。因此,该研究提供了一个具有挑战性的中级环境,介于经典控制和完整的 Atari 2600 游戏之间。
  综合来看,研究者发现现在的结果与原始 Rainbow 论文的结果一致——每个算法组件产生的影响可能因环境而异。研究者建议使用单一智能体来平衡不同算法组件之间的权衡,该研究的 Rainbow 版本可能与原始版本高度一致,这是因为将所有组件组合在一起会产生整体性能更好的智能体。然而,在不同算法组件之间,有一些重要的细节变化值得进行更彻底的探究。
  「优化器 - 损失函数」不同组合实验
  DQN 被提出时,同时采用了 Huber 损失和 RMSProp 优化器。对于研究者而言,在构建 DQN 时使用相同的选择是一种常见的做法,因为研究者将大部分时间用在了其他算法设计上。
  而该研究重新讨论了 DQN 在低成本、小规模经典控制和 MinAtar 环境中使用的损失函数和优化器。研究者使用 Adam 优化器进行了一些初始实验,目前 Adam 优化器是最流行的优化器,并在实验中结合使用了一个更简单的损失函数,即均方误差损失 (MSE)。由于在开发新算法时,优化器和损失函数的选择往往被忽略,而该研究发现在所有的经典控制和 MinAtar 环境中,这二者的改变都能让实验结果有显著的改进。
  因此,研究者将两个优化器(RMSProp、Adam 优化器)与两个损失函数(Huber、MSE 损失)进行了不同的组合,并在整个 ALE 平台(包含 60 款 Atari 2600 游戏)上进行了评估。结果发现 Adam+MSE 组合优于 RMSProp+Huber 组合。
  在默认 DQN 设置下(RMSProp + Huber),评估 Adam+MSE 组合带来的改进(越高越好)。
  此外,在比较各种「优化器 - 损失函数」组合的过程中,研究者发现当使用 RMSProp 时,Huber 损失往往比 MSE 表现得更好(实线和橙色虚线之间的间隙可以说明这一点)。
  对 60 款 Atari 2600 游戏的标准化得分进行汇总,比较不同的「优化器 - 损失函数」组合。
  在有限的计算预算下,该研究研究者能够在高层次上复现论文《Rainbow: Combining Improvements in Deep Reinforcement Learning》的研究,并且发现新的、有趣的现象。显然,重新审视某事物比首次发现更容易。然而,研究者开展这项工作的目的是为了论证中小型环境实证研究的相关性和重要性。研究者相信,这些计算强度较低的环境能够很好地对新算法的性能、行为和复杂性进行更关键和彻底的分析。该研究希望 AI 研究人员能够把小规模环境作为一种有价值的工具,评审人员也要避免忽视那些专注于小规模环境的实验工作。
  参考链接:https://ai.googleblog.com/2021/07/reducing-computational-cost-of-deep.html

最早的计算机是1946年出现的,真的是这样吗?1900年10月在爱琴海的潜水员们意外地发现了一艘来自2000年前的罗马时代沉船,这是满载货物从希腊回罗马的途中不幸沉入海底的,除了雕塑,装饰品,还发现一个齿轮嵌在一块岩石中,随后NASA公布Ingenuity直升机第三次飞行的3D视频,但是需要3D眼镜观看今年关于地球上的人类对火星的探索,发生了两件大事,一件是我们中国的天问一号火星探测器成功着陆火星,开启了我国太空探索的新篇章。另外一件事是美国宇航局的Ingenuity直升机在火星研究新发现大气环流增强了发生在北极附近的热浪和野火据外媒报道,科学家发现,北极及其周边地区的夏季气候模式可能会导致欧洲热浪和大规模野火同时发生,而这些会给西伯利亚和北美亚极地地区造成空气污染。近年来的夏季,欧洲上空经常出现极端高温国际空间站机械手臂遭太空垃圾撞击,幸好没事一小块太空垃圾撞到国际空间站的机械手臂Canadarm2,但近期操作显示应该不受影响。加拿大太空局5月28日博客文说明经过,宇航员操作Canadarm2时发现一小洞,从照片看不出洞恐龙时代的月球看起来有多大?由于地球月球系统中存在潮汐作用,由此导致的潮汐能耗散使得月球的轨道持续衰减,这意味着月球与地球的距离会越来越远。现如今,地月之间的平均距离大约为38。44万公里,那么,在恐龙时代,第一张黑洞照片的公布将有什么意义?黑洞是宇宙中最有趣和最神秘的天体之一,在大量科学研究和科幻小说中都有所描述。然而,尽管人们认为黑洞不可思议的引力对想象力以及对物理学的理解产生影响,但人类从未真正看到过黑洞。随着本科学家观察到系外行星里由铁和硅酸盐组成的漩涡云我们终于第一次从光学角度看到了一颗外行星和它的大气层,这真是个奇怪的地方。这颗行星被称为HR8799e,它是一个大气层很复杂的行星。HR8799e正处于一场全球性风暴的控制之中,主如果有人问你真的有万有引力吗你就这样告诉他引力不是力,是运动,是空间运动物体的惯性圆周运动。时空也没有扭曲,而是所有的空间运动物体都在做惯性圆周运动。空间运动物体没有做惯性直线运动的,更没有做惯性往复运动的。所有的运动物体NASA公布韦伯太空望远镜拍摄首批图像,稍显模糊正继续调整财经网科技2月12日讯,据网易科技消息,美国宇航局(NASA)当地时间周五公布了詹姆斯韦伯太空望远镜(JWST)拍摄的首批图像。在JWST充分发挥其潜力之前,这些图像代表了该望远镜通过这样才能看到整个地球在太阳系中,地球是一颗独一无二与众不同的行星,迄今为止,它所展现的独特之处,还没有其它行星能比得上。地球上有足够多的液态水,而地球是目前我们所知道的唯一一个表面有大量液态水的星球。研究揭示海洋氧化为何迟滞近20亿年大气氧含量与生命演化之间的因果联系是颇受关注的科学问题之一。已有研究表明,早期地球极端缺氧,直至距今约24亿年前后发生第一次大氧化事件。当时,大气中的氧气达到现代大气氧含量的约1水
艺术家黄希舜庄锡龙无私捐出作品于关山月美术馆双展隆重开幕5月28日下午,探拓回响黄希舜捐赠作品展和道德之鉴庄锡龙捐赠作品展在关山月美术馆双展开幕,两场展都属于庆祝深圳经济特区建立四十周年关山月美术馆收藏精品展系列。开幕式现场,展示了80云时代智慧康养趋势与泛设计观念的新生活形态关山月美术馆2020年第二期的四方沙龙,邀请高级工程师高级室内建筑师李瑞麟以智慧康养泛设计概念为题,从泛设计的角度来介绍云时代背景下智慧康养方向的案例分享以及新冠后的产业转型与机遇程珺做客四方沙龙现场火爆满座卢浮宫博物馆一一解读日前,青年艺术学者程珺做客关山月美术馆四方沙龙,带来主题为博物馆的过去与未来的讲座。讲座现场观众满座,非常火爆。这位曾旅居法国10多年,去过卢浮宫上百次的主讲人,现场生动有趣地讲述不完美的她与我的N个大战回合soogif小长假过后,大家休息够了吧?在家吃好喝好了吧?又在听母亲大人的唠叨了吧?你的脑海里是不是已经秒闪过与母亲大人的N个对战回合,今天来聊聊我们与不完美母亲大人之间的那些梗,比看剧还要上头,这是成年人宅家的快乐水最近的天气奇怪的很耶,一会儿晴天一会儿下雨,魔幻得很!原来四月的最后一个节气谷雨要来啦!2020年的三分之一额度即将用完,所以剩下的日子就算是雨天,也要心儿向着太阳呀今天我们来看看来晚了6月精彩展览指南驾到对不起,这次展讯来晚了!南方的六月直接跳入夏天,不想内卷的朋友,可以去喵喵这些的展览,记得带口罩,做好个人的防护哦!01hr瓦莱里卡苏巴俄罗斯浪漫现实主义上海摄影艺术中心上海摄影艺热热热热热,送你一份7月清凉展览指南请问太阳,你是想热死我吗?夏天除了有火辣辣的太阳,火烫的地板,凶猛烦人的蚊子,你最想去哪里避暑呢?本月同样有一波精彩的展览装点你的夏天,快叫上朋友约起来,抵抗高温,感受清凉吧01h马斯克SpaceX星舰(Starship)进化指南众所周知,马斯克的航天终极目标一直都是移民火星。火星移民运输系统(MCT)2012年SpaceX提出了火星移民运输系统(MCT)架构,包括MCT载人飞船加油船(货运飞船的一种)BF纳米纤维口罩滤材生产设备选型指南国内纳米纤维的量产级设备厂家不多,但是产品性能差别较大。易丝帮通过对苏州能环日本MECC等大型设备的长期使用经验,并结合口罩滤材中的材料和工艺特征,为大家讲解设备选型中的技术内容。通往智能细胞附着新时代的途径机制及重要指南J。Clean。Prod。通往智能细胞附着新时代的途径机制及重要指南DOI10。1016j。jclepro。2020。121873本研究报告了一种吊床样图案化的多尺寸纳米纤维膜的新喜欢一个人,就算捂住嘴巴,也会从眼睛里跑出来作者小落南来源意林杂志2020年第15期近日,明星伊能静参加真人秀时谈起关于爱情的问题引发热议。她说,很多网友认为她更爱她的丈夫秦昊,两人的婚姻中,爱是不对等的,她爱得卑微,但她自