范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

综合LSTMtransformer优势,DeepMind强化学习智能体提数据效率

  选自arXiv
  作者:Andrea Banino等
  机器之心编译
  编辑:陈萍、杜伟
  来自 DeepMind 的研究者提出了用于强化学习的 CoBERL 智能体,它结合了新的对比损失以及混合 LSTM-transformer 架构,可以提高处理数据效率。实验表明,CoBERL 在整个 Atari 套件、一组控制任务和具有挑战性的 3D 环境中可以不断提高性能。
  近些年,多智能体强化学习取得了突破性进展,例如 DeepMind 开发的 AlphaStar 在星际争霸 II 中击败了职业星际玩家,超过了 99.8% 的人类玩家;OpenAI Five 在 DOTA2 中多次击败世界冠军队伍,是首个在电子竞技比赛中击败冠军的人工智能系统。然而,许多强化学习(RL)智能体需要大量的实验才能解决任务。
  最近,DeepMind 的研究者提出了 CoBERL(Contrastive BERT for RL)智能体,它结合了新的对比损失和混合 LSTM-transformer 架构,以提高处理数据效率。CoBERL 使得从更广泛领域使用像素级信息进行高效、稳健学习成为可能。
  具体地,研究者使用双向掩码预测,并且结合最近的对比方法泛化,来学习 RL 中 transformer 更好的表征,而这一过程不需要手动进行数据扩充。实验表明,CoBERL 在整个 Atari 套件、一组控制任务和具有挑战性的 3D 环境中可以不断提高性能。
  论文地址:https://arxiv.org/pdf/2107.05431.pdf
  方法介绍
  为了解决深度强化学习中的数据效率问题,研究者对目前的研究提出了两种修改: 首先提出了一种新的表征学习目标,旨在通过增强掩码输入预测中的自注意力一致性来学习更好的表征; 其次提出了一种架构改进,该架构可以结合 LSTM 以及 transformer 的优势。
  CoBERL 整体架构图。
  表征学习
  研究者将 BERT 与对比学习结合起来。基于 BERT 方法,该研究将 transformer 的双向处理机制与掩码预测设置相结合。双向处理机制一方面允许智能体根据时间环境来了解特定状态的上下文。另一方面,位于掩码位置处的预测输入通过降低预测后续时间步长的概率来缓解相关输入问题。
  研究者还使用了对比学习,虽然许多对比损失(例如 SimCLR)依赖于数据扩充来创建可以进行比较的数据分组,但该研究不需要利用这些手工数据扩充来构造代理任务。
  相反地,该研究依赖输入数据的顺序性质来创建对比学习所需的相似和不同点的必要分组,不需要仅依赖图像观测的数据增强(如裁剪和像素变化)。对于对比损失,研究者使用了 RELIC,该损失同样适应于时间域;他们通过对齐 GTrXL transformer 输入和输出创建数据分组,并且使用 RELIC 作为 KL 正则化改进所用方法的性能,例如 SimCLR 在图像分类领域以及 Atari 在 RL 领域性能都得到提高。
  CoBERL 架构
  在自然语言处理和计算机视觉任务当中,transformer 在连接长范围数据依赖性方面非常有效,但在 RL 设置中,transformer 难以训练并且容易过拟合。相反,LSTM 在 RL 中已经被证明非常有用。尽管 LSTM 不能很好地捕获长范围的依赖关系,但却可以高效地捕获短范围的依赖关系。
  该研究提出了一个简单但强大的架构改变:在 GTrXL 顶部添加了一个 LSTM 层,同时在 LSTM 和 GTrXL 之间有一个额外的门控残差连接,由 GTrXL 的输入进行调制。此外,该架构还有一个包含从 transformer 输入到 LSTM 输出的跳跃连接。更具体地说,Y_t 在时间 t 时编码器网络的输出,可以用下列方程定义附加模块:
  这些模块是互补的,因为 transformer 没有最近偏差,而 LSTM 的偏差可以表示最近的输入——等式 6 中的 Gate 允许编码器表征和 transformer 输出混合。这种内存架构与 RL 机制的选择无关,研究者在开启和关闭策略(on and off-policy)设置中评估了这种架构。对于 on-policy 设置,该研究使用 V-MPO 作为 RL 算法。V-MPO 使用目标分布进行策略更新,并在 KL 约束下将参数部分移向该目标。对于 off-policy 设置,研究者使用 R2D2。
  R2D2 智能体:R2D2(Recurrent Replay Distributed DQN) 演示了如何调整 replay 和 RL 学习目标,以适用于具有循环架构的智能体。鉴于其在 Atari-57 和 DMLab-30 上的竞争性能,研究者在 R2D2 的背景下实现了 CoBERL 架构。他们用门控 transformer 和 LSTM 组合有效地替换了 LSTM,并添加了对比表示学习损失。因此,通过 R2D2,以及分布式经验收集的益处,将循环智能体状态存储在 replay buffer 中,并在训练期间「烧入」(burning in)具有 replay 序列展开网络的一部分。
  V-MPO 智能体:鉴于 V-MPO 在 DMLab-30 上的强大性能,特别是与作为 CoBERL 关键组件的 GTrXL 架构相结合,该研究使用 V-MPO 和 DMLab30 来演示 CoBERL 与 on-policy 算法的使用。V-MPO 是一种基于最大后验概率策略优化(MPO)的 on-policy 自适应算法。为了避免策略梯度方法中经常出现的高方差,V-MPO 使用目标分布进行策略更新,受基于样本的 KL 约束,计算梯度将参数部分移向目标,这样也同样受 KL 约束。与 MPO 不同,V-MPO 使用可学习的状态 - 价值函数 V(s) 而不是状态 - 动作价值函数。
  实验细节
  研究者证明了 1) CoBERL 在更为广泛的环境和任务中能够提高性能,2)最大化性能还需要所有组件。实验展示了 CoBERL 在 Atari57 、DeepMind Control Suite 和 DMLab-30 中的性能。
  下表 1 为目前可获得的不同智能体的结果。由结果可得,CoBERL 在大多数游戏中的表现高于人类平均水平,并且显著高于同类算法平均性能。R2D2-GTrXL 的中值(median)略优于 CoBERL,表明 R2D2-GTrXL 确实是 Atari 上的强大变体。研究者还观察到在检查「25th Pct 以及 5th Pct」时 ,CoBERL 的性能和其他算法的差异更大, 这表明 CoBERL 提高了数据效率。
  为了在具有挑战性的 3D 环境中测试 CoBERL,该研究在 DmLab30 中运行,如下图 2 所示:
  下表 3 的结果表明与没有对比损失的 CoBERL 相比,对比损失可以显著提高 Atari 和 DMLab-30 的性能。此外,在 DmLab-30 这样具有挑战性的环境中,没有额外损失的 CoBERL 仍然优于基线方法。
  下表 4 为该研究提出的对比损失与 SimCLR、CURL 之间的比较:结果表明该对比损失虽然比 SimCLR、CURL 简单,但性能更好。
  下表 5 为从 CoBERL 中删除 LSTM 的效果(如 w/o LSTM 一列),以及移除门控及其相关的跳跃连接(如 w/o Gate 一列)。在这两种情况下 CoBERL 的性能都要差很多,这表明 CoBERL 需要这两个组件(LSTM 和 Gate)。
  下表 6 根据参数的数量对模型进行了比较。对于 Atari,CoBERL 在 R2D2(GTrXL) 基线上添加的参数数量有限;然而,CoBERL 仍然在性能上产生了显着的提升。该研究还试图将 LSTM 移到 transformer 模块之前,在这种情况下,对比损失表征取自 LSTM 之前。

互联网没有秘密,游走在犯罪边缘的数据爬虫网络安全之爬虫篇数据爬虫的违法边界一直是互联网争议的热点,尤其是在如今的大数据时代,随着数据价值的日益凸显,爬虫侵权犯罪案也越来越多。事实上,爬虫犯罪也一直是个难以界定的灰色地带。印度战机如果这样摔下去,没必要作战,摔都可以摔完了如果要评选世界空军战机坠机率第一名的话,印度肯定要拿头把交椅!印度空军坠机据英国简氏防务的报道,印度的坠机数量早已超过了1000架。要是我说,印度空军这40年历史,就是军用飞机坠毁印度海军隔着国境线,使用反潜机将我方火炮阵地拍了下来最近几天,网友们议论纷纷,印度用反潜机巡逻中印边境线,是不是在做无用功?答案是反潜机真的可以巡逻陆地边境。这也不是第一次P8I反潜机巡逻中印边境了,早在2017年,中印对峙时,印度此物被称为CRT之王!您所不知道的CRT技术技能超级玩家寻找真知派在液晶显示器流行的今天,已经很少有人还知道曾经有个显示器设备叫CRT了,今天让我们回顾一下精彩的CRT,看看被称为CRT之王的SONYFW900。网页DI假消息!德国特斯拉Model3根本就没有购买选项网购特斯拉因网卡下单28辆首先这是条假消息,德国特斯拉Model3根本就没有购买选项原文据德国媒体报道,一名德国男子因为在疫情期间家中网络卡住了,意外在网上购买了28辆特斯拉ModIntel下狠手?流言止于智者我发现目前在中国,媒体有个非常不好的现象,不仅见风就是雨,而且喜欢歪曲事实,再加以一些渲染的报道,以此赚取眼球。例如这次Intel的暂停供货给浪潮,就是被歪曲成了英特尔下狠手阿里云面对ampampquot无芯之痛ampampquot,我们还要等多久?编者按华为的今天就是无数中国企业的明天!中国的芯片之路在哪里?大家都知道,在2020年5月,美国升级了对华为的禁令,美国商务部宣布凡是使用美国政府管控的软件或设备进行芯片生产的代工高通三星放弃自研,华为能撑多久?ARM笑到了最后随着高通三星宣布放弃自研ARM核心,这个地球上除了苹果公司之外,其他厂商终将回到了ARM公版架构怀抱,看来智能手机逃不过ARM的五指山已成定局!一ARM真的很强大对于自研ARM架构准备好了吗?卷轴屏幕来了,柔性屏手机大爆发2020年末,随着柔性屏技术的逐步完善,一大波采用柔性屏折叠屏幕的手机将展现在我们面前!其中,除了我们熟知的单折叠屏,双折叠屏,手动拉伸屏,卷轴扩展屏等等都会出现。今天,就让大家先手机好声音从扬声器开始!以小米10S为例我相信每个人都有一部或者多部手机,平时使用您并不关心它的扬声器质量如何。但是,一旦当您的手机开始外放时,有些手机悦耳动听,有些手机尖利刺耳,有些手机干脆爆音失真,可谓千差万别!手机oppo手机的AI亮度自动亮度手动亮度的区别在哪里?按理说,大家作为长期的手机用户,对于亮度调节这么简单的设置,应该每个人都非常熟悉了。但是,作为新兴的功能,AI亮度又出现了,它和自动亮度手动亮度有什么区别,它们又是如何工作了?今天
MRAM的优异性能非易失性是指MRAM单元在关断电源后仍可保持完整记亿,功能虽与闪存类同,但本质各异。闪存的非易失性不是闪存的固有属性,而是靠两个闪存反相器交叉耦合组成,也就是由晶体管电阻及电容等元低功耗蓝牙单芯片为物联网助力物联网已然成为一个商业事实,各种传感器通过无线技术将现实世界的数据传输到物联网上,而低功耗蓝牙技术(BLE)则是其中一项重要的无线技术。现在各种可穿戴设备发展推动了低功耗蓝牙芯片技铁电存储器这样应对充电桩存储痛点中国今年提出了要求加快5G网络和数据中心等新型基础设施建设进度,在新型基础设施建设七个领域中,新能源充电桩在列。相比较加油站的充电桩能够承载更多的信息,除电流外还有信息流资金流等等STM32F030C6T6兼容替换MM32SPIN05PF32位微控制器是目前MCU市场的主流,执行效能更佳,应用类型也相当多元。现在的计算机的微处理器可以说几乎是3264位的天下。在在航天汽车机器人等高技术领域,需要高速处理大量数据时,铁电存储器耐久性设计要求铁电存储器是一种融合了在断电的情况下也能保留数据的非易失性随机存取两个特长的铁电随机存储器(内存)。FRAM的数据保持不仅不需要备用电池,而且与EEPROMFLASH等传统的非易失医疗设备蓝牙芯片的使用安全性问题随着现代医疗事业的蓬勃发展。医院病房监护系统和医疗会诊系统为现代医疗事业的发展做出突出贡献。主要的弊端就是病人身上的线缆,给病人的行动带来很大的不便,在病人需要大面积活动时不得不中反思钟薛高雪糕最贵66元一支,创始人豪言爱要不要?知名雪糕品牌钟薛高的创始人的一句话爱要不要?把自己和企业推上了网络热点和舆论的风口浪尖位置,引发大家的热议。钟薛高是2018年崛起的中式雪糕品牌,被称为雪糕界的爱马仕。我们题目中提他是拥有2000万粉丝的科技博主,却不敢开口谈自闭症儿子4月17日,一个名为关于我儿子的真相的视频在油管火了!短短一个多月就引来1840万次观看这则视频不长,只有短短十分钟,让拥有将近2000万的粉丝,颇具影响力的知识网红马克足足花了两自闭症儿子在幼儿园第一次说出我想爸爸了,我都做了什么我的儿子飞飞现在4岁了,去年6月份被诊断为自闭症。飞飞的语言和社交能力发展得比较晚,当时我们一直以为是男孩比较慢,没有太在意。孩子1岁的时候,我们送他去早教机构,那会儿他在班上的表热点5类饭圈乱象,网信办重点打击一段时间以来,饭圈粉丝群体在网上互撕谩骂应援打榜造谣攻击等问题屡见不鲜,破坏清朗网络生态,对未成年人身心健康造成不利影响,人民群众反映强烈。对此,中央网信办决定即日起在全国范围内开正能量用薯条激发自闭症儿子说话!这位爸爸在绝望中爆发有许多自闭症家庭,早期迷茫,大龄绝望。那种苦涩,只有自己知道。当孩子查出重度自闭症后,父亲Wallace硬是在绝望中找到了希望他用薯条激发孩子的说话能力,用塞满时间的兴趣班挖掘孩子