AI从零开始学会玩我的世界,DeepMindAI通用化取得突
机器之心报道
编辑:杜伟、泽南
通用AI的重要里程碑。
通用智能需要解决多个领域的任务。人们认为强化学习算法具有这种潜力,但它一直受到为新任务调整所需资源和知识的阻碍。在DeepMind的一项新研究中,研究人员展示了基于世界模型的通用可扩展的算法DreamerV3,它在具有固定超参数的广泛领域中优于以前的方法。
DreamerV3符合的领域包括连续和离散动作、视觉和低维输入、2D和3D世界、不同的数据量、奖励频率和奖励等级。值得一提的是,DreamerV3是第一个在没有人类数据或主动教育的情况下从零开始在《我的世界》(Minecraft)中收集钻石的算法。研究人员表示,这样的通用算法可以使强化学习得到广泛应用,并有望扩展到硬决策问题。
钻石是《我的世界》游戏中最受欢迎的物品之一,它是游戏中最稀有的物品之一,可被用来制作游戏中绝大多数最强的工具、武器以及盔甲。因为只有在最深的岩石层中才能找到钻石,所以产量很低。
DreamerV3是第一个在我的世界中收集钻石的算法,无需人工演示或手动制作课程。该视频显示了它收集的第一颗钻石,发生在30M环境步数17天游戏时间之内。
如果你对于AI玩我的世界没有什么概念,英伟达AI科学家JimFan表示,和AlphaGo下围棋比,我的世界任务数量是无限的,环境变化是无限的,知识也是有隐藏信息的。
对于人类来说,在我的世界里探索和构建是有趣的事,围棋则显得有些复杂,对于AI来说,情况刚好相反。AlphaGo在6年前击败了人类冠军,但现在也没有可以和我的世界人类高手媲美的算法出现。
早在2019年夏天,我的世界的开发公司就提出了钻石挑战,悬赏可以在游戏里找钻石的AI算法,直到NeurIPS2019上,在提交的660多份参赛作品中,没有一个AI能胜任这项任务。
但DreamerV3的出现改变了这一现状,钻石是一项高度组合和长期的任务,需要复杂的探索和规划,新算法能在没有任何人工数据辅助的情况下收集钻石。或许效率还有很大改进空间,但AI智能体现在可以从头开始学习收集钻石这一事实本身,是一个重要的里程碑。
DreamerV3方法概述
论文《MasteringDiverseDomainsthroughWorldModels》:
论文链接:https:arxiv。orgabs2301。04104v1
DreamerV3算法由三个神经网络组成,分别是世界模型(worldmodel)、critic和actor。这三个神经网络在不共享梯度的情况下根据回放经验同时训练,下图3(a)展示了世界模型学习,图(b)展示了ActorCritic学习。
为了取得跨域成功,这些组件需要适应不同的信号幅度,并在它们的目标中稳健地平衡项。这是具有挑战性的,因为不仅针对同一领域内的相似任务,而且还要使用固定超参数跨不同领域进行学习。
DeepMind首先解释了用于预测未知数量级的简单变换,然后介绍了世界模型、critic、actor以及它们的稳健学习目标。结果发现,结合KL平衡和自由位可以使世界模型无需调整学习,并且在不夸大小回报(smallreturn)的情况下,缩小大回报实现了固定的策略熵正则化器。
Symlog预测
重建输入以及预测奖励和价值具有挑战性,因为它们的规模可能因领域而异。使用平方损失预测大目标会导致发散,而绝对损失和Huber损失会使学习停滞。另一方面,基于运行统计数据的归一化目标将非平稳性引入优化。因此,DeepMind提出将symlog预测作为解决这一难题的简单方法。
为此,具有输入x和参数的神经网络f(x,)学习预测其目标y的变换版本。为了读出该网络的预测y,DeepMind使用了逆变换,如下公式(1)所示。
从下图4中可以看到,使用对数(logarithm)作为变换无法预测具有负值的目标。
因此,DeepMind从双对称对数族中选择一个函数,命名为symlog并作为变换,同时将symexp函数作为逆函数。
symlog函数压缩大的正值和负值的大小。DreamerV3在解码器、奖励预测器和critic中使用symlog预测,还使用symlog函数压缩编码器的输入。
世界模型学习
世界模型通过自编码学习感官输入的紧凑表示,并通过预测未来的表示和潜在行为的奖励来实现规划。
如上图3所示,DeepMind将世界模型实现为循环状态空间模型(RSSM)。首先,编码器将感官输入xt映射到随机表示zt,然后具有循环状态ht的序列模型在给定过去动作at1的情况下预测这些表示的序列。ht和zt的串联形成模型状态,从中预测奖励rt和episode连续标志ct并重建输入以确保信息表示,具体如下公式(3)所示。
下图5可视化了worldworld的长期视频预测。编码器和解码器使用卷积神经网络(CNN)进行视觉输入,使用多层感知器(MLP)进行低维输入。动态、奖励和持续预测器也是MLPs,这些表示从softmax分布的向量中采样而来。DeepMind在采样步骤中使用了直通梯度。
ActorCritic学习
ActorCritic神经网络完全从世界模型预测的抽象序列中学习行为。在环境交互期间,DeepMind通过从actor网络中采样来选择动作,无需进行前瞻性规划。
实验结果
DeepMind进行了广泛的实证研究,以评估DreamerV3在固定超参数下跨不同领域(超过150个任务)的通用性和可扩展性,并与已有文献中SOTA方法进行比较。此外还将DreamerV3应用于具有挑战性的视频游戏《我的世界》。
对于DreamerV3,DeepMind直接报告随机训练策略的性能,并避免使用确定性策略进行单独评估运行,从而简化了设置。所有的DreamerV3智能体均在一个NvidiaV100GPU上进行训练。下表1为基准概览。
为了评估DreamerV3的通用性,DeepMind在七个领域进行了广泛的实证评估,包括连续和离散动作、视觉和低维输入、密集和稀疏奖励、不同奖励尺度、2D和3D世界以及程序生成。下图1中的结果发现,DreamerV3在所有领域都实现了强大的性能,并在其中4个领域的表现优于所有以前的算法,同时在所有基准测试中使用了固定超参数。
更多技术细节和实验结果请参阅原论文。
你都记得哪些让你心动的电影台词1。我爱你会淡的伦敦生活2。有些烦恼,丢掉了,才有云淡风轻的机会。宫崎骏龙猫3。世界上有太多孤独的人,害怕先踏出第一步。绿皮书4。当你迷失自我,不辨方向,深处水下,不知道哪边是向上
日本电影女子高概述及幕后电影女子高内容简介。预告短片,时长0151影片概况又名无评分4。6时间2016国别日本分类犯罪片长100分钟导演山本浩贵主演峰岸高田里穂泉中山絵梨奈北山诗织剧情介绍在这部女子高电影
上映两天,票房6。8亿!这次沈腾用一部喜剧把我虐哭了独行月球路演,出现在舞台上的主演沈腾,和他在电影中的形象,有点不一样。稀疏的胡茬,瘦瘦的身体,有点粗糙的皮肤,甚至眼神里,都没那么多快乐了。其实胖腾一去不复返,不是因为独行月球,而
八百客销售易纷享销客各行其道配图来自Canva可画近年来随着我国移动互联网普及率逐渐趋于饱和,C端市场的人口红利见顶,一心渴望降本增效的B端市场则因为数字化的到来而迎来了新的发展机遇。而在企业加速数字化进程的
切入新能源领域爱克股份或将迎来新增长点动力电池成本已占到我们汽车(成本)的40,50,60,且还在不断涨价。那我现在不是给宁德时代打工吗?这是广汽集团董事长曾庆洪在2022年世界动力电池大会上传出的内容。7月21日,2
NFT离元宇宙更近一步20年前,1992年的科幻惊悚片雪崩首次提到了元宇宙和阿凡达的概念。1993年,第一位获得Nakamoto比特币的高级加密货币专家比特币先驱HalFinney提出了加密交易卡的想法
如何造假一篇学术论文?导师看了连夜求我放他一马最近顶刊Nature上的一篇被引用2300多次的论文被发现造假,实验结果图片是PS出来的!出自Science第377卷,6604期实锤论文中包括了被引2300次的那篇据报道,该篇文
你知道什么是元宇宙吗?看完这篇文章你绝对会有收获你有听说过元宇宙吗?你知道什么是元宇宙吗?那么接下来让我给你简单的介绍一下元宇宙吧!元宇宙的英文意思是Metaverse,美东时间2021年310罗布乐思上市,开启了元宇宙元年。F
用于电动飞机的轻量化锂电池的研究在研究项目中,ZSW和三个工业伙伴正在研究以挤出机为基础,用环保和高容量的材料生产电极(来源ZSW)围绕德国电池制造Varta和巴登符腾堡州太阳能和氢能研究中心(ZSW)的一个联盟
二舅币怎么看?二舅币割韭菜为何会有人上当二舅币又来了,比特币一族好像又增加了新成员,我们也蹭下热度,聊聊下二舅币的祖先比特币,当做提示风险。2008年爆发全球金融危机,同年11月1日,一个自称中
8月1日长城科技涨停分析新能源汽车,新能源车零部件概念热股长城科技涨停收盘,收盘价39。93元。该股于10点11分涨停,1次打开涨停,截止收盘封单资金为5799。83万元,占其流通市值0。7。资金流向数据方面,8月1日主力资金净流入716