专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

AI从零开始学会玩我的世界,DeepMindAI通用化取得突

  机器之心报道
  编辑:杜伟、泽南
  通用AI的重要里程碑。
  通用智能需要解决多个领域的任务。人们认为强化学习算法具有这种潜力,但它一直受到为新任务调整所需资源和知识的阻碍。在DeepMind的一项新研究中,研究人员展示了基于世界模型的通用可扩展的算法DreamerV3,它在具有固定超参数的广泛领域中优于以前的方法。
  DreamerV3符合的领域包括连续和离散动作、视觉和低维输入、2D和3D世界、不同的数据量、奖励频率和奖励等级。值得一提的是,DreamerV3是第一个在没有人类数据或主动教育的情况下从零开始在《我的世界》(Minecraft)中收集钻石的算法。研究人员表示,这样的通用算法可以使强化学习得到广泛应用,并有望扩展到硬决策问题。
  钻石是《我的世界》游戏中最受欢迎的物品之一,它是游戏中最稀有的物品之一,可被用来制作游戏中绝大多数最强的工具、武器以及盔甲。因为只有在最深的岩石层中才能找到钻石,所以产量很低。
  DreamerV3是第一个在我的世界中收集钻石的算法,无需人工演示或手动制作课程。该视频显示了它收集的第一颗钻石,发生在30M环境步数17天游戏时间之内。
  如果你对于AI玩我的世界没有什么概念,英伟达AI科学家JimFan表示,和AlphaGo下围棋比,我的世界任务数量是无限的,环境变化是无限的,知识也是有隐藏信息的。
  对于人类来说,在我的世界里探索和构建是有趣的事,围棋则显得有些复杂,对于AI来说,情况刚好相反。AlphaGo在6年前击败了人类冠军,但现在也没有可以和我的世界人类高手媲美的算法出现。
  早在2019年夏天,我的世界的开发公司就提出了钻石挑战,悬赏可以在游戏里找钻石的AI算法,直到NeurIPS2019上,在提交的660多份参赛作品中,没有一个AI能胜任这项任务。
  但DreamerV3的出现改变了这一现状,钻石是一项高度组合和长期的任务,需要复杂的探索和规划,新算法能在没有任何人工数据辅助的情况下收集钻石。或许效率还有很大改进空间,但AI智能体现在可以从头开始学习收集钻石这一事实本身,是一个重要的里程碑。
  DreamerV3方法概述
  论文《MasteringDiverseDomainsthroughWorldModels》:
  论文链接:https:arxiv。orgabs2301。04104v1
  DreamerV3算法由三个神经网络组成,分别是世界模型(worldmodel)、critic和actor。这三个神经网络在不共享梯度的情况下根据回放经验同时训练,下图3(a)展示了世界模型学习,图(b)展示了ActorCritic学习。
  为了取得跨域成功,这些组件需要适应不同的信号幅度,并在它们的目标中稳健地平衡项。这是具有挑战性的,因为不仅针对同一领域内的相似任务,而且还要使用固定超参数跨不同领域进行学习。
  DeepMind首先解释了用于预测未知数量级的简单变换,然后介绍了世界模型、critic、actor以及它们的稳健学习目标。结果发现,结合KL平衡和自由位可以使世界模型无需调整学习,并且在不夸大小回报(smallreturn)的情况下,缩小大回报实现了固定的策略熵正则化器。
  Symlog预测
  重建输入以及预测奖励和价值具有挑战性,因为它们的规模可能因领域而异。使用平方损失预测大目标会导致发散,而绝对损失和Huber损失会使学习停滞。另一方面,基于运行统计数据的归一化目标将非平稳性引入优化。因此,DeepMind提出将symlog预测作为解决这一难题的简单方法。
  为此,具有输入x和参数的神经网络f(x,)学习预测其目标y的变换版本。为了读出该网络的预测y,DeepMind使用了逆变换,如下公式(1)所示。
  从下图4中可以看到,使用对数(logarithm)作为变换无法预测具有负值的目标。
  因此,DeepMind从双对称对数族中选择一个函数,命名为symlog并作为变换,同时将symexp函数作为逆函数。
  symlog函数压缩大的正值和负值的大小。DreamerV3在解码器、奖励预测器和critic中使用symlog预测,还使用symlog函数压缩编码器的输入。
  世界模型学习
  世界模型通过自编码学习感官输入的紧凑表示,并通过预测未来的表示和潜在行为的奖励来实现规划。
  如上图3所示,DeepMind将世界模型实现为循环状态空间模型(RSSM)。首先,编码器将感官输入xt映射到随机表示zt,然后具有循环状态ht的序列模型在给定过去动作at1的情况下预测这些表示的序列。ht和zt的串联形成模型状态,从中预测奖励rt和episode连续标志ct并重建输入以确保信息表示,具体如下公式(3)所示。
  下图5可视化了worldworld的长期视频预测。编码器和解码器使用卷积神经网络(CNN)进行视觉输入,使用多层感知器(MLP)进行低维输入。动态、奖励和持续预测器也是MLPs,这些表示从softmax分布的向量中采样而来。DeepMind在采样步骤中使用了直通梯度。
  ActorCritic学习
  ActorCritic神经网络完全从世界模型预测的抽象序列中学习行为。在环境交互期间,DeepMind通过从actor网络中采样来选择动作,无需进行前瞻性规划。
  实验结果
  DeepMind进行了广泛的实证研究,以评估DreamerV3在固定超参数下跨不同领域(超过150个任务)的通用性和可扩展性,并与已有文献中SOTA方法进行比较。此外还将DreamerV3应用于具有挑战性的视频游戏《我的世界》。
  对于DreamerV3,DeepMind直接报告随机训练策略的性能,并避免使用确定性策略进行单独评估运行,从而简化了设置。所有的DreamerV3智能体均在一个NvidiaV100GPU上进行训练。下表1为基准概览。
  为了评估DreamerV3的通用性,DeepMind在七个领域进行了广泛的实证评估,包括连续和离散动作、视觉和低维输入、密集和稀疏奖励、不同奖励尺度、2D和3D世界以及程序生成。下图1中的结果发现,DreamerV3在所有领域都实现了强大的性能,并在其中4个领域的表现优于所有以前的算法,同时在所有基准测试中使用了固定超参数。
  更多技术细节和实验结果请参阅原论文。

23分大胜却突收噩耗,杜锋正式宣布,最佳第6人伤停或赛季报销季后赛首轮的首场比赛,广东宏远以一场23分的大胜,彻底宣布自己的王者归来。面对被视为常规赛最大黑马的天津队,卫冕冠军根本没有给对手任何机会,经过第一节的试探之后,广东队火力全开,最库里或赛季报销,詹姆斯带伤复出,皮蓬前妻给瓦妮莎介绍男友一夜之间,两支处境同样艰难的球队迎来了不同的消息,勇士队这边,在缺少库里的情况下,他们被打得生活不能自理,汤普森不再是那个汤神,格林看起来精力都放在直播上面,没有了库里,他们近期5人到中年,最好的养生方法是做到两个字夕阳无限好,只是近黄昏。我们都希望自己可以长生不老,永远年轻但生老病死,新旧事物更替是万事万物的发展规律。每个人都最终会慢慢老去,这是谁也改变不了的事实。中年是人生的一个重要的过渡孩子若有这两个异常反应,可能是甲醛中毒了!别抱侥幸心理现在的成年人拥有家庭之后,孩子就变成了至关重要的一环,可以说是家庭的重心都围绕着孩子,孩子的健康也是我们关注的一个很大的问题。很多时候新家装修完,都不敢带孩子入住,毕竟甲醛问题也是刘国梁也会看走眼?培养了10年,没拿到1站公开赛的冠军4月2日,刚刚结束的WTT明星挑战赛多哈站,国乒遭遇史无前例的沉重打击,男队女队全军覆没,无缘最后的冠军争夺!反观日本乒协,成功夺得女单女双项目的金牌,韩国队虽然未能夺得金牌,但同茅台自建电商平台,抢酒APPi茅台下载量登顶,完全利好黄牛这是一条初看有错愕感的新闻茅台手机购物APPi茅台,上线一天就登顶AppStore免费下载排行榜。难道i茅台与iphone更适配,用苹果手机的人,都是茅台的目标客户?不知道多少人是特斯拉女车主维权一年仍无解数据归属及鉴定成难点经济观察网记者周菊去年4月上海车展期间,特斯拉女车主车顶维权控诉特斯拉刹车失灵,如今该事件已过去近1周年。近日,经济观察网记者分别联系了车主张女士和特斯拉相关人士,得知该维权事件仍布克伤退侯沛佐遭驱逐深圳6人得分上双擒山东大比分10领先北京时间4月2日,202122赛季CBA季后赛12进8首回合,深圳队对阵山东队。历经一番角逐,深圳队115101力擒山东队从而大比分10领先,手握晋级先机。4月4日,双方将进行次回万小刀被小沈阳索赔18。3万,碰瓷式维权花样百出,何时能休?对于爱看八卦的网友来说,万小刀这个名字并不陌生。他一往直前百折不挠千变万化深挖各种明星的各种底料。江湖人称娱乐圈第一写手。万小刀取标题,爱用XXX的瓜这一格式。当然,篇篇超过10万2022最新儿童身高标准表出炉家长看看你家孩子达标了吗?2022最新儿童身高标准表出炉家长看看你家孩子达标了吗?无论是你上学工作还是找对象,你的身高厘米数都有可能成为你的障碍或者阻力!如果你的身高不足,那么在考大学的时候,有一些专业是不清明节将至,这10道美食记得别错过,湿气消失了,脸色更红润家庭美食大赏10道家常菜,做法简单大气,每道都好吃又下饭。清明小长假到了,节日的气息还挺浓,宅在家里还不知道吃什么?今天整理了10道营养好吃,做法简单大气的家常菜,喜欢的小伙伴收藏
你都记得哪些让你心动的电影台词1。我爱你会淡的伦敦生活2。有些烦恼,丢掉了,才有云淡风轻的机会。宫崎骏龙猫3。世界上有太多孤独的人,害怕先踏出第一步。绿皮书4。当你迷失自我,不辨方向,深处水下,不知道哪边是向上日本电影女子高概述及幕后电影女子高内容简介。预告短片,时长0151影片概况又名无评分4。6时间2016国别日本分类犯罪片长100分钟导演山本浩贵主演峰岸高田里穂泉中山絵梨奈北山诗织剧情介绍在这部女子高电影上映两天,票房6。8亿!这次沈腾用一部喜剧把我虐哭了独行月球路演,出现在舞台上的主演沈腾,和他在电影中的形象,有点不一样。稀疏的胡茬,瘦瘦的身体,有点粗糙的皮肤,甚至眼神里,都没那么多快乐了。其实胖腾一去不复返,不是因为独行月球,而八百客销售易纷享销客各行其道配图来自Canva可画近年来随着我国移动互联网普及率逐渐趋于饱和,C端市场的人口红利见顶,一心渴望降本增效的B端市场则因为数字化的到来而迎来了新的发展机遇。而在企业加速数字化进程的切入新能源领域爱克股份或将迎来新增长点动力电池成本已占到我们汽车(成本)的40,50,60,且还在不断涨价。那我现在不是给宁德时代打工吗?这是广汽集团董事长曾庆洪在2022年世界动力电池大会上传出的内容。7月21日,2NFT离元宇宙更近一步20年前,1992年的科幻惊悚片雪崩首次提到了元宇宙和阿凡达的概念。1993年,第一位获得Nakamoto比特币的高级加密货币专家比特币先驱HalFinney提出了加密交易卡的想法如何造假一篇学术论文?导师看了连夜求我放他一马最近顶刊Nature上的一篇被引用2300多次的论文被发现造假,实验结果图片是PS出来的!出自Science第377卷,6604期实锤论文中包括了被引2300次的那篇据报道,该篇文你知道什么是元宇宙吗?看完这篇文章你绝对会有收获你有听说过元宇宙吗?你知道什么是元宇宙吗?那么接下来让我给你简单的介绍一下元宇宙吧!元宇宙的英文意思是Metaverse,美东时间2021年310罗布乐思上市,开启了元宇宙元年。F用于电动飞机的轻量化锂电池的研究在研究项目中,ZSW和三个工业伙伴正在研究以挤出机为基础,用环保和高容量的材料生产电极(来源ZSW)围绕德国电池制造Varta和巴登符腾堡州太阳能和氢能研究中心(ZSW)的一个联盟二舅币怎么看?二舅币割韭菜为何会有人上当二舅币又来了,比特币一族好像又增加了新成员,我们也蹭下热度,聊聊下二舅币的祖先比特币,当做提示风险。2008年爆发全球金融危机,同年11月1日,一个自称中8月1日长城科技涨停分析新能源汽车,新能源车零部件概念热股长城科技涨停收盘,收盘价39。93元。该股于10点11分涨停,1次打开涨停,截止收盘封单资金为5799。83万元,占其流通市值0。7。资金流向数据方面,8月1日主力资金净流入716
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网