范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

AI从零开始学会玩我的世界,DeepMindAI通用化取得突破

  机器之心报道
  编辑:杜伟、泽南
  通用 AI 的重要里程碑。
  通用智能需要解决多个领域的任务。人们认为强化学习算法具有这种潜力,但它一直受到为新任务调整所需资源和知识的阻碍。在 DeepMind 的一项新研究中,研究人员展示了基于世界模型的通用可扩展的算法 DreamerV3,它在具有固定超参数的广泛领域中优于以前的方法。
  DreamerV3 符合的领域包括连续和离散动作、视觉和低维输入、2D 和 3D 世界、不同的数据量、奖励频率和奖励等级。值得一提的是,DreamerV3 是第一个在没有人类数据或主动教育的情况下从零开始在《我的世界》(Minecraft)中收集钻石的算法。研究人员表示,这样的通用算法可以使强化学习得到广泛应用,并有望扩展到硬决策问题。
  钻石是《我的世界》游戏中最受欢迎的物品之一,它是游戏中最稀有的物品之一,可被用来制作游戏中绝大多数最强的工具、武器以及盔甲。因为只有在最深的岩石层中才能找到钻石,所以产量很低。
  DreamerV3 是第一个在我的世界中收集钻石的算法,无需人工演示或手动制作课程。该视频显示了它收集的第一颗钻石,发生在 30M 环境步数 / 17 天游戏时间之内。
  如果你对于 AI 玩我的世界没有什么概念,英伟达 AI 科学家 Jim Fan 表示,和 AlphaGo 下围棋比,我的世界任务数量是无限的,环境变化是无限的,知识也是有隐藏信息的。
  对于人类来说,在我的世界里探索和构建是有趣的事,围棋则显得有些复杂,对于 AI 来说,情况刚好相反。AlphaGo 在 6 年前击败了人类冠军,但现在也没有可以和我的世界人类高手媲美的算法出现。
  早在 2019 年夏天,我的世界的开发公司就提出了「钻石挑战」,悬赏可以在游戏里找钻石的 AI 算法,直到 NeurIPS 2019 上,在提交的 660 多份参赛作品中,没有一个 AI 能胜任这项任务。
  但 DreamerV3 的出现改变了这一现状,钻石是一项高度组合和长期的任务,需要复杂的探索和规划,新算法能在没有任何人工数据辅助的情况下收集钻石。或许效率还有很大改进空间,但 AI 智能体现在可以从头开始学习收集钻石这一事实本身,是一个重要的里程碑。
  DreamerV3 方法概述
  论文《Mastering Diverse Domains through World Models》:
  论文链接:https://arxiv.org/abs/2301.04104v1
  DreamerV3 算法由三个神经网络组成,分别是世界模型(world model)、critic 和 actor。这三个神经网络在不共享梯度的情况下根据回放经验同时训练,下图 3(a)展示了世界模型学习,图(b)展示了 Actor Critic 学习。
  为了取得跨域成功,这些组件需要适应不同的信号幅度,并在它们的目标中稳健地平衡项。这是具有挑战性的,因为不仅针对同一领域内的相似任务,而且还要使用固定超参数跨不同领域进行学习。
  DeepMind 首先解释了用于预测未知数量级的简单变换,然后介绍了世界模型、critic、actor 以及它们的稳健学习目标。结果发现,结合 KL 平衡和自由位可以使世界模型无需调整学习,并且在不夸大小回报(small return)的情况下,缩小大回报实现了固定的策略熵正则化器。
  Symlog 预测
  重建输入以及预测奖励和价值具有挑战性,因为它们的规模可能因领域而异。使用平方损失预测大目标会导致发散,而绝对损失和 Huber 损失会使学习停滞。另一方面,基于运行统计数据的归一化目标将非平稳性引入优化。因此,DeepMind 提出将 symlog 预测作为解决这一难题的简单方法。
  为此,具有输入 x 和参数 θ 的神经网络 f (x, θ) 学习预测其目标 y 的变换版本。为了读出该网络的预测 y^,DeepMind 使用了逆变换,如下公式(1)所示。
  从下图 4 中可以看到,使用对数(logarithm)作为变换无法预测具有负值的目标。
  因此,DeepMind 从双对称对数族中选择一个函数,命名为 symlog 并作为变换,同时将 symexp 函数作为逆函数。
  symlog 函数压缩大的正值和负值的大小。DreamerV3 在解码器、奖励预测器和 critic 中使用 symlog 预测,还使用 symlog 函数压缩编码器的输入。
  世界模型学习
  世界模型通过自编码学习感官输入的紧凑表示,并通过预测未来的表示和潜在行为的奖励来实现规划。
  如上图 3 所示,DeepMind 将世界模型实现为循环状态空间模型 (RSSM)。首先,编码器将感官输入 x_t 映射到随机表示 z_t,然后具有循环状态 h_t 的序列模型在给定过去动作 a_t 1 的情况下预测这些表示的序列。h_t 和 z_t 的串联形成模型状态,从中预测奖励 r_t 和 episode 连续标志 c_t   并重建输入以确保信息表示,具体如下公式(3)所示。
  下图 5 可视化了 world world 的长期视频预测。编码器和解码器使用卷积神经网络 (CNN) 进行视觉输入,使用多层感知器 (MLP) 进行低维输入。动态、奖励和持续预测器也是 MLPs,这些表示从 softmax 分布的向量中采样而来。DeepMind 在采样步骤中使用了直通梯度。
  Actor Critic 学习
  Actor Critic 神经网络完全从世界模型预测的抽象序列中学习行为。在环境交互期间,DeepMind 通过从 actor 网络中采样来选择动作,无需进行前瞻性规划。
  实验结果
  DeepMind 进行了广泛的实证研究,以评估 DreamerV3 在固定超参数下跨不同领域(超过 150 个任务)的通用性和可扩展性,并与已有文献中 SOTA 方法进行比较。此外还将 DreamerV3 应用于具有挑战性的视频游戏《我的世界》。
  对于 DreamerV3,DeepMind 直接报告随机训练策略的性能,并避免使用确定性策略进行单独评估运行,从而简化了设置。所有的 DreamerV3 智能体均在一个 Nvidia V100 GPU 上进行训练。下表 1 为基准概览。
  为了评估 DreamerV3 的通用性,DeepMind 在七个领域进行了广泛的实证评估,包括连续和离散动作、视觉和低维输入、密集和稀疏奖励、不同奖励尺度、2D 和 3D 世界以及程序生成。下图 1 中的结果发现,DreamerV3 在所有领域都实现了强大的性能,并在其中 4 个领域的表现优于所有以前的算法,同时在所有基准测试中使用了固定超参数。
  更多技术细节和实验结果请参阅原论文。

5月销量数据出炉,比亚迪历史性突破,丰田赛那销量翻身乘联会近日公布了国内车市的最新销量数据,从销量数据来看,自主品牌在今年势头非常猛,不少原本属于合资品牌的市场遭到了自主品牌的强烈冲击。接下来我们一起来看看5月国内车市的具体销量情况巴西第二!大数据世界杯夺冠率,葡萄牙遭无视,榜首引发争议北京时间6月15日讯本届世界杯的32强已经全部出炉,而有关世界杯话题的热度也提前开始预热。根据StatsPerform的大数据模型预测,本届世界杯的夺冠概率排行榜被公布了出来。排在中兴Axon40Ultra惊喜不断,中兴Axon30沦为百元机悲惨让路中兴Axon40Ultra是一款将科技与美感完美结合的商务旗舰。正面配备了来自国内制造商BOE的6。8英寸曲面大屏幕。采用最新的第三代屏下摄像头技术,表面无开孔。超窄边框,大曲率,最新汇总北京这些演出延期或取消!景区交通运营最新调整根据疫情防控工作要求和部署,目前北京市部分景区地下密闭空间经营场所演出和公共交通运营等有所调整,市民出行请注意。01hr景区运营调整16月15日起,邑仕庄园关闭地下场馆,地上场馆及小龙虾价格低到冰点,但是却很少有人买,了解原因后,扎心了到了夏天以后,夜市摊上最不可缺少的就是小龙虾,小龙虾可以说是在中国混的最惨,如果让他重新选择的话,他肯定不会来到中国,虽然小龙虾的繁殖能力比较强,但是在中国,一直都是供不应求的状态618买手机,预算15002000,五款优质旗舰推荐,闭眼买不吃亏接着上期,本次我们继续618手机购买攻略的话题,本次我们要说的是15002000价位的高素质手机,说实话,这个价格段的产品,和10001500价位的产品难免会有一定交叉,不过核心配Motoedgespro用原相机和谷歌相机夜拍同一场景今晚试了一下用原相机和谷歌相机手持拍摄的同一场景。图1是原相机直接拍摄,场景大致是肉眼所见的样子。图2开启了原相机的夜景模式拍摄,效果如白昼所见,只是模糊些。图3是用谷歌相机拍的,2022年15款最适合儿童的相机摄影爱好者摄影杂志摄影技巧摄影知识任何拥有相机的人都可以告诉您摄影的魔力,无论他们的年龄如何。当他们从小开始时,最重要的是要满足他们拍照的热情。但是,为孩子们找到最好的相机可能很棘预算20002500,618值得推荐的五款旗舰,性能给力,一机用三年上期我们推荐了5款2002500价位的高性价比旗舰给大家。不少网友都意犹未尽。为了满足大家的需求,本期618手机购买攻略,我们将重点介绍25003000价位值得推荐的优质手机,这些618手机买对不买贵,预算2000元上下参考这4款,耗电少性能强越贵的手机理论肯定越好用,但是我们真需要那么贵的手机吗?如果只是普通用户,平时就是看视频打游戏刷新闻聊天等等,其实如果你的预算不足,真没必要一步到位去考虑旗舰机,现在2000元上下(一)佳能相机的三大品牌介绍及关系佳能旗下其实还有三个相机品牌,分别为EOSPowerShot和IXUS。PowerShotIXUSEOSR6其中,EOS相机为可换镜头相机,包括单反和微单。PowerShot相机和
刷新世界同类型桥梁之最,这里是写在高山大地上的桥梁博物馆每个人的记忆中都有一座桥。它要么连结着感情,要么连结着时间。全球几乎没有一个地方,像贵州这样拥有如此多的超级桥梁。一切要从贵州地貌说起。旧说天下山,半在黔中青。贵州,是名副其实山的(新华全媒)攀山浴雪他们守护北极光冬季,极寒下的中国北极黑龙江漠河市进入旅游旺季。灯火通明的北极村,为冰冷的夜晚增添温暖。这片北极光长明不熄,得益于中国最北供电所国网黑龙江省电力有限公司漠河供电公司北极供电所工作人重庆千年古镇磁器口,充满浓浓烟火气,是山城的浓缩与象征重庆一直充满活力,是个常看常新的城市,不仅新的网红打卡景点不断推陈出新,即便是同一个景点,隔上一段时间不去就会有新变化,大名鼎鼎的千年古镇磁器口也是这样。说起磁器口的历史,就要追溯一家4口溺水全部遇难!去海边旅游该注意些什么呢?近日,三亚市海棠区后海村附近海域发生一起溺水事件,一家4口三亚溺水全部遇难,兰州去三亚旅游的一家四口全部遇难。据报道,事发海域为开放式海域,附近设立了告示牌,告知游客此海域危险,禁品广府味过幸福年,今年越秀西湖花市广府庙会全面回归2023年越秀西湖花市广府庙会全面重启回归!春节前后,广州市越秀区将为广大市民群众奉献上多场充满广府风情满载幸福年味的高品质文化盛宴。活动以北京路东山口中山四路惠福东路西湖路忠佑广龟岛磺烟奇景再现!台湾宜兰县龟山岛白色浓烟大喷发台湾宜兰县龟山岛10日上午6时许龟首却冒白烟大喷发,渔民很久未见过如此大量的龟岛磺烟景象。(民众提供图片来源台湾中时新闻网)台湾宜兰县龟山岛目前封岛中,10日上午6时许龟首却冒白烟延吉人民体育场冰雪项目开放市民尽享冬日时光近日,第十届延吉国际冰雪旅游节分会场延吉市人民体育场正式对外开放,市民及游客纷纷前去体验,尽享冬日时光。体育场项目主要分为冰上项目和雪上项目两大部分。雪上项目位于体育场环路,占地约云南罗平云上花乡乡村振兴示范园正式开园近日,云南省罗平云上花乡乡村振兴示范园正式开园,这个以百万亩油菜花海和金鸡峰丛景区为核心吸引,率先谋划建设以花间赏云上住维古养龙潭忆为主题的乡村振兴示范园,走出了一条乡村旅游助推乡上新了,第一本电动车自驾指南!快来免费解锁10大冬季专属线路冬季海螺沟SnotfishH图虫创意在你的身边,是不是越来越多人选择环保高效的电动车出行,而且驾驶场景早已超越日常的城市或城际通勤,直至远方的山川湖海?或许,你也正是一位热爱旅行的中医治疗心血管疾病验方瓜蒌薤白半夏汤冠心病心绞痛是秋冬季节的多发病,因为随着气温的下降,血管的收缩血黏稠度的增加等因素,都是冠心病发作的重要诱因,冠心病属中医胸痹范畴。其病因多为思虑过度劳伤心脾饮食不节痰饮内生情志不请停止吃这4种鱼,或含有甲醛和重金属,不妨转给家人看看你喜欢吃鱼吗?鱼肉算是厨房当中的常客,也是常见的,肉食家家户户餐桌必不可少,相对比其他的肉类营养价值高,脂肪含量低,老少皆宜。虽然鱼肉的营养物质多,可并不代表着所有的鱼肉都能吃,有