范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

通用版AlphaGo登Nature最强AI棋手,不懂规则也能精通游戏

  继 AlphaGo 扬名海外后,DeepMind 再推新模型 MuZero,该模型可以在不知道游戏规则的情况下,自学围棋、国际象棋、日本将棋和 Atari 游戏并制定最佳获胜策略 ,论文 12 月 24 日发表至《Nature》。
  论文链接:
  https://arxiv.org/pdf/1911.08265.pdf
  自 2016 年,令柯洁流泪、让李世石沉默的 AlphaGo 横空出世,打遍棋坛无人能敌后,AI 棋手的名号就此一炮打响,而其背后的发明家 DeepMind 却没有因此止步,四年之内迭代了四代 AI 棋手,次次都有新突破。
  始祖 AlphaGo 基于人类棋手的训练数据和游戏规则,采用了神经网络和树状搜索方法,成为了第一个精通围棋的 AI 棋手。
  二代 AlphaGo Zero 于 2017 年在《Nature》发表,与上代相比,不需要人类棋手比赛数据作为训练集,而是通过自对抗的方式自己训练出最佳模型。
  三代 AlphaZero 在 2018 年诞生,将适应领域拓宽至国际象棋和日本将棋,而不是仅限于围棋。
  第四代、也就是今天新公布 MuZero 最大的突破就在于可以在不知道游戏规则的情况下自学规则,不仅在更灵活、更多变化的 Atari 游戏上代表了 AI 的最强水平,同时在围棋、国际象棋、日本将棋领域也保持了相应的优势地位。
  01. 从未知中学习:三要素搭建动态模型
  与机器擅长重复性的计算和牢固的记忆不同,人类最大的优势就是预测能力,也就是通过环境、经验等相关信息,推测可能会发生的事情。
  比如,当我们看到乌云密布,我们会推测今天可能有雨,然后再重新考虑是否要出门。即使对于仅有几岁的孩子而言,学会这种预测方式,然后推广到生活的方方面面也是很容易,但这对于机器来说并不简单。
  对此,DeepMind 研究人员提出了两种方案:前向搜索和基于模型的规划算法。
  前向搜索在二代 AlphaZero 中就已经应用过了,它借助对游戏规则或模拟复盘的深刻理解,制定如跳棋、国际象棋和扑克等经典游戏的最佳策略。但这些的基础是已知游戏规则及对可能出现的状况大量模拟,并不适用情况相对混乱的 Atari 游戏,或者未知游戏规则的情况。
  基于模型的规划则是通过学习环境动态进行精准建模,再给予模型给出最佳策略。但对于环境建模是很复杂的,也不适用于 Atari 等视觉动画极多的游戏。目前来看,能够在 Atari 游戏中获得最好结果的模型(如 DQN、R2D2 和 Agent57),都是无模型系统,也就是不使用学习过的模型,而是基于预测来采取下一步行动。
  也是由于以上两个方法中的优劣,MuZero 没有对环境中所有的要素进行建模,而是仅针对三个重要的要素:
  1、价值:当前处境的好坏情况;
  2、策略:目前能采取的最佳行动;
  3、奖励:最后一个动作完成后情况的好坏。
  那接下来,我们就来看看 MuZero 是如何通过这三个要素进行建模。
  MuZero 从当前位置开始(动画顶部),使用表示功能 H 将目前状况映射到神经网络中的嵌入层(S0),并使用动态函数(G)和预测函数(F)来预测下一步应该采取的动作序列(A)。
  ▲基于蒙特卡洛树状搜索和 MuZero 神经网络进行规划
  那如何知道这一步行动好不好呢?MuZero 会与环境进行互动,也是模拟对手下一步的走向。
  ▲MuZero 通过模拟下棋走向训练神经网络。
  而每一步棋对于整体棋局的贡献都会被累加,成为本次棋局最后的奖励。
  ▲策略函数 P 得到每一步预测下法,价值函数 V 得到每一步的奖励。
  除了减少建模工作量外,这种方法的另一个主要优点就是可以不断复盘,而不需要得到外界的新数据。这样的优势也很明显,在 Atari 的测试中,名为 MuZero Reanalyze 的变体可以利用 90%的时间使用学习过的模型进行重新规划,找到更优策略。02.MuZero 强在哪?追平前辈,拓宽 Atari 游戏战场
  MuZero 模型分别自学了围棋、国际象棋、日本将棋以及 Atari 游戏,前三者用来评估模型在规划问题上的表现,Atari 则用来评估模型面对视觉游戏时的表现。
  ▲MuZero 分别在国际象棋、日本将棋、围棋和 Atari 游戏训练中的评估结果。横坐标表示训练步骤数量,纵坐标表示 Elo 评分。黄色线代表 AlphaZero(在 Atari 游戏中代表人类表现),蓝色线代表 MuZero。
  在围棋、国际象棋和日本将棋中,MuZero 不仅在多训练步骤的情况下达到甚至超过了 "前辈"AlphaZero 的水平,在 Atari 游戏中,MuZero 也表现突出。
  ▲MuZero 在 Atari 游戏中的性能。所有得分均根据人类测试的性能进行了归一化,最佳结果以粗体显示。
  为了进一步评估 MuZero 模型的精确规划能力,DeepMind 的研究人员还进行了围棋中经典的高精度规划挑战,即指下一步就判断胜负。
  为了证实更多的训练时间能使 MuZero 模型更强大,DeepMind 进行了如下面左图实验,当每一步的判断时间从 0.1 秒延长到 50 秒,评价玩家技能的 Elo 指标能增加 1000,相当于业余棋手和最强职业棋手之间的区别。
  而在右图的 Atari 游戏 Ms Pac-Man(吃豆小姐)的测试中,也能很明显地看出训练时长越长时,模型表现越好。
  ▲左图:随着步骤判断时间增加,围棋 Elo 指标上涨;右图:训练时长越长,模型表现越好03. 结语:出身于游戏,期待更多应用
  基于环境要素建模的 MuZero,用在多个游戏上的 "超人"表现证明了卓越的规划能力,也象征着 DeepMind 又一在强化学习和通用算法方面的重大进步。
  它的前辈 AlphaZero 也已投身于化学、量子物理学等领域,切身实地地为人类科学家们解决一系列复杂问题。在未来,MuZero 是否可以继承 "家业",应对机器人、工业制造、未知 "游戏规则"的现实问题所带来的挑战,我们拭目以待。

SA未来12个月打算购买智能手表的消费者比例将达到两位数IT之家1月12日消息,今日,StrategyAnalytics发布报告称,智能手表的销量继续强劲增长,成为本世纪迄今为止最热门的消费电子产品品类之一。IT之家了解到,Strate猫咪狗狗也有智能手表了可监测健康,识别情绪,还防乱跑智能可穿戴设备,可不是人类专属。此前就有王思聪给自己的阿拉斯加犬戴上两块价值15万的AppleWatch,引得网友一片吐槽人不如狗系列。今年CES2022展览会上,真的就出现了不少雷蛇发布RazerXFossilGen6智能手表2095元,骁龙Wear4100芯片IT之家1月6日消息,今日雷蛇发布了联合Fossil打造的RazerXFossilGen6智能手表。该产品采用圆形44mm表盘,运行谷歌WearOS系统,支持WiFi蓝牙5。0GP佳明发布Venu2PlusGPS智能运动腕表可接打电话,支持全天候健康追踪1月4日,Garmin佳明发布Venu2PlusGPS智能运动腕表。据悉,新款产品在Venu2系列原有的基础上增加了接打电话的功能,还可以通过配对手机的语音助手发送短信进行语音互动专家宣称人工智能已具有人类轻微意识北京时间2月15日消息,据国外媒体报道,建立在大型人工神经网络的人工智能,正在帮助人类解决金融研究和医学领域的问题,但它们具备人类的意识吗?目前,一位专家认为,该情况可能已经出现了集度汽车机器人概念车预计今年4月亮相北京车展,量产车型明年上市IT之家1月6日消息,今日,百度和集度在CES2022期间共同宣布,集度首款量产车型将搭载英伟达DRIVEOrinSoC(系统级芯片)。据介绍,集度量产车型预计于2023年上市,将百度智能云曦灵智能数字人平台发布可24小时无休为用户提供服务IT之家12月27日消息,在今日举行的百度Create2021(百度AI开发者大会)上,百度首席技术官王海峰发布智能数字人平台百度智能云曦灵。据了解,数字人可以24小时无休为用户提机器狗背上枪成了无人杀手6。5mm口径1200米射程10月14日消息,做机器人最出名的波士顿动力公司在合同中禁止给他们的机器人产品配备武器,但拦不住别的机器人公司这样做。这只背着半自动步枪的机器狗,在刚刚结束的美国陆军协会年会上亮相人形机器人成精了,走钢丝玩滑板还会飞上天,登Science子刊封面10月9日消息,美国加州理工学院的研究人员开发出了一种双足机器人,结合了双足行走与飞行两种运动姿态,使其具有异常的灵活性,能够进行复杂的运动,如滑滑板走钢丝等。LEO沿系在树间的绳芯海科技市面60以上体脂秤使用公司芯片及解决方案,还有适配鸿蒙的芯片10月1日消息9月30日,每日经济新闻援引芯海科技工作人员观点报道称,目前市面上60以上的体脂秤使用的是芯海科技的芯片及解决方案除体脂秤外,芯海科技还提供有智能穿戴等芯片,以及适配可以装在手机里的3D姿态估计,模型尺寸仅同类17,平均关节位置误差却只有5厘米长久以来,三维姿态估计都在追求准确性上一路狂奔。但精度提高的同时,也带来了计算成本的上升。而刚刚被CPVR2021接受的论文中所提出的模型,MobileHumanPose却可以同时
苹果遭遇技术障碍?消息称AppleWatch最早2024年才能支持血压监测北京时间4月12日晚间消息,据报道,多位知情人士今日称,苹果公司在其AppleWatch智能手表中添加备受期待的血压监测仪的计划,遇到了一些障碍。为此,预计这项技术最早也要到202打打字就能指挥算法视频抠图,Transformer掌握跨模态新技能都说Transformer适合处理多模态任务。这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单处理速度更快(每秒76帧)的视频实例分割框架。这个框架只需上市价279元小米手环6NFC版210元京东新低京东小米手环6NFC版现已开启双11大促,自营拼购直降至210元近期新低京东小米手环6NFC版全面彩屏30种运动模式210元直达链接结算时还可叠加京东红包,再省一点点此领取。小米手真我手表T1官宣支持通话,明日随realmeGTNeo2T发布IT之家10月18日消息,realme真我将于10月19日下午2点举办realme真我GTNeo2T新品发布会。今日官方宣布,真我手表T1将于发布会上同时发布。这是该品牌在中国大陆苹果新专利用AR眼镜来控制iPhone屏幕输出,保护隐私11月12日上午消息,美国专利商标局本周公布了苹果公司提交的一项新专利,该专利揭示了一项隐私功能,旨在仅通过特殊眼镜控制iPhone显示的内容,以便保护隐私。该专利申请的是一种可以智能家居C位要易主智能音箱市场越过山巅,销量下滑狂飙突进的智能音箱市场经历了三年的猛涨之后,正在进入变天时刻。在刚刚结束的CES2021上,过去一向高调的亚马逊谷歌并未抛出新一代智能音箱产品,再退回看2020年双十一期间,国内的索尼机器人aibo获日本国家发明奖IT之家9月27日消息根据索尼中国的消息,索尼自主型娱乐机器人aibo的设计近日荣获由日本发明与创新学会主办的2020年度日本国家发明奖之内阁总理大臣奖。该奖项旨在表彰在科学和技术799元Redmi最便宜智能电视A32明天首销IT之家9月29日消息今天京东平台,Redmi智能电视A32正式开启预售,9。30日10点抢购价799元。这是Redmi目前为止最便宜的智能电视。IT之家报道,Redmi智能电视A华为智能眼镜专利获得授权含拍摄伸缩及旋转组件IT之家5月12日消息企查查App显示,5月11日,华为技术有限公司获得智能眼镜及智能眼镜控制系统专利授权,公告号CN213182196U,申请日期为2020年3月。IT之家获悉,上个网课都能被AI分析在走神,英特尔这个情绪检测AI火了你表面上正专注地盯着电脑屏幕上网课,突然,计算机向老师举报了你这人其实在走神!明明看着屏幕,计算机怎么还能发现你的小秘密?原来,这是英特尔搞出来的一个面部表情分析技术,用它来检测你浙大小姐姐搞出秃头生成器,完美保留五官脸型(附项目地址)只要输入一张照片,输出的就是完美无瑕的光头,气质立刻从实习提升到主管(手动狗头)无论你是年轻的程序员小哥,还是长发飘飘的程序媛,都可以通过这个方法变得更强有了这个名叫HairMap