范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

通用版AlphaGo登Nature最强AI棋手,不懂规则也能精通游戏

  继 AlphaGo 扬名海外后,DeepMind 再推新模型 MuZero,该模型可以在不知道游戏规则的情况下,自学围棋、国际象棋、日本将棋和 Atari 游戏并制定最佳获胜策略 ,论文 12 月 24 日发表至《Nature》。
  论文链接:
  https://arxiv.org/pdf/1911.08265.pdf
  自 2016 年,令柯洁流泪、让李世石沉默的 AlphaGo 横空出世,打遍棋坛无人能敌后,AI 棋手的名号就此一炮打响,而其背后的发明家 DeepMind 却没有因此止步,四年之内迭代了四代 AI 棋手,次次都有新突破。
  始祖 AlphaGo 基于人类棋手的训练数据和游戏规则,采用了神经网络和树状搜索方法,成为了第一个精通围棋的 AI 棋手。
  二代 AlphaGo Zero 于 2017 年在《Nature》发表,与上代相比,不需要人类棋手比赛数据作为训练集,而是通过自对抗的方式自己训练出最佳模型。
  三代 AlphaZero 在 2018 年诞生,将适应领域拓宽至国际象棋和日本将棋,而不是仅限于围棋。
  第四代、也就是今天新公布 MuZero 最大的突破就在于可以在不知道游戏规则的情况下自学规则,不仅在更灵活、更多变化的 Atari 游戏上代表了 AI 的最强水平,同时在围棋、国际象棋、日本将棋领域也保持了相应的优势地位。
  01. 从未知中学习:三要素搭建动态模型
  与机器擅长重复性的计算和牢固的记忆不同,人类最大的优势就是预测能力,也就是通过环境、经验等相关信息,推测可能会发生的事情。
  比如,当我们看到乌云密布,我们会推测今天可能有雨,然后再重新考虑是否要出门。即使对于仅有几岁的孩子而言,学会这种预测方式,然后推广到生活的方方面面也是很容易,但这对于机器来说并不简单。
  对此,DeepMind 研究人员提出了两种方案:前向搜索和基于模型的规划算法。
  前向搜索在二代 AlphaZero 中就已经应用过了,它借助对游戏规则或模拟复盘的深刻理解,制定如跳棋、国际象棋和扑克等经典游戏的最佳策略。但这些的基础是已知游戏规则及对可能出现的状况大量模拟,并不适用情况相对混乱的 Atari 游戏,或者未知游戏规则的情况。
  基于模型的规划则是通过学习环境动态进行精准建模,再给予模型给出最佳策略。但对于环境建模是很复杂的,也不适用于 Atari 等视觉动画极多的游戏。目前来看,能够在 Atari 游戏中获得最好结果的模型(如 DQN、R2D2 和 Agent57),都是无模型系统,也就是不使用学习过的模型,而是基于预测来采取下一步行动。
  也是由于以上两个方法中的优劣,MuZero 没有对环境中所有的要素进行建模,而是仅针对三个重要的要素:
  1、价值:当前处境的好坏情况;
  2、策略:目前能采取的最佳行动;
  3、奖励:最后一个动作完成后情况的好坏。
  那接下来,我们就来看看 MuZero 是如何通过这三个要素进行建模。
  MuZero 从当前位置开始(动画顶部),使用表示功能 H 将目前状况映射到神经网络中的嵌入层(S0),并使用动态函数(G)和预测函数(F)来预测下一步应该采取的动作序列(A)。
  ▲基于蒙特卡洛树状搜索和 MuZero 神经网络进行规划
  那如何知道这一步行动好不好呢?MuZero 会与环境进行互动,也是模拟对手下一步的走向。
  ▲MuZero 通过模拟下棋走向训练神经网络。
  而每一步棋对于整体棋局的贡献都会被累加,成为本次棋局最后的奖励。
  ▲策略函数 P 得到每一步预测下法,价值函数 V 得到每一步的奖励。
  除了减少建模工作量外,这种方法的另一个主要优点就是可以不断复盘,而不需要得到外界的新数据。这样的优势也很明显,在 Atari 的测试中,名为 MuZero Reanalyze 的变体可以利用 90%的时间使用学习过的模型进行重新规划,找到更优策略。02.MuZero 强在哪?追平前辈,拓宽 Atari 游戏战场
  MuZero 模型分别自学了围棋、国际象棋、日本将棋以及 Atari 游戏,前三者用来评估模型在规划问题上的表现,Atari 则用来评估模型面对视觉游戏时的表现。
  ▲MuZero 分别在国际象棋、日本将棋、围棋和 Atari 游戏训练中的评估结果。横坐标表示训练步骤数量,纵坐标表示 Elo 评分。黄色线代表 AlphaZero(在 Atari 游戏中代表人类表现),蓝色线代表 MuZero。
  在围棋、国际象棋和日本将棋中,MuZero 不仅在多训练步骤的情况下达到甚至超过了 "前辈"AlphaZero 的水平,在 Atari 游戏中,MuZero 也表现突出。
  ▲MuZero 在 Atari 游戏中的性能。所有得分均根据人类测试的性能进行了归一化,最佳结果以粗体显示。
  为了进一步评估 MuZero 模型的精确规划能力,DeepMind 的研究人员还进行了围棋中经典的高精度规划挑战,即指下一步就判断胜负。
  为了证实更多的训练时间能使 MuZero 模型更强大,DeepMind 进行了如下面左图实验,当每一步的判断时间从 0.1 秒延长到 50 秒,评价玩家技能的 Elo 指标能增加 1000,相当于业余棋手和最强职业棋手之间的区别。
  而在右图的 Atari 游戏 Ms Pac-Man(吃豆小姐)的测试中,也能很明显地看出训练时长越长时,模型表现越好。
  ▲左图:随着步骤判断时间增加,围棋 Elo 指标上涨;右图:训练时长越长,模型表现越好03. 结语:出身于游戏,期待更多应用
  基于环境要素建模的 MuZero,用在多个游戏上的 "超人"表现证明了卓越的规划能力,也象征着 DeepMind 又一在强化学习和通用算法方面的重大进步。
  它的前辈 AlphaZero 也已投身于化学、量子物理学等领域,切身实地地为人类科学家们解决一系列复杂问题。在未来,MuZero 是否可以继承 "家业",应对机器人、工业制造、未知 "游戏规则"的现实问题所带来的挑战,我们拭目以待。

小米小爱触屏音箱通过3C认证有望即将亮相IT之家2月18日消息小米官方最近为即将发布的小米9新手机造势做了大量的工作,该机将在2月20日正式发布。现在国家认证消息揭示了小米已经在准备中的另外一款新品。国家3C认证信息显示小米米家智能门锁即将发布IT之家12月4日消息今天下午,小米米家官方宣布,小米米家智能门锁将于12月5日14点mi。com直播发布。这款产品采用了一体化活体指纹识别,并且还支持密码NFC蓝牙等6种开锁方式天猫精灵产品进化论万物互联时代入口争夺战今年6月6日,工信部正式发放5G商用牌照,标志着中国正式进入5G时代。说到5G,很多人的直接印象可能是手机上网的速度会变得超级快,但其实5G时代能带来的改变可不止那么简单,一句话概脱去诺基亚外装,Withings于CES2019发布多款智能手表注原标题为从诺基亚脱身后,Withings发布了一款可以测心电图售价为AppleWatch13的智能手表。如果你在几年前就关注过可穿戴设备,应该对Withings这个名字不会感到陌苏宁小Biu空调3。15再次开卖前1万台还是1999元感谢IT之家网友学士的线索投递!IT之家3月11日消息3月6日上午,苏宁极物小Biu空调首发开售,前10000台的1999元优惠名额刚刚开售就被抢购一空。没有以1999元的价格抢到英伟达AI智能画笔,随手涂鸦秒变美丽风景IT之家3月20日消息在最新的官方博客中,英伟达介绍了一款自家的AI软件,可以将随手的涂鸦变成靓丽风景。这款软件名为GauGAN,使用了生成对抗网络AI模型GAN。它就像是智能画笔百度与浦发银行发布数字人一人可服务千万人7月3日上午消息,2019年百度AI开发者大会今日举行,现场李彦宏演讲开场。李彦宏在现场展示了百度和浦发银行联合培养的一位超级员工,她有一个超级大脑,非常聪明而且完全不怕什么996台积电创始人张忠谋未来25年内很多职业将被AI取代12月19日下午消息,台积电创办人张忠谋日前接受台湾地区经济日报专访时表示,未来25年内,很多职业将被人工智能(AI)取代。为什么说25年内就会改变人类?他以互联网(Interne香港中文大学开设首个人工智能学位课程IT之家10月21日消息香港中文大学日前发布新闻稿,宣布学校计算机科学与工程学系将开办香港地区首个人工智能工程学士课程,名为人工智能系统与科技(ArtificialIntelligTicWatchPro4G版智能手表上架小米有品双屏幕双终端IT之家12月2日消息11月28日,出门问问发布了TicWatchPro4G版智能手表,TicWatchPro4G版售价1799元,TicWatchPro4G版的表体直径为45mm华米科技与高通达成合作,将推出eSIM独立通话智能穿戴新品IT之家6月3日消息今天,华米科技和高通共同宣布,双方在智能可穿戴产品领域达成合作,华米科技旗下AMAZFIT品牌将推出搭载高通骁龙移动平台支持全网通eSIM独立通话功能全新智能可
米家智能蒸汽小烤箱12L发布3月17日1000开启众筹,269元IT之家3月16日消息小米之家今日发布消息,米家智能蒸汽小烤箱12L将于3月17日1000开启众筹,零售价299元,众筹价269元。这款产品在烘烤的同时可以生成蒸汽,保证食物松软口3月13日新款乐视超级电视将发布,搭载联发科芯片IT之家3月10日消息今天,沉寂很久的乐视超级电视发文称,乐融致新将于3月13日在上海正式公布全新乐视超级电视,届时这款新品电视将搭载联发科芯片。此前,乐视改名重组乐视电视,成立新IT之家开箱小米WatchS1智能手表图赏圆形表盘12天续航IT之家1月4日消息,小米WatchS1高端智能手表于12月28日发布,并于12月31日正式开售,拥有曜石黑流光银两款配色,配备真皮氟橡胶两种材质表带,售价1099元起。IT之家现魅族新款Lipro智能开关预热首次采用手机级CNC金属工艺IT之家1月8日消息,魅族今日再次对即将到来的魅族新生力量冬季新品发布会进行预热。今日展现的新产品是一款智能开关。产品边框为金色,中央具有白色的双控开关。魅族表示,这还是Lipro消息称华为本月国内发布WatchFitmini屏幕更小,机身更轻IT之家12月11日消息,今年10月份,华为在欧洲发布了WatchFitmini,这款设备屏幕更小,机身更轻。据数码博主菊厂影业Fans的消息,华为将在本月下旬在国内发布这款产品。华为智能眼镜发布可更换镜框设计,搭载HarmonyOS,售价16991899元IT之家12月23日消息,在今天下午的华为旗舰新品发布会上,华为还带来了全新的华为智能眼镜,采用了可拆卸前框设计。全新华为智能眼镜采用创新的可拆卸前框设计,提供经典方框时尚飞行员复GitHub免费提供机器学习扫描代码漏洞,现已支持JavaScriptTypeScript今天,GitHub更新一项实验版新功能。用上机器学习后,新版CodeQL代码扫描服务可以帮开发者发现更多安全漏洞。目前在JavaScript和TypeScript存储库上开发测试,谷歌打造了一盏智能台灯,员工专用IT之家2月14日消息,谷歌打造了一盏支持谷歌助手的智能台灯,但普通用户是买不到的,因为这款台灯只提供给谷歌员工。谷歌设计师本戈德(BenGold)在推特上发布了这盏灯的图片,它被三星展示AI机器人管家BotHandy可摆桌子倒酒拿饮料1月12日消息,据国外媒体报道,三星公司正在研发一种机器人,它可以取洗好的衣服放洗碗机摆桌子倒酒,甚至还可以给你拿饮料。这个机器人叫做BotHandy,三星表示它能够通过摄像头和人谷歌AI加入蛋白质解析大军ProtENN模型助增680万个蛋白质注释词条,登顶Nature子刊要说AIforScience的扛大旗者,大家也许都会首先想到DeepMind2018年,DeepMind推出蛋白质折叠结构预测模型AlphaFold,从氨基酸序列计算预测蛋白质结构一张照片就能生成3D模型,GAN和自动编码器碰撞出奇迹2D图片脑补3D模型,这次真的只用一张图就行了只需要给AI随便喂一张照片,它就能从不一样的角度给你生成新视图不仅能搞定360的椅子和汽车,连人脸也玩出了新花样,从死亡自拍角度到仰视