范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

DeepMind打造AI游戏王!挑战各种最强棋牌AI,战斗力惊人

  智东西(公众号:zhidxcom)
  编译 | ZeR0
  编辑 | 漠影
  智东西12月9日消息,谷歌母公司Alphabet旗下顶尖AI实验室DeepMind曾因其AI系统AlphaGo击败顶尖人类围棋选手、AlphaStar赢得星际争霸2而爆红全球。本周,它又披露新的游戏AI系统。
  与此前开发的游戏系统不同,DeepMind的AI新作Player of Games是第一个在完全信息游戏以及不完全信息游戏中都能实现强大性能的AI算法。完全信息游戏如中国围棋、象棋等棋盘游戏,不完全信息游戏如扑克等。
  这是向能够在任意环境中学习的真正通用AI算法迈出的重要一步。
  Player of Game在象棋、围棋这两种完全信息游戏和德州扑克、苏格兰场这两种不完全信息游戏中与顶尖AI智能体对战。
  从实验结果来看,DeepMind称Player of Games在完全信息游戏中的表现已经达到了"人类顶级业余选手"水平,但如果给予相同资源,该算法的表现可能会明显弱于AlphaZero等专用游戏算法。
  在两类不完全信息游戏中,Player of Games均击败了最先进的AI智能体。
  论文链接:https://arxiv.org/pdf/2112.03178.pdf
  一、深蓝、AlphaGo等AI系统仅擅长玩一种游戏
  计算机程序挑战人类游戏选手由来已久。
  20世纪50年代,IBM科学家亚瑟·塞缪尔(Arthur L. Samuel)开发了一个跳棋程序,通过自对弈来持续改进其功能,这项研究给很多人带来启发,并普及了"机器学习"这个术语。
  此后游戏AI系统一路发展。1992年,IBM开发的TD-Gammon通过自对弈在西洋双陆棋中实现大师级水平;1997年,IBM深蓝DeepBlue在国际象棋竞赛中战胜当时的世界棋王卡斯帕罗夫;2016年,DeepMind研发的AI系统AlphaGo在围棋比赛中击败世界围棋冠军李世石……
  IBM深蓝系统vs世界棋王卡斯帕罗夫
  这些AI系统有一个共同之处,都是专注于一款游戏。比如塞缪尔的程序、AlphaGo不会下国际象棋,IBM的深蓝也不会下围棋。
  随后,AlphaGo的继任者AlphaZero做到了举一反三。它证明了通过简化AlphaGo的方法,用最少的人类知识,一个单一的算法可以掌握三种不同的完全信息游戏。不过AlphaZero还是不会玩扑克,也不清楚能否玩好不完全信息游戏。
  实现超级扑克AI的方法有很大的不同,扑克游戏依赖于博弈论的推理,来保证个人信息的有效隐藏。其他许多大型游戏AI的训练都受到了博弈论推理和搜索的启发,包括Hanabi纸牌游戏AI、The Resistance棋盘游戏AI、Bridge桥牌游戏AI、AlphaStar星际争霸II游戏AI等。
  2019年1月,AlphaStar对战星际争霸II职业选手
  这里的每个进展仍然是基于一款游戏,并使用了一些特定领域的知识和结构来实现强大的性能。
  DeepMind研发的AlphaZero等系统擅长国际象棋等完全信息游戏,而加拿大阿尔伯特大学研发的DeepStack、卡耐基梅隆大学研发的Libratus等算法在扑克等不完全信息游戏中表现出色。
  对此,DeepMind研发了一种新的算法Player of Games(PoG),它使用了较少的领域知识,通过用自对弈(self-play)、搜索和博弈论推理来实现强大的性能。
  二、更通用的算法PoG:棋盘、扑克游戏都擅长
  无论是解决交通拥堵问题的道路规划,还是合同谈判、与顾客沟通等互动任务,都要考虑和平衡人们的偏好,这与游戏策略非常相似。AI系统可能通过协调、合作和群体或组织之间的互动而获益。像Player of Games这样的系统,能推断其他人的目标和动机,使其与他人成功合作。
  要玩好完全的信息游戏,需要相当多的预见性和计划。玩家必须处理他们在棋盘上看到的东西,并决定他们的对手可能会做什么,同时努力实现最终的胜利目标。不完全信息游戏则要求玩家考虑隐藏的信息,并思考下一步应该如何行动才能获胜,包括可能的虚张声势或组队对抗对手。
  DeepMind称,Player of Games是首个"通用且健全的搜索算法",在完全和不完全的信息游戏中都实现了强大的性能。
  Player of Games(PoG)主要由两部分组成:1)一种新的生长树反事实遗憾最小化(GT-CFR);2)一种通过游戏结果和递归子搜索来训练价值-策略网络的合理自对弈。
  Player of Games训练过程:Actor通过自对弈收集数据,Trainer在分布式网络上单独运行
  在完全信息游戏中,AlphaZero比Player of Games更强大,但在不完全的信息游戏中,AlphaZero就没那么游刃有余了。
  Player of Games有很强通用性,不过不是什么游戏都能玩。参与研究的DeepMind高级研究科学家马丁·施密德(Martin Schmid)说,AI系统需考虑每个玩家在游戏情境中的所有可能视角。
  虽然在完全信息游戏中只有一个视角,但在不完全信息游戏中可能有许多这样的视角,比如在扑克游戏中,视角大约有2000个。
  此外,与DeepMind继AlphaZero之后研发的更高阶MuZero算法不同,Player of Games也需要了解游戏规则,而MuZero无需被告知规则即可飞速掌握完全信息游戏的规则。
  在其研究中,DeepMind评估了Player of Games使用谷歌TPUv4加速芯片组进行训练,在国际象棋、围棋、德州扑克和策略推理桌游《苏格兰场》(Scotland Yard)上的表现。
  苏格兰场的抽象图,Player of Games能够持续获胜
  在围棋比赛中,AlphaZero和Player of Games进行了200场比赛,各执黑棋100次、白棋100次。在国际象棋比赛中,DeepMind让Player of Games和GnuGo、Pachi、Stockfish以及AlphaZero等顶级系统进行了对决。
  不同智能体的相对Elo表,每个智能体与其他智能体进行200场比赛
  在国际象棋和围棋中,Player of Games被证明在部分配置中比Stockfish和Pachi更强,它在与最强的AlphaZero的比赛中赢得了0.5%的胜利。
  尽管在与AlphaZero的比赛中惨败,但DeepMind相信Player of Games的表现已经达到了"人类顶级业余选手"的水平,甚至可能达到了专业水平。
  Player of Games在德州扑克比赛中与公开可用的Slumbot对战。该算法还与Joseph Antonius Maria Nijssen开发的PimBot进行了苏格兰场的比赛。
  不同智能体在德州扑克、苏格兰场游戏中的比赛结果
  结果显示,Player of Games是一个更好的德州扑克和苏格兰场玩家。与Slumbot对战时,该算法平均每hand赢得700万个大盲注(mbb/hand),mbb/hand是每1000 hand赢得大盲注的平均数量。
  同时在苏格兰场,DeepMind称,尽管PimBot有更多机会搜索获胜的招数,但Player of Games还是"显著"击败了它。
  三、研究关键挑战:训练成本太高
  施密德相信Player of Games是向真正通用的游戏系统迈出的一大步。
  实验的总体趋势是,随着计算资源增加,Player of Games算法以保证产生更好的最小化-最优策略的逼近,施密德预计这种方法在可预见的未来将扩大规模。
  "人们会认为,受益于AlphaZero的应用程序可能也会受益于游戏玩家。"他谈道,"让这些算法更加通用是一项令人兴奋的研究。"
  当然,倾向于大量计算的方法会让拥有较少资源的初创公司、学术机构等组织处于劣势。在语言领域尤其如此,像OpenAI的GPT-3这样的大型模型已取得领先性能,但其通常需要数百万美元的资源需求,这远超大多数研究小组的预算。
  即便是在DeepMind这样财力雄厚的公司,成本有时也会超过人们所能接受的水平。
  对于AlphaStar,公司的研究人员有意没有尝试多种构建关键组件的方法,因为高管们认为训练成本太高。根据DeepMind披露的业绩文件,它在去年才首次盈利,年收入达到8.26亿英镑(折合约69亿人民币),获得4380万英镑(折合约3.67亿人民币)的利润。从2016年~2019年,DeepMind共计亏损13.55亿英镑(折合约113亿人民币)。
  据估计,AlphaZero的训练成本高达数千万美元。DeepMind没有透露Player of Games的研究预算,但考虑到每个游戏的训练步骤从数十万到数百万不等,这个预算不太可能低。
  结语:游戏AI正助力突破认知及推理挑战
  目前游戏AI还缺乏明显的商业应用,而DeepMind的一贯理念是借其去探索突破认知和推理能力所面临的独特挑战。近几十年来,游戏催生了自主学习的AI,这为计算机视觉、自动驾驶汽车和自然语言处理提供了动力。
  随着研究从游戏转向其他更商业化的领域,如应用推荐、数据中心冷却优化、天气预报、材料建模、数学、医疗保健和原子能计算等等,游戏AI研究对搜索、学习和博弈推理的价值愈发凸显。
  "一个有趣的问题是,这种水平的游戏是否可以用较少的计算资源实现。"这个在Player of Games论文最后中被提及的问题,还没有明确的答案。

锂电池精密结构件领域的龙头企业有哪些前言锂电池除了前面讲到的正负极材料隔膜电解液以及极耳铝塑膜外,还有被容易忽略的精密结构件,它也是电池的重要组成部分之一。锂电池精密结构件锂电池精密结构件的构成及作用锂电池精密结构件华为再次亮剑,mate50Pro或将采用屏下摄像头,5G也有了希望大家好,我是三月。或许现在很多人认为华为手机基本上没有什么销量,一个是华为现在的新机毕竟很少,一年多时间新机似乎也能数得过来,P系列之后P50一款,mate系列只有mate40系列C语言各数据类型的内存映像C语言各种数据类型的内存映像(32位平台)0signedcharincludestdio。hintmain()charmin17charmax(17)1for(intiminima轴距2750mm的小型SUV,6。7s破百,smart精灵1能成为爆款吗?虽然喜欢传统燃油汽车的人有很多,但新能源汽车的崛起已经逐渐成为了未来的必然趋势。在传统的燃油汽车领域,国外的车企由于起步很早,所以国产汽车品牌想要在这个领域完全超过合资品牌基本上是光鲜的互联网大厂背后最底层的劳务工人们,一天工作15个小时NO。34那些支撑互联网大厂的底层们在角落里上不了台面。作者淮河雨欢迎大家点赞评论分享关注题引国内头部的互联网企业例如阿里腾讯京东美团拼多多等,无不是风光无限的大公司。虽然近半年来Linux实用命令合集(遇水搭桥,场景命令篇)我坚持认为,Linux学习应该结合具体的需求和场景,一味的浏览各种命令大而全的参数说明而不知道实际工作中出现的应用需求,会事倍功半,收效甚微的。ls,cd,cat,ipaddr,p马斯克时代的推特,会如何赋能Web3。0发展呢?上个月互联网上的最大条新闻就是ElonMusk以440亿美元平均每股54。20美元买下推特(Twitter)。此消息一出,所有人和ElonMusk相关的股价和币价马上有所涨跌。消息揭开电动车虚假续航之谜之后,新能源你还敢开吗?近些年来,电动汽车续航里程普遍已经达到了500公里以上,甚至已经有1000公里的车型推出,可许多消费者还是对续航里程存有焦虑,这是为何?数据显示,2021年新能源汽车产销分别达到3蓄势待发!A股储能板块迎春风加码,14家高增长潜力股请收好随着碳达峰碳中和目标的全面推进,以光伏风电等清洁能源以及储能系统电力的入网比例将大幅提高,为国内储能市场带来了新的发展机遇。消息面上改革委能源局等九部门联合发布十四五可再生能源发展亏钱也要卖车,20组客户就成最热闹,BBA还真遇到难题了奔驰宝马奥迪三家豪华品牌为何被公认为一线豪华品牌?除了大家都知道的销量外,我们认为还有一点是它们三家的抗风险能力较强,比如过去两年的汽车市场受疫情影响较大,但BBA三家反倒呈现出了动物所建立蛋白工程化改造新方法和基于Cas12i的基因编辑新工具来源中国科学院CRISPRCas基因组编辑技术在基因治疗农作物经济性状改良及基础研究等领域均有多样化的应用,引领生物技术与应用的快速发展。自然界中广泛存在的天然CRISPRCas系
小李子前女友卡米拉莫罗尼穿性感连衣裙参加Burberry时装秀小黑裙永远不会出错,尤其是在分手之后!与莱昂纳多迪卡普里奥分手后,卡米拉莫罗尼在伦敦穿着一件紧身连衣裙外出,证明了这一点。9月26日(周一),这位25岁的模特身穿Burberry的21!又赢了!中国女足大将现身法甲,与欧洲王牌为伍,终结对手正文北京时间25日结束的一场法甲第三轮焦点战中,巴黎圣日耳曼女足21绝杀弗莱里91队。本场较量,中国女足大将李梦雯下半场身披大巴黎战袍第74分钟替补登场再次现身法甲赛场,与欧洲王牌3届奥赛古典健美冠军,声称不会参加男子公开赛,觉得风险太大了克里斯布姆斯特德(ChrisBumstead)是世界顶级职业健美运动员之一,他是奥林匹亚先生古典健美的3次冠军,他再现了20世纪70年代健美黄金时代的健美美学,拥有标志性的真空腹和AI肛珠真能实现完美作弊?业内人士称其完全可行上周进行的国际象棋传奇系列赛中,当今国际象棋第一人人类最高等级分拥有者挪威棋王卡尔森,面对不到20岁的美国小将尼尔曼,只走了3步便宣布认输,在业内引发轩然大波。赛后他隐晦地表示对手30分33分41分!联盟第1!20岁榜眼增肌成功,他要进全明星哈登在费城着做自己的冠军梦,老东家休斯顿火箭也正在享受哈登离队带来的红利。连续两年摆烂,火箭队却收获满满。2021年选秀大会,火箭用榜眼签选中杰伦格林2022年选秀大会,火箭队用探拒绝留队,态度坚决!斯通送你去争冠队,火箭迎来加鲁巴老乡?尽管火箭队的媒体开放日仅有一天,但透露出的信息着实不少。杰伦格林在经历了一个夏天之后变得更加强壮,他3公斤的体重增长全部转化为了肌肉。新赛季的两大首发内线申京和贾巴里史密斯身高均有电竞人失聪不失梦想,23岁北京冬残奥会舞者夺得省赛亚军没有临场指挥,配合全靠默契这样一支队伍在近日夺得了王者荣耀全国大赛上海赛区的亚军。队长钱嘉乐是一名登上过北京冬残奥会开幕式舞台的舞者,他患有先天性失聪,但这不影响他对梦想的追求,在王者荣耀伽罗下台,马可波罗退位,自带破晓的他强势崛起在王者荣耀中,射手一直都是队伍中的核心输出位,虽然连续两个赛季策划对射手不是很友好,但是一名会玩射手的玩家,前期就可以在线上打出压制性优势,中期就有能力接管比赛,本赛季伽罗下台,马喜欢肉鸽却不知道怎么挑?不妨来支持支持这五款国产肉鸽游戏对于喜欢肉鸽游戏的玩家来说,一定不会对哈迪斯杀戮尖塔以撒的结合感到陌生,但实际上国内也诞生了很多优秀的肉鸽游戏作品,在闲暇之余不妨也来支持支持这些国内的游戏作品。1。霓虹深渊霓虹深游戏王怪兽卡兽族(9)方界兽利刃之迦楼迪亚(方界獣)娱乐伙伴合掩河马(EM)娱乐伙伴合掩河马(EM)百兽之圣像骑士(百獣)百兽之圣像骑士(百獣)空牙团的大义福尔戈(空牙団大義)空牙团的大义福尔戈(空牙団妲己新皮肤,破次元少女时之奇旅即将上线,连招是123还是213?陌陌聊游戏,给您带来最新最快的王者资讯!不得不说,新赛季上架新皮肤的速度就是快啊!这不,新赛季一共出了多款皮肤。有赛季皮肤,也有战令皮肤!这不,奕星的新皮肤滕王阁序刚刚公布了技能特