专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

DeepMind打造AI游戏王!挑战各种最强棋牌AI,战斗力

  智东西(公众号:zhidxcom)
  编译ZeR0
  编辑漠影
  智东西12月9日消息,谷歌母公司Alphabet旗下顶尖AI实验室DeepMind曾因其AI系统AlphaGo击败顶尖人类围棋选手、AlphaStar赢得星际争霸2而爆红全球。本周,它又披露新的游戏AI系统。
  与此前开发的游戏系统不同,DeepMind的AI新作PlayerofGames是第一个在完全信息游戏以及不完全信息游戏中都能实现强大性能的AI算法。完全信息游戏如中国围棋、象棋等棋盘游戏,不完全信息游戏如扑克等。
  这是向能够在任意环境中学习的真正通用AI算法迈出的重要一步。
  PlayerofGame在象棋、围棋这两种完全信息游戏和德州扑克、苏格兰场这两种不完全信息游戏中与顶尖AI智能体对战。
  从实验结果来看,DeepMind称PlayerofGames在完全信息游戏中的表现已经达到了人类顶级业余选手水平,但如果给予相同资源,该算法的表现可能会明显弱于AlphaZero等专用游戏算法。
  在两类不完全信息游戏中,PlayerofGames均击败了最先进的AI智能体。
  论文链接:https:arxiv。orgpdf2112。03178。pdf
  一、深蓝、AlphaGo等AI系统仅擅长玩一种游戏
  计算机程序挑战人类游戏选手由来已久。
  20世纪50年代,IBM科学家亚瑟塞缪尔(ArthurL。Samuel)开发了一个跳棋程序,通过自对弈来持续改进其功能,这项研究给很多人带来启发,并普及了机器学习这个术语。
  此后游戏AI系统一路发展。1992年,IBM开发的TDGammon通过自对弈在西洋双陆棋中实现大师级水平;1997年,IBM深蓝DeepBlue在国际象棋竞赛中战胜当时的世界棋王卡斯帕罗夫;2016年,DeepMind研发的AI系统AlphaGo在围棋比赛中击败世界围棋冠军李世石
  IBM深蓝系统vs世界棋王卡斯帕罗夫
  这些AI系统有一个共同之处,都是专注于一款游戏。比如塞缪尔的程序、AlphaGo不会下国际象棋,IBM的深蓝也不会下围棋。
  随后,AlphaGo的继任者AlphaZero做到了举一反三。它证明了通过简化AlphaGo的方法,用最少的人类知识,一个单一的算法可以掌握三种不同的完全信息游戏。不过AlphaZero还是不会玩扑克,也不清楚能否玩好不完全信息游戏。
  实现超级扑克AI的方法有很大的不同,扑克游戏依赖于博弈论的推理,来保证个人信息的有效隐藏。其他许多大型游戏AI的训练都受到了博弈论推理和搜索的启发,包括Hanabi纸牌游戏AI、TheResistance棋盘游戏AI、Bridge桥牌游戏AI、AlphaStar星际争霸II游戏AI等。
  2019年1月,AlphaStar对战星际争霸II职业选手
  这里的每个进展仍然是基于一款游戏,并使用了一些特定领域的知识和结构来实现强大的性能。
  DeepMind研发的AlphaZero等系统擅长国际象棋等完全信息游戏,而加拿大阿尔伯特大学研发的DeepStack、卡耐基梅隆大学研发的Libratus等算法在扑克等不完全信息游戏中表现出色。
  对此,DeepMind研发了一种新的算法PlayerofGames(PoG),它使用了较少的领域知识,通过用自对弈(selfplay)、搜索和博弈论推理来实现强大的性能。
  二、更通用的算法PoG:棋盘、扑克游戏都擅长
  无论是解决交通拥堵问题的道路规划,还是合同谈判、与顾客沟通等互动任务,都要考虑和平衡人们的偏好,这与游戏策略非常相似。AI系统可能通过协调、合作和群体或组织之间的互动而获益。像PlayerofGames这样的系统,能推断其他人的目标和动机,使其与他人成功合作。
  要玩好完全的信息游戏,需要相当多的预见性和计划。玩家必须处理他们在棋盘上看到的东西,并决定他们的对手可能会做什么,同时努力实现最终的胜利目标。不完全信息游戏则要求玩家考虑隐藏的信息,并思考下一步应该如何行动才能获胜,包括可能的虚张声势或组队对抗对手。
  DeepMind称,PlayerofGames是首个通用且健全的搜索算法,在完全和不完全的信息游戏中都实现了强大的性能。
  PlayerofGames(PoG)主要由两部分组成:1)一种新的生长树反事实遗憾最小化(GTCFR);2)一种通过游戏结果和递归子搜索来训练价值策略网络的合理自对弈。
  PlayerofGames训练过程:Actor通过自对弈收集数据,Trainer在分布式网络上单独运行
  在完全信息游戏中,AlphaZero比PlayerofGames更强大,但在不完全的信息游戏中,AlphaZero就没那么游刃有余了。
  PlayerofGames有很强通用性,不过不是什么游戏都能玩。参与研究的DeepMind高级研究科学家马丁施密德(MartinSchmid)说,AI系统需考虑每个玩家在游戏情境中的所有可能视角。
  虽然在完全信息游戏中只有一个视角,但在不完全信息游戏中可能有许多这样的视角,比如在扑克游戏中,视角大约有2000个。
  此外,与DeepMind继AlphaZero之后研发的更高阶MuZero算法不同,PlayerofGames也需要了解游戏规则,而MuZero无需被告知规则即可飞速掌握完全信息游戏的规则。
  在其研究中,DeepMind评估了PlayerofGames使用谷歌TPUv4加速芯片组进行训练,在国际象棋、围棋、德州扑克和策略推理桌游《苏格兰场》(ScotlandYard)上的表现。
  苏格兰场的抽象图,PlayerofGames能够持续获胜
  在围棋比赛中,AlphaZero和PlayerofGames进行了200场比赛,各执黑棋100次、白棋100次。在国际象棋比赛中,DeepMind让PlayerofGames和GnuGo、Pachi、Stockfish以及AlphaZero等顶级系统进行了对决。
  不同智能体的相对Elo表,每个智能体与其他智能体进行200场比赛
  在国际象棋和围棋中,PlayerofGames被证明在部分配置中比Stockfish和Pachi更强,它在与最强的AlphaZero的比赛中赢得了0。5的胜利。
  尽管在与AlphaZero的比赛中惨败,但DeepMind相信PlayerofGames的表现已经达到了人类顶级业余选手的水平,甚至可能达到了专业水平。
  PlayerofGames在德州扑克比赛中与公开可用的Slumbot对战。该算法还与JosephAntoniusMariaNijssen开发的PimBot进行了苏格兰场的比赛。
  不同智能体在德州扑克、苏格兰场游戏中的比赛结果
  结果显示,PlayerofGames是一个更好的德州扑克和苏格兰场玩家。与Slumbot对战时,该算法平均每hand赢得700万个大盲注(mbbhand),mbbhand是每1000hand赢得大盲注的平均数量。
  同时在苏格兰场,DeepMind称,尽管PimBot有更多机会搜索获胜的招数,但PlayerofGames还是显著击败了它。
  三、研究关键挑战:训练成本太高
  施密德相信PlayerofGames是向真正通用的游戏系统迈出的一大步。
  实验的总体趋势是,随着计算资源增加,PlayerofGames算法以保证产生更好的最小化最优策略的逼近,施密德预计这种方法在可预见的未来将扩大规模。
  人们会认为,受益于AlphaZero的应用程序可能也会受益于游戏玩家。他谈道,让这些算法更加通用是一项令人兴奋的研究。
  当然,倾向于大量计算的方法会让拥有较少资源的初创公司、学术机构等组织处于劣势。在语言领域尤其如此,像OpenAI的GPT3这样的大型模型已取得领先性能,但其通常需要数百万美元的资源需求,这远超大多数研究小组的预算。
  即便是在DeepMind这样财力雄厚的公司,成本有时也会超过人们所能接受的水平。
  对于AlphaStar,公司的研究人员有意没有尝试多种构建关键组件的方法,因为高管们认为训练成本太高。根据DeepMind披露的业绩文件,它在去年才首次盈利,年收入达到8。26亿英镑(折合约69亿人民币),获得4380万英镑(折合约3。67亿人民币)的利润。从2016年2019年,DeepMind共计亏损13。55亿英镑(折合约113亿人民币)。
  据估计,AlphaZero的训练成本高达数千万美元。DeepMind没有透露PlayerofGames的研究预算,但考虑到每个游戏的训练步骤从数十万到数百万不等,这个预算不太可能低。
  结语:游戏AI正助力突破认知及推理挑战
  目前游戏AI还缺乏明显的商业应用,而DeepMind的一贯理念是借其去探索突破认知和推理能力所面临的独特挑战。近几十年来,游戏催生了自主学习的AI,这为计算机视觉、自动驾驶汽车和自然语言处理提供了动力。
  随着研究从游戏转向其他更商业化的领域,如应用推荐、数据中心冷却优化、天气预报、材料建模、数学、医疗保健和原子能计算等等,游戏AI研究对搜索、学习和博弈推理的价值愈发凸显。
  一个有趣的问题是,这种水平的游戏是否可以用较少的计算资源实现。这个在PlayerofGames论文最后中被提及的问题,还没有明确的答案。

2月全球热门游戏收入排行,原神蝉联第一,王者荣耀第三国外知名数据分析平台(原AppAnnie)今日公布了2022年2月全球热门游戏收入排行,原神持续占据榜单第一的宝座,ROBLOX和王者荣耀则继续排在第二与第三的位置。值得一提的是,当社恐娃和社牛娃同框都是内向外向惹的祸?近日,一段社恐娃和社牛娃的戏剧性同框视频火了身着蓝色小碎花裙的社牛小女孩,在舞台上随心所欲地跳舞另一个红色花裙子的社恐小女孩双手捂脸一动也不敢动。两个孩子同框,形成了鲜明的对比,让生命的成长那一年的那一天我一直都忘记不了,医生告诉我怀孕了,可是孩子不稳定,需要保胎,要打三天针,那个针是我打得最痛的针,每一滴药水流进身体里面都是刺痛,医生还说不能打快,必须慢慢打,整整两陪读日记之候诊记4(十年前一段最难忘的经历!)最讨厌医院的感觉,最讨厌医院的味道近年来,生病的老爸是医院的常客,几乎每年都出出入入个几次。穿梭于医院中,看到的尽是疾病痛苦无奈焦灼等待所以,自个儿有个黄晓丹至今为止,我对世界的理解从未超出童年时读过的那些书儿时那些孤独的阅读时光,是我生命中最甜美的糖果在我大概七岁的时候,忽然获得了一套不可思议的书,叫做世界童话画库。那是1989年,爸爸出差到北京还不知上海。他是个爱书人,喜欢逛新华书儿童成长知识,宝妈宝爸需知道关注有益,获取更多信息案例一4岁的沐沐最近对妈妈说,左侧胸痛,妈妈一看,发现沐沐左侧乳房鼓出个小包包,来我们生长发育专科看,经详细的检查和仔细的询问,发现沐沐近期偷偷拿妈妈的护肤品妈咪,Money白天儿媳妇在家庭群里问我妈妈,我给大宝报画画和主持人的兴趣班,好吗?我当然答好。晚上儿子加班,我和老公一起去了儿子家看俩孙。小孙子见到爷爷,鼓着小手掌,往爷爷身上扑。这个小白眼狼,小县城的幸福小县城的幸福(散文)我生活在只有十多万常住人口的江苏金湖县城。小县城真的很小,随意在街上转悠,不经意间,就能遇见小学时的班主任,一起工作的同事,甚至邂逅曾经的邻家女孩。小县城虽然小每一个吃饱了撑的日子都值得纪念林特特人生得意须尽餐。我就坐在那里回味,回什么叫吃饱了撑的的味。1hr大四的一天,我们决定去爬九华山。说去就去,说起床就起床,说收拾就收拾,一个小时后,我们已站在长江边等船。有如此到理塘睡丁真舅舅的,到底是什么妖魔鬼怪啊?我是岛岛,今天的这条新闻,真的让我感到震惊,去年爆火的丁真,大家应该都还有印象吧?因为一个视频,火遍全网,当时那个视频中,无美颜无滤镜下,丁真清澈的眼神戳中了很多人,镜头下,丁真黝面条是肝病加速器?春天养肝少2面多4茶,肝或好修养面条是我国常吃的主食之一,有关于面条的美食很多,有大家知晓的炸酱面油泼面臊子面,每个地方都有代表自身地区的特色,即便北方人主要以面食为主,但面条却能在全国范围内吃得开。面条主要原料
40岁范冰冰新恋情疑曝光,在街边被迷弟抱着猛亲,肚子凸出孕味足饿了吗?戳右边关注我们,每天给您送上最新出炉的娱乐硬核大餐!6月18日,有媒体曝光范冰冰与陌生男子在街头拥抱亲昵的视频,引发外界热议。视频中,范冰冰身穿无袖长裙,整个人白到发光,虽热点问答横琴粤澳深度合作区企业所得税优惠政策十问十答为支持横琴粤澳深度合作区建设,财政部税务总局近期印发了财政部税务总局关于横琴粤澳深度合作区企业所得税优惠政策的通知(财税202219号)。为了让大家更好的掌握合作区企业所得税优惠政多少球迷还记得鲁能外援兰普提?技术堪比梅西,妻子却三次背叛他提起兰普提,除了上年纪的山东球迷,知道的人可能并不多。因为与萨沙和罗麦多因特殊事件被反复提起不同,兰普提并没有铭记中国足球历史的爆炸性事件,所以更多地留在了鲁能球迷的脑海里。绰号加冒充汤普森的球迷曾白送路人现金,年仅29岁身价不菲坐拥豪宅娇妻模仿得分后卫克莱汤普森的球迷道森格利被勇士队的大通中心终身禁止踏入球馆观赛一位勇士球迷前一阵子,冒充克莱汤普森进入勇士主场大通中心,不仅混过安检,还成功进入勇士队的球场,甚至在球场本田和索尼成立新公司联手造车,模式与华为类似?两家日本领先的企业集团联手生产电动汽车!索尼和本田16日宣布将成立合资公司生产电动汽车。公司名称为SonyHondaMobilityInc。。据两家公司称,他们签署了一项合同,以5下一份合同稳了!威金斯感谢库里,詹姆斯黯然失色,骑士成为笑料恭喜勇士队获得2022总冠军,恭喜库里获得第一个FMVP。8年6进总决赛,4个冠军,就算以后再也不进总决赛,也配得上王朝了。NBA官推发文祝贺勇士成为新的NBA总冠军,享受这一路走章子怡全家出游,2岁儿子身高已到妈妈腰部,醒醒情绪不好获安抚章子怡自从嫁给汪峰之后,就变成了幸福的女人,两人婚后生了一儿一女,可谓是相当幸福,如今二人十分享受家庭生活,时不时的带孩子出去游玩,一家四口其乐融融。近日,章子怡被拍全家出游,去公荣誉簿圆满喜极而泣,库里全票当选FMVP实至名归在队友的簇拥下喜极而泣,34岁的勇士头号球星库里终于收获梦寐以求的FMVP。曾经两夺常规赛MVP的他,本赛季独揽西部总决赛(新设)和总决赛最有价值球员,如愿达成个人荣誉大满贯。遭遇10天暴涨1000亿身价,一年狂赚23亿,浙江富豪阮立平到底有多牛?文浮渔说娱编辑浮渔说娱2020年,浙江富豪阮立平公司上市,市值在10天内,直接突破一千亿。而阮立平自己,也一跃成为970亿身价的富豪。最难得可贵的是,面对如此巨额的财富,阮立平二话当世仅有三名球员身价过亿!姆巴佩哈兰德仍居前二日前,著名的德转网站更新了球员身价榜,姆巴佩哈兰德仍居前二,皇马当红球星维尼修斯窜升至第三,而在身价前十的球员中,只有上述三人身价过亿。姆巴佩和哈兰德都是今年夏天转会市场上的大鱼,最新身价!37岁C罗仅2700万欧元,梅西年轻3岁4500万,进球少13个每年夏天,欧洲豪门都非常忙碌,他们都希望从转会市场上加强阵容,提升球队的实力,来年可以更有把握竞争联赛和欧冠冠军。说到转会,就不得不提球员的身价,一名球员的身价高低,取决于很多的因
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网