专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

DeepMind打造AI游戏王!挑战各种最强棋牌AI,战斗力惊人

  智东西(公众号:zhidxcom)
  编译 | ZeR0
  编辑 | 漠影
  智东西12月9日消息,谷歌母公司Alphabet旗下顶尖AI实验室DeepMind曾因其AI系统AlphaGo击败顶尖人类围棋选手、AlphaStar赢得星际争霸2而爆红全球。本周,它又披露新的游戏AI系统。
  与此前开发的游戏系统不同,DeepMind的AI新作Player of Games是第一个在完全信息游戏以及不完全信息游戏中都能实现强大性能的AI算法。完全信息游戏如中国围棋、象棋等棋盘游戏,不完全信息游戏如扑克等。
  这是向能够在任意环境中学习的真正通用AI算法迈出的重要一步。
  Player of Game在象棋、围棋这两种完全信息游戏和德州扑克、苏格兰场这两种不完全信息游戏中与顶尖AI智能体对战。
  从实验结果来看,DeepMind称Player of Games在完全信息游戏中的表现已经达到了"人类顶级业余选手"水平,但如果给予相同资源,该算法的表现可能会明显弱于AlphaZero等专用游戏算法。
  在两类不完全信息游戏中,Player of Games均击败了最先进的AI智能体。
  论文链接:https://arxiv.org/pdf/2112.03178.pdf
  一、深蓝、AlphaGo等AI系统仅擅长玩一种游戏
  计算机程序挑战人类游戏选手由来已久。
  20世纪50年代,IBM科学家亚瑟·塞缪尔(Arthur L. Samuel)开发了一个跳棋程序,通过自对弈来持续改进其功能,这项研究给很多人带来启发,并普及了"机器学习"这个术语。
  此后游戏AI系统一路发展。1992年,IBM开发的TD-Gammon通过自对弈在西洋双陆棋中实现大师级水平;1997年,IBM深蓝DeepBlue在国际象棋竞赛中战胜当时的世界棋王卡斯帕罗夫;2016年,DeepMind研发的AI系统AlphaGo在围棋比赛中击败世界围棋冠军李世石……
  IBM深蓝系统vs世界棋王卡斯帕罗夫
  这些AI系统有一个共同之处,都是专注于一款游戏。比如塞缪尔的程序、AlphaGo不会下国际象棋,IBM的深蓝也不会下围棋。
  随后,AlphaGo的继任者AlphaZero做到了举一反三。它证明了通过简化AlphaGo的方法,用最少的人类知识,一个单一的算法可以掌握三种不同的完全信息游戏。不过AlphaZero还是不会玩扑克,也不清楚能否玩好不完全信息游戏。
  实现超级扑克AI的方法有很大的不同,扑克游戏依赖于博弈论的推理,来保证个人信息的有效隐藏。其他许多大型游戏AI的训练都受到了博弈论推理和搜索的启发,包括Hanabi纸牌游戏AI、The Resistance棋盘游戏AI、Bridge桥牌游戏AI、AlphaStar星际争霸II游戏AI等。
  2019年1月,AlphaStar对战星际争霸II职业选手
  这里的每个进展仍然是基于一款游戏,并使用了一些特定领域的知识和结构来实现强大的性能。
  DeepMind研发的AlphaZero等系统擅长国际象棋等完全信息游戏,而加拿大阿尔伯特大学研发的DeepStack、卡耐基梅隆大学研发的Libratus等算法在扑克等不完全信息游戏中表现出色。
  对此,DeepMind研发了一种新的算法Player of Games(PoG),它使用了较少的领域知识,通过用自对弈(self-play)、搜索和博弈论推理来实现强大的性能。
  二、更通用的算法PoG:棋盘、扑克游戏都擅长
  无论是解决交通拥堵问题的道路规划,还是合同谈判、与顾客沟通等互动任务,都要考虑和平衡人们的偏好,这与游戏策略非常相似。AI系统可能通过协调、合作和群体或组织之间的互动而获益。像Player of Games这样的系统,能推断其他人的目标和动机,使其与他人成功合作。
  要玩好完全的信息游戏,需要相当多的预见性和计划。玩家必须处理他们在棋盘上看到的东西,并决定他们的对手可能会做什么,同时努力实现最终的胜利目标。不完全信息游戏则要求玩家考虑隐藏的信息,并思考下一步应该如何行动才能获胜,包括可能的虚张声势或组队对抗对手。
  DeepMind称,Player of Games是首个"通用且健全的搜索算法",在完全和不完全的信息游戏中都实现了强大的性能。
  Player of Games(PoG)主要由两部分组成:1)一种新的生长树反事实遗憾最小化(GT-CFR);2)一种通过游戏结果和递归子搜索来训练价值-策略网络的合理自对弈。
  Player of Games训练过程:Actor通过自对弈收集数据,Trainer在分布式网络上单独运行
  在完全信息游戏中,AlphaZero比Player of Games更强大,但在不完全的信息游戏中,AlphaZero就没那么游刃有余了。
  Player of Games有很强通用性,不过不是什么游戏都能玩。参与研究的DeepMind高级研究科学家马丁·施密德(Martin Schmid)说,AI系统需考虑每个玩家在游戏情境中的所有可能视角。
  虽然在完全信息游戏中只有一个视角,但在不完全信息游戏中可能有许多这样的视角,比如在扑克游戏中,视角大约有2000个。
  此外,与DeepMind继AlphaZero之后研发的更高阶MuZero算法不同,Player of Games也需要了解游戏规则,而MuZero无需被告知规则即可飞速掌握完全信息游戏的规则。
  在其研究中,DeepMind评估了Player of Games使用谷歌TPUv4加速芯片组进行训练,在国际象棋、围棋、德州扑克和策略推理桌游《苏格兰场》(Scotland Yard)上的表现。
  苏格兰场的抽象图,Player of Games能够持续获胜
  在围棋比赛中,AlphaZero和Player of Games进行了200场比赛,各执黑棋100次、白棋100次。在国际象棋比赛中,DeepMind让Player of Games和GnuGo、Pachi、Stockfish以及AlphaZero等顶级系统进行了对决。
  不同智能体的相对Elo表,每个智能体与其他智能体进行200场比赛
  在国际象棋和围棋中,Player of Games被证明在部分配置中比Stockfish和Pachi更强,它在与最强的AlphaZero的比赛中赢得了0.5%的胜利。
  尽管在与AlphaZero的比赛中惨败,但DeepMind相信Player of Games的表现已经达到了"人类顶级业余选手"的水平,甚至可能达到了专业水平。
  Player of Games在德州扑克比赛中与公开可用的Slumbot对战。该算法还与Joseph Antonius Maria Nijssen开发的PimBot进行了苏格兰场的比赛。
  不同智能体在德州扑克、苏格兰场游戏中的比赛结果
  结果显示,Player of Games是一个更好的德州扑克和苏格兰场玩家。与Slumbot对战时,该算法平均每hand赢得700万个大盲注(mbb/hand),mbb/hand是每1000 hand赢得大盲注的平均数量。
  同时在苏格兰场,DeepMind称,尽管PimBot有更多机会搜索获胜的招数,但Player of Games还是"显著"击败了它。
  三、研究关键挑战:训练成本太高
  施密德相信Player of Games是向真正通用的游戏系统迈出的一大步。
  实验的总体趋势是,随着计算资源增加,Player of Games算法以保证产生更好的最小化-最优策略的逼近,施密德预计这种方法在可预见的未来将扩大规模。
  "人们会认为,受益于AlphaZero的应用程序可能也会受益于游戏玩家。"他谈道,"让这些算法更加通用是一项令人兴奋的研究。"
  当然,倾向于大量计算的方法会让拥有较少资源的初创公司、学术机构等组织处于劣势。在语言领域尤其如此,像OpenAI的GPT-3这样的大型模型已取得领先性能,但其通常需要数百万美元的资源需求,这远超大多数研究小组的预算。
  即便是在DeepMind这样财力雄厚的公司,成本有时也会超过人们所能接受的水平。
  对于AlphaStar,公司的研究人员有意没有尝试多种构建关键组件的方法,因为高管们认为训练成本太高。根据DeepMind披露的业绩文件,它在去年才首次盈利,年收入达到8.26亿英镑(折合约69亿人民币),获得4380万英镑(折合约3.67亿人民币)的利润。从2016年~2019年,DeepMind共计亏损13.55亿英镑(折合约113亿人民币)。
  据估计,AlphaZero的训练成本高达数千万美元。DeepMind没有透露Player of Games的研究预算,但考虑到每个游戏的训练步骤从数十万到数百万不等,这个预算不太可能低。
  结语:游戏AI正助力突破认知及推理挑战
  目前游戏AI还缺乏明显的商业应用,而DeepMind的一贯理念是借其去探索突破认知和推理能力所面临的独特挑战。近几十年来,游戏催生了自主学习的AI,这为计算机视觉、自动驾驶汽车和自然语言处理提供了动力。
  随着研究从游戏转向其他更商业化的领域,如应用推荐、数据中心冷却优化、天气预报、材料建模、数学、医疗保健和原子能计算等等,游戏AI研究对搜索、学习和博弈推理的价值愈发凸显。
  "一个有趣的问题是,这种水平的游戏是否可以用较少的计算资源实现。"这个在Player of Games论文最后中被提及的问题,还没有明确的答案。

国产网络游戏版号停发三个月,近期或将恢复审批,游戏业界?一个3A游戏需要3年的制作时间,算上立项时间更长了,那这三年政策能改变多少次?做出来过审,要排队,而且限制名额数量,还有可能因为政策调整,几个月不过审游戏也不会发一个通知,也不知道1617日转会期汇总LCK及欧美赛区大变动,LPL仅Nuguri离开英雄联盟冬季转会期于昨日上午开始,且于12月13号结束截至稿前,LPL赛区仅Nuguri离队,而LCK赛区于欧美赛区流言纷纷,多家俱乐部开始了自己对2022年的布局而LPL赛区仅F战地2042M站遭用户差评轰炸玩家称这已不是战地近日,战地2042正式开启抢先体验模式,这款游戏的正式版将在19日发布,目前该作多数媒体评分已经解禁,IGN打出了中规中矩的7分,而Metacritic网站上媒体综合评分也在中等偏200万能在游戏内干什么?天刀萌新够买号吗?剑三玩家快住手想必天涯明某刀OL的11。16托事件闹得全网皆知,大家都已经知道前因后果了,就是某刀游戏官方找托被玩家发现了!这导致了该游戏的很多神豪玩家纷纷选择退游,甚至是直播删号表决心要说法。当年玩过的经典网络游戏,你还记得多少?(19952000)网络游戏对当前这个时代来说,已经是一个非常熟悉而普及程度又非常高的事物了,当今的大部分游戏多多少少都会跟网络沾点边。然而对于上世纪90年代的人们来说,网络游戏绝对算得上是一个神秘而心理恐怖游戏MADiSON将于明年1月7日发售麦迪逊(MADiSON)是一款第一人称视角的心理恐怖游戏,你将获得出色而惊悚的游戏和剧情体验。醒来的时候,你发现自己身处黑暗的房间,双手沾满了鲜血,你会怎么做?游戏中你将扮演Luc永劫无间上线4个月销量破600万,手游有希望了,玩家出息了永劫无间从公测至今始终保持着很高的热度,全球发行后销量突破600万份,成功打破了众多玩家对国产买断制游戏叫好不叫座的固有印象。同时也刷新了国产买断制游戏的记录,不少玩家也因此感慨永DOTA2冠军联赛2021第五赛季前瞻B8和HYDRA初次见面,谁能取胜?11月20日23时DOTA2冠军联赛2021第五赛季B8vsHYDRADOTA2冠军联赛将会在11月20日迎来小组赛的第十三个比赛日。在11月18日的比赛中,Creep拿出了自己压腾讯没有原创端游?寻仙你可能把我忘了一般我们提到腾讯的时候,往往会吐槽腾讯并没有一款能拿得出手的原创作品。纵览腾讯目前整个收入格局,基本都是依靠代理游戏为自己获得丰厚收入,例如被称为三大马车的穿越火线英雄联盟及地下城传世元神版手游禁地魔王怎么打导读传说禁地魔王这个只有上半身的魔界傀儡就一直被牢牢地禁锢在禁地魔穴。由统领魔界的魔君亲手将它囚禁于魔窟千年,最终魔化成了现在的样子。早期的传奇世界中,禁地魔王这个传说中的魔界傀儡谁是卧底?CFHD剧情挑战模式免费解锁,一探究竟不知道大家最近玩了穿越火线高清竞技大区(以下简称CFHD)推出的剧情挑战模式穿越火线导火索没有?这次CFHD放出的剧情挑战模式是相当有诚意的,无论是游戏的战斗体验还是剧情表达都做得
如何评价SKT大战KT这场BO3?首先我们知道最近这场bo3的比分是21,来谈谈kt赢在哪里,输在哪里,skt这只队伍该怎么打。1。大家都知道,kt是一只前期队伍,他们强在前期出色的线上和打团能力。而skt是偏重运热爱不息,战斗不止!一组数据读懂坦克世界国服一周年手持胶水剪钳与涂料,按照图纸拼装出一辆坦克,曾经是一代少年共同的快乐记忆,而田宫威龙爱德美这些知名模型品牌更是孩子们曾经追捧的对象。如今,当年的少年已经长大成人,但也许是对军事梦想天龙八部也可以搬砖了快过来看看怎么挣钱的提灯与地下城是由吉事屋游戏工作室研发,厦门青瓷文化传播有限公司发行的一款结合地下城探险与宠物养成的魔性手游。游戏玩家扮演探险者在超级洞穴阿格斯深渊探索,收集装备契约兽,挑战邪恶变异移动端更新公告每日任务全新挑战登场,火拼街区玩法大优化移动端已于今天早上8点10点更新每日挑战奖励显示优化地图标记新增线段标记火拼街区玩法大优化更多更新资讯快跟着补漏君来了解一波吧每日任务优化1。优化了每日挑战界面,现在点击奖励可以直极限竞速地平线5实机演示公开,双平台预售开启在25日凌晨微软Xbox科隆游戏展前直播当中,微软公开了极限竞速地平线5的最新消息,并在随后放出了游戏实机演示视频。极限竞速地平线5的游戏背景从英格兰来到了墨西哥,不仅可供游玩的地英雄再启程,金铲铲之战到底好玩么?近年来,自走棋类游戏凭借着超高的策略性以及操作简便的玩法风靡全球,而在市面上这么多自走棋类游戏中脱颖而出的,稳居同类游戏NO。1的自然要数英雄联盟中的云顶之弈了。自2019年云顶之刀塔中追猎射手这个英雄该如何出装?作为一个资深的dota玩家,我来回答这个问题。大家对追猎射手维拉这个英雄应该不陌生,虽然这个英雄已经推出了一年之久,但是很多玩家都没有尝试过。因为没有高手的教学,比赛中也很少能够看你们玩DNF有什么特别想要却已经绝版的道具?DNF从08年公测至今已经有11年的时间了,在这期间曾经出现过许许多的绝版的道具,在这些道具中不免有一些特别想要,但是因为某些原因没有获得而感到遗憾的,那么来说说自己特别想要却已经英雄联盟哪些打野可以秒人?答主不太会打野,但是对打野英雄有稍微的了解。能秒人的打野,那肯定是爆发高的啊!螳螂可以秒人,发育很好的螳螂,开大隐身,e跳过去一套带走一个c位不是问题,而且让对手反应都来不及,杀完有什么耐玩的单机电脑游戏值得推荐?这里是喜爱游戏的小白又到了晒游戏的时间了,小白必须掏出珍藏的单机游戏与大家分享了。小白酷爱单机游戏,主要是单机游戏黏性较弱,游戏时间自由,并且不需氪金,每天想玩的时候玩,不想玩就可在玩我的世界的时候,你遇到过哪些奇葩的事?这里是专注于有为青年游戏体验的敢为青年游场,我是敢哥!在玩我的世界的时候,你遇到过哪些奇葩的事?我的世界作为一个沙盒游戏,还是很有意思的,但是也让很多人玩着感觉很懵逼,而我就是其中
友情链接:快好知快生活快百科快传网中准网文好找聚热点快软件