范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

DeepMind打造加强版AlphaGo挑战各种最强棋牌AI,战斗力惊人

  12 月 9 日消息,谷歌母公司 Alphabet 旗下顶尖 AI 实验室 DeepMind 曾因其 AI 系统 AlphaGo 击败顶尖人类围棋选手、AlphaStar 赢得星际争霸 2 而爆红全球。本周,它又披露新的游戏 AI 系统。
  与此前开发的游戏系统不同,DeepMind 的 AI 新作 Player of Games 是第一个在完全信息游戏以及不完全信息游戏中都能实现强大性能的 AI 算法 。完全信息游戏如中国围棋、象棋等棋盘游戏,不完全信息游戏如扑克等。
  这是向能够在任意环境中学习的真正通用 AI 算法迈出的重要一步。
  Player of Game 在象棋、围棋这两种完全信息游戏和德州扑克、苏格兰场这两种不完全信息游戏中与顶尖 AI 智能体对战。
  从实验结果来看,DeepMind 称 Player of Games 在完全信息游戏中的表现已经达到了"人类顶级业余选手 "水平,但如果给予相同资源,该算法的表现可能会明显弱于 AlphaZero 等专用游戏算法。
  在两类不完全信息游戏中,Player of Games 均击败了最先进的 AI 智能体。
  论文链接:https://arxiv.org/  pdf / 2112.03178.pdf深蓝、AlphaGo 等 AI 系统仅擅长玩一种游戏
  计算机程序挑战人类游戏选手由来已久。
  20 世纪 50 年代,IBM 科学家亚瑟・塞缪尔(Arthur L. Samuel)开发了一个跳棋程序,通过自对弈来持续改进其功能,这项研究给很多人带来启发,并普及了"机器学习"这个术语。
  此后游戏 AI 系统一路发展。1992 年,IBM 开发的 TD-Gammon 通过自对弈在西洋双陆棋中实现大师级水平;1997 年,IBM 深蓝 DeepBlue 在国际象棋竞赛中战胜当时的世界棋王卡斯帕罗夫;2016 年,DeepMind 研发的 AI 系统 AlphaGo 在围棋比赛中击败世界围棋冠军李世石……
  ▲ IBM 深蓝系统 vs 世界棋王卡斯帕罗夫
  这些 AI 系统有一个共同之处,都是专注于一款游戏。比如塞缪尔的程序、AlphaGo 不会下国际象棋,IBM 的深蓝也不会下围棋。
  随后,AlphaGo 的继任者 AlphaZero 做到了举一反三 。它证明了通过简化 AlphaGo 的方法,用最少的人类知识,一个单一的算法可以掌握三种不同的完全信息游戏。不过 AlphaZero 还是不会玩扑克,也不清楚能否玩好不完全信息游戏。
  实现超级扑克 AI 的方法有很大的不同,扑克游戏依赖于博弈论的推理,来保证个人信息的有效隐藏。其他许多大型游戏 AI 的训练都受到了博弈论推理和搜索的启发,包括 Hanabi 纸牌游戏 AI、The Resistance 棋盘游戏 AI、Bridge 桥牌游戏 AI、AlphaStar 星际争霸 II 游戏 AI 等。
  ▲ 2019 年 1 月,AlphaStar 对战星际争霸 II 职业选手
  这里的每个进展仍然是基于一款游戏,并使用了一些特定领域的知识和结构来实现强大的性能。
  DeepMind 研发的 AlphaZero 等系统擅长国际象棋等完全信息游戏,而加拿大阿尔伯特大学研发的 DeepStack、卡耐基梅隆大学研发的 Libratus 等算法在扑克等不完全信息游戏中表现出色。
  对此,DeepMind 研发了一种新的算法 Player of Games(PoG),它使用了较少的领域知识,通过用自对弈(self-play)、搜索和博弈论推理来实现强大的性能 。更通用的算法 PoG:棋盘、扑克游戏都擅长
  无论是解决交通拥堵问题的道路规划,还是合同谈判、与顾客沟通等互动任务,都要考虑和平衡人们的偏好,这与游戏策略非常相似。AI 系统可能通过协调、合作和群体或组织之间的互动而获益。像 Player of Games 这样的系统,能推断其他人的目标和动机,使其与他人成功合作。
  要玩好完全的信息游戏,需要相当多的预见性和计划。玩家必须处理他们在棋盘上看到的东西,并决定他们的对手可能会做什么,同时努力实现最终的胜利目标。不完全信息游戏则要求玩家考虑隐藏的信息,并思考下一步应该如何行动才能获胜,包括可能的虚张声势或组队对抗对手。
  DeepMind 称,Player of Games 是首个"通用且健全的搜索算法" ,在完全和不完全的信息游戏中都实现了强大的性能。
  Player of Games(PoG)主要由两部分组成:
  一种新的生长树反事实遗憾最小化(GT-CFR)
  一种通过游戏结果和递归子搜索来训练价值-策略网络的合理自对弈。
  ▲ Player of Games 训练过程:Actor 通过自对弈收集数据,Trainer 在分布式网络上单独运行
  在完全信息游戏中,AlphaZero 比 Player of Games 更强大,但在不完全的信息游戏中,AlphaZero 就没那么游刃有余了。
  Player of Games 有很强通用性,不过不是什么游戏都能玩 。参与研究的 DeepMind 高级研究科学家马丁・施密德(Martin Schmid)说,AI 系统需考虑每个玩家在游戏情境中的所有可能视角。
  虽然在完全信息游戏中只有一个视角,但在不完全信息游戏中可能有许多这样的视角,比如在扑克游戏中,视角大约有 2000 个。
  此外,与 DeepMind 继 AlphaZero 之后研发的更高阶 MuZero 算法不同,Player of Games 也需要了解游戏规则 ,而 MuZero 无需被告知规则即可飞速掌握完全信息游戏的规则。
  在其研究中,DeepMind 评估了 Player of Games 使用谷歌 TPUv4 加速芯片组进行训练,在国际象棋、围棋、德州扑克和策略推理桌游《苏格兰场》(Scotland Yard)上的表现。
  ▲ 苏格兰场的抽象图,Player of Games 能够持续获胜
  在围棋比赛中,AlphaZero 和 Player of Games 进行了 200 场比赛,各执黑棋 100 次、白棋 100 次。在国际象棋比赛中,DeepMind 让 Player of Games 和 GnuGo、Pachi、Stockfish 以及 AlphaZero 等顶级系统进行了对决。
  ▲ 不同智能体的相对 Elo 表,每个智能体与其他智能体进行 200 场比赛
  在国际象棋和围棋中,Player of Games 被证明在部分配置中比 Stockfish 和 Pachi 更强,它在与最强的 AlphaZero 的比赛中赢得了 0.5% 的胜利 。
  尽管在与 AlphaZero 的比赛中惨败,但 DeepMind 相信 Player of Games 的表现已经达到了"人类顶级业余选手"的水平,甚至可能达到了专业水平。
  Player of Games 在德州扑克比赛中与公开可用的 Slumbot 对战。该算法还与 Joseph Antonius Maria Nijssen 开发的 PimBot 进行了苏格兰场的比赛。
  ▲ 不同智能体在德州扑克、苏格兰场游戏中的比赛结果
  结果显示,Player of Games 是一个更好的德州扑克和苏格兰场玩家 。与 Slumbot 对战时,该算法平均每 hand 赢得 700 万个大盲注(mbb / hand),mbb / hand 是每 1000 hand 赢得大盲注的平均数量。
  同时在苏格兰场,DeepMind 称,尽管 PimBot 有更多机会搜索获胜的招数,但 Player of Games 还是"显著"击败了它。研究关键挑战:训练成本太高
  施密德相信 Player of Games 是向真正通用的游戏系统迈出的一大步。
  实验的总体趋势是,随着计算资源增加,Player of Games 算法以保证产生更好的最小化-最优策略的逼近,施密德预计这种方法在可预见的未来将扩大规模。
  "人们会认为,受益于 AlphaZero 的应用程序可能也会受益于游戏玩家。"他谈道,"让这些算法更加通用是一项令人兴奋的研究。"
  当然,倾向于大量计算的方法会让拥有较少资源的初创公司、学术机构等组织处于劣势。在语言领域尤其如此,像 OpenAI 的 GPT-3 这样的大型模型已取得领先性能,但其通常需要数百万美元的资源需求,这远超大多数研究小组的预算。
  即便是在 DeepMind 这样财力雄厚的公司,成本有时也会超过人们所能接受的水平。
  对于 AlphaStar,公司的研究人员有意没有尝试多种构建关键组件的方法,因为高管们认为训练成本太高 。根据 DeepMind 披露的业绩文件,它在去年才首次盈利,年收入达到 8.26 亿英镑(折合约 69 亿人民币),获得 4380 万英镑(折合约 3.67 亿人民币)的利润。从 2016 年~2019 年,DeepMind 共计亏损 13.55 亿英镑(折合约 113 亿人民币)。
  据估计,AlphaZero 的训练成本高达数千万美元 。DeepMind 没有透露 Player of Games 的研究预算,但考虑到每个游戏的训练步骤从数十万到数百万不等,这个预算不太可能低。结语:游戏 AI 正助力突破认知及推理挑战
  目前游戏 AI 还缺乏明显的商业应用,而 DeepMind 的一贯理念是借其去探索突破认知和推理能力所面临的独特挑战。近几十年来,游戏催生了自主学习的 AI,这为计算机视觉、自动驾驶汽车和自然语言处理提供了动力。
  随着研究从游戏转向其他更商业化的领域,如应用推荐、数据中心冷却优化、天气预报、材料建模、数学、医疗保健和原子能计算等等,游戏 AI 研究对搜索、学习和博弈推理的价值愈发凸显。
  "一个有趣的问题是,这种水平的游戏是否可以用较少的计算资源实现。"这个在 Player of Games 论文最后中被提及的问题,还没有明确的答案。

跨次元目标检测模型hold住各种画风,还能识别漫画中物品1月16日消息,目标检测种类多达20000种的AI,你见过吗?不仅准确揪出每个物体所在的位置,分类效果非常准确插画版赛博恐龙也没问题甚至还能检测杂志封面甚至漫画中的物体!这也是把目日本一项AI爆火草图实时变身二次元老婆,还有512种参数可调画画手残,但还是想拥有属于自己的二次元waifu怎么办?没问题。真有手就行不得不说这个AI有点儿东西,画得确实很像我未来老婆!是的,只要你能给出草图,AI都能把它变成二次元美少女,AI学高数达到MIT本科水平,学了微积分线性代数概率论等6门课,不光能做题还能出题让语言模型做数学题,有多难?强如GPT3,在912岁的小学数学上,第一次才考20多分。去年底GPT3用上新方法努力了很久终于拿到55分,可惜还是没及格。万万想不到啊,2022年才刚在线可玩!这款AI语音模型让派大星承认自己是钢铁侠,造假小扎对口型,火到挤爆服务器你敢信,派大星当众宣称自己是钢铁侠,漫威宇宙和比基尼海滩梦幻联动IamIronMan!这深沉憨厚又有点喜感的嗓音,是派大星本星没错了。而小扎也疯狂乱入,直接抢了派大星的台词,喊海绵三星2022款智能电视将支持云游戏视频聊天和NFT北京时间1月4日早间消息,在今年美国国际消费电子展(CES)正式开幕之前,三星公布对下一代智能电视的愿景,其中包括基于云计算的游戏服务边看电视边视频聊天,以及NFT等新特性。三星表2488元起,华为智能手表WATCHGT3Pro系列今晚开卖IT之家5月5日消息,4月底,华为发布了智能手表WATCHGT3Pro系列,46mm钛金属版本售价为24882688元,纳米微晶陶瓷43mm版售价29884688元,5月6日0点正2021年全球可穿戴腕带设备出货量达1。93亿台,苹果小米华为前三IT之家4月13日消息,今日,Canalys发布报告称,2021年全球可穿戴腕带设备出货量达到1。93亿台,同比增长4。3。IT之家了解到,报告显示,苹果以11。8的增长率和超39魅族发布Lipro磁吸轨道灯开关面板总计二十四款灯具,支持嵌入式安装IT之家1月12日消息,在今日举办的魅族新生力量冬季新品发布会上,魅族推出了Lipro磁吸轨道灯系列产品。这类轨道灯采用独特的轨道,磁吸方式便于组装和调整,提高稳定性。魅族Lipr谷歌证实Nest门铃摄像头在温度低于0摄氏度时无法充电IT之家2月20日消息,谷歌本周发布的一个新的支持页面证实,谷歌最新的智能视频门铃,谷歌Nest门铃(电池)及其谷歌Nest摄像头(电池),在温度低于华氏32度(0摄氏度)时不能充TensorFlow技术主管皮特沃登离职,重返斯坦福读博我在谷歌太难了!又一技术大咖离开业界,前往高校攻关科研!据PeteWarden(皮特沃登)本人推特消息,他将离开谷歌公司,重返斯坦福大学攻读计算机博士学位。皮特沃登是谷歌公司Tensorflow面IDC2025年全球VR头戴设备出货量将增加5。6倍,超2800万台IT之家11月4日消息,IDC今日发布报告称,预计2021年全球VR游戏支出仍为7。4亿美元(约47。36亿元人民币),同比增长46,渗透率提升仍有很大空间,整体游戏市场约为185
小米生态链创米小白众筹高显色智能看护灯有摄像头,家长看着你写作业IT之家11月28日消息今日上午1000,创米小白发布小白智能看护灯,在小米有品平台开启众筹,众筹价399元。此款智能看护灯最大的特点是在灯座上搭载1080P摄像头,并且有着一键呼小米有品众筹即热饮水机搭载5英寸大屏1699元IT之家9月28日消息9月25日,小米有品众筹云米X2Face1秒即热免安装净饮机,该净饮机能监测杯内水位,无需设置水满即停。同时还具有六级滤芯和1秒即热等功能,众筹价1699元,巨头们瞄准眼镜生意,网络将至生态先行当手表智能家居设备已经被巨头们在以智能手机为中心的基础上,产品出了一拨又一拨的时候,厂商们现在又瞄向了一个新的蓄势待发的设备类型眼镜,随着所需网络环境的即将成熟,相关生态的先行布局一加首款智能手环外观配置全曝光1月11日推出,约220元IT之家1月4日消息一加正在研发一款智能手环,这款新产品在一加的官方Facebook页面上进行了预告,不过并没有提供太多关于其规格和价格的细节。官方预告爆料者IshanAgarwa刘作虎确认一加首款智能手表将于明年初发布IT之家12月23日消息关于一加正研发智能手表的传闻已经传了很久,上周,一加创始人兼首席执行官刘作虎暗示,该公司正在开发一款智能手表,并且正在与谷歌的WearOS团队合作,以实现整遥遥无期消息称一加手表已被推迟IT之家10月28日消息自2016年以来,关于一加研发智能手表的传闻就一直不断,直到最近,该公司才正式谈论其即将推出的智能手表。外界认为该手表将与一加NordN10和N100一起发消息称一加手表将于2020年与一加8一起推出IT之家11月4日消息早在2016年,就有消息称一加计划将智能手表添加到其产品线中,但后来官方取消了这个想法。一加认为,其需要将全部精力集中在一种产品上,也许以后再尝试扩展。现在看三星GlassesLiteAR眼镜宣传视频曝光体积小巧,可用智能手表操控IT之家2月21日消息三星最新的GlassesLite增强现实AR眼镜的最新宣传视频近日在YouTube曝光。这款眼镜的概念图早在2017年便公布,但是一直没有进展。演示视频中可以中国人工智能专利申请量居世界第一国家电网腾讯OPPO前三IT之家4月14日消息2020中国人工智能产业年会于4月11日在苏州召开。据央视新闻报道,会上发布的中国人工智能发展报告2020显示,过去十年中国人工智能专利申请量位居世界第一,人日产45亿词,地表最强语言模型GPT3已落地300多个应用4月3日消息,据TheVerge报道,OpenAI最近宣布,其人工智能文本生成器GPT3现已被数万开发者用于300多个不同的应用程序,每天输出45亿词之多。报道称,虽然GPT3生成苹果启动AppleWatch能否检测新冠病毒研究参与者可免费获得一块手表IT之家4月15日消息苹果公司正在与华盛顿大学和西雅图流感研究中心合作,启动一项研究,研究AppleWatch是否可以用来检测冠状病毒或流感等呼吸道疾病。苹果最初在去年9月的Tim