范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

DeepMind打造加强版AlphaGo挑战各种最强棋牌AI,战斗力惊人

  12 月 9 日消息,谷歌母公司 Alphabet 旗下顶尖 AI 实验室 DeepMind 曾因其 AI 系统 AlphaGo 击败顶尖人类围棋选手、AlphaStar 赢得星际争霸 2 而爆红全球。本周,它又披露新的游戏 AI 系统。
  与此前开发的游戏系统不同,DeepMind 的 AI 新作 Player of Games 是第一个在完全信息游戏以及不完全信息游戏中都能实现强大性能的 AI 算法 。完全信息游戏如中国围棋、象棋等棋盘游戏,不完全信息游戏如扑克等。
  这是向能够在任意环境中学习的真正通用 AI 算法迈出的重要一步。
  Player of Game 在象棋、围棋这两种完全信息游戏和德州扑克、苏格兰场这两种不完全信息游戏中与顶尖 AI 智能体对战。
  从实验结果来看,DeepMind 称 Player of Games 在完全信息游戏中的表现已经达到了"人类顶级业余选手 "水平,但如果给予相同资源,该算法的表现可能会明显弱于 AlphaZero 等专用游戏算法。
  在两类不完全信息游戏中,Player of Games 均击败了最先进的 AI 智能体。
  论文链接:https://arxiv.org/  pdf / 2112.03178.pdf深蓝、AlphaGo 等 AI 系统仅擅长玩一种游戏
  计算机程序挑战人类游戏选手由来已久。
  20 世纪 50 年代,IBM 科学家亚瑟・塞缪尔(Arthur L. Samuel)开发了一个跳棋程序,通过自对弈来持续改进其功能,这项研究给很多人带来启发,并普及了"机器学习"这个术语。
  此后游戏 AI 系统一路发展。1992 年,IBM 开发的 TD-Gammon 通过自对弈在西洋双陆棋中实现大师级水平;1997 年,IBM 深蓝 DeepBlue 在国际象棋竞赛中战胜当时的世界棋王卡斯帕罗夫;2016 年,DeepMind 研发的 AI 系统 AlphaGo 在围棋比赛中击败世界围棋冠军李世石……
  ▲ IBM 深蓝系统 vs 世界棋王卡斯帕罗夫
  这些 AI 系统有一个共同之处,都是专注于一款游戏。比如塞缪尔的程序、AlphaGo 不会下国际象棋,IBM 的深蓝也不会下围棋。
  随后,AlphaGo 的继任者 AlphaZero 做到了举一反三 。它证明了通过简化 AlphaGo 的方法,用最少的人类知识,一个单一的算法可以掌握三种不同的完全信息游戏。不过 AlphaZero 还是不会玩扑克,也不清楚能否玩好不完全信息游戏。
  实现超级扑克 AI 的方法有很大的不同,扑克游戏依赖于博弈论的推理,来保证个人信息的有效隐藏。其他许多大型游戏 AI 的训练都受到了博弈论推理和搜索的启发,包括 Hanabi 纸牌游戏 AI、The Resistance 棋盘游戏 AI、Bridge 桥牌游戏 AI、AlphaStar 星际争霸 II 游戏 AI 等。
  ▲ 2019 年 1 月,AlphaStar 对战星际争霸 II 职业选手
  这里的每个进展仍然是基于一款游戏,并使用了一些特定领域的知识和结构来实现强大的性能。
  DeepMind 研发的 AlphaZero 等系统擅长国际象棋等完全信息游戏,而加拿大阿尔伯特大学研发的 DeepStack、卡耐基梅隆大学研发的 Libratus 等算法在扑克等不完全信息游戏中表现出色。
  对此,DeepMind 研发了一种新的算法 Player of Games(PoG),它使用了较少的领域知识,通过用自对弈(self-play)、搜索和博弈论推理来实现强大的性能 。更通用的算法 PoG:棋盘、扑克游戏都擅长
  无论是解决交通拥堵问题的道路规划,还是合同谈判、与顾客沟通等互动任务,都要考虑和平衡人们的偏好,这与游戏策略非常相似。AI 系统可能通过协调、合作和群体或组织之间的互动而获益。像 Player of Games 这样的系统,能推断其他人的目标和动机,使其与他人成功合作。
  要玩好完全的信息游戏,需要相当多的预见性和计划。玩家必须处理他们在棋盘上看到的东西,并决定他们的对手可能会做什么,同时努力实现最终的胜利目标。不完全信息游戏则要求玩家考虑隐藏的信息,并思考下一步应该如何行动才能获胜,包括可能的虚张声势或组队对抗对手。
  DeepMind 称,Player of Games 是首个"通用且健全的搜索算法" ,在完全和不完全的信息游戏中都实现了强大的性能。
  Player of Games(PoG)主要由两部分组成:
  一种新的生长树反事实遗憾最小化(GT-CFR)
  一种通过游戏结果和递归子搜索来训练价值-策略网络的合理自对弈。
  ▲ Player of Games 训练过程:Actor 通过自对弈收集数据,Trainer 在分布式网络上单独运行
  在完全信息游戏中,AlphaZero 比 Player of Games 更强大,但在不完全的信息游戏中,AlphaZero 就没那么游刃有余了。
  Player of Games 有很强通用性,不过不是什么游戏都能玩 。参与研究的 DeepMind 高级研究科学家马丁・施密德(Martin Schmid)说,AI 系统需考虑每个玩家在游戏情境中的所有可能视角。
  虽然在完全信息游戏中只有一个视角,但在不完全信息游戏中可能有许多这样的视角,比如在扑克游戏中,视角大约有 2000 个。
  此外,与 DeepMind 继 AlphaZero 之后研发的更高阶 MuZero 算法不同,Player of Games 也需要了解游戏规则 ,而 MuZero 无需被告知规则即可飞速掌握完全信息游戏的规则。
  在其研究中,DeepMind 评估了 Player of Games 使用谷歌 TPUv4 加速芯片组进行训练,在国际象棋、围棋、德州扑克和策略推理桌游《苏格兰场》(Scotland Yard)上的表现。
  ▲ 苏格兰场的抽象图,Player of Games 能够持续获胜
  在围棋比赛中,AlphaZero 和 Player of Games 进行了 200 场比赛,各执黑棋 100 次、白棋 100 次。在国际象棋比赛中,DeepMind 让 Player of Games 和 GnuGo、Pachi、Stockfish 以及 AlphaZero 等顶级系统进行了对决。
  ▲ 不同智能体的相对 Elo 表,每个智能体与其他智能体进行 200 场比赛
  在国际象棋和围棋中,Player of Games 被证明在部分配置中比 Stockfish 和 Pachi 更强,它在与最强的 AlphaZero 的比赛中赢得了 0.5% 的胜利 。
  尽管在与 AlphaZero 的比赛中惨败,但 DeepMind 相信 Player of Games 的表现已经达到了"人类顶级业余选手"的水平,甚至可能达到了专业水平。
  Player of Games 在德州扑克比赛中与公开可用的 Slumbot 对战。该算法还与 Joseph Antonius Maria Nijssen 开发的 PimBot 进行了苏格兰场的比赛。
  ▲ 不同智能体在德州扑克、苏格兰场游戏中的比赛结果
  结果显示,Player of Games 是一个更好的德州扑克和苏格兰场玩家 。与 Slumbot 对战时,该算法平均每 hand 赢得 700 万个大盲注(mbb / hand),mbb / hand 是每 1000 hand 赢得大盲注的平均数量。
  同时在苏格兰场,DeepMind 称,尽管 PimBot 有更多机会搜索获胜的招数,但 Player of Games 还是"显著"击败了它。研究关键挑战:训练成本太高
  施密德相信 Player of Games 是向真正通用的游戏系统迈出的一大步。
  实验的总体趋势是,随着计算资源增加,Player of Games 算法以保证产生更好的最小化-最优策略的逼近,施密德预计这种方法在可预见的未来将扩大规模。
  "人们会认为,受益于 AlphaZero 的应用程序可能也会受益于游戏玩家。"他谈道,"让这些算法更加通用是一项令人兴奋的研究。"
  当然,倾向于大量计算的方法会让拥有较少资源的初创公司、学术机构等组织处于劣势。在语言领域尤其如此,像 OpenAI 的 GPT-3 这样的大型模型已取得领先性能,但其通常需要数百万美元的资源需求,这远超大多数研究小组的预算。
  即便是在 DeepMind 这样财力雄厚的公司,成本有时也会超过人们所能接受的水平。
  对于 AlphaStar,公司的研究人员有意没有尝试多种构建关键组件的方法,因为高管们认为训练成本太高 。根据 DeepMind 披露的业绩文件,它在去年才首次盈利,年收入达到 8.26 亿英镑(折合约 69 亿人民币),获得 4380 万英镑(折合约 3.67 亿人民币)的利润。从 2016 年~2019 年,DeepMind 共计亏损 13.55 亿英镑(折合约 113 亿人民币)。
  据估计,AlphaZero 的训练成本高达数千万美元 。DeepMind 没有透露 Player of Games 的研究预算,但考虑到每个游戏的训练步骤从数十万到数百万不等,这个预算不太可能低。结语:游戏 AI 正助力突破认知及推理挑战
  目前游戏 AI 还缺乏明显的商业应用,而 DeepMind 的一贯理念是借其去探索突破认知和推理能力所面临的独特挑战。近几十年来,游戏催生了自主学习的 AI,这为计算机视觉、自动驾驶汽车和自然语言处理提供了动力。
  随着研究从游戏转向其他更商业化的领域,如应用推荐、数据中心冷却优化、天气预报、材料建模、数学、医疗保健和原子能计算等等,游戏 AI 研究对搜索、学习和博弈推理的价值愈发凸显。
  "一个有趣的问题是,这种水平的游戏是否可以用较少的计算资源实现。"这个在 Player of Games 论文最后中被提及的问题,还没有明确的答案。

与游戏厂商合作,谷歌要在3D游戏中训练AI10月15日消息,据福布斯报道,DeepMind与游戏开发平台商UnityTechnologies已针对人工智能在虚拟环境中的模拟训练结成了重要的合作关系。参加伦敦的奥莱利人工智能谷歌AI诊病新进展转移性乳腺癌检测准确率达9910月14日消息,据VentureBeat报道,转移性肿瘤是一种非常难以检测的肿瘤,这种疾病的癌细胞会从其起源组织中分离出来,通过循环系统或淋巴系统在体内传播,并在身体其他部位形成醒醒吧!AI妄想症不可避免地,AI侵蚀了人类生活的方方面面,我们无法想象失去AI,生活会变成什么样。不断有言论叫嚣很快人工智能将占据我们的工作岗位为人类的战争而战管理我们的健康状况,甚至像科幻片里上魅族确认将推智能手表,FlymeforWatch官宣IT之家6月24日消息魅族官微刚刚宣布将于今年四季度推出FlymeforWatch,证实了该公司将推出一款智能手表产品。实际上,昨天魅族放出的八周年庆祝海报上就出现了一款智能手表的Snap将推出新款AR智能眼镜配备两个摄像头北京时间11月21日早间消息,据美国财经新媒体Cheddar援引知情人士消息称,Snap准备推出新款Spectacles智能眼镜,将引入铝合金设计,并配备两个摄像头。当用户用新款S招聘信息表明谷歌或将开发自家可穿戴设备IT之家2月9日消息上个月,Fossil宣布将向谷歌出售其价值4000万美元的智能手表知识产权,其部分研发团队也将加入谷歌。这一动作表明,谷歌似乎希望研发自己的可穿戴设备。谷歌的一AI深度伪造内容泛滥,Instagram上惊现扎克伯格假视频6月12日消息,据CNET报道,刚刚出现在图片分享网站Instagram上的视频显示,Facebook首席执行官马克扎克伯格(MarkZuckerberg)似乎正就大数据的力量发表刘作虎OnePlusTV,想象与智能IT之家8月21日消息今日晚间,刘作虎在一加社区发文OnePlusTV想象与智能,刘作虎表示,我们将于9月首先在印度发布这款产品。刘作虎在文中指出,目前我们在印度有着不错的内容合作三星GalaxyWatchLTE版上架赠无线充电板,售价2899元IT之家11月8日消息三星GalaxyWatchLTE版智能手表现已上架京东,这款产品支持无线充电,还拥有5ATM防水,售价为2899元。GalaxyWatch使用的AMOLED触小米AIoT平台全面开放升级!4项重磅合作,1项超重磅激励IT之家11月28日消息2018小米AIoT开发者大会召开首日,小米AIoT平台全面开放升级,与宜家达成全球战略合作,与全季酒店车和家和爱空间共同探索商旅出行和家装的智能应用场景。59美元,小米盒子S美国上市支持4KHDR,搭载安卓8。1IT之家10月13日消息据外媒DroidLife消息,小米盒子S新品已于近期登陆美国市场。小米盒子S配备了基于安卓8。1图的AndroidTV全新界面,支持4K和HDR,带来画质的
小手牵大手苹果带领的智能手表行业销售额在2018年增长了61IT之家2月13日消息苹果在可穿戴设备领域依旧保持着自身的高增长,而NPD集团的新数据显示了苹果的成功如何影响智能手表行业。根据数据显示,截至2018年11月的12个月期间,苹果带新款三星GalaxySport智能手表现身外观更加简约IT之家1月10日消息来自外媒phonearena的报道,根据几周前的一份报告,三星的一款全新的以健身为中心的可穿戴设备已经投入使用,但据传有传言,这款设备采用Galaxy名称而不便利蜂自助结账被小偷盯上?看AI帮警方抓获情侣大盗11月27日消息,近日,北京房山警方破获了一起情侣盗窃便利店的案件,这对情侣大盗采取先扫码佯装结账再逐一删除的方法,频繁光顾40余次。目前,男子李某因涉嫌盗窃被刑事拘留,其女友柏某石头智能双刷洗地机U10清洁力专项测试两把刷子,来者不拒家里住的时间久了,地面上就难免会粘上一些顽固污渍,特别是国内饮食多油烟的环境下,地面上的油垢经常很难清理,用普通的拖把拖地也要花不少力气,是家务活中比较让人头疼的问题。而现在这个问小米米家防缠绕扫拖机器人明日开售8000Pa超强吸力5200mAh长续航,1999元IT之家12月20日消息,小米在12月6日推出了一款米家防缠绕扫拖机器人,拥有防缠绕专利技术,主打8000Pa超强吸力以及5200mAh长续航。据小米之家官方微博,该扫拖机器人将在超强优惠!双11买石头这些产品,家庭清洁再也不用发愁一年一度的双11购物节即将到来,而商家们的促销预热其实现在已经陆续开始了。相信很多小伙伴最近正疯狂给自己购物车里塞东西。回看历年双11,智能家居产品都是大家比较热门的扫货对象,特别TPLINK发布睦铃智能门铃自动屏蔽邻居出入画面,解决邻里隐私问题IT之家3月5日消息,据TPLINK官方消息,TPLINK今天推出了一款名为睦铃智能门铃产品,官方称它采用AI技术,智能识别门前活动人员,自动遮蔽邻居出入画面,是市面上唯一可以解决OPPO官宣OPPOWatchApp开发大赛70万奖金IT之家3月31日消息OPPO健康官博今天下午宣布了OPPOWatchApp开发大赛的相关信息。据悉,OPPOWatchApp开发大赛面向全球每一个有才华大脑,征集原创软件作品,丰腾讯王者荣耀AI王者绝悟亮相2021世界人工智能大会,战胜5名职业选手IT之家7月9日消息昨日,2021世界人工智能大会(WAIC2021)在上海开幕。王者荣耀与腾讯AILab将双方共同探索人工智能在游戏场景应用的联合产品王者绝悟带到了大会现场。在大2021世界人工智能大会首日总结AI应用更接地气7月9日早间消息,2021世界人工智能大会(WAIC)昨日在上海开幕。整体来看,去年受疫情影响,WAIC以云上大会的形式展开,今年再次回归线下,以线下线上结合的方式召开,内容和形式国庆节出游担心家里没人打扫?放心交给石头扫拖机器人G10吧一年一度的国庆节假期就要到来了。面对长达7天的黄金假期,相信大部分小伙伴已经做好了出游计划。不过外出游玩,有一件事情是比较让人担心的,就是家中无人打扫。特别是现在城市发展空气污染严