揭秘谷歌AlphaZero从AlphaGo进化，如何通杀棋类游戏

　　导语：美国《纽约客》杂志（The New Yorker）近日发表的文章揭秘谷歌旗下DeepMind最新公布的人工智能AlphaZero。这个AI程序起源于在2016年名声大噪的围棋AIAlphaGo，而AlphaZero被应用于更多棋类游戏中，取得了令人可喜的成就。
　　以下为文章全文：
　　几周前，谷歌AI子公司DeepMind内的一群研究人员在国际权威学术期刊《科学》（Science）上发表了一篇论文，其中描述了一种游戏领域的人工智能（AI）。尽管他们的通用AI系统适用于许多双人游戏，但是研究人员却进行了调整，使其专门针对围棋、国际象棋以及将棋（日本象棋）。这种AI程序事先并不了解任何一种棋类游戏的规则。一开始，它只是随意下子。之后，它通过和自己对弈掌握了游戏规则。九个小时内，AlphaZero在大量特殊谷歌硬件集群中自我对弈4400万局。之后两个小时，它的表现已经超过人类棋手。四个小时之后，它就打败了全球最出色的象棋引擎。
　　这一名为AlphaZero的程序起源于AlphaGo。AlphaGo曾经在2016年3月打败了全球最出色的围棋棋手李世石。李世石的失利让大家感到震惊不已。去年早些时候在Netflix上播出的一部纪录片《AlphaGo》中，影片制作人员跟踪了开发这款AI的团队及其人类陪练，他们将所有精力都奉献给了AlphaGo的研发。在观看纪录片的时候，我们见证了这部分人所经历的一种新的悲伤阶段。一开始，他们认为自己不会输给一台机器：＂我想人类的直觉非常高级，AI无法超越我们。＂李世石在与AlphaGo对弈前的一天这样说道。可是，当AlphaGo开始赢得胜利之后，恐慌感油然而生。在某一个心生酸楚感的瞬间，李世石因首局失利承受着巨大的压力，他突然起身离开桌子，不顾比赛时间限制，走到外面去抽了一根烟。他俯瞰着首尔的屋顶。（在互联网上，有五千多万人在关注着这场比赛。）与此同时，AI并不知晓他的对手跑到何处了，而是继续下子，这一步就连评论员也称赞是＂创造性、令人惊讶的棋路＂。最终，李世石以1:4的比分输掉了比赛。在接受事实之前，他倍感受挫。＂我要为我的无能而道歉。＂他在新闻发布会上这样说道。最后，李世石以及其他围棋界的成员开始欣赏这台机器。＂我想，这给围棋带来了一种新的范式。＂他说。欧洲围棋冠军樊麾也对此表示赞同，并且表示：＂也许它能向人类展示出更多我们从未发现过的东西。或许这也是一种美。＂
　　对于AlphaGo的开发者来说，这确实是一场胜利，但他们依然觉得不够满意，因为AlphaGo的学习依然非常依赖于人类围棋棋手的经验。该AI程序会通过模仿世界一流棋手的棋路来掌握自己该如何落子。它还会使用手工编码的启发法，避免在思考接下来的棋路时出现严重错误。对于开发AlphaGo的研究人员来说，这些认知就像是一根拐杖。他们决意开发一种白板式的新版AI，让其完全通过自学来开发自己的棋路。
　　2017年10月发表的一篇论文中详细介绍了AlphaGo Zero。之所以要取这个名字，那是因为除了围棋规则之外，这款AI程序对其他事情一无所知。这种新的范式没有引起众多关注。但从某种角度来说，这是一项更加卓越的成就，尽管它与围棋并没有太大联系。事实上，在不到两个月时间里，DeepMind就发表了第三篇论文的预印本，表示AlphaGo Zero背后的算法可以应用到任何一种双人零和完美游戏中（即没有任何隐藏元素的游戏，例如扑克牌中牌面朝下的卡片）。DeepMind将名字中的＂Go＂去掉了，并将新的系统命名为AlphaZero。本质上来说，它是一个强大的算法。你可以给它输入人类能想到的最为复杂的规则，让它去完成一个被人类研究得最为透彻的游戏。当天内的迟些时候，它就会成为有史以来最出色的玩家。也许更加惊人的是，这种系统的迭代是迄今为止最简单的一种。
　　传统的象棋引擎就像是一个大杂烩，包含了数十年来人们反复试验得到的经验和教训。全球最出色的引擎Stockfish是开源的。它的优化是基于一种达尔文式的选择：有人提出了一个想法，之后便会进行上万局游戏来验证这个想法是否有效。优胜劣汰。因此，这并非是十分简明的范式，程序员也许都很难理解。程序员对Stockfish进行的最佳调整都是源于国际象棋本身，而不是计算机科学，他们关心的是如何评定棋盘上的某一种情况：骑士值2.1分还是2.2分？如果这是第三横线，对手却有一个相反颜色的主教呢？为了说明这一点，DeepMind的研究主管大卫·西尔弗（David Silver）曾经在Stockfish上列出了对应的解决方案。结果需要五十多步，每一步移动都需要大量编程运算，而每一步运算也都包含了来之不易的国际象棋奥秘：反移动启发式（Counter Move Heuristic）、已知残局的数据库、叠兵（Doubled Pawns）、陷阱（Trapped Pieces）、半开放线（Semi Open Files）等的评估模块，还要搜索可能移动棋子的策略，例如＂迭代加深＂（iterative deepening）等。
　　相比之下，AlphaZero只有两个部分：一个神经网络以及一个被称作为Monte Carlo Tree Search（MCTS）的算法。（出于对于游戏的认可，数学家将这种基于随机数的方法称作是蒙特卡洛树。）MCTS背后的理念就是指像国际象棋这类的游戏实际上是一棵拥有诸多可能性的树，如果我将车移到d8位置，你可以抓住它或是选择按兵不动，而此时我可以移动兵或移动主教或保护我的王后……问题在于，这棵树会以惊人的速度长大。没有一种计算力能够足以彻底进行搜索。专业的人类棋手之所以是专家，原因在于他们的大脑能够自动识别出这棵树的基本部分并能聚焦注意力。而计算机如果要想参与游戏的话，它们也需要这样做。
　　此时，神经网络就开始派上用场了。AlphaZero神经网络会接收游戏最后几步的棋盘布局，这就是信息输入。而作为信息输出，它需要评估当前的棋手有多大几率能取得胜利并且预测在当下走什么样的棋路能够以最大可能获得胜利。MCTS算法利用这些预测来决定在这棵树中的关注要点。举个例子，如果神经网络猜测＂骑士吃掉主教＂是最佳棋路，那么MCTS就会投入更多时间用于探究这一步的后果。但如果它认为可行的棋路会有一些冒险，那么有些时候它就会选择自己认为较为安全的棋路。
　　最初，指导搜索的神经网络显得略微笨拙：它会随机进行预测。这样一来，MCTS就不能很好地聚焦重要部分。但是AlphaZero的天赋就在于它进行学习的方式。它需要两个部分进行工作，但会让其相互训练。即便一个愚蠢的神经网络非常不善于预测可行棋路，它依然能够起到一定作用：比如说，有些时候，MCTS依然可以获悉哪一个位置能够促使其获得胜利。这种认知能够被用于改进神经网络。当一局结束时，你就会知道结果，你可以看到神经网络对每个位置的预测（比如说有80%的可能，易位是最好的策略），然后与实际情况进行比对（比如说这一比例更接近60.5%），之后你就可以调整突触连接来＂校正＂神经网络，直到它能够选择赢得胜利的棋路。从本质上来说，所有MCTS搜索中的＂精华＂都被提取出来，用于优化改进神经网络。
　　无疑，神经网络的一点点优化，都能减少搜索被误导的几率——这可以优化搜索，进而提取出更好的信息来训练网络。在这样的反馈回路中，神经网络就能提升至已知能力的稳定期。
　　当有关AlphaGo Zero和AlphaZero的论文刚发布时，一小群爱好者开始在博客文章与YouTube视频中描述这些系统，并开发他们自己的模拟版本。这项工作的大部分为解释性的——它源于业余爱好者学习和分享的冲动，正是这份热情率先引起了网络轰动。但是也有一小部分努力涉及到大规模地复制这项工作。毕竟，DeepMind论文仅仅描述了世界上最伟大的围棋和象棋游戏，他们并不包含任何源代码，而且公司也没有把项目本身提供给玩家。项目成功后，工程师们随即离开了这一领域。
　　吉安-卡洛·帕斯库托（Gian-Carlo Pascutto）是Mozilla公司的一名计算机程序员，拥有开发竞技游戏引擎的丰富经验，先是国际象棋接着是围棋。他一直在跟进最新研究。随着蒙特卡洛树搜索和神经网络的结合成为围棋AI的最先进技术，帕斯库托开发了全球最成功的开源围棋引擎——先是Leela，然后是LeelaZero——其反应了DeepMind取得的成就。但问题在于，DeepMind可以访问谷歌的大量云数据，但帕斯库托不能。为了训练公司的围棋引擎，DeepMind使用了五千个谷歌的＂张量处理器＂（TPU）——专门为神经网络计算而设计的芯片——训练了13天。若要在他的桌面系统上完成同样的工作，帕斯库托需要连续运行系统一千七百多年。
　　为弥补计算能力的不足，帕斯库托决定分发自己的工作。LeelaZero是一个联合系统：任何想要参与的人都可以下载最新版本，贡献他自己的计算能力，然后上传他生成的数据，以便稍稍改进系统。分布式的LeelaZero社区得以让他们的系统与自己对抗了上千万个游戏——比AlphaGo Zero还多一点点。如今，LeelaZero是现存最强大的Go引擎之一。
　　不久之后，这个想法被扩展到国际象棋领域。去年12月份，当AlphaZero的预印本出版时，加里·林斯科特（Gary Linscott）称：＂它好比一颗投向社区的炸弹。＂计算机科学家林斯科特曾经研究过Stockfish，他利用现有的LeelaZero代码库，结合AlphaZero论文中的新理念，开发了Leela Chess Zero（Lc0）。（对于Stockfish，他开发了一个测试框架，以便将引擎的新理念分发给一群志愿者，从而进行快速的审查；分发神经网络的训练是十分自然而然的下一个步骤。）起初，还有一些缺陷需要梳理，并且DeepMind团队在他们的论文中遗留的细节存在一些有根据的猜测。但几个月之内，神经网络就开始改进。国际象棋世界已然沉迷于AlphaZero：chess.com上的帖子大肆庆祝这个引擎；评论员和象棋大师们仔细研究了DeepMind团队在他们论文中发布的AlphaZero游戏，并宣布＂这才是象棋应有的玩法＂，引擎下起象棋来＂好似超级人类＂。很快，Lc0吸引了数百名志愿者。随着他们不断贡献自己的计算能力并改进源代码，引擎越来越优异。今天，一名核心贡献者怀疑，再有几个月这个引擎或将超越Stockfish。不久之后，它可能会超越AlphaZero本身。
　　当我们通过电话交谈时，林科斯特十分惊讶于自己的项目进程。曾经，一个才华横溢的博士生需要数年时间才能完成类似的项目，但如今一个感兴趣的业余爱好者几个月内就可以完成类似的项目。神经网络的软件库允许人们使用几十行代码复制全球一流的设计；在志愿者中间分配计算的已有工具，以及英伟达等芯片制造商为数百万普通计算机用户提供了廉价但功能强大的图像处理芯片（GPU）。该芯片非常适合于训练神经网络。像MCTS这样的算法非常简单，花一两个下午便可以实施。你甚至都不需要成为你所开发之引擎的游戏专家。当帕斯库托开发LeelaZero时，他差不多已有20年时间没玩过围棋。
　　DeepMind研究负责人大卫·西佛尔（David Silver）指出公司最近在游戏领域的核心工作中的一个看似矛盾的问题：程序越是简单——从AlphaGo到AlphaGo Zero再到AlphaZero——它们的表现越优秀。＂也许我们追求的原则之一，＂在2017年12月的一次演讲中他提到，＂是通过少做，通过减少算法中的复杂性，它可以使我们的算法变得更加通用。＂从他们的围棋引擎中移除围棋知识，引擎可以成为更好的围棋引擎——并且同时，这个引擎也可以下将棋和国际象棋。
　　从未有人料想到事情会这样发展。1953年，协助创建了现代计算机的阿兰·图灵（Alan Turing）写了一篇题为《数字计算机在游戏中之应用》的小论文。在这篇论文中，图灵基于＂对我下棋时的思维过程的一个内省分析＂开发了一个国际象棋程序。程序很简单，但是在这一情况下，简单并非好事：正如图灵他自己并非天才国际象棋玩家，程序本身也缺乏足够的游戏深度，下棋的技巧性也不足。即便如此，图灵猜测＂一个人无法开发出下棋水平超越他自身的程序＂的这个想法着实是＂未经思考的＂。虽然说＂没有动物可以吞下比它们自己更重的动物＂这话听上去很有道理，但实际上很多动物都可以吞下比自己重的动物。同样地，图灵认为，一个糟糕的国际象棋选手当然可以开发出下棋水平优越的程序。一个引人入胜的办法就是让程序自学。
　　AlphaZero的成功似乎证实了这一点。AlphaZero结构简单，但却可以学习其正在对阵之游戏的深层功能。在AlphaGo Zero论文的一个章节中，DeepMind团队描述了在经过一定数量的训练周期之后，他们的AI可以发现大师级玩家所熟知的策略，但在接下来几个训练周期之后又舍弃这些策略。看到人类最好的想法在通向更美好未来的道路上被无情抛弃，无疑这是怪异且有点令人感到不安的；物理机器不断超越我们着实碰触到了人类的痛处。前国际象棋冠军加里·卡斯帕罗夫（Garry Kasparov）曾在1997年输给了IBM开发的超级电脑深蓝。在最近的一篇《科学》论文中，卡斯帕罗夫认为AlphaZero并没有按照可以反映据推测是系统性＂程序员偏好和偏见＂的方式来下棋；相反，即便它对下一步棋的可能位置的搜索要远少于传统引擎，它以一种开发、激进的方式来下棋，并且似乎从战略而非策略的角度进行思考，就好比一个具有不可思议的想象力的人类。＂因为AlphaZero可以自己编程，＂卡斯帕罗夫写道，＂我会说它的风格更接近真相。＂
　　当然，像人类一样下棋，与像人类一样看待国际象棋或像人类学习，完全是两回事。有句老话说棋类游戏好比AI界的果蝇：好比果蝇之于生物学家，诸如围棋和国际象棋这样的棋类游戏对于计算机科学家而言是研究智力机制的途径。这是一个令人回味的类比。但是，曾经只是下棋的任务，一旦有朝一日变成在游戏树中每秒搜索成千上万个节点的任务时，我们训练的则是一种完全不同的智力。按这样的玩法，国际象棋恐怕远不止是我们所想象的推土机：最终，这个活动不再是我们人类的特长。为了学习，AlphaZero需要对阵数百万次，远多于人类一生中对阵次数——但是，一旦AlphaZero完成学习，它可以像天才一般下棋。通过深度搜索树，它依赖比人类快得多地思考，然后使用神经网络将其发现变为类似于直觉的东西。当然，程序也让我们对智力有了新的认识。但是它的成功也印证了世界上最优秀的人类玩家通过另一种过程——一个除了对阵之外，基于阅读、交谈和感受的过程——所见的多少。以及最令人惊讶的是，在这种如今看起来为机器准备的游戏中，我们人类的表现也也会很好。

主播称播客节目被搬运到QQ音乐12月24日消息，近日有播客主播向凤凰网科技表示，有多个播客节目在QQ音乐被搬运，包括体育类头部播客杨侃杨毅电台汽车类老秦汽修杂谈神神叨叨等节目。日前，QQ音乐对首页界面进行了更新欧洲刑警组织摧毁30500多个盗版网站，逮捕3人IT之家12月6日消息欧洲刑警组织（Europol）在12月2日发布的新闻稿中透露，执法机构在18个欧盟国家摧毁了30500多个盗版网站，逮捕了3名嫌疑人。尽管欧洲刑警组织没有透露500多个影视网站被关停盗版视频超10万部IT之家12月3日消息据湖北省浠水县公安局官方微信公众号消息，日前，浠水警方历时8个月，辗转达州沈阳抚顺恩施合肥海南辽宁江苏福建等9个省市，行程37000余公里，成功侦破部督特大侵一男子从昆明海关入境被查，发现废旧手机共278部IT之家10月30日消息据海关总署办公厅官方消息，在10月23日一名中国籍男子从永和口岸车辆入境通道入境检查时，发现废旧手机278部。报道称，10月23日，一名中国籍男子驾驶一辆微维也纳成全球最宜居城市，日本大阪亚洲排名最高IT之家9月4日消息根据美国之声的报道，近日，经济学人信息社公布了年度全球宜居城市指数报告，奥地利首都维也纳为全球最宜居城市，表现最好的亚洲城市则是排名第4的日本大阪。奥地利首都维AI精确复制声音真假比尔183盖茨难辨脸书人工智能研究中心的肖恩瓦斯奎兹（SeanVasquez）和迈克刘易斯（MikeLewis）于本周表示，他们已经努力模仿人类语言有一段时间了。然而，模仿人类语言显然是件难事，当人罗永浩再谈收购苹果库克只是小股东，他插不上话IT之家6月23日消息6月19日，罗永浩开通了新的推特账号，并放飞自我地怼了称其为太君的网友。20日，罗永浩又连续回应了几条微博，在谈到收购苹果问题时，罗永浩表示如果能收购，iPh支付宝上线一键预约口腔诊所现支持20城市，芝麻分650先享后付IT之家6月14日消息根据支付宝的消息，支付宝上线一键预约口腔诊，现支持20多个城市，芝麻分650分以上先享后付。一键预约口腔诊首先在支付宝搜索医疗健康，打开之后选择口腔健康，然后外卖小哥电动自行车骑行违法，上海试点新技术整治IT之家5月2日消息电动自行车作为平价而便利的代步工具受到很多消费者的青睐，特别是成为快递小哥以及外卖小哥进行城市最后一公里派送的神器。不过电动自行车违反交通法则的现象在很多地方也上海旅馆不得主动提供一次性日用品IT之家2月20日消息根据新华网的消息，上海市生活垃圾管理条例于2月19日公布，条例称旅馆不得主动提供客房一次性日用品，餐饮服务提供者和配送服务提供者不得主动提供免费的一次性筷子调纽约为网约车司机定最低工资税后每小时17。22美元北京时间12月5日早间消息，据美国科技媒体Gizmodo报道，本周二，纽约市的出租车和轿车委员会（TaxiandLimousineCommission）批准了一些措施，为基于应用的

<<<<<<－>>>>>>

千寻位置发布全球首个时空智能操作系统昆仑镜，加速推动北斗产业化IT之家11月23日消息根据千寻位置官方的消息，千寻位置昆仑镜时空智能操作系统，是首个支持城市级大规模时空感知计算和协同的操作系统，能在广域统一的时空基准之上，提供高精准的实时定位阿里云启用五大超级数据中心支撑双11，包括上万台液冷服务器11月3日，在阿里巴巴双11技术沟通会上，阿里巴巴副总裁阿里云基础设施负责人周明表示，为支撑屡创纪录的交易峰值，2020年双11将有包括张北乌兰察布河源南通杭州在内的五大超级数据中阿里云服务器双11探底狂促拼团上云低至85元年阿里云双11狂促已开启，针对新用户，ECS1核2G低至84。97元年点此查看。阿里云ECS共享型S6采用1核2G配置，15M带宽可选，40GB高效云盘，新用户只需85元起年，适合个华为申请HiCar情感机器人商标IT之家11月26日消息企查查App显示，近日华为技术有限公司新增HiCar情感机器人商标，国际分类为科学仪器，申请日期为2020年11月19日，商标状态为注册申请中。此外，该公司CNN民意调查超过34的美国人认为Facebook会让美国社会变得更糟IT之家11月12日消息，美国有线电视新闻网（CNN）近期公布的最新民意调查中显示，超过34（76）的美国人认为Facebook正在让美国社会变得更糟。同时还有近半数的受访民众（4腾讯QQ大会员来了每月35元，包含8项会员特权感谢IT之家网友Muna的线索投递！IT之家6月5日消息五月初，腾讯官方放出预告，在2019年4月30日2019年6月30日期间将举行QQ20周年太空狂欢嘉年华活动，活动中出现了Q美FTC警告社交媒体企业勿使用虚假评论，否则罚款10月15日早间消息，美国一些企业利用虚拟评论谋取利益，FTC（美国联邦贸易委员会）准备出手打击。FTC在声明中表示社交媒体崛起模糊了真实内容与广告的区别，导致欺骗性背书在整个市场李子柒捐赠100台电脑给四川北川9所小学IT之家1月13日消息近日，100台爱心电脑通过物流送达四川绵阳市北川羌族自治县教体局，这批电脑来自于被誉为东方美食生活家的知名美食视频博主李子柒的捐赠。据北川县委宣传部消息，李子WeWork创始人与软银集团和解诉讼，携4。8亿美元退出董事会北京时间2月27日消息，联合办公空间WeWork及其联合创始人亚当诺伊曼（AdamNeumann）周五宣布，已经与大股东软银集团达成了一项法律和解协议。这项协议将巩固软银对于WeW共享办公公司WeWork的神奇转折在疫情中向死而生去年，在一系列丑闻曝光后，WeWork上市失败。但一年之后，经历了疫情的风风雨雨，这家共享办公空间公司不仅没有倒下，反而奇迹般地有望借着疫情后的共享办公趋势实现盈利，并且如果能一直硅谷挖掘WeWork悲剧后续价值，苹果Hulu争拍限定剧纪录片2月15日上午消息，据报道，硅谷正在挖掘WeWork事件的后续价值，苹果将就此拍摄一部美剧，而Hulu也将拍摄一部纪录片。在全球风投市场，WeWork的悲剧引发了如何投资新创公司如