范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

玩王者荣耀斗地主打麻将,但她是正经搞AI的北大教授

  一位导师下载好了《王者荣耀》,还鼓励她的博士生们去玩一玩。
  真的很难想象,这种"名场面"就真真儿的发生在了国内顶级学府 —— 北京大学。
  ……
  这位导师叫李文新,是北大信息科学技术学院的一名教授。
  △李文新教授
  但她和学生们打《王者荣耀》可是真的正儿八经的,因为李文新的研究方向,正是游戏 AI:其实"游戏"这个词,并不应该是刻板印象中的手游、端游等等,我们对它的理解是更泛化的。
  "游戏"是对"现实"的抽象和模仿。我们期望在游戏中获得与现实接近的快乐成功体验,却又避免现实中由于失误和出错带来的真实损失。
  因此游戏是一个非常好的试错和迭代成长的虚拟环境。将现实问题环境虚拟成游戏,在游戏中通过大量试错纠错来迭代优化问题解决方案,是一种重要的教育手段和研究手段。
  甚至在李文新的眼里,游戏 AI 才是真正的人工智能。
  (不禁令人想起最近大火的《失控玩家》了)
  △《失控玩家》剧照
  游戏 AI 到底拥有何种魅力,能让李文新如此痴迷?在游戏里搞 AI
  先来看看李文新带着博士们,是怎么打的《王者荣耀》。
  他们要做的,其实就是在限定的时间和资源内,训练出一个最优决策模型,并把它部署到游戏 AI 对战服务器平台上。
  这就像是一个"炼丹"的过程,让他们的智能体通过训练,练就各种"功法",然后去和别人家的智能体过招。
  例如在之前的一场比赛中,《王者荣耀》英雄间的博弈是这样的:
  虽说都只是智能体,但在这波 battle 中,它们很好地发挥了自身的"基本功":作战中
  预测敌方走位
  释放技能连招
  已击杀,阵亡
  而在每个"基本功"背后,都是智能体审时度势后的最佳决策。
  这就是李文新团队最近在打的"游戏"。
  而更具体一点来说,就是在特定的环境中,对多智能体之间的博弈策略展开研究。
  它有几个难点:
  第一是智能体的每一个决策都有非常多动作可以选择(决策空间大,不能逐一枚举尝试);
  第二是决策的成败与否不仅与自己的选择有关,还与对手的决策有关,所以需要对敌人做预测(同时决策问题,存在循环克制的策略);
  第三是作战环境和敌人的某些信息是未知的(非完全信息,需要对未知信息进行探测和猜测);
  第四是游戏从开始到最终是一个比较长的决策过程,需要权衡长期收益和短期收益,并且需要形成一些组合套路(阵法);
  第五是多智能体之间存在合作关系,让智能体学会合作和布阵,依旧是这个领域的前沿难题。
  总之每一次决策都会对全局产生非常复杂的影响,是有种"牵一发而动全身"的感觉了。
  ……
  但除了像《王者荣耀》这种 MOBA 游戏之外,李文新团队更痴迷的其实是中国传统游戏:
  斗地主和国标麻将。
  例如斗地主是这样的:
  打麻将是这样的:
  这场面,看着是不是挺像在线小游戏的?
  不不不,仔细看图中的这些"玩家",其实它们都不是人,而是一个个训练好的智能体。
  而且讲真,让 AI 打咱们这些个"祖传"游戏,难度可是要比《围棋》高得多。
  因为从博弈论的角度来看,斗地主和打麻将是属于非完全信息多人博弈。
  简单来说,就是游戏中有多个玩家,每个"玩家"都看不到其他人的手牌,并且初始手牌和牌堆是随机发放的。
  随机发牌带来的难度在于很难事前准备针对特定牌局的策略。
  在非完美信息游戏中,由于信息是不完全、非对称的(例如扑克和麻将中对手的手牌和游戏剩余的底牌都是未知的),因此对于参与者来说许多不同的游戏状态看起来是无法区分的。
  例如在扑克游戏中,自己拿了两张 K,对方拿了不同的牌对应不同的状态;但是从自己的视角看,这些状态其实是不可区分的。
  我们把每组这种无法区分的游戏状态称为一个信息集。
  除了信息集的数量,还有一个重要的指标:信息集的平均大小,即在信息集中平均有多少不可区分的游戏状态。
  在斗地主和麻将等非完美信息游戏中,斗地主的信息集数量是 1053~1083,信息集大小是 1023,麻将的则是 10121 和 1048。
  李文新还介绍到,像斗地主和麻将,还会涉及到动态结盟的问题。
  这样一来,对 AI 的挑战性就更高了。
  在 1997 年 IBM 的"深蓝"战胜了国际象棋大师卡斯帕罗夫,它使用的算法是基于启发式搜索的,人类象棋大师的经验被编写在了程序代码中。
  2016 年"AlphaGo"战胜了围棋大师李世石,它使用的算法是基于蒙特卡洛树搜索、监督学习(深度学习)和强化学习的。
  在监督学习中,AI 模仿了人类顶尖棋手的下棋方法,但只靠模仿人类是无法超越人类的。
  强化学习则是让 AI 在与 AI 自己的千百万次对弈中不断自我成长,进而超越了人类棋手。自此强化学习方法成为游戏 AI 算法研究的主流方法。
  简单来说,强化学习的过程可以概括为:智能体与环境的交互,环境根据智能体的行为给予其不同程度的奖励(惩罚),智能体因为想要最大化自己的累计收益,所以会根据环境对不同行为的反馈来重塑自己的行为(学习)。
  使用强化学习的方法来训练智能体时,我们并不直接告诉智能体应该如何做,而是在环境中合理设置奖惩机制,使得智能体因为想要获得最大累积收益而"主动地"调整自身行为,进而达到主动学习的目的。
  像家长在孩子做好事情时会给予奖励,做错事会给予惩罚,以使孩子朝着家长期望的方向发展,就是一个强化学习中通过调整环境奖励机制促使智能体朝着预定方向进化的例子。
  这种通过调整环境的奖励机制来指引智能体的进化方向的方法可以有效地将人类经验融入到机器学习过程中去,因为奖励机制的制定可以是人为的。
  如何更好地利用强化学习方法训练非完全信息多人博弈游戏 AI,是否有比强化学习更好的方法使智能体习得多人合作的策略,目前仍是游戏 AI 领域的难点问题。
  李文新团队的工作还不止于此,他们为了能让更多人参与到游戏 AI 的研究中,还特意打造了 AI 对战平台 ——Botzone。
  在这个 AI 平台上,用户可以提交自己的智能体程序进行 AI 之间的对战,也可以亲自作为玩家参与到与 AI 的对决中。
  刚才展示的斗地主、国标麻将的例子,就是在 Botzone 中的较量。
  而除了这两款游戏,Botzone 还提供了坦克大战、扫雷、俄罗斯方块和它们的各种变体。
  李文新还在北大开了一门《游戏中的 AI 算法》选修课,作业是设计打各种游戏的 AI,受到同学们的欢迎。
  ……
  不难看出,李文新是一个资深游戏迷了。
  但令人意外的是,在游戏 AI 这个领域,她却属于"转型选手"。半路"出家"到游戏 AI
  如此"爱玩"的李文新教授,其实是最近几年才把研究方向转到游戏 AI 上的。
  她早些年主要研究生物特征识别,是国际上最早从事自动化掌纹识别的研究者之一,后来还扩展到更难识别、也更不容易伪造的指静脉识别。
  说到这里李教授还透露了一个小秘密,2009 到 2014 年间,北大课外锻炼考勤使用的指静脉识别系统就是她们团队做的。
  那为何不沿着这个方向继续做下去?
  李教授的回答稍微有点"凡尔赛":她觉得自己在生物特征识别上的研究算是成功了,可以告一段落了。
  故事是这样的。
  随着她带的学生陆续毕业,其中两位博士创业开了家公司,在教育考试,银行,社保医保等领域都接了大项目,把团队的科研成果实际落地了。
  李文新教授认为学术界的使命就是开辟一个新的领域,具体到应用中怎么降低成本、产生效益那是工业界该考虑的事。
  所以她做为一个学者现在该做的是去寻找下一个领域。
  生物特征识别其实是她在中国香港理工大学读博士时导师的研究方向。更早时候她在北大读硕士时,导师带着她研究的是地理信息系统。
  前两个研究方向等于都是导师帮她选择的,而这一次转型,她想自己去寻找新的挑战。
  那又是为什么选到了游戏 AI 这个方向?
  虽然李文新教授自己从小也对棋牌类和体育运动类的游戏很感兴趣,但与游戏 AI 结缘的故事要从 2002 年开始,她组织北大学生参加 ACM 主办的国际大学生程序设计竞赛 (ACM/ICPC) 说起。
  当时除了正赛还会在旁边开设一个分赛场,与正赛里的高难度算法题不同,分赛场的项目往往带有对抗性质,比如机器人足球赛。
  2005 年的 ICPC 亚洲区预选赛在李教授的推动下正是在北京大学举办,当年对抗赛的项目是"坦克大战"。
  在一定规则下,每个参赛队伍为坦克制定一套策略,然后上场对战,输了的还可以现场修改代码继续参加下一轮。
  在一届届这样的比赛中她还观察到一个特别的现象,对抗赛上胜出的学校往往不是正赛上的传统强校。
  似乎与解算法题相比,为游戏制定策略有着不一样的难度和挑战。
  用李教授自己的话说,从这些对抗赛上她第一次"看见"了游戏 AI。
  后来,她自己在教学中也尝试加入对抗要素,想引发更多学生对 AI 的兴趣。
  再后来,就是像她带领团队为 ICPC 正赛开发的在线程序评测系统 POJ 一样,也为游戏 AI 开发一个 Botzone 测评和对战平台。
  在 AI 测试评估这件事上李文新教授的一个观点是:
  但凡进入一个研究领域,第一步总是先要有个测试平台,才能为后续研究的迭代找到优化方向。
  此时,游戏 AI 还没有成为她的主业,不过她越来越觉得与给一个特定的视觉或语言任务建模相比,游戏是动态的博弈,充满了变化和挑战。
  到了生物特征识别上的研究告一段落后,她觉得不如就找这个自己喜欢又有挑战的方向来做。
  因为搞科研必须是自己喜欢才会有激情,才能做到废寝忘食,研究才能深入。
  2016-2017 年,李文新教授开始坚定的转向研究游戏 AI 领域。
  这个时间也正好赶上 AlphaGo、AlphaZero 连续打败人类,掀起了一阵 AI 热潮。
  现在李文新教授带的博士生里,就有一位是喜欢下围棋、读本科时对 AlphaGo 深感震撼而选择了这个方向的。
  以 AlphaGo 为代表的强化学习技术是当前游戏 AI 研究的主流方法,不过李文新教授的研究并不仅限于这里。
  具体内容还包括游戏 AI 的复杂度分析、游戏 AI 对战能力和学习能力的评测方法、游戏 AI 的学习成本分析、游戏 AI 的模仿和倾向性聚类,甚至游戏对局的自动解说、新模式游戏设计等等。
  当初的 Botzone 对战平台也发展成了知名的多智能体博弈系统,有 8 万多个 AI 在上面总共进行过 3900 多万次对局。
  Botzone 上产生的大量对战数据也成了游戏 AI 进一步研究的宝贵资料。
  并且这些数据是开放下载的,让全国各地的大学生,还有一些中学生团队都可以在 Botzone 上面学习和比赛。
  这些年的研究和教学经历让李文新教授越来越觉得"游戏 AI 是人工智能该有的样子"。"游戏 AI,是真的人工智能"
  游戏 AI 应当是 AI 主流方式之一。
  这是李文新对游戏 AI 的评价。
  其实细想一下,这并不难理解。
  游戏 AI 研究的是面对一个场景如何决策的问题,在现实世界里,如何决策体现了人类的高级智能。
  我们只需要将现实世界建模成游戏环境,就可以在游戏环境中寻找解决现实世界问题的方法,之后把找到的解决方法还原到现实世界中去解决真实的问题。
  这是一种非常经济而有效的方法。
  更重要的是,由于强化学习的方法可以使 AI 在环境中自我成长,很可能获得超越人类的决策智能,这时人类很可能要反过来向 AI 学习了。
  游戏环境是人类定义的,所以游戏的难度和参数是自主可控的,有非常大的弹性,这就使得游戏成为人工智能技术最好的试验场。
  提高游戏的难度,就可以使得最新的硬件和各种最新算法有了用武之地。
  像"深蓝",使用了并行计算机和并行程序设计技术;AlphaGo 使用了 TPU 及深度学习和强化学习技术。借助游戏提供的高难度决策问题,硬件和软件技术在解决难题过程中都有了突破性提升。
  当一个问题过于困难时,我们也可以降低游戏的难度,使原本困难的问题得到部分解决,进而再逐步提升难度,递进式解决困难问题。
  想想我们玩儿过的电子游戏:赛车、CS、DOTA、我的世界、星际争霸……, 不是真实,胜似真实。
  我们在其中的体验、感受、决策也可以迁移到现实世界中。
  如果在星际争霸中几个 AI 学会了合作布阵,那同样的方法可用于真实世界的机器人对抗。
  如果一个 AI 在游戏里会开赛车,而游戏环境尽量逼近真实,那这个 AI 就能成为自动驾驶技术的起点。
  其实游戏离现实并不遥远,它无需绑缚在传统产业上也能体现其价值。
  游戏本身就是一个前景巨大的产业,在解决了衣食住行这些人类最基本的需求之后,精神需求就被提上日程。
  和读一本书、看一场电影相比,打一场游戏也并不低级。恰恰相反,在游戏中我们可能会更多用脑,完全主动地参与。
  就像有些书是禁书,有些电影少儿不宜一样,游戏的内容也需要监督和把控。
  在游戏产业中,不只游戏 AI 会用到人工智能技术,游戏的生产、运维中,也是处处都会涉及到 AI 技术。可以说人工智能技术在游戏产业中大有可为。
  在被问到是否赞同"下一个 AI 里程碑可能会在复杂策略游戏中诞生"时,李文新表示她是非常认同的。因为现在越来越多的研究者正在兴趣盎然地研究这一问题。
  不过,在她的眼里,游戏 AI 还有更深一层的意义:
  游戏 AI 是活在游戏里的"人",人也是活在人生的大戏中,两者可以互相启发。
  ……
  最后,如果想要更加深入地走进李文新教授的游戏 AI 世界,敬请关注今年由 CNCC 举办的计算机大会。
  本届大会中,李文新教授将会围绕《游戏 AI 算法与平台》展开讨论。

IDC今年手机市场将连续第三年萎缩IT之家3月7日消息IDC已公布2019年及以后的手机市场预测,今年的手机市场前景并不乐观。IDC预测称,今年全球智能手机出货量将再次出现负增长(连续第三年萎缩),预计2019年智京东公布618活动管理规则参与大促商品都将开通运费险和闪电退款服务5月6日消息,据京东官方公布的消息,京东618全球年中购物节商家报名环节正式启动。同时,京东还发布了2019年京东618活动管理规则,对活动准入发货时效售后服务等方面做了详细的规定京东将于5月10日发布2019年第一季度财报北京时间4月30日晚间消息,京东(NasdaqJD)今日宣布,将于美国东部时间2019年5月10日美国股市开盘前(北京时间5月10日晚)发布2019年第一季度未经审计财报。财报发布京东雄安地下物流系统研究新进展已开始架构规划在第一届雄安城市物流发展论坛上,记者获悉京东物流受雄安新区管委会委托,早在2018年8月就已经开展地下物流的研究,对具体区域展开实际的地下物流研究工作。并发起成立了城市智能物流研究朋友微信借钱,凭聊天记录能拿回吗?法院称还需其他辅证IT之家4月30日消息现在越来越多的人通过微信支付宝进行借贷,倘若对方不肯还钱,凭聊天记录法院会支持吗?据潇湘晨报报道,近日,长沙市开福区人民法院审理了一起借钱纠纷案件。陈某邱某本2019日本东京耳机祭魅族携URHD60等声学产品亮相IT之家12月12日消息魅族配件官方刚刚宣布,魅族将会参展2019日本东京耳机祭,具体时间为12月1415日。从官方给出的海报图来看,本次日本东京耳机祭上,魅族高端定制耳机UR魅族399元,小米真无线蓝牙耳机Air2明日10点首销IT之家9月26日消息小米Air2将于今日10点首发开卖,售价399元,支持蓝牙5。0连接与LHDC高清解码点此购买。小米Air2真无线蓝牙耳机支持蓝牙5。0连接与LHDC高清解码MeToo运动烧到谷歌包庇性骚扰女下属的Android之父不作恶(Don39tbeevil!)是谷歌最广为人知的价值观。其阳光开放的公司文化也成为了硅谷乃至全球科技公司的范本。然而,当MeToo运动烧到谷歌的时候,也带出了谷歌一些存在争议谷歌母公司Alphabet三季度营收337亿美元,净利增37IT之家10月26日消息谷歌母公司Alphabet今天发布截至9月30日的2018年第三季度财报,报告显示,Alphabet第三季度总营收为337。40亿美元,比上年同期的277。涉广告点选诈骗,谷歌拉黑超125个安卓App10月24日下午消息,据中国台湾地区援引BuzzFeedNews消息,有超过125个Android应用及网站涉及大规模的广告点击诈骗活动,创造非法的广告营收。Google回应称,涉ofo小黄车不死,有桩新模式覆盖深圳全城停车不规范最高缴纳20元IT之家8月26日消息今年春末,ofo有桩新模式首先在北京延庆进行试点。3个月后,它又悄悄登陆了深圳市罗湖福田两区。在进行一系列优化和调整后,ofo小黄车宣布,深圳全城范围都可体验
余承东我说话不是很谦虚,华为未来生态优势在中国远超所有对手IT之家11月26日消息据环球网消息,在昨天的华为MatePad发布会结束之后,华为消费者业务CEO余承东接受媒体采访时,谈到了华为相关产品策略及产品线规划的问题,期间也对华为生态余承东回应消费者因爱国买华为在国外也卖得非常好IT之家11月25日消息今天下午华为在上海举办了新品发布会,会后举行的沟通会上,华为消费者业务CEO余承东接受了采访。据澎湃新闻报道,余承东提到,(对于美方封锁)华为不指望好消息,余承东华为MateBookD搭载Windows系统IT之家11月25日消息余承东在华为MatePad发布会上表示,华为MateBookD系列搭载Windows系统,并表示Windows已经OK了,这意味华为后续的Matebook系外国发烧友痴迷中国HiFi耳机好听又便宜网易科技讯11月10日消息,据外媒报道,中国HiFi耳机在外国发烧友中流行。这些中国耳机的品牌虽然鲜为人知,但由于完整供应链,它们也可以采用知名大厂的配件,同时省去了各类营销市场费一图看懂小米5GMultiLink网络加速技术IT之家12月3日消息红米官方今日公布了RedmiK30系列配备的一项硬核功能,5GMultiLink三路并发。Redmi手机官方表示,主流网络解决方案是双路并发,RedmiK30高通中国董事长孟樸2020年或没有只支持4G的旗舰手机12月4日消息,今天骁龙技术峰会在夏威夷举行,高通推出两款骁龙5G移动平台和5G模组化平台。高通中国董事长孟樸在会后的交流会上接受了包括凤凰网科技在内的媒体采访,他对凤凰网科技表示小米在印度推出个人贷款服务,最多可贷1400美元北京时间12月3日晚间消息,据国外媒体报道,中国智能手机厂商小米公司周二正式在印度市场推出其贷款解决方案MiCredit(小米信贷)。这也是继MiPay(小米支付)之后,小米在印度索尼宣布成立索尼AI首先推出三个旗舰项目11月20日消息,据国外媒体报道,当地时间周二,索尼宣布成立索尼AI部门,以推进人工智能(AI)技术的基础研发。索尼AI在日本欧洲和美国均设有办事处。最初,它计划推出三个旗舰项目,传音上市首日暴涨64创始人为波导老将,坐拥70亿身家IT之家10月1日消息国庆节的前一天,传音控股正式在上交所科创板敲钟上市,上市首日,传音控股发行价为35。15元股,开盘不久其股价快速拉升,一度报涨96。02,较开盘价涨幅达到30非洲之王传音回国上市,加固护城河2019年9月30日,对传音来说是一个里程碑的时间节点,这一天,传音在科创板敲钟上市。上午,传音以53元开盘,较发行价35。15元大涨了50。78,市值超过400亿人民币。对于中国传音控股登陆科创板开盘股价报涨96。02,触发临停9月30日上午消息,传音控股今日在科创板上市,股价开盘快速拉升,报涨96。02,较开盘价涨幅达到30,触发临停,目前市值551。2亿元。传音控股发行价35。15元,发行募集资金净额