范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

玩王者荣耀斗地主打麻将,但她是正经搞AI的北大教授

  一位导师下载好了《王者荣耀》,还鼓励她的博士生们去玩一玩。
  真的很难想象,这种"名场面"就真真儿的发生在了国内顶级学府 —— 北京大学。
  ……
  这位导师叫李文新,是北大信息科学技术学院的一名教授。
  △李文新教授
  但她和学生们打《王者荣耀》可是真的正儿八经的,因为李文新的研究方向,正是游戏 AI:其实"游戏"这个词,并不应该是刻板印象中的手游、端游等等,我们对它的理解是更泛化的。
  "游戏"是对"现实"的抽象和模仿。我们期望在游戏中获得与现实接近的快乐成功体验,却又避免现实中由于失误和出错带来的真实损失。
  因此游戏是一个非常好的试错和迭代成长的虚拟环境。将现实问题环境虚拟成游戏,在游戏中通过大量试错纠错来迭代优化问题解决方案,是一种重要的教育手段和研究手段。
  甚至在李文新的眼里,游戏 AI 才是真正的人工智能。
  (不禁令人想起最近大火的《失控玩家》了)
  △《失控玩家》剧照
  游戏 AI 到底拥有何种魅力,能让李文新如此痴迷?在游戏里搞 AI
  先来看看李文新带着博士们,是怎么打的《王者荣耀》。
  他们要做的,其实就是在限定的时间和资源内,训练出一个最优决策模型,并把它部署到游戏 AI 对战服务器平台上。
  这就像是一个"炼丹"的过程,让他们的智能体通过训练,练就各种"功法",然后去和别人家的智能体过招。
  例如在之前的一场比赛中,《王者荣耀》英雄间的博弈是这样的:
  虽说都只是智能体,但在这波 battle 中,它们很好地发挥了自身的"基本功":作战中
  预测敌方走位
  释放技能连招
  已击杀,阵亡
  而在每个"基本功"背后,都是智能体审时度势后的最佳决策。
  这就是李文新团队最近在打的"游戏"。
  而更具体一点来说,就是在特定的环境中,对多智能体之间的博弈策略展开研究。
  它有几个难点:
  第一是智能体的每一个决策都有非常多动作可以选择(决策空间大,不能逐一枚举尝试);
  第二是决策的成败与否不仅与自己的选择有关,还与对手的决策有关,所以需要对敌人做预测(同时决策问题,存在循环克制的策略);
  第三是作战环境和敌人的某些信息是未知的(非完全信息,需要对未知信息进行探测和猜测);
  第四是游戏从开始到最终是一个比较长的决策过程,需要权衡长期收益和短期收益,并且需要形成一些组合套路(阵法);
  第五是多智能体之间存在合作关系,让智能体学会合作和布阵,依旧是这个领域的前沿难题。
  总之每一次决策都会对全局产生非常复杂的影响,是有种"牵一发而动全身"的感觉了。
  ……
  但除了像《王者荣耀》这种 MOBA 游戏之外,李文新团队更痴迷的其实是中国传统游戏:
  斗地主和国标麻将。
  例如斗地主是这样的:
  打麻将是这样的:
  这场面,看着是不是挺像在线小游戏的?
  不不不,仔细看图中的这些"玩家",其实它们都不是人,而是一个个训练好的智能体。
  而且讲真,让 AI 打咱们这些个"祖传"游戏,难度可是要比《围棋》高得多。
  因为从博弈论的角度来看,斗地主和打麻将是属于非完全信息多人博弈。
  简单来说,就是游戏中有多个玩家,每个"玩家"都看不到其他人的手牌,并且初始手牌和牌堆是随机发放的。
  随机发牌带来的难度在于很难事前准备针对特定牌局的策略。
  在非完美信息游戏中,由于信息是不完全、非对称的(例如扑克和麻将中对手的手牌和游戏剩余的底牌都是未知的),因此对于参与者来说许多不同的游戏状态看起来是无法区分的。
  例如在扑克游戏中,自己拿了两张 K,对方拿了不同的牌对应不同的状态;但是从自己的视角看,这些状态其实是不可区分的。
  我们把每组这种无法区分的游戏状态称为一个信息集。
  除了信息集的数量,还有一个重要的指标:信息集的平均大小,即在信息集中平均有多少不可区分的游戏状态。
  在斗地主和麻将等非完美信息游戏中,斗地主的信息集数量是 1053~1083,信息集大小是 1023,麻将的则是 10121 和 1048。
  李文新还介绍到,像斗地主和麻将,还会涉及到动态结盟的问题。
  这样一来,对 AI 的挑战性就更高了。
  在 1997 年 IBM 的"深蓝"战胜了国际象棋大师卡斯帕罗夫,它使用的算法是基于启发式搜索的,人类象棋大师的经验被编写在了程序代码中。
  2016 年"AlphaGo"战胜了围棋大师李世石,它使用的算法是基于蒙特卡洛树搜索、监督学习(深度学习)和强化学习的。
  在监督学习中,AI 模仿了人类顶尖棋手的下棋方法,但只靠模仿人类是无法超越人类的。
  强化学习则是让 AI 在与 AI 自己的千百万次对弈中不断自我成长,进而超越了人类棋手。自此强化学习方法成为游戏 AI 算法研究的主流方法。
  简单来说,强化学习的过程可以概括为:智能体与环境的交互,环境根据智能体的行为给予其不同程度的奖励(惩罚),智能体因为想要最大化自己的累计收益,所以会根据环境对不同行为的反馈来重塑自己的行为(学习)。
  使用强化学习的方法来训练智能体时,我们并不直接告诉智能体应该如何做,而是在环境中合理设置奖惩机制,使得智能体因为想要获得最大累积收益而"主动地"调整自身行为,进而达到主动学习的目的。
  像家长在孩子做好事情时会给予奖励,做错事会给予惩罚,以使孩子朝着家长期望的方向发展,就是一个强化学习中通过调整环境奖励机制促使智能体朝着预定方向进化的例子。
  这种通过调整环境的奖励机制来指引智能体的进化方向的方法可以有效地将人类经验融入到机器学习过程中去,因为奖励机制的制定可以是人为的。
  如何更好地利用强化学习方法训练非完全信息多人博弈游戏 AI,是否有比强化学习更好的方法使智能体习得多人合作的策略,目前仍是游戏 AI 领域的难点问题。
  李文新团队的工作还不止于此,他们为了能让更多人参与到游戏 AI 的研究中,还特意打造了 AI 对战平台 ——Botzone。
  在这个 AI 平台上,用户可以提交自己的智能体程序进行 AI 之间的对战,也可以亲自作为玩家参与到与 AI 的对决中。
  刚才展示的斗地主、国标麻将的例子,就是在 Botzone 中的较量。
  而除了这两款游戏,Botzone 还提供了坦克大战、扫雷、俄罗斯方块和它们的各种变体。
  李文新还在北大开了一门《游戏中的 AI 算法》选修课,作业是设计打各种游戏的 AI,受到同学们的欢迎。
  ……
  不难看出,李文新是一个资深游戏迷了。
  但令人意外的是,在游戏 AI 这个领域,她却属于"转型选手"。半路"出家"到游戏 AI
  如此"爱玩"的李文新教授,其实是最近几年才把研究方向转到游戏 AI 上的。
  她早些年主要研究生物特征识别,是国际上最早从事自动化掌纹识别的研究者之一,后来还扩展到更难识别、也更不容易伪造的指静脉识别。
  说到这里李教授还透露了一个小秘密,2009 到 2014 年间,北大课外锻炼考勤使用的指静脉识别系统就是她们团队做的。
  那为何不沿着这个方向继续做下去?
  李教授的回答稍微有点"凡尔赛":她觉得自己在生物特征识别上的研究算是成功了,可以告一段落了。
  故事是这样的。
  随着她带的学生陆续毕业,其中两位博士创业开了家公司,在教育考试,银行,社保医保等领域都接了大项目,把团队的科研成果实际落地了。
  李文新教授认为学术界的使命就是开辟一个新的领域,具体到应用中怎么降低成本、产生效益那是工业界该考虑的事。
  所以她做为一个学者现在该做的是去寻找下一个领域。
  生物特征识别其实是她在中国香港理工大学读博士时导师的研究方向。更早时候她在北大读硕士时,导师带着她研究的是地理信息系统。
  前两个研究方向等于都是导师帮她选择的,而这一次转型,她想自己去寻找新的挑战。
  那又是为什么选到了游戏 AI 这个方向?
  虽然李文新教授自己从小也对棋牌类和体育运动类的游戏很感兴趣,但与游戏 AI 结缘的故事要从 2002 年开始,她组织北大学生参加 ACM 主办的国际大学生程序设计竞赛 (ACM/ICPC) 说起。
  当时除了正赛还会在旁边开设一个分赛场,与正赛里的高难度算法题不同,分赛场的项目往往带有对抗性质,比如机器人足球赛。
  2005 年的 ICPC 亚洲区预选赛在李教授的推动下正是在北京大学举办,当年对抗赛的项目是"坦克大战"。
  在一定规则下,每个参赛队伍为坦克制定一套策略,然后上场对战,输了的还可以现场修改代码继续参加下一轮。
  在一届届这样的比赛中她还观察到一个特别的现象,对抗赛上胜出的学校往往不是正赛上的传统强校。
  似乎与解算法题相比,为游戏制定策略有着不一样的难度和挑战。
  用李教授自己的话说,从这些对抗赛上她第一次"看见"了游戏 AI。
  后来,她自己在教学中也尝试加入对抗要素,想引发更多学生对 AI 的兴趣。
  再后来,就是像她带领团队为 ICPC 正赛开发的在线程序评测系统 POJ 一样,也为游戏 AI 开发一个 Botzone 测评和对战平台。
  在 AI 测试评估这件事上李文新教授的一个观点是:
  但凡进入一个研究领域,第一步总是先要有个测试平台,才能为后续研究的迭代找到优化方向。
  此时,游戏 AI 还没有成为她的主业,不过她越来越觉得与给一个特定的视觉或语言任务建模相比,游戏是动态的博弈,充满了变化和挑战。
  到了生物特征识别上的研究告一段落后,她觉得不如就找这个自己喜欢又有挑战的方向来做。
  因为搞科研必须是自己喜欢才会有激情,才能做到废寝忘食,研究才能深入。
  2016-2017 年,李文新教授开始坚定的转向研究游戏 AI 领域。
  这个时间也正好赶上 AlphaGo、AlphaZero 连续打败人类,掀起了一阵 AI 热潮。
  现在李文新教授带的博士生里,就有一位是喜欢下围棋、读本科时对 AlphaGo 深感震撼而选择了这个方向的。
  以 AlphaGo 为代表的强化学习技术是当前游戏 AI 研究的主流方法,不过李文新教授的研究并不仅限于这里。
  具体内容还包括游戏 AI 的复杂度分析、游戏 AI 对战能力和学习能力的评测方法、游戏 AI 的学习成本分析、游戏 AI 的模仿和倾向性聚类,甚至游戏对局的自动解说、新模式游戏设计等等。
  当初的 Botzone 对战平台也发展成了知名的多智能体博弈系统,有 8 万多个 AI 在上面总共进行过 3900 多万次对局。
  Botzone 上产生的大量对战数据也成了游戏 AI 进一步研究的宝贵资料。
  并且这些数据是开放下载的,让全国各地的大学生,还有一些中学生团队都可以在 Botzone 上面学习和比赛。
  这些年的研究和教学经历让李文新教授越来越觉得"游戏 AI 是人工智能该有的样子"。"游戏 AI,是真的人工智能"
  游戏 AI 应当是 AI 主流方式之一。
  这是李文新对游戏 AI 的评价。
  其实细想一下,这并不难理解。
  游戏 AI 研究的是面对一个场景如何决策的问题,在现实世界里,如何决策体现了人类的高级智能。
  我们只需要将现实世界建模成游戏环境,就可以在游戏环境中寻找解决现实世界问题的方法,之后把找到的解决方法还原到现实世界中去解决真实的问题。
  这是一种非常经济而有效的方法。
  更重要的是,由于强化学习的方法可以使 AI 在环境中自我成长,很可能获得超越人类的决策智能,这时人类很可能要反过来向 AI 学习了。
  游戏环境是人类定义的,所以游戏的难度和参数是自主可控的,有非常大的弹性,这就使得游戏成为人工智能技术最好的试验场。
  提高游戏的难度,就可以使得最新的硬件和各种最新算法有了用武之地。
  像"深蓝",使用了并行计算机和并行程序设计技术;AlphaGo 使用了 TPU 及深度学习和强化学习技术。借助游戏提供的高难度决策问题,硬件和软件技术在解决难题过程中都有了突破性提升。
  当一个问题过于困难时,我们也可以降低游戏的难度,使原本困难的问题得到部分解决,进而再逐步提升难度,递进式解决困难问题。
  想想我们玩儿过的电子游戏:赛车、CS、DOTA、我的世界、星际争霸……, 不是真实,胜似真实。
  我们在其中的体验、感受、决策也可以迁移到现实世界中。
  如果在星际争霸中几个 AI 学会了合作布阵,那同样的方法可用于真实世界的机器人对抗。
  如果一个 AI 在游戏里会开赛车,而游戏环境尽量逼近真实,那这个 AI 就能成为自动驾驶技术的起点。
  其实游戏离现实并不遥远,它无需绑缚在传统产业上也能体现其价值。
  游戏本身就是一个前景巨大的产业,在解决了衣食住行这些人类最基本的需求之后,精神需求就被提上日程。
  和读一本书、看一场电影相比,打一场游戏也并不低级。恰恰相反,在游戏中我们可能会更多用脑,完全主动地参与。
  就像有些书是禁书,有些电影少儿不宜一样,游戏的内容也需要监督和把控。
  在游戏产业中,不只游戏 AI 会用到人工智能技术,游戏的生产、运维中,也是处处都会涉及到 AI 技术。可以说人工智能技术在游戏产业中大有可为。
  在被问到是否赞同"下一个 AI 里程碑可能会在复杂策略游戏中诞生"时,李文新表示她是非常认同的。因为现在越来越多的研究者正在兴趣盎然地研究这一问题。
  不过,在她的眼里,游戏 AI 还有更深一层的意义:
  游戏 AI 是活在游戏里的"人",人也是活在人生的大戏中,两者可以互相启发。
  ……
  最后,如果想要更加深入地走进李文新教授的游戏 AI 世界,敬请关注今年由 CNCC 举办的计算机大会。
  本届大会中,李文新教授将会围绕《游戏 AI 算法与平台》展开讨论。

央行财付通支付宝对快递外卖商家减免佣金IT之家2月15日消息在今天举行的国务院应对新型冠状病毒感染肺炎疫情联防联控机制新闻发布会上,人民银行副行长范一飞在回答记者问时谈到了下一步针对非营利性医疗机构以及快递外卖等商家出2017年情人节买的支付宝恋爱保险生效,最高礼金9995元感谢IT之家网友Apple柯基的线索投递!IT之家2月14日消息情人节又双叒叕来了,不知单身的小伙伴们都找到另一半了吗?在2017年的情人节,支付宝应景上线了一款恋爱保险,只要用户微信支付获准在尼泊尔运营,支付宝正在申请中北京时间2月11日晚间消息,据国外媒体报道,中国支付服务提供商微信支付(WeChatPay)近日终于获准在尼泊尔运营其电子支付服务。报道称,尼泊尔央行尼泊尔国家银行(NepalRa职业电竞的纳税宿命如果你问一个职业电竞选手会如何定义自己的职业,他们可能会给出一些自己的想法,但并不会特别在意别人的眼光。但有一类人却让他们不得不关注,这些人开始更多地关注电竞比赛不断增长的奖金总额研究称12美国人没有宽带因垄断导致价格太贵据国外媒体报道,许多美国人买不起宽带,但美国联邦通信委员会(FCC)并不在乎。政府经常声称没有宽带的人只是不想要它,但实际上,是因为市场竞争有限和垄断导致他们根本负担不起。上周,一滴滴与丰田合资公司正式成立,名为丰桔出行新浪科技讯9月17日下午消息,近日,滴滴与丰田共同出资的合资公司丰桔出行(北京)科技有限公司正式成立,滴滴出行副总裁杨峻担任董事长和法定代表人。今年7月,滴滴出行宣布与丰田汽车在智你会尊重和关爱拥有理性思维的机器人吗?据国外媒体报道,想象一下这样的世界,它们像我们人类一样,有思想触觉自我意识和执行任务的能力,但是它们却从根本上不同于人类,它们是人类的作品,是人类创造的,其机械身体有启动和关闭的开难以启齿,就让AI来!这款聊天机器人专为青少年解惑性事现在的青少年在成长过程中会不可避免地受到互联网的影响。许多父母觉得性是一个难以启齿的问题。但PlannedParenthood发现,青少年也不会非常主动地在社交媒体上求助。他们不会快手关联企业成立广告公司,从事网上广告等业务IT之家2月23日消息企查查App显示,近日,深圳市快手广告有限公司成立,该公司注册资本100万,法定代表人为杨远熙,为北京达佳互联信息技术有限公司全资子公司。从公开的工商信息来看快手被正式纳入恒生综合指数国企指数和科技指数IT之家2月23日消息今日起,快手正式通过快速纳入机制进入恒生综合指数国企指数和科技指数。今日上午,快手港股开盘下跌。截至发稿时,快手下跌7。04,盘中股价达351。2港元,市值达快手体育拿下斯诺克赛事版权IT之家2月15日消息今日,世界斯诺克威尔士公开赛开幕。快手官方宣布,与世界斯诺克十年新媒体版权拥有方达成版权内容合作。未来,快手将通过短视频直播等技术为快手用户提供更多体育消费内
小鹏汽车转让嘉兴智鹏100股权,嘉兴鹏行接盘IT之家1月12日消息,信息显示,1月11日,嘉兴智鹏汽车销售服务有限公司发生工商变更,原股东小鹏汽车销售有限公司退出,新增股东嘉兴鹏行汽车销售服务有限公司,持股100。企查查信息消息称BOSS直聘计划下半年赴美IPO,融资5亿美元2月26日下午消息,据路透社旗下媒体IFR报道,互联网招聘平台BOSS直聘计划下半年赴美IPO,融资5亿美元。此前多家媒体报道,BOSS直聘将于今年正式赴美上市,日前已选定高盛和瑞云软件公司Qualtrics上市首日大涨51估值达273亿美元1月29日早间消息,据报道,云软件供应商Qualtrics周四在纳斯达克上市后股价暴涨,该公司此前的IPO发行价已经超出定价区间。该股交易代码为XM,开盘价为每股41。85美元,涨软银拟于周一首次提交SPACIPO融资5至6亿美元据报道,软银旗下愿景基金计划在周一通过该公司的第一个特殊目的收购公司(SPAC)的IPO融资5亿至6亿美元。据悉,这家投资巨头至少还在筹备另外两个SPAC,这是一种空白支票工具,用中国公司今年赴美IPO筹资117亿美元,创2014年以来新高复兴资本(RenaissanceCapital)汇总的数据显示,中国企业今年在美国进行了30次首次公开募股(IPO),共筹资117亿美元。这是自2014年以来的最高筹资纪录,当时有自如回应员工晋升考核体重为督促员工保持健康,非硬性指标12月24日午间消息,近日网上有疑似自如员工爆料,自如内部晋升通道会以身高体重为条件,自如方面回应称,公司制定了员工体重管理的建议指标,督促员工保持健康的体魄和充沛的精力。但晋升还上海拟建议健身卡设冷静期办卡7天内未使用可全额退款IT之家11月5日消息据东方网报道,近日,上海市体育局上海市市场监督管理局上海市消费者权益保护委员会上海市健身健美协会共同制定了上海市体育健身行业会员服务合同示范文本(征求意见稿)FITURE推出迷你健身房魔镜,定位家庭健身市场2018年8月到2019年7月,Instagram上Selfcare的标签数量从500万飙升至1700万。越来越多的人开始在社交媒体上分享自己的运动生活。突如其来的新冠疫情让大家更家庭健身设备这么智能,还要私教干嘛?Nikolas和BrittanyLoecher在纳帕谷度过了结婚纪念日,返程回到科罗拉多的时候,顺带去逛了Tonal位于旧金山的展示门店。Tonal销售的是具备联网功能的力量训练设线下停摆,线上狂欢,疫情下的云健身只是泡沫连日来,有关于武汉方舱医院医生带领患者跳强身健体的短视频正在互联网上迅速传播,他们跳广场舞打太极拳练瑜伽做俯卧撑在加强运动增强免疫力的同时,互相之间也在传递着战胜疾病的信心。而在方东南亚科技巨头GoTo正融资20亿美元,计划年底前IPO北京时间7月26日晚间消息,据报道,知情人士今日称,印尼最具价值的科技初创公司Goto正与投资者洽谈,希望在上市之前再筹集至多20亿美元资金。GoTo是东南亚网约车巨头Gojek和