范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

AAAI2022大奖出炉!中科院德州扑克程序AlphaHoldem获卓越论文奖

  作者 | 西西、王晔
  编辑丨陈彩娴
  近日,人工智能国际顶会 AAAI 2022 正在召开,大会论文奖也陆续公布。AI科技评论获知,中国科学院自动化所的兴军亮教授团队获得 AAAI 2022 的卓越论文奖(Distinguished Paper)!
  AAAI 的英文全称是"Association for the Advance of Artificial Intelligence"(美国人工智能协会)。该协会是人工智能领域的主要学术组织之一,具有一定的学术权威性。
  兴军亮团队此次获奖的工作是他们所开发的轻量型德州扑克 AI 程序——AlphaHoldem。据介绍,该系统的决策速度较 DeepStack 的速度提升超1000倍,与高水平德州扑克选手对抗的结果表明其已经达到了人类专业玩家水平。
  论文名称:《AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning》
  作者团队:赵恩民,闫仁业,李金秋,李凯,兴军亮
  1
  德州扑克AI的意义   与围棋任务相比,德州扑克是一项更能考验基于信息不完备导致对手不确定的智能博弈技术。   德州扑克是国际上最为流行的扑克游戏,由于最早起源于20世纪初美国德克萨斯州而得名。   德州扑克的规则是使用去掉王牌的一副扑克牌,共52张牌,至少2人参与,至多22人,一般参与人数为两人和十人之间。   游戏开始时,首先为每个玩家发两张私有牌作为各自的"底牌",随后将五张公共牌依次按三张、一张、一张朝上发出。在发完两张私有牌、三张共有牌、第四张公共牌、第五张公共牌后玩家都可以多次无限制押注,这四轮押注分别称为"翻牌前"、"翻牌"、"转牌"、"河牌"。图1展示了一场德州扑克游戏的完整流程示意。   图1:两人无限注德州扑克一次游戏过程示意   经过四轮押注之后,若仍不能分出胜负,游戏进入"摊牌"阶段,所有玩家亮出各自底牌并与公共牌组合成五张牌,成牌最大者获胜。图2给出了德州扑克不同组合的牌型解释和大小。   图2:德州扑克不同牌型大小说明和比较   德州扑克博弈的问题复杂度很大,两人无限注德州扑克的决策空间复杂度超过10的161次方;其次,德州扑克博弈过程属于典型的回合制动态博弈过程,游戏参与者每一步决策都依赖于上一步的决策结果,同时对后面的决策步骤产生影响;另外,德州扑克博弈属于典型的不完美信息博弈,博弈过程中玩家各自底牌信息不公开使得每个玩家信息都不完备,玩家在每一步决策时都要充分考虑对手的各种可能情况,这就涉及到对手行为与心理建模、欺诈与反欺诈等诸多问题。   研究者认为,由于德州扑克游戏规则又非常简单且边界确定,特别适合作为一个虚拟实验环境对博弈的相关基础理论方法和核心技术算法进行深入探究。   近年来,国际研究者在德州扑克这一大规模不完美信息博弈问题的优化求解中也取得了长足进步。   比如,之前加拿大阿尔伯特大学和美国卡内基梅隆大学的研究者就设计出 AI 程序 DeepStack 和 Libratus,并先后在两人无限注德州扑克中均战胜了人类专业选手,随后卡内基梅隆大学设计的 Pluribus 又在六人无限注德州扑克中战胜了人类专业选手。   但目前主流德州扑克AI背后的核心思想是利用反事实遗憾最小化(Counterfactual Regret Minimization, CFR)算法逼近纳什均衡策略。   具体来说,首先利用抽象(Abstraction)技术[3][7]压缩德扑的状态和动作空间,从而减小博弈树的规模,然后在缩减过的博弈树上进行CFR算法迭代。   这些方法严重依赖于人类专家知识进行博弈树抽象,并且CFR算法需要对博弈树的状态结点进行不断地采样遍历和迭代优化,即使经过模型缩减后仍需要耗费大量的计算和存储资源。例如,DeepStack使用了153万的CPU时以及1.3万的GPU时训练最终AI,在对局阶段需要一个GPU进行1000次CFR的迭代过程,平均每个动作的计算需耗时3秒。Libratus消耗了大于300万的CPU时生成初始策略,每次决策需要搜索4秒以上。   这样大量的计算和存储资源的消耗严重阻碍了德扑AI的进一步研究和发展;同时,CFR框架很难直接拓展到多人德扑环境中,增加玩家数量将导致博弈树规模呈指数增长。另外,博弈树抽象不仅需要大量的领域知识而且会不可避免地丢失一些对决策起到至关作用的信息。   2
  AlphaHoldem是何方神圣?   这个问题也吸引了很多中国研究者,中科院自动化所的兴军亮教授团队便是其中之一。去年12月,他领导的博弈学习研究组针对德州扑克任务,提出了一种高水平、轻量化的两人无限注德州扑克AI程序——AlphaHoldem。   不同于已有的基于CFR算法的德州扑克AI,中科院博弈学习研究组所提出的架构是基于端到端的深度强化学习算法(如图4所示)。   图4:端到端学习德州扑克AI学习框架   根据团队介绍,AlphaHoldem采用Actor-Critic学习框架,其输入是卡牌和动作的编码,然后通过伪孪生网络(结构相同参数不共享)提取特征,并将一种改进的深度强化学习算法与一种新型的自博弈学习算法相结合,在不借助任何领域知识的情况下,直接从牌面信息端到端地学习候选动作进行决策。   他们还指出,AlphaHoldem的成功得益于其采用了一种高效的状态编码来完整地描述当前及历史状态信息、一种基于Trinal-Clip PPO损失的深度强化学习算法来大幅提高训练过程的稳定性和收敛速度、以及一种新型的Best-K自博弈方式来有效地缓解德扑博弈中存在的策略克制问题。   AlphaHoldem 使用了1台包含8块GPU卡的服务器,经过三天的自博弈学习后,战胜了Slumbot和DeepStack。每次决策时,AlphaHoldem都仅用了不到3毫秒,比DeepStack速度提升超过了1000倍。同时,AlphaHoldem与四位高水平德州扑克选手对抗1万局的结果表明其已经达到了人类专业玩家水平。   3
  团队部分成员介绍   赵恩民,论文一作。中国科学院自动化研究所模式识别与智能系统专业博士四年级研究生,2018年于清华大学获得工学学士学位。研究方向为计算机扑克和深度强化学习。   兴军亮,中国科学院自动化研究所研究员、博士生导师、特聘青年骨干,中国科学院大学岗位教授,中国科学院人工智能创新研究院创新专家组专家。兴教授2012年毕业于清华大学计算机科学与技术系,获工学博士学位。   此外,他还是美国电器与电子工程学会(IEEE)高级会员、美国《科学》杂志中国官方公众号特邀评论员、中国计算机学会(CCF)高级会员、计算机视觉专委会委员。   他的主要研究领域为计算机视觉和计算机博弈。目前已在包括顶级国际期刊如TPAMI、IJCV、AI以及顶级国际会议上如ICCV、CVPR、AAAI、IJCAI上发表论文100多篇,谷歌学术引用超过10000次,出版计算机视觉译著2部,参与撰写深度学习领域著作1部、人工智能领域著作1部。   曾获清华大学计算机系"学术新秀"、"谷歌学者"、多次顶级国际和国内会议最佳论文奖等荣誉和奖励,以及十余次在人脸识别、车辆识别、视频识别等国际和国内挑战赛中获奖。   目前作为项目和课题负责人承担多项国家重点项目,研发的视觉感知相关技术在国家广电总局、华为、微软等得到了多次验证应用和落地推广,取得了良好的经济效益和社会价值。   近年来主要围绕深度强化学习相关的智能感知和决策问题,研发了多款针对不同游戏的博弈决策AI,其中研发的星际争霸AI曾获2017年IEEE CIG星际争霸AI第2名,研发的德州扑克AI程序AlphaHoldem胜率超过了目前公开的最好德州扑克AI程序DeepStack,速度提升超过1000倍。开放了学界首个大规模不完美信息博弈平台OpenHoldem。   4
  AAAI 2022其他获奖工作   杰出论文奖:   论文名称:Online Certification of Preference-Based Fairness for Personalized Recommender Systems   作者团队:Virginie Do,Sam Corbett-Davies,Jamal Atif, Nicolas Usunier   杰出学生论文奖:   论文名称:InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation   作者团队:Pierre Colombo,Chloé Clavel,Pablo Piantanida   卓越论文奖:   除了中科院兴军亮团队的 AlphaHoldem,还有 5 篇工作获得 AAAI 2022 "卓越论文奖"。分别如下   论文名称:Certified Symmetry and Dominance Breaking for Combinatorial Optimisation   作者团队:Bart Bogaerts,Stephan Gocht,Ciaran McCreesh,Jakob Nordström   论文名称:Online Elicitation of Necessarily Optimal Matchings   作者团队:Jannik Peters   论文名称:Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian Noise   作者团队:Thom S. Badings, Alessandro Abate,Nils Jansen,David Parker,Hasan A. Poonawala,Marielle Stoelinga   论文名称:Subset Approximation of Pareto Regions with Bi-objective A   作者团队:Jorge A. Baier,Carlos Hernández,Nicolás Rivera   论文名称:The SoftCumulative Constrain with Quadratic Penalty   作者团队:Yanick Ouellet,Claude-Guy Quimper   参考链接:   1.https://twitter.com/rao2z/status/1496866889921822721   2.https://mp.weixin.qq.com/s/OBRybZ-NwcNW-S9TCObaLA   雷峰网

十多款小米老手机升级MIUI13稳定版,唯独这两款不支持对于安卓手机用户而言,自然是希望能够获得最新版本的系统升级,而大部分厂商对23年以上的老手机会采取断更策略。反观小米就给力许多,近期小米宣布将对16款老机型进行MIUI13稳定版升QQ音乐音乐包和绿钻有什么区别?QQ音乐是我们最为常用的听歌软件之一了,为了更好地使用和享受QQ音乐的权益,我们往往会开通绿钻或者一些付费音乐包。那么,你知道QQ音乐的音乐包和绿钻有什么区别吗?QQ音乐的付费音乐外媒公布多款手机辐射量,摩托罗拉Edge位居第一,超过FCC标准一直以来,手机辐射都充满着各种争议,对于健康有没有危害,至今为止也没有明确的说法,但大多数人都是抱着宁可信其有,不可信其无的态度。目前世界上对手机辐射SAR的衡量有两种标准,一种是罗志祥NFT无人问津!官方跌破将全数回收艺人罗志祥两年前因感情丑闻重创演艺事业,近期重返舞台,同时也看准NFT商机,在3月底发行LIONHEARTNFT项目,发行总量为7,300个每个售价0。3颗以太币,不过在发售1周之vrar时间同步解决方案VR指通过头戴显示器将完全虚拟化的世界呈现给用户,旨在为其提供一种沉浸感。现今,我们在各大展览上看到的带上头盔显示器张牙舞爪玩游戏的都属于VR。为确保VR拥有更好的呈现效果,需要着最高省下千元这三个时间换手机最划算现在这年头,换什么都得精打细算,像手机这种日常用品更是如此,看发布会选配置,逛电商比价格,去实体店上手体验,一顿操作猛如虎,一看优惠两块五。其实,咱们换手机全年也是有时间节点的,把游戏电视大爆发时代,EvoX55要做排头兵啦相较于之前刚开始起步,画面不清晰总是掉帧的游戏电视,现在的游戏电视显然要好用很多。比如这款Vidda发布的游戏电视EvoX55,不仅配备了高速接口,高刷新率,还同时增加了可变刷新率小米12Ultra曝光,首发骁龙8Gen1Plus,最快6月底发布这两年小米在冲击高端路上所取得的成绩,大家是有目共睹,雷军似乎也在加大力度带领小米迈向更旗舰领域。在小米12系列三款新机登场之后,其实外界更加期待接下来超大杯的表现,那就是小米122799就能拿下Vidda游戏电视EvoX55?也太香了最近Vidda游戏电视EvoX55发布,不知道你们有没有看到,作为骨灰级的游戏玩家,当然要坐在来往新世界的高铁上了。咱就是说不看不知道,一看惊艳到。2799元?不到半个月的工资,就幸福来得太突然!华为P50开启降价模式没有5G,但优势仍旧巨大对于各位花粉来说有一个好消息,那就是华为P50如今迎来降价,不过这个降价可能是限时的,8GB128GB版本发行价4488元,如今降至4338元,256GB版本同样优惠150元,到手都2022年了,iPhoneXR还值得入手吗都2022年了,iPhoneXR还值得入手吗?今天我们就来好好聊一聊!首先大家都知道iPhoneXR是2018年发布的机器,它搭载了6。1英寸LCD屏幕,分辨率为1792x828,
汽车强国的底层是零部件强国2021年造车一词多次进入广大网民的眼中。最近新能源汽车的无人驾驶氢能电车路车协作等等的资讯也是铺天盖地。因为快加工目前也为汽车行业的企业提供零部件制造服务,甚至一些汽车行业的工业北京消协滚筒洗衣机比较试验这两项性能表现优秀滚筒式洗衣机因其使用方便清洁效果好等特点早已进入千家万户。目前,洗衣机不仅能清洗衣物,部分洗衣机还具备除菌除螨等功能,能够让消费者更安心。近日,北京市消费者协会对市场销售的西门子松小鹏汽车回应违法采集人像被罚数据已删除,不存在泄露或违法使用情况来源蓝鲸财经蓝鲸汽车12月16日讯,针对因采集人脸数据被徐汇区市场监督管理局罚款10万元一事,小鹏汽车发布道歉声明,称由于对相关法律条款的不熟悉,误采购并使用了违反了相关法律条款的性能强高刷屏好用不贵的手机一加9R屏幕部分采用一块6。5英寸打孔屏,屏幕分辨率为1080p,屏幕材质为AMOLED,支持120赫兹刷新率。有护眼模式。该款机型也是采用OPPO的Coloros系统,所以在系统天玑9000AI性能炸裂!AIBenchMark跑分稳居第一手机中国新闻随着全新一代骁龙8移动平台的正式发布,移动端手机芯片再一次开启了一个新时代。而作为高通竞争对手的联发科也没闲着,搭载天玑9000处理器的新机也将会在近期和公众见面。近日解剖小程序电商模式随着消费互联网红利已经消失,产业互联网开始正式拉开序幕,这已经是业界的共识。去年腾讯也进行了架构调整,整体上都是在布局产业互联网。消费互联网和产业互联网最大的不同是消费互联网是对人摩托罗拉背刺小米,成为价格屠夫?1799元价位搭载骁龙8882021年,摩托罗拉自edges开始在国内销售睽违已久的中高端产品。在这个激烈的竞争市场,motoedges30是一款摩托罗拉此前极少见的高性价比手机。高性价比这一词一直被小米垄断柴犬币今年涨幅第一,但明年这三只加密货币可能更牛智通财经APP注意到,自2020年3月全球新冠疫情爆发以来,可以说没有一种资产类别比加密货币更火爆。在过去的21个月里,截至12月12日,加密货币总市值已飙升超1500,达到约2。熟人用过三款超值手机,价格1500大洋左右,游戏,续航都还可以的第一个真我Q3采用6。5英寸LCD高清显示屏,支持120Hz屏幕刷新率,搭载了高通骁龙750G处理器前置1600万像素摄像头,后置4800万像素主摄800万像素超广角镜头200万像好家伙又狙击大哥小米是吧?曝红米新机搭载2K顶级屏幕价格喜人我们都知道,小米和旗下的红米各自的任务不同,小米主打高端和旗舰,而红米主打性价比,从定位上说双方应该配合默契活跃在不同的价位段,对友商形成全范围的打击。然而事实情况却是红米总是抢了体验欧拉好猫外观酷似甲壳虫,纯电501KM,价格真不贵现在购买新能源汽车的小伙伴是越来越多了,如果你有10万15万的预算,如何选购一辆可爱的长续航新能源汽车呢?那么我们不妨考虑一下长城汽车旗下的欧拉好猫这款车型,这款车型的造型相当的复