范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

AAAI2022大奖出炉中科院德州扑克程序AlphaHoldem获奖,已达人类专业玩家水平

  近日,人工智能国际顶会 AAAI 2022 正在召开,大会论文奖也陆续公布。AI 科技评论获知,中国科学院自动化所的兴军亮教授团队获得 AAAI 2022 的卓越论文奖(Distinguished Paper)!
  AAAI 的英文全称是"Association for the Advance of Artificial Intelligence"(美国人工智能协会)。该协会是人工智能领域的主要学术组织之一,具有一定的学术权威性。
  兴军亮团队此次获奖的工作是他们所开发的轻量型德州扑克 AI 程序 ——AlphaHoldem 。据介绍,该系统的决策速度较 DeepStack 的速度提升超 1000 倍,与高水平德州扑克选手对抗的结果表明其已经达到了人类专业玩家水平 。
  论文名称:《AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning》
  作者团队:赵恩民,闫仁业,李金秋,李凯,兴军亮1 德州扑克 AI 的意义
  与围棋任务相比,德州扑克是一项更能考验基于信息不完备导致对手不确定的智能博弈技术。
  德州扑克是国际上最为流行的扑克游戏,由于最早起源于 20 世纪初美国德克萨斯州而得名。
  德州扑克的规则是使用去掉王牌的一副扑克牌,共 52 张牌,至少 2 人参与,至多 22 人,一般参与人数为两人和十人之间。
  游戏开始时,首先为每个玩家发两张私有牌作为各自的"底牌",随后将五张公共牌依次按三张、一张、一张朝上发出。在发完两张私有牌、三张共有牌、第四张公共牌、第五张公共牌后玩家都可以多次无限制押注,这四轮押注分别称为"翻牌前"、"翻牌"、"转牌"、"河牌"。图 1 展示了一场德州扑克游戏的完整流程示意。
  ▲图 1:两人无限注德州扑克一次游戏过程示意
  经过四轮押注之后,若仍不能分出胜负,游戏进入"摊牌"阶段,所有玩家亮出各自底牌并与公共牌组合成五张牌,成牌最大者获胜。图 2 给出了德州扑克不同组合的牌型解释和大小。
  ▲图 2:德州扑克不同牌型大小说明和比较
  德州扑克博弈的问题复杂度很大,两人无限注德州扑克的决策空间复杂度超过 10 的 161 次方;其次,德州扑克博弈过程属于典型的回合制动态博弈过程,游戏参与者每一步决策都依赖于上一步的决策结果,同时对后面的决策步骤产生影响;另外,德州扑克博弈属于典型的不完美信息博弈,博弈过程中玩家各自底牌信息不公开使得每个玩家信息都不完备,玩家在每一步决策时都要充分考虑对手的各种可能情况,这就涉及到对手行为与心理建模、欺诈与反欺诈等诸多问题。
  研究者认为,由于德州扑克游戏规则又非常简单且边界确定,特别适合作为一个虚拟实验环境对博弈的相关基础理论方法和核心技术算法进行深入探究。
  近年来,国际研究者在德州扑克这一大规模不完美信息博弈问题的优化求解中也取得了长足进步。
  比如,之前加拿大阿尔伯特大学和美国卡内基梅隆大学的研究者就设计出 AI 程序 DeepStack 和 Libratus,并先后在两人无限注德州扑克中均战胜了人类专业选手,随后卡内基梅隆大学设计的 Pluribus 又在六人无限注德州扑克中战胜了人类专业选手。
  但目前主流德州扑克 AI 背后的核心思想是利用反事实遗憾最小化(Counterfactual Regret Minimization, CFR)算法逼近纳什均衡策略。
  具体来说,首先利用抽象(Abstraction)技术 [3][7] 压缩德扑的状态和动作空间,从而减小博弈树的规模,然后在缩减过的博弈树上进行 CFR 算法迭代。
  这些方法严重依赖于人类专家知识进行博弈树抽象,并且 CFR 算法需要对博弈树的状态结点进行不断地采样遍历和迭代优化,即使经过模型缩减后仍需要耗费大量的计算和存储资源。例如,DeepStack 使用了 153 万的 CPU 时以及 1.3 万的 GPU 时训练最终 AI,在对局阶段需要一个 GPU 进行 1000 次 CFR 的迭代过程,平均每个动作的计算需耗时 3 秒。Libratus 消耗了大于 300 万的 CPU 时生成初始策略,每次决策需要搜索 4 秒以上。
  这样大量的计算和存储资源的消耗严重阻碍了德扑 AI 的进一步研究和发展;同时,CFR 框架很难直接拓展到多人德扑环境中,增加玩家数量将导致博弈树规模呈指数增长。另外,博弈树抽象不仅需要大量的领域知识而且会不可避免地丢失一些对决策起到至关作用的信息。
  2 AlphaHoldem 是何方神圣?
  这个问题也吸引了很多中国研究者,中科院自动化所的兴军亮教授团队便是其中之一。去年 12 月,他领导的博弈学习研究组针对德州扑克任务,提出了一种高水平、轻量化的两人无限注德州扑克 AI 程序 ——AlphaHoldem。
  不同于已有的基于 CFR 算法的德州扑克 AI,中科院博弈学习研究组所提出的架构是基于端到端的深度强化学习算法 (如图 4 所示)。
  ▲图 4:端到端学习德州扑克 AI 学习框架
  根据团队介绍,AlphaHoldem 采用 Actor-Critic 学习框架,其输入是卡牌和动作的编码,然后通过伪孪生网络(结构相同参数不共享)提取特征,并将一种改进的深度强化学习算法与一种新型的自博弈学习算法相结合,在不借助任何领域知识的情况下,直接从牌面信息端到端地学习候选动作进行决策。
  他们还指出,AlphaHoldem 的成功得益于其采用了一种高效的状态编码来完整地描述当前及历史状态信息、一种基于 Trinal-Clip PPO 损失的深度强化学习算法来大幅提高训练过程的稳定性和收敛速度、以及一种新型的 Best-K 自博弈方式来有效地缓解德扑博弈中存在的策略克制问题。
  AlphaHoldem 使用了 1 台包含 8 块 GPU 卡的服务器,经过三天的自博弈学习后,战胜了 Slumbot 和 DeepStack。每次决策时,AlphaHoldem 都仅用了不到 3 毫秒,比 DeepStack 速度提升超过了 1000 倍。同时,AlphaHoldem 与四位高水平德州扑克选手对抗 1 万局的结果表明其已经达到了人类专业玩家水平。3 团队部分成员介绍
  赵恩民,论文一作。中国科学院自动化研究所模式识别与智能系统专业博士四年级研究生,2018 年于清华大学获得工学学士学位。研究方向为计算机扑克和深度强化学习。
  兴军亮,中国科学院自动化研究所研究员、博士生导师、特聘青年骨干,中国科学院大学岗位教授,中国科学院人工智能创新研究院创新专家组专家。兴教授 2012 年毕业于清华大学计算机科学与技术系,获工学博士学位。
  此外,他还是美国电器与电子工程学会(IEEE)高级会员、美国《科学》杂志中国官方公众号特邀评论员、中国计算机学会(CCF)高级会员、计算机视觉专委会委员。
  他的主要研究领域为计算机视觉和计算机博弈。目前已在包括顶级国际期刊如 TPAMI、IJCV、AI 以及顶级国际会议上如 ICCV、CVPR、AAAI、IJCAI 上发表论文 100 多篇,谷歌学术引用超过 10000 次,出版计算机视觉译著 2 部,参与撰写深度学习领域著作 1 部、人工智能领域著作 1 部。
  曾获清华大学计算机系"学术新秀"、"谷歌学者"、多次顶级国际和国内会议最佳论文奖等荣誉和奖励,以及十余次在人脸识别、车辆识别、视频识别等国际和国内挑战赛中获奖。
  目前作为项目和课题负责人承担多项国家重点项目,研发的视觉感知相关技术在国家广电总局、华为、微软等得到了多次验证应用和落地推广,取得了良好的经济效益和社会价值。
  近年来主要围绕深度强化学习相关的智能感知和决策问题,研发了多款针对不同游戏的博弈决策 AI,其中研发的星际争霸 AI 曾获 2017 年 IEEE CIG 星际争霸 AI 第 2 名,研发的德州扑克 AI 程序 AlphaHoldem 胜率超过了目前公开的最好德州扑克 AI 程序 DeepStack,速度提升超过 1000 倍。开放了学界首个大规模不完美信息博弈平台 OpenHoldem。4 AAAI 2022 其他获奖工作
  杰出论文奖:
  论文名称:Online Certification of Preference-Based Fairness for Personalized Recommender Systems
  作者团队:Virginie Do,Sam Corbett-Davies,Jamal Atif, Nicolas Usunier
  杰出学生论文奖:
  论文名称:InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation
  作者团队:Pierre Colombo,Chloé Clavel,Pablo Piantanida
  卓越论文奖:
  除了中科院兴军亮团队的 AlphaHoldem,还有 5 篇工作获得 AAAI 2022"卓越论文奖"。分别如下
  论文名称:Certified Symmetry and Dominance Breaking for Combinatorial Optimisation
  作者团队:Bart Bogaerts,Stephan Gocht,Ciaran McCreesh,Jakob Nordström
  论文名称:Online Elicitation of Necessarily Optimal Matchings
  作者团队:Jannik Peters
  论文名称:Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian Noise
  作者团队:Thom S. Badings, Alessandro Abate,Nils Jansen,David Parker,Hasan A. Poonawala,Marielle Stoelinga
  论文名称:Subset Approximation of Pareto Regions with Bi-objective A
  作者团队:Jorge A. Baier,Carlos Hernández,Nicolás Rivera
  论文名称:The SoftCumulative Constrain with Quadratic Penalty
  作者团队:Yanick Ouellet,Claude-Guy Quimper

波士顿动力机器人从四条腿到两个轮,它们是兄弟在上篇文章为啥这个人和这条狗火了里,我们介绍了波士顿动力最受关注的两款机器人。这里我们不妨梳理一下波士顿动力家族的逆天进化史。六足机器人RHex体型小巧它是波士顿动力体型最小的机器波士顿动力机器人为啥这个人和这条狗火了10月底,BosstownDynamics恶搞波士顿动力(BostonDynamics)的视频火了。视频中,类似波士顿动力Atlas的机器人在射击训练中弹无虚发。但是人类总是对它实小米手表QampA汇总为何WiFi有时会断连IT之家11月12日消息小米手表已于双11正式开售,已经有很多用户都陆续收到了手表,小米生态链设计总监任恬今晚把大家比较关心的问题作了汇总解答,一起来看一下把。小米手表采用1。78小米穿戴软件负责人讲解MIUIForWatch背后的故事IT之家11月11日消息小米手表在11月11日零点首卖,标准版售价1299元,据悉,截止11日9时30分,小米手表单品全渠道销售额突破1亿元。小米手表主打一款真正的智能手表,小米手世界名画暗藏玄机?AI可发现戈雅梵高等画作中的隐藏作品科学家们发明了一种人工智能算法来从画作的X光片识别早前的画像,从而发现戈雅梵高和凡艾克等名家的隐藏作品。艺术馆管理员和艺术历史学家经常扫描艺术品,因为许多大师级画家重复使用他们的画国内乘云而上的AI赛道热闹刚开始9月26日,在2019年云栖大会上,阿里巴巴首次公布人工智能调用规模每天调用超过1万亿次,服务全球10亿人,日处理图像10亿张视频120万小时语音55万小时及自然语言5千亿句。阿里坐飞机还可以体验VR!英航测试机上VR娱乐系统IT之家8月17日消息航空公司通常会在乘客的飞机座位前内置一块屏幕用以提供实用信息和娱乐功能来让乘客们获得一个相对不那么枯燥的旅程。不过为了避免骚扰到邻座乘客,这块屏幕尺寸往往会相5899元HTCVIVECosmos智能VR眼镜即将发货IT之家9月29日消息今年CES2019上,HTC展示过ViveCosmos的原型机,今年9月上旬,HTC正式宣布了ViveCosmos开售的信息,其中国行售价5899元,现在,H科技与时尚的弄潮儿,华为Eyewear智能眼镜2020春夏新款亮相全球2020年3月26日,华为P40系列在用户的期盼中如约而至,一同发布的还GENTLEMONSTERXHUAWEIEyewear智能眼镜2020春夏新款,融合全新升级的时尚款式,引领苹果AppleWatch5岁了!设计草图首次曝光IT之家4月25日消息今天是AppleWatch问世五周年纪念日,自2015年发布以来,AppleWatch的人气一路飙升。为了庆祝这款设备的五周年纪念日,曾在初代AppleWat一碗水端平苹果AppleWatchEditionHerm232s也已移除充电器IT之家9月24日消息我们知道苹果全新的AppleWatchSeries6和AppleWatchSE已经不再附送充电器,只附送磁性充电线,但最初AppleWatchEdition和
华为HUAWEIWatchGT儿童手表3Pro价格公布988元1288元1488元IT之家10月26日消息华为在今日的发布会上正式将华为Mate20系列手机带到了国内。同时,华为还正式发布了华为手表GT(HUAWEIWATCHGT)等一系列新品。华为官方宣布,华华为AI音箱亮相丹拿专业音质,支持手机通话IT之家10月26日消息华为HUAWEIMate20新品手机发布会在上海举行,亮相了旗下首款智能音箱产品华为AI音箱。音箱基于华为在AI人工智能技术,具备了一系列智能特性。华为AI苹果AppleWatchSeries6物料成本仅为136美元,SoC内存占据大头IT之家6月4日消息凭借时尚现代的设计,再加上最好的智能手表界面之一,苹果AppleWatch在2021年第一季度拿下了约33的智能手表市场份额。最新的AppleWatchSeri249元至289元,荣耀手环6NFC版正式发布1。47英寸AMOLED全面屏,磁吸快充14天续航IT之家11月3日消息荣耀正式发布最新一代智能手环荣耀手环6。其中荣耀手环6售价249元,荣耀手环6NFC版售价289元,将在11月4日0点预售,11月11日0点正式发售。IT之家荣耀手环6全面屏渲染图曝光1。47英寸2。5D彩屏,售价200多元IT之家11月3日消息荣耀将发布荣耀最新一代智能手环荣耀手环6。此前海报显示,荣耀手环6将采用窄边框屏幕。同时,荣耀也首次提出开启手环全面屏时代的口号。现在微博博主数码闲聊站曝光了荣耀手环6官宣荣耀首款全面屏手环,11月3日见IT之家10月29日消息今日,荣耀宣布将于11月3日发布荣耀最新一代智能手环荣耀手环6。本次发布的官宣海报中也首次露出了新品手环剪影,可以看到荣耀手环6将采用窄边框屏幕。同时,荣耀云从科技IPO率先过会将成科创板AI第一股IT之家7月22日消息科创版官网显示,云从科技的IPO申请已获得上交所科创板上市委会议审议通过,云从科技将成为科创板AI第一股。按照科创板流程,云从科技距离上市只剩下提交注册和公布换脸已不算事儿,能合成整个身体的AI伪造技术将至在俄罗斯小说家维克多佩雷温(VictorPelevin)的网络科幻小说智人(HomoZapiens)中,名叫巴比伦塔塔斯基(BabylenTatarsky)的诗人被大学老友招募,前依图终止上市背后AI企业的病根在哪儿市场对于人工智能的理解与接纳程度,正变得理性而客观,同时也更加地现实。在为上市准备了8个月之后,人工智能独角兽企业依图科技主动申请退出科创板上市,正式对外宣告科创板IPO终止。作为小米可穿戴设备全球总出货量突破1亿,新品4月3日揭晓IT之家4月1日消息今天米家MIJIA官方微博宣布喜讯,据2014年2019年IDC全球可穿戴智能设备市场报告,小米可穿戴设备全球总出货量突破1亿。米家MIJIA官方微博在公布的海苹果HomePodMini拆解确认电源线不可拔出IT之家11月19日消息苹果新发布的HomePodmini采用了USBC电源线,可以插在一个独立的电源适配器上,有人猜测电源线可以或许被拆下来,但事实并非如此。MacRumors论