最强斗地主AI！网易互娱AILab提出基于完美信息蒸馏的方法

爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

最强斗地主AI！网易互娱AILab提出基于完美信息蒸馏的方法

　　机器之心专栏
　　作者：网易互娱AILab
　　网易互娱AILab联合上海交通大学和CMU提出了基于完美信息蒸馏的斗地主AIPerfectDou，击败了一众AI模型，成为目前的最强斗地主AI。
　　近几年随着强化学习技术的发展，游戏AI技术已经成功应用在了围棋、德州扑克、星际争霸等不同种类的游戏中。斗地主是非常流行的一种纸牌游戏，它的玩法存在非完美信息（地主和农民双方均不能看到对方的手牌）以及策略合作（2名农民玩家需要通过配合来击败手牌多3张的地主），被认为是非常具有挑战性的研究领域。除此以外，游戏本身的出牌组合数较多（27472种），也极大地限制了如CFR等的搜索类算法的使用。
　　针对上述斗地主游戏的难点，网易互娱AILab联合上海交通大学和CMU提出了基于完美信息蒸馏的斗地主AIPerfectDou，击败了一众AI模型，成为目前的最强斗地主AI。相关论文已被NeurIPS2022接收，同时也已经公开了代码以及试玩地址，大家感兴趣可以去和AI对战。
　　论文链接：https：arxiv。orgabs2203。16406开源代码地址：https：github。comNeteaseGamesAILabGuangzhouPerfectDou试玩地址：https：outerperfectdoudemogzailab。nie。netease。com
　　针对斗地主游戏存在的非完美信息、策略合作和动作空间巨大的问题，PerfectDou主要提出了如下几点贡献：
　　1。提出了PTIE（PerfectTrainingImperfectExecution）框架和nodereward来解决非完美信息问题和策略合作问题
　　2。牌类游戏特征的合理建模以及对可行动作的简化来减少模型探索空间，加速AI的训练过程
　　方案介绍
　　完美信息蒸馏（PTIE）
　　在斗地主游戏中，非完美信息的引入主要是由于三位玩家均不能看到别人的手牌，对于任意一位玩家而言，仅可知道其余两位玩家当前手牌的并集，而难于精准判断每位玩家当前手牌。完美信息蒸馏的思路是针对这种非完美问题，构建一个第三方角色，该角色可以看到三位玩家的手牌，该角色在不告知每位玩家完美信息的情况下通过信息蒸馏的方式引导玩家打出当前情况下合理的出牌。
　　以强化学习常用的ActorCritic算法为例，PTIE在ActorCritic算法的应用中可以利用Critic的Value输出作为蒸馏手段来提升Actor的表现。具体而言即在训练中Critic的输入为完美信息（包含所有玩家的手牌信息），Actor的输入为非完美信息（仅包含自己手牌信息），此种情况下Critic给予的Value值包含了完美信息，可以更好地帮助Actor学习到更好的策略。
　　从更新公式上来看，正常的ActorCritic算法Actor更新的方式如下：
　　在PTIE模式下，对于每个非完美信息状态h，我们可以在Critic中构建对应的完美信息状态D（h），并用Critic的输出来更新Actor的策略梯度，从而达到完美信息蒸馏的效果。
　　PTIE框架的整体结构如下图所示：
　　无论是训练还是执行过程中智能体都不会直接使用完美信息，在训练中通过蒸馏将完美信息用于提升策略，从而帮助智能体达到一个更高的强度。
　　PTIE的另一种蒸馏方式是将完美信息奖励引入到奖励值函数的训练中，PerfectDou提出了基于阵营设计的完美信息奖励nodereward，以引导智能体学习到斗地主游戏中的合作策略，其定义如下：
　　如上所示，完美信息部分
　　代表t时刻地主手牌最少几步可以出完，在斗地主游戏中可以近似理解为是距游戏获胜的距离，
　　代表t时刻地主阵营和农民阵营距游戏获胜的距离之差，
　　为调节系数。通过此种奖励设计，在训练时既可以一定程度地引入各玩家的手牌信息（出完的步数需要知道具体手牌才能计算），同时也鼓励农民以阵营的角度做出决策，提升农民的合作性。
　　特征构建：
　　PerfectDou针对牌类游戏的特点主要构建了两部分特征：牌局状态特征和动作特征。其中牌局状态特征主要包括当前玩家手牌牌型特征、当前玩家打出的卡牌牌型特征、玩家角色、玩家手牌数目等常用特征，动作特征主要用于刻画当前状态下玩家的所有可能出牌，包括了每种出牌动作的牌型特征、动作的卡牌数目、是否为最大动作等特征。
　　牌型特征为1215的矩阵，如下图所示：
　　该矩阵前4行代表对应每种卡牌的张数，512行代表该种卡牌的种类和对应位置。
　　网络结构和动作空间设计
　　针对斗地主游戏出牌组合数较多的问题，PerfectDou基于RLCard的工作上对动作空间进行了简化，对占比最大的两个出牌牌型：飞机带翅膀和四带二进行了动作压缩，将整体动作空间由27472种缩减到621种。
　　PerfectDou策略网络结构如下图所示：
　　策略网络结构同样分为两部分：状态特征部分和动作特征部分。在状态特征部分，LSTM网络用于提取玩家的历史行为特征，当前牌局状态特征和提取后的行为特征会再通过多层的MLP网络输出当前的状态信息embedding。在动作特征部分，每个可行动作同样会经过多层MLP网络进行编码，编码后的动作特征会与其对应的状态信息embedding经过一层MLP网络计算两者间的相似度，并经由softmax函数输出对应的动作概率。
　　实验结果
　　为了验证PerfectDou的强度，我们将PerfectDou和各个斗地主AI分别进行了1万局的对战来评估，包括之前的SOTA方法DouZero。主要指标包括两种：WP（胜率）和ADP（场均得分）。其中ADP为主要指标，因为其更符合斗地主游戏规则，WP为辅助指标。
　　（上表中加粗数字代表A对战B胜率超过50或者ADP大于0）
　　从实验结果中可以发现PerfectDou能够击败所有的AI程序，达到了新的SOTA水平。
　　除此以外PerfectDou还提供了各个核心模块的消融实验结果。
　　表中的ImperfectDou、RewardlessDou是分别去除了PTIE和NodeReward模块后训练的斗地主AI，VanillaPPO是同时去除两个模块后训练的斗地主AI，ImperfectDouZero是尝试使用PerfectDou设计的特征和DouZero方法进行训练的斗地主AI。通过上表我们可以发现PerfectDou的强度提升还是得益于PTIE和NodeReward，并且两部分均发挥了不可获缺的作用。这也进一步验证了论文主要贡献点的有效性。

天意PE集成的LinuxPE介绍天意PE的多个版本集成了LinuxPE，这算是天意PE的一大特色。因为WinPELinuxPE的组合，市面上似乎并不多见。之所以集成LinuxPE，源于早期使用WinPE维护电脑的我用iPad编了个Python贪吃蛇，附源码贪吃蛇可以算是街机游戏中经典中的经典了，实际上即使是手敲代码也不会太难写。最近折腾了一番iPad上新上架的LightlyIDE，可以在iPad上编程开发，也支持GUI可视化界面，遂在C盘有个rotinom文件夹，使电脑运行越来越慢，删除后又一次出现有时候突然发现电脑上的C盘出现超大文件夹位置是CDocumentsandSettingsAdministratorLocalSettingsApplicationDataS1531推荐一个浏览器插件，让你快速高效使用百度百度作为中国比较成熟的搜索引擎受到很多人的欢迎，但是百度搜索有一个很大的问题，就是广告太多。特别是使用一些名词有对应的商品时，前几个链接往往都是百度的广告链接。此外，还有百家号这种只因这一抹抹青色让它低调而不失优雅荣耀80Pro青色它非常的低调，但是它又能透露出高级感，它被称为东方色，在古时候有许多的诗词来形容它比如我们比较熟知的青，取之于蓝，而青于蓝。如今它出现在了荣耀80Pro的身上，让我们一起来欣赏选对吹风机，不再冻得头疼每次到冬天的时候，应该每个姐妹都和我一样，只想躺在床上不想动吧！特别是每次洗头发的时候，没有吹干头发的时候，感觉头皮都是凉的。所以我一直都想选择一款吹风速度比较快的吹风机！最近新发买手机先看处理器！盘点2022年各价位段最值得选择的处理器都说买手机不能只看处理器，这点确实没什么问题。但是真想要挑到体验出色的手机，最关键的还是得先看处理器，处理器表现出色，再配上其它外围配置才能有出色的用机体验。而如果处理器拉胯的话，美媒地球上为何有大陆？美国发现月刊网站近日刊登题为地球上为何有大陆？的文章，作者是埃里克克莱梅蒂。文章主要内容编译如下如果你之前从未见过我们的太阳系，而现在即将抵达这里，那么你会对这里的多样性印象深刻。地球通讯（4）人们的饮食禁忌译者戴辞（由于某种机缘巧合，译者能不时收到并读懂一种以星际信号传输的方式，从地球发往不知那个宇宙星球的通讯文章。其内容都是从外星生物的视角，来描述地球上观察到的一些事情。译者觉得这美科学家开发出无电池药丸状可吞服的生物传感胶囊智能药丸美国加州大学圣地亚哥分校工程学院研究人员开发了一种无电池药丸状可吞服生物传感系统，旨在对肠道环境进行持续监测。发表在自然通讯杂志上的该技术有望开启人们对肠道代谢物组成的新认识，这对钠离子电池行业专题报告硬碳负极新突破，生物质路线前景广阔（报告出品方作者国信证券，王蔚祺）第一章硬碳负极基本介绍钠离子电池简介钠离子电池的概念最早由ARMAND团队于20世纪80年代提出，在90年代经过产业化推广得到技术应用。钠离子电池

<<<<<<－>>>>>>

三台县潼川四小和潼川三幼开展三八节庆祝活动三月八日是一年一度的妇女节，现代女性在生活和工作中的角色堪比神奇女侠。生活中，她们是贤妻良母，营造家的温馨工作中，她们是单位的脊梁，挑起半边天。为感谢女老师们辛勤的付出，铭记女老师推荐最近看的一部超治愈好哭的韩剧失踪，他们存在过第一季该剧以失踪的亡者灵魂聚集之村庄为背景，讲述了去寻找失踪者并追查事件真相的故事，亡灵村的人们不能出去，帮助在亡灵村的人们寻找尸体，还原他们背后的阴谋。剧情简介为了生活而从事诈骗的金旭金星28岁为了做女人，我经历了难以想象的劫难1995年4月5日，北京香山医院。28岁的金星被推上手术台，她内心平静如水，因为进医院之前，她得到了家人的支持医生的肯定。不过，手术过程并没有那么顺利，躺在方寸间的台子上，金星经历长江春潮通江达海，打造更具特色的水运江苏港口群推进水运江苏建设，对区域协调发展具有重要意义。近日，记者从江苏省交通运输厅获悉，2023年，江苏要完成港口建设投资123亿元，建成沿江沿海万吨级以上泊位7个内河千吨级以上泊位30个甲流高发期来了，专家提醒出现这些症状，可以服用连花清瘟近期，我国流感病毒活动水平有所提升，以甲型流感为主，不少人中招感染。首发症状表现为极速发热，数小时内达38以上，伴有咽痛流涕鼻塞咳嗽咳痰头痛全身酸痛乏力等症状，部分病例还会呕吐或腹从新西兰到上海对优质教育的探索永无止境专访哈罗上海校长AlexReed教育没有简单的方法论，要根据每个学生不同的特点因材施教。AlexReed本文原载于留学杂志总第212期文杨冬妮编辑刘煜设计刘仕悦哈罗公学（HarrowSchool）一所享誉全球且最专访毕马威中国及亚太区主席陶匡淳今年中国经济有望增长5。7作者丨胡慧茵编辑丨和佳3月5日，第十四届全国人民代表大会第一次会议在北京人民大会堂开幕。政府工作报告提出今年发展主要预期目标，将今年的国内生产总值（GDP）增速目标定为5左右，消费巾帼风采绽芳华凝聚奋进她力量严思斯功自奉献出品从律己来严思斯红网时刻新闻讯（记者邬璐明通讯员罗雪梅）严思斯，省司法厅信息化与监所处处长党支部书记一级调研员。她用责任担当诠释一名共产党员的初心，以良好的工作业绩群众口碑展现新时代女性自信2022年中国经济发展综合表现亮眼央视网消息国务院新闻办3月6日举行权威部门话开局系列新闻发布会。邀请国家发展改革委相关负责人介绍着力推动高质量发展，为全面建设社会主义现代化国家开好局起好步有关情况。国家发展改革委太空出差日程过半，前半程有哪些精彩，后半程还有哪些期待？自2022年11月30日顺利进驻空间站组合体以来，神舟十五号航天员乘组已在轨工作生活满3个月了。太空出差日程过半，前半程有哪些精彩，后半程还有哪些期待？圆梦乘组太空出差日程过半在轨一岁女童用屁股颠着自己走路，模样酷似蜡笔小新，家人回应七八个月的时候就这样，她一直不肯走路3月6日，据猛犸新闻报道，近日，在广东广州，一段女童用屁股颠着自己走路的视频，引发关注。刘女士称，视频里的小朋友是自己妹妹的娃，刚满一周岁，最近在学走路，七八个月大的时候，就有意识

友情链接：快好找快生活快百科快传网中准网文好找聚热点快软网