上海交大开源训练框架，支持大规模基于种群多智能体强化学习训练

　　机器之心专栏
　　作者：上海交大和UCL多智能体强化学习研究团队 基于种群的多智能体深度强化学习（PB-MARL）方法在星际争霸、王者荣耀等游戏AI上已经得到成功验证，MALib 则是首个专门面向 PB-MARL 的开源大规模并行训练框架。MALib 支持丰富的种群训练方式（例如，self-play, PSRO, league training)，并且实现和优化了常见多智能体深度强化学习算法，为研究人员降低并行化工作量的同时，大幅提升了训练效率。此外，MALib 基于 Ray 的底层分布式框架，实现了全新的中心化任务分发模型，相较于常见的多智能体强化学习训练框架（RLlib，PyMARL，OpenSpiel），相同硬件条件下吞吐量和训练速度有着数倍的提升。现阶段，MALib 已对接常见多智能体环境（星际争霸、谷歌足球、棋牌类、多人 Atari 等），后续将进一步提供对自动驾驶、智能电网等场景的支持。
　　项目主页：https://malib.io。
　　在深度学习领域，算力从来都是我们关心的一个重点，也是影响人工智能算法落地的一个关键因素。在很多应用场景里面，足够的算力支持可以显著加快算法从提出、训练到落地的效率，像是 OpenAI Five 的亿级参数量的使用，其每天的 GPU 计算用量在 770±50~820±50 PFlops/s。而在深度强化学习领域，随着应用场景从单智能体扩展到多智能体，算法的求解复杂度也呈现指数级增长，这也对算力要求提出了新的挑战，要求更多的计算资源能够被调用。特别是当所要处理的问题规模，涉及的智能体数量较多时，单机训练算法的可行度显著下降。
　　多智能体强化学习要解决群体智能相关的问题，其研究往往涉及群体内智能体之间的协作与对抗。目前已有众多现实任务应用涉及大规模智能体和复杂多样化交互，例如人群模拟、自动驾驶以及军事场景中的无人机集群控制：
　　人群模拟(http://gamma.cs.unc.edu/CompAgent/imgs/sitterson3.jpg)。
　　自动驾驶（https://github.com/huawei-noah/SMARTS/blob/master/docs/_static/smarts_envision.gif）。
　　无人机集群(https://defensesystems.com/-/media/GIG/Defense-Systems/Web/2015/JanFeb/CODEdrones.png)。
　　在算法方面，解决此类群体问题的一个重要的途径是基于群体的多智能体强化学习方法，也是 MALib 目前阶段的重点瞄准方向。基于群体的多智能体强化学习（Population-based MARL, PB-MARL）涉及多个策略集合交互问题，下图展示了通常意义上基于群体的多智能体强化学习算法的主要流程。PB-MARL 算法是结合了深度强化学习和动态种群选择方法（例如，博弈论，进化策略）以自动拓展策略集。PB-MARL 能够以此不断产生新的智能，因而在一些复杂任务上都取得了不错的效果，如实时决策游戏 Dota2 、StrarCraftII，以及纸牌任务 Leduc Poker。但在实际问题中，目前的多智能体强化学习算法与应用尚有差距，一个亟待解决的问题便是算法在大规模场景下的训练效率。由于种群算法内在耦合了多智能体算法，致使其训练过程对数据的需求量极大，因而也需要一个灵活、可扩展的训练框架来保证其有效性。
　　如何提高算法训练效率？对于依赖深度学习技术的很多领域，在面临任务规模变大，模型参数变多的情况下，都需要引入额外的技术来提高训练效率。分布式计算是一个最直接考虑的方法，通过多进程或者多机的方式，提高算法对计算资源的使用效率从而提升算法训练效率。而分布式技术在深度强化学习领域的应用，也催生了分布式深度强化学习这个领域的产生，其研究的重点包括计算框架的设计，以及大规模分布式强化学习算法的开发。
　　近年来，为了更好地进行大规模深度强化学习算法的训练，研究人员发展了更加专用的训练框架，通过在算法接口和系统设计上进行抽象，来支持更为复杂的实时数据采样、模型训练和推理需求。然而，分布式强化学习技术的发展似乎还未触及群体智能这一问题。实际上，现有分布式强化学习框架对于一般多智能体强化学习算法的分布式计算支持是完全不够的，像 RLlib、Sample-Factory、SEED RL 这样的典型分布式强化学习框架，在设计模式上都是将多智能体任务当作单智能体任务来处理，而忽略了多智能体算法之间的异构性。对于其他强调智能体交互的学习范式，如中心化训练（centralized training）、基于网络的分布式算法以及带有通信功能的协作性算法都没有进行显式支持，缺乏对应的统一接口来简化算法实现和训练流程。因此，研究人员想要进行更多类型多智能体强化学习算法的分布式训练探索时，往往需要进行大量额外的编码工作。而对于多智能体强化学习算法框架方面的发展，现有的工作更多聚焦在算法实现，并不太注重算法在大规模场景下的扩展性，或者更多的是专为某些场景设计的算法库，像 PyMARL、SMARTS 这样的框架，其作用更偏向于服务专门领域内的 benchmark，在算法类型上，大部分框架也做得并不全面。因此对于多智能体强化学习算法框架支持这一块，也一直是缺乏一套比较全面的框架来打通算法实现、训练和部署测试这一套流程。
　　我们认为以上两个发展现状的主要原因至少会有两点：（1）一个是因为多智能体算法本身在结构上具有的异构性较高，导致算法在接口实现的一致性和复用性上不是太高；（2）另一方面也是因为多智能体分布式算法依然处于早期探索阶段。此外，在分布式部署方面，现有分布式强化学习框架对 independent learning 算法的支持更友好，也更自然和直接。就像通常分布式技术在机器学习领域的应用一样，要解决目前分布式技术在大规模多智能体强化学习领域的更深层次的应用，算法和框架都必不可少，两者相辅相成。
　　在算法方面，一个重要的途径是基于群体的多智能体强化学习方法，也是 MALib 目前阶段所重点瞄准的方向。基于群体的多智能体强化学习（Population-based MARL, PB-MARL）涉及到多个策略集合交互问题，下图展示了通常意义上基于群体的多智能体强化学习算法的主要流程。PB-MARL 算法特点是结合了深度强化学习和动态种群选择方法（例如，博弈论，进化策略）来进行自动策略集扩展。通过这种方式，PB-MARL 能够不断产生新的智能，并且在解决一些复杂任务上都取得了不错的效果，如实时决策游戏 Dota2 、StrarCraftII，以及纸牌任务 Leduc Poker。
　　然而，也正是由于种群算法内在耦合了多智能体算法，导致这一类算法在训练过程对数据的需求极大，因此也需要一个灵活的、可扩展的训练框架来保证其有效性。
　　论文链接：https://arxiv.org/abs/2106.07551 GitHub：https://github.com/sjtu-marl/malib
　　MALib框架图
　　为了应对这些需求，我们提出了 MALib，从三个方面提出了针对大规模群体多智能体强化学习算法的解决方案：（1）中心化任务调度：自动递进式生成训练任务，作业进程的半主动执行能够提高训练任务的并行度；（2）Actor-Evaluator-Learner 模型：解耦数据流，以满足多节点灵活的数据存储和分发；（3）从训练层面对多智能体强化学习进行抽象：尝试提高多智能体算法在不同训练模式之间的复用率，比如 DDPG 或者 DQN 可以很方便地嫁接到中心化训练模式中。
　　中心化任务调度模型 (c) 与以往分布式强化学习框架调度模型的对比：(a)完全分布式；(b)层级式
　　具体而言，MALib 的框架特点如下： 支持大规模基于种群的多智能体强化训练。星际争霸 2，Dota2，王者荣耀等游戏上超越人类顶尖水平的 AI，都得益于大规模基于种群的多智能体强化学习训练，但现在没有一个开源通用的框架支持相关研究与应用。针对这一场景，MALib 基于 Ray 的分布式执行框架，实现了一个灵活可自定义的多智能体强化学习并行训练框架，并且对基于种群的训练做了特别优化，不仅仅可以实现类似于星际争霸 2 中的 League 机制，也支持更灵活的 PSRO（策略空间应对预言机）等算法。同时，除了电子竞技游戏之外，MALib 也将提供体育（Google Football），自动驾驶等场景的支持。 MALib 的采样吞吐量较现有多智能体强化学习框架大幅度提升。通过利用所提出的中心化任务分发模型，MALib 的吞吐量在相同 GPU 计算节点情况下，最大采样效率相较于 UC Berkeley RISELab 开发的著名通用框架 RLlib 可提升 15 倍，系统吞吐量较高度优化的 SOTA 框架 SampleFactory 提升近 100%；纯 CPU 环境 MALib 的吞吐量优势较进一步扩大至近 450%；同类算法训练速度较 DeepMind 开发的 open spiel 提升三倍以上。 最全的多智能体强化学习算法的支持。在训练范式层面，MALib 使用同步 / 异步，中心化 / 去中心化等模式，对不同类型的多智能体强化学习算法的训练进行抽象，并通过统一的 AgentInterface，实现了包括独立学习者，中心化训练去中心化执行，自对弈，策论空间应对预言机（PSRO）等算法。同时，对原先不支持并行异步训练的算法，也可以使用 MALib 进行并行采样与训练的加速。
　　部分训练效果
　　我们和一些现有的分布式强化学习框架进行了对比，以 MADDPG 为例，下图展示的是在 multi-agent particle environments 上使用不同并行程度训练 simple-spread 任务的学习曲线。
　　与 RLlib 对比训练 MADDPG 的效果。
　　对照框架是 RLlib。随着 worker 的数量增多，RLlib 的训练越来越不稳定，而 MALib 的效果一直表现稳定。包括更复杂的环境，比如 StarCraftII 的一些实验，我们对比 PyMARL 的实现，比较 QMIX 算法训练到胜率达到 80% 所花费的时间，MALib 有显著的效率提升（worker 数量都是设置成 32）。
　　与 PyMARL 在星际任务上的效率对比。
　　另一方面，我们比较关注的是训练过程的采样效率。我们也对比了与其他分布式强化学习框架的吞吐量对比，在多智体版本的 Atari 游戏上，MALib 在吞吐量和扩展性上都表现了不错的性能。
　　在星际及多智能体 Atari 任务上不同框架的吞吐量对比。
　　目前，我们的项目已经开源在 GitHub 上（https://github.com/sjtu-marl/malib），更多的功能正在积极开发中，欢迎使用并向我们提出宝贵的改进意见！同时如果有兴趣参与项目开发，欢迎联系我们！联系方式：ying.wen@sjtu.edu.cn。
　　团队介绍
　　本项目由上海交通大学与伦敦大学学院（UCL）联合的多智能体强化学习研究团队开发。MALib 项目主要由上海交通大学温颖助理教授指导下进行开发，核心开发成员包括上海交通大学三年级博士生周铭，ACM 班大四本科生万梓煜，一年级博士生王翰竟，访问学者温睦宁，ACM 班大三本科生吴润哲，并得到上海交通大学张伟楠副教授和伦敦大学学院的杨耀东博士、汪军教授的联合指导。
　　团队长期致力于从理论算法、系统与应用三个层面入手，针对开放、真实、动态的多智能场景下的智能决策进行研究。理论团队核心成员在人工智能和机器学习顶会发表多智能体强化学习相关论文共计五十余篇，并获得过 CoRL 2020 最佳系统论文、AAMAS 2021 Blue Sky Track 最佳论文奖。系统方面，除了面向多智能体强化学习种群训练的系统 MALib，本团队研发 SMARTS、CityFlow、MAgent 等大规模智能体强化学习仿真引擎，累计在 Github 上获得了超过 2000 加星。此外，团队在游戏、自动驾驶、搜索与推荐等场景下具有强化学习技术的真实应用落地的经验。

中外研究登上自然封面这种蛋白让知更鸟能用地磁导航人类的眼睛可以看见可见光波段内的各种颜色，耳朵可以听见2020000Hz频率范围内的声音，但我们至今不知道自身是否有感应地球磁场的感官，这完全是个谜。公众将之称为第六感，但科学家并暑假期间怎么保护好孩子的视力，合理安排学习玩耍时间自家神兽幼儿园毕业在家待了有一个星期了，本来是送去外婆家玩一段时间，但是还是没有去成。神兽反悔了，说不想离开妈妈捂脸，真的是母女情深啊！幼儿园毕业了，下半年就读小学了，为了能让她不数字化慢病管理数字化营销RWS谁是医药数字化创新之王？在医疗健康行业的各个产业角色中，医药行业作为治疗方案的提供方，其数字化转型正在从初级阶段向更加深入的方向行进。经过前期调研，我们发现，从药企对数字化转型的实际需求出发，主要可以落地源康健互联网医院审批难在于流程不熟与资源不足的双重限制互联网医院建设的又一轮热潮已然来袭。2月26日，北京市卫健委下发互联网医院许可管理，成为全国最后一个颁发互联网医院准入细则的省级区域，标志全国的互联网医院申办已全面放开。3月23日卸任字节跳动CEO，张一鸣踏入生命科学的星辰大海只有少数人能够洞察未来，创造趋势。5月20日，在字节跳动创始人张一鸣发布的内部全员信中，他表示虚拟现实生命科学科学计算对人类生活的影响已现黎明之曙光，而要抓住这次机会，需要创新者们贴敷式胰岛素泵上市，专注糖尿病器械研发的微泰医疗赴港IPO近日，微泰医疗器械（杭州）股份有限公司（以下简称微泰医疗）向港交所递交了招股书，拟香港主板上市。微泰医疗成立于2011年，是一家从事糖尿病领域医疗器械研发的高新技术企业，旨在通过可201架战机准备退役！为了对抗新兴大国，美军为何先裁撤装备人员美国的国防预算一直是全球各国关注的焦点，今年亦不例外。日前，美国国防部发布了2022财年预算，总额约7150亿美元。按照计划，五角大楼将削减美国海军和空军的部分舰船和战机，以保持军17名美军丢掉性命！连发两起致命撞船事件，根本原因究竟是什么？近年来，美国军舰屡屡与民船相撞的话题一度很有存在感，最近这些事件又出现了后续消息。美媒报道称，美国监督机构认为，3年前美国海军发生的2起致命撞船事故与疲劳驾驶关系密切，虽然此后美海上次的教训还不够惨？印度向边境部署自行火炮，没能耐却非要逞强自今年3月份以来，印度爆发了第二波新冠大流行，让这个国家深陷泥沼，日新增确诊病例一度屡屡超过30万大关，令世人瞠目结舌。如今，印度的疫情还很难说有所好转，只不过是日新增确诊病例降到新型国产隐身机模型现身！美国人又来蹭热点，这次抄袭了谁？日前，国内展出的一架直升机模型引发了外界高度关注。有美国媒体猜测称，这是隐形版直20直升机，还宣称中国的隐形直升机技术抄袭了美国的隐身版黑鹰。显然，这又是在给中国国产装备找爹不难看中国两栖战车仅此一家！再度斩获海外订单，全球再无同类型产品泰国是中国外贸型武器的老客户之一，各大军种都引进列装了不少中国军工业的优良产品。日前，泰方向中国北方工业采购的3辆VN16型两栖装甲突击车已运抵该国，预计将在不久后装备泰国海军陆战

<<<<<<－>>>>>>

如果不存在理论上的单挑，那么狮子和老虎谁是最强的掠食者？在狮子和老虎之间，谁是最强的掠食者？我们知道，狮子和老虎都是自然界处于食物链中上层的动物，它们可以轻易猎杀大部分的动物，那么当这两位顶级掠食者孰强孰弱？众所周知，狮子和老虎在它们的什么动物单挑能打赢咬合力高达2吨的河马？河马咬合力高达2吨，什么动物单挑能打赢它？我们知道，河马在自然界是凶猛的代名词，最让印象深刻的是它的那个张开的硕大的嘴巴，它的嘴巴不仅大，而且咬合力远远超过鳄鱼，据数据显示，河马咬如果我们在月球火星留下一具裸体的尸体，它会腐烂吗？穿着太空服的尸体和裸体尸体放在太空中，两者都会腐烂吗？我们知道在地球上，人死后的身体如果不加以处理，随着时间的流逝会逐渐腐烂化为尘土，因此通常都会进行火化或者低温冰冻。那么如果我们为什么我们不能飞得像光一样快？是什么阻止物体以光速飞行？截止目前，我们所学的物理学知识排除了以超光速飞行的可能性，至少对于有质量的物体，如粒子。除了纯粹的科学推理之外，比光速更快的旅行将对我们的世界观产生深远的人类挖了一个深达12262米的洞，最终却封住了洞口，为什么？人类目前在地球上挖的最深的洞达12262米，为什么不再往下挖了？在人类航天事业蓬勃发展时，有科学家将研究目标瞄到了地下，也就是地球的内部。因此为了对地球进行内部的探查，我们不得不从鬣狗为什么经常越级挑战？什么动物它不敢惹？为什么鬣狗不怕狮子猎豹？什么动物是它们最恐惧的？鬣狗可能是撒哈拉以南非洲地区最可怕和最顶级的捕食者之一，它们拥有强大的力量，能压碎骨头的下颚，咬合力仅次于咸水鳄和大白鲨，以及惊人的大猩猩即便大部分时间都在睡觉吃饭也比举重运动员强壮，为什么？为什么大部分都在吃饭睡觉的大猩猩比专门锻炼的人类强壮？其实通过电视和报道以及生活中，我们可以接触到一些强壮的动物，比如狮子老虎大猩猩等等，大猩猩是接近人类的存在，在我们的观察中，大哪些动物永远无法被人类驯服？为什么呢？人类永远无法驯服哪些动物？自然界的动物千奇百怪，而大自然则赋予了动物之间巧妙的关系，一些动物与人为善，一些人则视人为鱼肉，一些动物与人类千年未见。在历史上，不乏有些动物成为了人类的斗牛犬和狼单挑，谁的胜算大？狗狼之争斗牛犬能战胜狼吗？我们知道狼是一种非常凶猛的动物，而狗是人类的好朋友，两者所处的位置天差地别，一个是天生的战士，一个是家园的守卫。那么当狗遇到狼，两者孰弱孰强呢？一般看来不有人养狮子甚至老虎，但是为什么没有人养鬣狗？老虎都可以当做宠物，为什么鬣狗不能当做宠物？相信大家都只听说过著名拳王泰森，为什么要聊泰森呢？我们知道泰森曾经养过一些宠物，其中包括老虎，是的，你没看错，是真的老虎。事实上并不乏人宇宙中最大的东西是什么？这些庞然大物的汗毛都比地球大人类有多卑微？看看这些宇宙猛兽，有的比太阳大210亿倍！众所周知，人类生活的家园是地球，地球很大，足够人类持续生存。但是人类的脚步也仅仅局限于地球，大部分人类都无法踏出地球的范围，