范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

清华打造足球AI首次实现同时控制10名球员完成比赛,胜率94。4

  "只见 4 号球员在队友的配合下迅速攻破后防,单刀直入,一脚射门,球,进了!"
  观众朋友们大家好,您现在看到的是谷歌 AI 足球比赛的现场,场上身着黄色球衣的是来自清华大学的 AI 球员。
  这届清华 AI 可不一般,他们在艰苦训练之下,不仅有个人能力突出的明星球员,也有世界上最强最紧密的团队合作。
  在多项国际比赛中所向披靡,夺得冠军。
  "Oh,现在 7 号接过队友传来的助攻,临门一脚,球又进了!"
  言归正传,以上其实是清华大学在足球游戏中打造的一个强大的多智能体强化学习 AI——TiKick。
  在多项国际赛事中夺得冠军则是指,TiKick 在单智能体控制和多智能体控制上均取得了 SOTA 性能,并且还是首次实现同时操控十个球员完成整个足球游戏 。
  这支强大的 AI 团队是如何训练出来的呢?从单智能体策略中进化出的多智能体足球 AI
  在此之前,先简单了解一下训练所用的强化学习环境,也就是这个足球游戏:Google Research Football(GRF)。
  它由谷歌于 2019 年发布,提供基于物理的 3D 足球模拟,支持所有主要的比赛规则,由智能体操控其中的一名或多名足球运动员与另一方内置 AI 对战。
  在由三千步组成的上下半场比赛中,智能体需要不断决策出移动、传球、射门、盘球、铲球、冲刺等 19 个动作完成进球。
  在这样的足球游戏环境中进行强化学习难度有二:
  一是因为多智能体环境,也就是一共 10 名球员(不含守门员)可供操作,算法需要在如此巨大的动作空间中搜索出合适的动作组合;
  二是大家都知道足球比赛中一场进球数极少,算法因此很难频繁获得来自环境的奖励,训练难度也就大幅增大。
  而清华大学此次的目标是控制多名球员完成比赛。
  他们先从 Kaggle 在 2020 年举办的 GRF 世界锦标赛中,观摩了最终夺得冠军的 WeKick 团队数万场的自我对弈数据,使用离线强化学习方法从中学习。
  这场锦标赛只需控制场中的一名球员进行对战。
  如何从单智能体数据集学习出多智能体策略呢?
  直接学习 WeKick 中的单智能体操作并复制到每个球员身上显然不可取,因为这样大家都只会自顾自地去抢球往球门冲,根本就不会有团队配合。
  又没有后场非活跃球员动作的数据,那怎么办?
  他们在动作集内添加了第二十个动作:build-in ,并赋予所有非活跃球员此标签 (比赛中若选用 build-in 作为球员的动作,球员会根据内置规则采取行动)。
  接着采用多智能体行为克隆 (MABC) 算法训练模型。
  对于离线强化学习来说,最核心的思想是找出数据中质量较高的动作,并加强对这些动作的学习。
  所以需在计算目标函数时赋予每个标签不同的权重,防止球员倾向于只采用某个动作作为行动。
  这里的权重分配有两点考虑:
  一是从数据集中挑选出进球数较多的比赛、只利用这些高质量的数据来训练,由于奖励较为密集,模型能够加速收敛并提高性能。
  二是训练出 Critic 网络给所有动作打分,并利用其结果计算出优势函数,然后给予优势函数值大的动作较高的权重,反之给予较低的权重。
  此处为了避免梯度爆炸与消失,对优势函数做出了适当的裁剪。
  最终的分布式训练架构由一个 Learner 与多个 Worker 构成 。
  其中 Learner 负责学习并更新策略,而 Worker 负责搜集数据,它们通过 gRPC 进行数据、网络参数的交换与共享。
  Worker 可以利用多进程的方式同时与多个游戏环境进行交互,或是通过 I/O 同步读取离线数据。
  这种并行化的执行方式,也就大幅提升了数据搜集的速度,从而提升训练速度(5 小时就能达到别的分布式训练算法两天才能达到的同等性能)。
  另外,通过模块化设计,该框架还能在不修改任何代码的情况下,一键切换单节点调试模式和多节点分布式训练模式,大大降低算法实现和训练的难度。94.4% 的获胜率和场均 3 分的净胜分
  在多智能体(GRF)游戏上的不同算法比较结果中,TiKick 的最终算法(+AW)以最高的获胜率(94.4%)和最大的目标差异达到了最佳性能。
  TrueSkill(机器学习中竞技类游戏的排名系统)得分也是第一。
  TiKick 与内置 AI 的对战分别达到了 94.4% 的胜率和场均 3 分的净胜分 。
  将 TiKick 与 GRF 学术场景中的基线算法进行横向比较后发现,TiKick 在所有场景下都达到了最佳性能和最低的样本复杂度,且差距明显。
  与其中的基线 MAPPO 相比还发现,在五个场景当中的四个场景都只需 100 万步就能达到最高分数。
  作者介绍
  一作黄世宇,清华大学博士生,研究方向为计算机视觉、强化学习和深度学习的交叉领域。曾在华为诺亚方舟实验室、腾讯 AI、卡内基梅隆大学和商汤工作。
  共同一作也是来自清华大学的陈文泽。
  此外,作者还包括来自国防科技大学的 Longfei Zhang、腾讯 AI 实验室的 Li Ziyang 、Zhu Fengming 、Ye Deheng、以及清华大学的 Chen Ting。
  通讯作者为清华大学的朱军教授。
  论文地址:
  https://arxiv.org/abs/2110.04507
  项目地址:
  https://github.com/TARTRL/TiKick
  参考链接:
  https://zhuanlan.zhihu.com/p/421572915

三星正在研发平面超透镜,可使手机摄像头更薄IT之家7月11日消息据韩国媒体TheElec消息,三星电机公司的一名高管在本周三表示,该公司正在研发一种超透镜(Metalens)。这种镜片看起来是平面结构,但是其表面遍布纳米颗亚洲首个,香港大学成功分离及培养奥密克戎变异株将可用于开发和生产灭活全病毒疫苗IT之家11月30日消息,据央视新闻报道,香港大学微生物学系于11月30日宣布成功从临床标本中分离出新冠变异病毒奥密克戎毒株。这是亚洲首个研究团队成功分离和培养奥密克戎毒株,分离出南非出现B。1。1。529新冠变异毒株32处突变,近期病例快速增加IT之家11月26日消息,根据央视财经频道报道,近期南非地区出现了一种全新的新冠变异毒株,刺突蛋白变异数量达到32处,是此前德尔塔Delta毒株的两倍。统计数据显示,近几日南非新冠新冠B。1。1。529毒株被命名为Omicron,目前多国已发现病例IT之家11月27日消息,世卫组织WHO于11月26日召开了紧急会议,将在南非发现的新冠B。1。1。529毒株正式命名为Omicron(音译奥密克戎)。同时,WHO将这种病毒列为V钟南山张文宏谈新冠奥密克戎毒株对中国目前还不会产生大的影响IT之家11月28日消息,11月24日,一种全新的新冠病毒变种B。1。1。529被发现,在2天时间内被WHO命名为Omicron奥密克戎。统计数据显示,这种病毒似乎已经在非洲大陆流青岛大学研发出4D打印干细胞载体技术可实现创面皮肤的快速再生修复IT之家10月26日消息,据人民日报官方微博,近日,青岛大学科研团队在全球首次提出用4D打印干细胞载体植入创伤处的核心技术。该技术为帮助烧伤患者移植皮肤,解决皮肤灼伤创面大面积受损能在人体中自由移动的机器人能屈能伸,毛细血管也不在话下7月1日消息,近日,来自欧洲高校的华人科学家提出了新的控制和性能增强策略,使得片状软体机器人在流体中能自适应环境并实现多模态运动,包括滚动波动爬行波动游泳和螺旋表面爬行。这项研究发医疗科技新突破人工眼角膜移植手术成功,失明十年的老人重见光明IT之家2月16日消息据央视人民日报等报道,以色列科学家近日完成了一例人工眼角膜移植手术。报道称,一位失明十年的老年患者通过该手术植入了人工眼角膜,术后几乎立即恢复了视力。随着时间注射年轻人血液的疗法遭FDA警告如果你正打算通过输入年轻人的血浆来对抗记忆消退和身体老化等问题的话,恐怕要慎重了。美国食品和药品监督管理局(FDA)已对该疗法发出警告。FDA专员ScottGottlieb以及生物研究小鼠输入年轻血液可逆转衰老北京时间2月12日消息,据国外媒体报道,输入更年轻的血液或许能帮助改善老年患者的健康。一项新研究正在试验利用血液来治疗帕金森氏症。斯坦福大学的研究人员尝试将年轻小鼠的血液注入年老小中美科研人员开发无痛胶布IT之家12月17日消息据新华社消息,日前,中美科研人员研发出一种可强力粘合水凝胶和身体组织的新型胶布,这种胶布可在紫外光下无创无痛轻松揭下,未来可用于伤口敷料皮肤给药和制造可穿戴
飞行20亿公里!美小行星取样返回探测器抵达目标北京时间2018年12月6日消息,经过两年多飞行,行程超过20亿公里之后,2016年9月份发射,执行美国历史上第一次小行星表面取样返回任务的OSIRISRex探测器终于抵达它此行的日本科学家设计太空武士刀计划切割小行星取样北京时间11月22日消息,如果你要去太空里切什么东西,你会选择带什么工具去?或许武士刀你也可以考虑一下。对,就是你想的那种日本武士刀。为什么呢?因为制作武士刀的回火钢的硬度真的很高日本探测器登陆小行星首次取样,明年送回地球北京时间2月22日清晨0700(日本时间0800)前后,日本隼鸟2号探测器成功实现在小行星龙宫表面的第一次采样任务,预计飞船将获取到少量岩石碎屑和土壤样本。按照预定计划,这些样本将如何消灭1万亿吨二氧化碳?联合国政府间气候变化专门委员会(IntergovernmentalPanelonClimateChange,IPCC)估计,抵御灾难性的全球变暖需要在本世纪中叶之前,从大气中积极地俄专家发现地球大气层范围惊人,月球从地球的大气层中穿越最新研究发现,地球大气层的最外层远远超出了月球轨道几乎是地球到月球距离的两倍。根据欧洲航天局美国国家航空航天局(ESANASA)太阳和太阳风层天文卫星(SOHO)的观测结果,环绕地科学家分析月球撞击坑,有助于了解地球历史据国外媒体报道,拜恐龙所赐,小行星撞击在地球上可谓臭名昭著,但事实上,月球才是我们身边最伤痕累累的一位。这是因为地球拥有十八班武艺,可以逐渐抹去小行星留下的撞击坑。这使想要研究太阳科学来分析下人类建造月球基地究竟有多难?据国外媒体报道,1975年,在阿波罗号最后一次登月的第三年,太空1999首次在英国电视节目中播出,这部电视剧描述了一次核爆炸破坏了月球,一支由300多人组成的国际月球殖民者离开了月元宵节超级月亮上线,最大满月将现身IT之家2月18日消息本月19日,正值我国传统节日元宵佳节,在如此时间节点下,我们将迎来本年度第二次超级月亮,同时这也将是本年度最大的满月。据了解,超级月亮是一种常见的天文现象,在NASA2028年四名宇航员将重返月球,并停留7天IT之家2月18日消息据外媒报道,日前美国航空航天局(NASA)正式公布了全新的登月计划,NASA将眼光从火星再次转向月球。此前NASA曾考虑过新的探月计划,但是当时被批评称只是一报告小行星阿波菲斯2068年或将撞击地球IT之家1月18日消息据俄罗斯卫星通讯社报道,日前俄罗斯圣彼得大学学者在一份报告中指出,小行星阿波菲斯(Apophis)可能在2068年撞击地球。阿波菲斯小行星直径大约为325米,7100万英里外看地球美国宇航局的OSIRISREx太空船回传照片IT之家1月18日消息据外媒新闻,美国宇航局的OSIRISREx太空船本月早些时候在小行星本努(Bennu)取得了创纪录的轨道,它已经回传了一幅不起眼的图像。下面的照片有两个亮点右