SHAIL带安全觉察的城市环境自动驾驶分级对抗模仿学习

　　arXiv上2022年4月上传论文＂SHAIL: Safety-Aware Hierarchical Adversarial Imitation Learning for Autonomous Driving in Urban Environments＂，作者来自斯坦福大学和德国KIT。
　　生成模仿学习是通过现实世界和模拟决策来自动制定策略的一种方法。以前生成模仿学习应用于自动驾驶策略的工作，侧重于学习简单设置的低级控制器。然而，为扩展到复杂设置，许多自动驾驶系统，将固定、安全、基于优化的低级控制器与能选择适当任务和相关控制器的高级决策逻辑相结合。
　　本文试图用Safety-Aware Hierarchical Adversarial Imitation Learning（SHAIL）来弥合这种复杂性差距，SHAIL是一种学习高级策略的方法，以带策略（on-policy）模仿低级驾驶数据的方式从一组低级控制器实例中进行选择。该文引入一个城市环形交叉路口模拟器，该模拟器用来自在伯克利开源Interaction数据集的真实数据来控制非自车。
　　实现代码可见在 https://github.com/sisl/InteractionImitation。
　　下图是示意图：通过SHAIL，自车学会从一组安全高级选项中进行选择，Interaction数据集所派生的复杂驾驶环境进行导航。这里可学习的只有低级专家状态和动作。
　　最优决策一般在MDP环境定义，包括状态空间、动作空间和状态转移函数，以及奖励函数、初始状态分布和discount系数γ。MDP的策略通过动作影射状态到一个分布，一个最优策略最大化累计discounted奖励。在强化学习设置中，确切的转换和奖励函数 T 和 R 是未知的，但可以与环境交互，接收下一状态和奖励生成的样本。
　　在模仿学习设置中，不接收奖励信号，而是依赖于与环境交互的专家以轨迹推出的形式提供数据。模仿学习问题可以看作是专家和学习者分布之间的时刻匹配（moment matching）问题，方法可以大致描述为以下几种：无策略（off-policy）的Q-价值时刻，带策略的Q-价值时刻或奖励时刻。
　　在模仿学习设置中学习策略的最直接方法是通过行为克隆 （BC），其中受监督的学习者将状态回归动作。这种方法在自动驾驶系统中有着悠久的历史。行为克隆在测试过程中会有错误的累积，因为智体最终会进入训练期间未见过的状态，这种现象通常被称为协变量移位（covariance shift）。
　　在某策略π下的状态-动作占用度量，是访问状态和动作的（非规范化）γ- discounted平稳分布。同样地，也可以定义专家策略的状态-行动占用度量。一种观点将模仿学习表述为专家和学习的占用度量之间的时刻匹配问题，其通过最小化相关分布之间的一些f-散度来实现。在带策略奖励时刻匹配设置中，这个目标（objective）可以写成带策略生成器和观测-动作鉴别器之间的双人博弈：
　　这个优化方法可以在优化鉴别器参数的discriminator gradient ascent 步和优化随机策略的policy gradient ascent 步之间切换，后者可以看成是带奖励信号的强化学习。而两个步骤都可以用蒙特卡洛方法（和一个replay buffer）估计其期望。
　　首先把前面目标函数定义为一个分层找到生成状态和动作的一个策略：将占用度量在选项扩展，这些选项在执行期间会引向状态 s 和动作 a，以及该选项开始执行的初始状态。扩展在时间 τ 开始执行选项 o 的初始状态 sτ = h，在该初始状态下，在时间 t 低级的状态s和动作 a可以被观察：
　　应用这个分层占用度量表征，可以把度量匹配目标函数定义为一种分层策略数据生成的形式：
　　这里鉴别器更新保持不变，而生成器更新采用策略梯度算法，其中新的＂想象＂高级奖励累积执行该选项discounted低级＂想象＂鉴别器奖励。
　　许多实际策略梯度的实现，都依赖于固定大小的动作空间。基于此，这里仅限于一个选项集，其中任何选项都可以从每个状态做初始化。就安全性而言，这种假设可能非常有限。通常，有来自不同状态的受限选项信息（例如，Accelerate 选项不应从红灯中获取）。此外，也许能够对不同控制器的安全性进行预测。例如，通过控制器的可达性（reachability）公式严格去做，或者通过场景理解更宽松地完成（例如，＂由于有车辆穿过十字路口，因此转弯可能不安全＂）。SHAIL设计一个在选项安全性包含敏感性的高级＂选项-选择（option-selection）＂策略，改进了前面的分层对抗模仿学习（hierarchical adversarial imitation learning）公式。
　　假设智体可以推断来自不同状态不同选项的安全性或可用性，以此纳入安全意识。该文引入一个二进制随机变量 z，它预测低级控制器的安全性或可用性，表示选项 o 从高级状态 s 执行时是安全的概率。这样设计选项就可以根据此安全预测将控制传递回高级选项的选择器。
　　基于此控制器安全性，可以设计高级控制器：
　　此高级控制器根据选项的安全预测重新加权（或掩码）选项概率。此方案需要至少一个具有非零安全概率的选项（例如，永久的＂安全＂控制器），否则这个高级策略将不表示在控制器的有效分布。另外，要学习有用选项的选择器，其应该具有一些在不同初始化状态下成立的语义意思。
　　通过策略梯度学习具有此策略的选项选择器，需要将选项启动期间看到的安全概率存入replay buffer中。
　　Interaction仿真器在https://github.com/sisl/InteractionSimulator，是一个开源OpenAI Gym仿真器，取Interaction数据集的数据。仿真器本身根据Interaction数据集中记录的数据，即车辆路径和生成时间，并允许控制场景中一个或所有智体做加速。如果仅控制自车，则非自车的策略将从数据集中场景重放。
　　如图所示是SHAIL与环境交互时学到的策略在单个时间步长的情况：自车可以获得自己的运动状态和类似激光雷达、最多可以包括五辆周围车辆的相对状态信息。
　　实验中专注于单一智体的控制，允许策略确定自车沿其轨道加速。当车辆离开现场时，模拟将终止。自车遵循一个双积分器转换模型（double integrator transition model）沿着其记录的路径移动，而非自车则遵循其记录的轨迹。
　　实验中和 其他方法，即Generative Adversarial Imitation Learning (GAIL) ，还有行为克隆、IDM和专家模型（interaction数据集），进行比较。
　　SHAIL的高级控制器从一组选项中进行选择，这些选项针对特定未来时间的特定速度。每个选项的低级控制器命令固定加速度，车辆在所需时间可达到所需的速度。安全预测器返回一个二进制指示器，用于指示如果该选项保持其速度，是否会与其他车辆碰撞。因此，该实验的安全层类似于确定性规划安全层（deterministic planning safety layer）。此外，重写最大减速选项，使其始终有效，成为默认的＂安全＂选项 HardBrake。同样，我们使用Ho和Ermon以及PPO的目标来衡量政策梯度。这里额外学习了一个没有安全层或者选择早终止（early termination）的SHAIL版本，即HAIL。
　　实验集中在环形交叉路口的模型性能上，这是自动驾驶导航惯常的棘手场景。有两个实验：第一个实验（ID）在同一环境训练和测试模型，该环境仅从第一个轨道文件中选择车辆，此实验目的是比较绝对潜在模型性能；第二个实验（OOD）选择做训练和验证的环境，从场景记录1-4中随机选择车辆，并在场景5上报告指标。这种OOD测试评估模型在未见过车辆数据上的表现，尽管仍然在相同的驾驶环境中运行。在这两个实验中，超参（例如模型架构、选项集等）都是选择训练环境中产生最高成功率的进行优化。

胜率最高的NBA球员有谁？曾经的联盟第一人你知道参与超过1000场常规赛的NBA球员当中，胜率超过七成的有谁吗？詹姆斯？科比？乔丹？还是库里？通通都不是！在NBA历史上打超过1000场常规赛的球员只有141多角度复盘卡塔尔世界杯营销战，禹唐体育12日线上举办世界杯营销直播专场为了梳理卡塔尔世界杯背后的营销趋势以及大赛营销玩法，禹唐体育计划在1月12日下午以线上直播的形式举办卡塔尔世界杯营销回顾总结和案例分享直播专场。图片由海信提供卡塔尔世界杯的硝烟早已男篮3巨头被期待过高，沈梓捷付豪让人意外，余嘉豪也被乔帅抛弃男篮高估了3大水货，中锋沈梓捷以及辽篮的付豪，外加上了与余嘉豪，没有达到男篮的水准。乔尔杰维奇要做出狠心的决定，即将要放弃掉这3大中锋。接下来去选拔出场均19分以上的陶汉林，以及在重回澳大利亚德约科维奇冲击澳网第十冠新快报讯记者高京报道自去年年初的风波之后，德约科维奇如今重返澳大利亚，备战即将开战的澳网。对于塞尔维亚人来说，过去的事情已成云烟，他的下一个目标就是冲击个人在澳网的第十个大满贯冠军去有风的地方纵有疾风起各看6集，一个弃剧，一个超上头最近的新剧不少，但是雷也不少运气不好的童鞋，可能就会一路狂刷，一路狂踩雷先后刷了张嘉益和刘涛主演的爱国主题破晓东方，王凯和谭松韵主演的向风而行，还有靳东和宋佳主演的纵有疾风起。说说今年的跨年晚会真的是无语，看呆了！每年年底，各大卫视都会举行跨年晚会。按照惯例，每年的除夕晚会都是明星聚在一起的时候，今年也是如此。有许多有趣的地方。1。作为近几年的话题女演员，杨紫的脸僵硬，杨紫的一举一动都备受关主持人李小萌意外受伤！眼角红肿伤痕明显，一度否认家暴自称跌倒主持人李小萌受伤全国放开疫情已经将近1个月，很多人都已经经历过了阳过，成为了阳康。不同的阳康也拥有不一样的后遗症，有人的后遗症是长时间咳嗽，有人的后遗症是那方面的欲望下降严重，而有大s很多黑料都是出自小s之口！其实姐妹俩一直是靠炒作博热度！纵观大S的很多黑料其实并不是狗仔曝光的。其实大s的很多负面的料都是她的妹妹小S爆出来的。不知道是大s授意小s说出来，还是小s纯属无心之失。比如最闻所未闻的把尿一说！说姐姐很幸福，上成奎安生前两房妻子相处和睦，临死前撕破脸，死后选择大相径庭文娱析编辑娱析前言成奎安是香港著名的反派演员，他活着的时候，将两房老婆的关系处理的很和睦。但是在他病危之际，两房老婆开始心生间隙争夺财产，等其死后，更是做出了截然不同的选择。如果成央视春晚进行第二次联排沈腾吴磊周深赵今麦等现身今（3）日，中央广播电视总台2023年春节联欢晚会组织第二次彩排，成龙沈腾马丽张若昀吴磊周深宋祖儿白宇蒋依依赵今麦胡先煦彭昱畅欧豪金靖宋轶万茜阿云嘎尹正李光洁谭维维等演员及歌手现身你会买微型电动车吗？在燃油车时代，自主品牌在早期推出过一些微型汽车，比如奇瑞QQ长安奔奔吉利熊猫等等，因为低廉的售价，得到了消费者的认可。但随着技术的不断迭代，原材料的成本不断下降，紧凑型的车型价格不

<<<<<<－>>>>>>

辽篮回应郭艾伦离队问题，大侄子接班人将敲定，球迷着急最近关于郭艾伦的去留问题，引发外界非常多的关注。毕竟郭艾伦是整个辽宁队的核心，一旦他真的离开，对整个辽宁队的影响可想而知是非常严重的。毕竟回顾过去几个赛季的表现，郭艾伦作为绝对大腿山西省全域旅游发展规划纲要之我见特色旅游餐饮（餐饮街区）通过品尝美食，往往能够了解一座城市的性格气质和人文精神等方面。或许我们可以通过建立餐饮街区来促进旅游的发展。建立餐饮街区，首先我们需要充分挖掘山西美食文化，把控假日经济夜间经济等城魏哲鸣黄日莹对你不止是喜欢沉浸式杀青，期待与唐域相见现代都市浪漫爱情剧对你不止是喜欢杀青了，官微发文称是沉浸式杀青，专业杀青选手现已就位，前排乖乖坐好，杀青表演正式开始啦，具体什么意思，大家看懂了吗？原来貌似大家在玩游戏切水果庆祝杀05年保罗第四顺位进入NBA，排在他前面的成就如何？状元榜眼水货前言无论是莫兰特近乎变态的身体天赋，还是东契奇稳如老将的出色发挥，亦或是贝恩等球员的强势崛起，今年的季后赛诸多年轻的面孔成为比赛的主角，他们富有活力的表现瞬间便能够点燃赛场的激情，杨绛我阅人无数，没有一个天赋异禀，真正让你变强的是这三点杨绛是民国才女中出奇的一位，她活了105岁，是中国最后一位被称为先生的女性。百岁老人，温润如玉平生经历过乱世，经历过至亲的离世，经历过文革，经历过贫穷批斗，她温和慈悲淡雅洞见人性，人老了以后，如果只剩下你自己了，要留下以下三条退路作者壹号情感原创作品，抄袭必究人老了以后，能够儿孙满堂，和伴侣一起安享晚年，是一件特别幸福和骄傲的事情。可人世间的事本身就难以预料，况且人都是要经历生老病死的，到了晚年最怕的莫过于NBA哪个位置最容易拿MVP？历史上得分后卫和小前锋只有四人获奖今年约基奇又一次拿到了常规赛MVP大奖，这也是NBA第13位获奖的中锋球员，在整个NBA历史里一共就只有35位球员获得过MVP，而其中中锋球员就占据了13位之多，可见大中锋这个位置Angelababy瞪眼式演技消失，演技超同剧陈坤，网友差生论打脸古装谍战剧风起陇西已于近日收官。该剧从定档之初，备受关注的同时也饱受争议。风起陇西由马伯庸同名小说改编，路阳执导，陈坤白宇两位实力派男星领衔主演。聂远常远俞灏明王骁等实力派男星联合且试天下后半部分越来越看不下去，大家差评的理由出奇一致且试天下已经剩最后十集的剧情了。看到很多人都在吐槽一件事这剧完全就是看在杨洋美人的颜值上拼了老命在追，否则这剧真的是追不下去。尤其是后半部分，越来越离谱了。大家纷纷吐槽，后半部分越A股突然大涨，原因是什么？5月11日，A股赚钱效应很强。尽管午盘回落明显，但收盘两市仍明显收高，个股上演涨停潮。尤其是宁王为代表的新能源板块，出现报复性反弹，让几个月来股民压力的情绪得到释放。上涨有好消息在快本停播，扯下的是谁的遮羞布？杜海涛娶沈梦辰另有原因？快乐是人生中最伟大的事高尔基。这样一句普通的格言，却是不少人的生活追求。一个人从出生开始，就面临各种压力，尝尽生活的酸甜苦辣，闲暇之余，当然是想释放压力，有快乐这一选项，为什么不去