ICRA2023解释自身行为,赢得人类信任的自动驾驶算法AD
论文链接:https:arxiv。orgabs2302。00673代码链接:https:github。comjxbbbADAPT
一、简介在过去十年中,自动驾驶在技术研发方面取得了重要的里程碑。目前自动驾驶控制器设计主要有两类方法:中介感知方法和端到端学习方法。基于中介感知的方法依赖于识别人为指定的特征,如车道标记、交通灯、行人或汽车,通常需要进行严格的参数调整,以达到平衡性能。而端到端方法大多将驾驶策略作为监督学习问题,以人类驾驶行为为数据进行学习,如使用深度神经网络,输入车辆行车记录仪图像和车辆状态,预测车辆的未来运动。尽管这些方法具有潜力,但它们通常无法展示系统决策的基本原理,使得决策过程变得不透明和无法解释。然而可解释的决策过程对于自动驾驶技术是非常重要的,自动驾驶汽车对乘客而言是一项较为激进的技术,需要非常高的信任度,如果乘客不能确认自己的安全问题,自动驾驶汽车就很难推广。解释的形式有很多,如视觉注意图(Kim,Jinkyuetal。,2017)或者成本量图costvolume(Zeng,Wenyuanetal。2019)等,如视觉注意图可以过滤非显著的图像区域,保留对输出有潜在因果影响的注意区域,但由于用户对于智能系统的不熟悉,注意图等方法很容易导致用户的误解。而文本解释却可以解决这个问题,自然语言的优势在于其本质上易于理解,即使用户不熟悉自动驾驶算法的设计,也能理解车辆执行决策的原因,例如,〔描述〕:thecarpullsovertotherightsideoftheroad,〔解释〕:becausethecarisparking。将视频输入与车辆行为通过语言联系起来,让整个系统更加透明,便于理解,这对提升用户接受度具有重要作用。
为此,我们提出了ADAPT(ActionawareDrivingcAPtionTransformer),这是目前第一个基于Transformer的驾驶行为描述架构,它可以为乘客提供自然语言形式的车辆决策描述和原因解释。为了减少车辆决策任务和文本描述任务之间的差异,我们使用多任务学习的方法来联合训练这两个任务,这种多任务框架可以通过加入额外的文本生成模块来方便的集成到自动驾驶系统中。我们在包含控制信号和车辆视频的大规模数据集BDDX(Kim,Jinkyuetal。,2018)上验证了ADAPT的有效性,并在实车测试中取得了优异成果。
二、模型架构ADAPT可以完成两个任务:车辆控制信号预测任务(ControlSignalPrediction)以及车辆行为描述任务(DrivingCaptionGeneration)。车辆控制信号预测任务将车辆第一视角视频作为输入,然后输出车辆的控制信号序列,如一段时间内的方向或加速度等。车辆行为描述任务采用相同的视频帧作为输入,并输出两个自然语言语句:一个描述车辆的动作(如:thecarisaccelerating),另一个解释采取该动作的原因(如:becausethetrafficlightsturngreen)。整个架构如下图所示:
视频编码器两个任务使用同一个视频编码器对车辆视频进行编码,然后通过不同的任务模块来获得不同的预测结果。我们使用VideoSwinTransformer(Vidswin)作为视觉编码器,将视频帧编码为视频特征。假设输入为车辆第一视角视频,首先对其进行均匀采样,得到帧大小为。这些帧作为输入传递给Vidswin,可以得到大小为的视频特征,其中是Vidswin中定义的通道维度。然后,视频特征被输入到各个任务的不同预测模块中。预测模块在ADAPT中,我们假设车辆控制信号预测任务和行为描述任务在视频编码时具有语义一致性。直观来讲,车辆动作的文本描述和车辆的控制信号是自动驾驶车辆动作的不同表达形式,因此在单个网络中联合训练两个任务可以有效利用不同任务之间的归纳偏差,从而提高最终性能。控制信号预测模块控制信号预测模块的目标是根据输入的视频预测车辆的控制信号(例如加速度、方向等)。如上所述,视频帧被编码为视频特征,大小为。然后,我们沿着频道维度对视频特征进行标记化(tokenize),得到数目为的视频标记,其大小为,然后我们使用一个MotionTransformer生成这些控制信号序列的预测值。最后,根据车辆真实的控制信号序列以及模型预测的控制信号序列,我们用两者的均方误差作为该模块的损失函数:需要注意的是,模型不会预测视频第一帧对应的控制信号,因为第一帧对应的车辆动态信息比较有限,控制信号难以推断,而其他帧对应的控制信号可以很容易地从先前帧来推断。文本生成模块
文本生成模块的目标是生成两个自然语言语句:车辆行为描述和原因解释。我们使用VisionLanguageTransformer来实现文本生成。
在训练阶段,我们使用掩码语言建模(MaskLanguageModeling)的方法对文本进行建模。对于输入的两个句子(动作叙述和推理),我们首先将每个句子填充到固定长度,然后在这两个句子的起始位置和终止位置分别插入〔CLS〕和〔SEP〕,再将两者拼接起来,得到预处理后的句子。随后,将连接起来的句子输入到词嵌入层(WordEmbedding)中。与常规图像描述任务不同的是:在ADAPT中,我们需要生成两个句子。为了识别动作描述和原因解释之间的差异,我们利用段嵌入(SegmentEmbedding)方法来区分它们。对于视频来说,我们使用跟控制信号预测模块相同的方法,将视频特征标记化。最后,文本标记和视频标记被送入VisionLanguageTransformer中进行建模。
在推理阶段,ADAPT以自回归方式进行文本生成。具体来讲,我们将一个〔CLS〕符号(起始符)输入到模型中,生成一个单词,然后将起始符和生成的词组合起来继续输入到模型中,直到模型输出结束标记〔SEP〕或达到单句最大长度阈值结束。然后,我们将第一个句子填充到最大长度,再连接另一个〔CLS〕,重复上述过程以生成第二个句子。
三、实验结果我们通过多重指标测试了ADAPT的有效性,包括机器评测和人工评测。在机器评测上,我们采用了BLEU4、METEOR、ROUGEL和CIDEr(在后面的表格中缩写为B4、M、R和C)等多种语言任务常用的指标。此外,由于语言模型并没有完美的的机器评测方案,因此我们还为生成文本的主观正确性进行了人工评测,以使得生成的文本对乘客更加友好。
与stateoftheart方法的比较
对于机器评测,我们将ADAPT与现有的先进方法在进行了比较。可以看到,ADAPT在机器评测上达到了SOTA的结果,如在Cider指标上,ADAPT在动作描述方面比先前的最先进方法高了31。7,在原因解释方面高了33。1。
对于人工评测,我们将整个评估过程分为三个部分:
1。动作描述Narration
2。原因解释Reasoning
3。动作描述原因解释FullSentence
在人工评测的第一部分,标注员需要根据车辆视频判断生成的动作叙述是否符合车辆的动作。在第二部分,我们展示了车辆视频以及视频自带的动作叙述,让标注员判断模型生成的原因解释是否合理。最后,我们仅展示车辆视频,然后将模型生成的动作描述和原因解释合成一句话,让标注员判断这个长句子的准确性。人工评测结果如下表所示,可以看到,在人工评测方面,ADAPT在原因解释的正确率上显著优于先前的工作,同时在动作描述方面保持了较高的精度,这足以说明ADAPT的有效性。
控制信号预测结果虽然ADAPT的最终任务是生成自然语言语句,但我们也测试了其控制信号预测的性能。我们使用均方根误差(RMSE)和容差精度来对控制信号的准确性进行衡量,其中容差精度的定义为控制信号截断值的准确率。例如,模型生成的预测方向的截断值定义为:其中,表示车辆真实的方向,是容差阈值,在本工作中取了0。1、0。5、1。0、5。0、10。0五个值。当然表示以百分比形式记录的的精度,速度的类似。从表格中可以看到,ADAPT可以进一步提高控制信号预测的准确率,这也证明了多任务联合训练的有效性。可视化结果上面展示了ADAPT的一些可视化结果。可以看到,ADAPT可以准确地识别车辆的行为以及决策的原因,比如在第一个例子中,车辆由于当前车道拥堵需要转到左侧车道。从后两个例子中可以看到,对于黑夜、阴雨天等复杂场景,模型仍然能给出流畅准确的描述和解释,比如在最后一个例子中,即使有雨刷器这种视觉干扰,模型也能识别到场景中的信号标志STOPSign,这也证明了ADAPT算法的鲁棒性和泛化性。
四、总结
基于自然语言的可解释性对于自动驾驶车辆的社会接受度至关重要。我们提出了ADAPT(ActionawareDrivingcAPtionTransformer),这是一种端到端的Transformer框架,用于生成自动驾驶车辆的动作描述和原因解释。ADAPT利用多任务学习来减少驾驶动作描述任务和车辆控制任务之间的差异。实验结果证明了我们的方法在机器评测和人工评测方面均能达到了优秀的结果。未来,我们准备进一步开发一个可部署的系统,可以将ADAPT应用在仿真环境和真实场景中,以使自动驾驶能够更轻松的被人类理解,从而促进自动驾驶车辆的进一步落地。
参考文献
〔1〕J。Kim,A。Rohrbach,T。Darrell,J。Canny,andZ。Akata,Textualexplanationsforselfdrivingvehicles,inProceedingsoftheEuropeanconferenceoncomputervision(ECCV),2018,pp。56357
〔2〕J。KimandJ。Canny,Interpretablelearningforselfdrivingcarsbyvisualizingcausalattention,inProceedingsoftheIEEEinternationalconferenceoncomputervision,2017,pp。29422950。
〔3〕W。Zeng,W。Luo,S。Suo,A。Sadat,B。Yang,S。Casas,andR。Urtasun,Endtoendinterpretableneuralmotionplanner,inProceedingsoftheIEEECVFConferenceonComputerVisionandPatternRecognition,2019,pp。86608669。
〔4〕J。Devlin,M。W。Chang,K。Lee,andK。Toutanova,Bert:Pretrainingofdeepbidirectionaltransformersforlanguageunderstanding,arXivpreprintarXiv:1810。04805,2018
〔5〕K。Lin,L。Li,C。C。Lin,F。Ahmed,Z。Gan,Z。Liu,Y。Lu,andL。Wang,Swinbert:Endtoendtransformerswithsparseattentionforvideocaptioning,inProceedingsoftheIEEECVFConferenceonComputerVisionandPatternRecognition,2022,pp。1794917958。
〔6〕S。Venugopalan,M。Rohrbach,J。Donahue,R。Mooney,T。Darrell,andK。Saenko,Sequencetosequencevideototext,inProceedingsoftheIEEEinternationalconferenceoncomputervision,2015,pp。45344542。作者:晋步IllustrationbyTanahAirStudiofromIconScoutTheEnd本周上新!
扫码观看!
多家技术企业招聘来啦!多家技术企业招聘来啦!有求必应的小将收集到来自TechBeat技术社群内技术企业的招人需求,包含来自科技大厂微软亚研、腾讯、小红书等企业,科技明星公司始途科技、梅卡曼德等企业的算法工程师等正式及实习岗位,欢迎有需求的大家向这些公司投递简历哦!扫描了解详情
关于我门
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我门:
一键送你进入TechBeat快乐星球
398元!苹果上架新春限定手机壳,网友良心企业,只割有钱人临近春节,各家都开始聚焦新春限定,苹果中国官网就就已经上架了红色限量手机壳,春节氛围拉满。这款手机壳适用于iPhone14系列,主要采用了中国人喜欢的红色和金色,且还有兔子的图案,
使用苹果全家桶一年,谈谈我的体会!什么是必买的配件?序2022年1月我入手了MacBookAir,9月又入了iPhone14ProAirPodsPro2与watch8,加上我手上M1版的iPadPro,苹果全家桶凑齐,正式开始了苹果
静态库和动态库(Windows版)4Windows创建和使用静态库笔者这里使用的是VS2015,当然也可以使用其他工具。4。1生成静态库1。首先打开VS,先新建一个项目,选择win32控制台应用程序,当然选择win
称重传感器的工作原理质量是七个基本物理量之一。在实际应用中,质量通常以物体重量的形式体现。重量是由于物体的质量而作用在物体上的重力。如何测量物体的重量?它是通过感应它在重力影响下施加的压力来完成的。通
光明两会观察产业篇脉动磅礴制造当家如果问过去四年里,光明区的底色有什么?脉动磅礴的制造业,定是其中浓墨重彩的一笔。地区生产总值增长近500亿元,年均增速深圳全市领跑规上工业企业数量增长近3倍,增加值翻番全区国高企业
潍坊,蝉联年度活力城市!潍坊广电新媒体讯岁末年初,喜报频传。近日,中国新闻周刊发布2022年度活力城市(城区)案例,潍坊蝉联这一称号。再度入榜靠产业靠经济潍坊,拥有囊括8家国家级制造业单项冠军27家国家级
2023委员圆桌民营经济迎来挑战和机遇委员建言民企要树立发展信心委员圆桌共话民营经济面对当下的经济形势,民营经济挑战和机遇并存,民营企业家应当有清醒的认识,积极应对。与此同时,社会层面要创造良好的环境,提供更多的阳光雨露,让民营企业茁壮成长。1
关注年产能40吉瓦时,本田LG成立动力电池合资公司文懂车帝原创邢秋鸿懂车帝原创行业近日,LG新能源和本田汽车正式宣布成立动力电池合资公司,该公司将为本田生产电动汽车所需的动力电池。合资公司新工厂的建设将于2023年年初开始,在20
套现340亿美元的米尔斯家族开设家办1。米尔斯家族开设家办专注于长期投资2。家族财富上升推动家办需求激增文承家家办丨IDwealthmfo字数1858字,阅读时间4分钟图SIPPLSipaUSA近期有媒体报道称,掌管
开好局起好步丨物流桑都项目成热词乐至释放发展新动能来源四川日报川观新闻川观新闻记者高杲制图陈昶刘津余近日,川观新闻推出2022全省县域经济发展影响力观察报告资阳市乐至县,通过川报全媒体后台大数据统计,去年一年,川报全媒体共刊发乐至
不要低估中国实力!外媒今年经济增速将独领风骚2023年,中国经济将大放异彩(资料图)中国日报网1月13日电(党超峰)道琼斯通讯社报道,在强劲出口的推动下,中国2022年贸易顺差创历史新高。这一年的大部分时间里,到最后一个季度