特斯拉AIDay最硬核的解读来了！清华博导分析6大关键点

　　车东西（公众号：chedongxi）
　　作者 ｜ 赵行
　　编辑 ｜ 晓寒
　　在刚刚过去的国庆节，特斯拉举办了第二届 AI Day活动，在活动上除了展示了其人形机器人Optimus的原型机、自研的Dojo超算之外，还重点介绍了其自动驾驶FSD的更多细节。
　　其自动驾驶相关负责人非常深入的介绍了特斯拉在感知、规划、矢量地图、自动标注、仿真和基础设施等方面的布局，非常全面的展示了特斯拉FSD算法进展。
　　发布会结束后，也引起了国内众多自动驾驶相关专家学者的关注。清华大学清华大学交叉信息研究院助理教授，博士生导师赵行博士也非常细致的梳理的特斯拉AI Day上展示的一些关键技术和进展。
　　赵行2015年在MIT联合开发了第一门自动驾驶课程，后被推广到全世界十余所高校进行应用教学，并在2015年获得ICCP最佳论文奖。其在2019年博士毕业于麻省理工学院。博士期间师从MIT AI+决策系主任Antonio Torralba教授，主要研究方向为计算机视觉，多模态和多传感器的机器学习。
　　清华大学清华大学交叉信息研究院助理教授，博士生导师赵行博士
　　也是在2019年，赵行加入Waymo担任研究科学家，提出了自动驾驶行为预测中一系列框架型的工作，为行业大多数公司所使用或借鉴。其本人也入选2020年福布斯中国U30科学精英榜。
　　2021年加入清华大学担任助理教授，研究涵盖自动驾驶的整个算法栈，以及多模态和多传感器的机器学习。在自动驾驶方面，提出了＂以视觉为中心的自动驾驶VCAD＂方案，被业界广泛采纳，并落地应用。目前在清华大学组建和指导MARS Lab课题组，主要研究兴趣为自动驾驶，多模态学习和计算机视觉。在国际顶级期刊和会议发表论文共计40余篇，Google Scholar引用共计8000余次。研究工作曾被BBC，NBC， 麻省理工科技评论等多家主流科技媒体报道。
　　可以说，赵行博士对于自动驾驶方面有非常深入的研究，对于特斯拉AI Day上展示的技术也有非常深刻的认知。在获得了赵行博士的同意后，我们转载其关于特斯拉AI Day活动的分析文章。
　　以下为赵行博士原文，为方便理解，车东西做了一些编辑：
　　9月30日（美国时间）的Tesla AI Day，特斯拉发布了初版的Optimus机器人，自动驾驶FSD的更多细节也慢慢浮现在大众的眼前。我整理了Tesla FSD算法方面值得重点关注的进展与大家分享。
　　Ashok在一开场就讲到，特斯拉是一个典型的AI公司，过去一年训练了75000个神经网络，意味着每8分钟就要出一个新的模型，共有281个模型用到了特斯拉的车上。接下来我们分几个方面来解读特斯拉FSD的算法和模型进展。
　　1、感知 Occupancy Network
　　2、规划 Interactive Planning
　　3、矢量地图 Lanes Network
　　4、自动标注 Autolabeling
　　5、仿真 Simulation
　　6、基础设施 Infrastructure
　　一、感知 Occupancy Network
　　特斯拉今年在感知方面的一个重点技术就是Occupancy Network (占据网络)。研究机器人技术的同学肯定对occupancy grid不会陌生，occupancy表示空间中每个3D体素（voxel）是否被占据，可以是0/1二元表示，也可以是[0, 1]之间的一个概率值。
　　为什么估计occupancy对自动驾驶感知很重要呢？因为在行驶中，除了常见障碍物如车辆、行人，我们可以通过3D物体检测的方式来估计他们的位置和大小，还有更多长尾的障碍物也会对行驶产生重要影响。例如：1.可变形的障碍物，如两节的挂车，不适合用3D bounding box来表示；2.异形障碍物，如翻倒的车辆，3D姿态估计会失效；3.不在已知类别中的障碍物，如路上的石子、垃圾等，无法进行分类。因此，我们希望能找到一种更好的表达来描述这些长尾障碍物，完整估计3D空间中每一个位置的占据情况（occupancy），甚至是语义（semantics）和运动情况（flow）。
　　特斯拉用下图的具体例子来展现Occupancy Network的强大。不同于3D的框，occupancy这种表征对物体没有过多的几何假设，因此可以建模任意形状的物体和任意形式的物体运动。图中展示了一个两节的公交车正在启动的场景，蓝色表示运动的体素，红色表示静止的体素，Occupancy Network精确地估计出了公交车的第一节已经开始运动，而第二节还处于静止状态。
　　对正在启动的两节公交车的occupancy估计，蓝色表示运动的体素，红色表示静止的体素
　　Occupancy Network的模型结构如下图所示。首先模型利用RegNet和BiFPN从多相机获取特征，这个结构跟去年的AI day分享的网络结构一致，说明backbone变化不大。然后模型通过带3D空间位置的spatial query对2D图像特征进行基于attention的多相机融合。如何实现3D spatial query和2D特征图之间的联系呢？具体融合的方式图中没有细讲，但有很多公开的论文可以参考。我认为最有可能采取的是两种方案之一，第一种叫做3D-to-2D query，即根据每个相机的内外参将3D spatial query投影到2D特征图上，提取对应位置的特征。该方法在DETR3D[1]中提出，BEVFormer[2]和PolarFormer[3]也采取了该思想。第二种是利用positional embedding来进行隐式的映射，即将2D特征图的每个位置加上合理的positional embedding，如相机内外参、像素坐标等，然后让模型自己学习2D到3D特征的对应关系，该方法在论文PETR中提出[4]。再接下来模型进行时序融合，实现的方法是根据已知的自车位置和姿态变化，将3D特征空间进行拼接。
　　Occupancy Network结构
　　特征融合后，一个基于deconvolution的解码器会解码出每个3D空间位置的occupancy，semantics以及flow。发布会中强调，由于这个网络的输出是稠密（dense）的，输出的分辨率会受到内存的限制。我相信这也是所有做图像分割的同学们遇到的一大头疼的问题，更何况这里做的是3D分割，但自动驾驶对于分辨率度的要求却很高（~10cm）。因此，受到神经隐式表示（neural implicit representation）的启发，模型的最后额外设计了一个隐式queryable MLP decoder，输入任意坐标值(x,y,z)，可解码出该空间位置的信息，即occupancy，semantics，flow。该方法打破了模型分辨率的限制，我认为是设计上的一个亮点。
　　学术界在视觉occupancy方面的工作不多，我关注到的最相关的一篇论文是CVPR2022上的MonoScene[5]，从单目重建三维体素并且估计出被遮挡的部分，感兴趣的可以去精读。
　　二、规划 Interactive Planning
　　规划是自动驾驶的另一个重要模块，特斯拉这次主要强调了在复杂路口对交互（interaction）进行建模。为什么交互建模如此重要呢？因为其他车辆、行人的未来行为都有一定的不确定性，一个聪明的规划模块要在线进行多种自车和他车交互的预测，并且对每一种交互带来的风险进行评估，并最终决定采取何种策略。
　　特斯拉把他们采用的规划模型叫做交互搜索（Interaction Search），它主要由三个主要步骤组成：树搜索，神经网络轨迹规划和轨迹打分。
　　1、树搜索是轨迹规划常用的算法，可以有效地发现各种交互情形找到最优解，但用搜索的方法来解决轨迹规划问题遇到的最大困难是搜索空间过大。例如，在一个复杂路口可能有20辆与自车相关，可以组合成超过100种交互方式，而每种交互方式都可能有几十种时空轨迹作为候选。因此特斯拉并没有采用轨迹搜索的方法，而是用神经网络来给一段时间后可能到达的目标位置（goal）进行打分，得到少量较优的目标。
　　2、在确定目标以后，我们需要确定一条到达目标的轨迹。传统的规划方法往往使用优化来解决该问题，解优化并不难，每次优化大约花费1到5毫秒，但是当前面步骤树搜索的给出的候选目标比较多的时候，时间成本我们也无法负担。因此特斯拉提出使用另一个神经网络来进行轨迹规划，从而对多个候选目标实现高度并行规划。训练这个神经网络的轨迹标签有两种来源：第一种是人类真实开车的轨迹，但是我们知道人开的轨迹可能只是多种较优方案中的一种，因此第二种来源是通过离线优化算法产生的其他的轨迹解。
　　3、在得到一系列可行轨迹后，我们要选择一个最优方案。这里采取的方案是对得到的轨迹进行打分，打分的方案集合了人为制定的风险指标，舒适指标，还包括了一个神经网络的打分器。
　　通过以上三个步骤的解耦，特斯拉实现了一个高效的且考虑了交互的轨迹规划模块。基于神经网络的轨迹规划可以参考的论文并不多，我有发表过一篇与该方法比较相关的论文TNT[5]，同样地将轨迹预测问题分解为以上三个步骤进行解决：目标打分，轨迹规划，轨迹打分。感兴趣的读者可以前往查阅细节。此外，我们课题组也在一直探究行为交互和规划相关的问题，也欢迎大家关注我们最新的工作InterSim[6]。
　　Interaction Search规划模型结构
　　三、矢量地图 Lanes Network
　　个人觉得本次AI Day上另一大技术亮点是在线矢量地图构建模型Lanes Network。有关注去年AI Day的同学们可能记得，特斯拉在BEV空间中对地图进行了完整的在线分割和识别。那么为什么还要做Lanes Network呢？因为分割得到的像素级别的车道不足够用于轨迹规划，我们还需要得到车道线的拓扑结构，才能知道我们的车可以从一条车道变换到另一条车道。
　　我们先来看看什么是矢量地图，如图所示，特斯拉的矢量地图由一系列蓝色的车道中心线centerline和一些关键点（连接点connection，分叉点fork， 并道点merge）组成，并且通过graph的形式表现了他们的连接关系。
　　矢量地图，圆点为车道线关键点，蓝色为车道中心线
　　Lanes Network在模型结构上，是感知网络backbone基础上的一个decoder。相比解码出每个体素的occupancy和语义，解码出一系列稀疏的、带连接关系的车道线更为困难，因为输出的数量不固定，此外输出量之间还有逻辑关系。
　　特斯拉参考了自然语言模型中的Transformer decoder，以序列的方式自回归地输出结果。具体实现上来说，我们首先要选取一个生成顺序（如从左到右，从上到下），对空间进行离散化（tokenization）。然后我们就可以用Lanes Network进行一系列离散token的预测。如图所示，网络会先预测一个节点的粗略位置的（index:18），精确位置（index:31），然后预测该节点的语义（＂Start＂，即车道线的起点），最后预测连接特性，如分叉/并道/曲率参数等。网络会以这样自回归的方式将所有的车道线节点进行生成。
　　Lanes Network网络结构
　　我们要注意到，自回归的序列生成并不是语言Transformer模型的专利。我们课题组在过去几年中也有两篇生成矢量地图的相关论文，HDMapGen[7]和VectorMapNet[8]。HDMapGen采用带注意力的图神经网络（GAT）自回归地生成矢量地图的关键点，和特斯拉的方案有异曲同工之妙。而VectorMapNet采用了Detection Transformer（DETR）来解决该问题，即用集合预测（set prediction）的方案来更快速地生成矢量地图。后续我们会有更详细的解读文章放出，也欢迎大家关注。
　　HDMapGen[7] 矢量地图生成结果
　　VectorMapNet[8] 矢量地图生成结果
　　四、自动标注 Autolabeling
　　自动标注也是特斯拉在去年AI Day就讲解过的一种技术，今年的自动标注着重讲解了Lanes Network的自动标注。特斯拉的车每天就能产生500,000条驾驶旅程（trip），利用好这些驾驶数据能够更好地帮助进行车道线的预测。 特斯拉的自动车道线标注有三个步骤：
　　1、通过视觉惯性里程计（visual inertial odometry）技术，对所有的旅程进行高精度轨迹估计。
　　2、多车多旅程的地图重建，是该方案中的最关键步骤。该步骤的基本动机是，不同的车辆对同一个地点可能有不同空间角度和时间的观测，因此将这些信息进行聚合能更好地进行地图重建。该步骤的技术点包括地图间的几何匹配和结果联合优化。
　　3、对新旅程进行车道自动标注。当我们有了高精度的离线地图重建结果后，当有新的旅程发生时，我们就可以进行一个简单的几何匹配，得到新旅程车道线的伪真值（pseudolabel）。这种获取伪真值的方式有时候（在夜晚、雨雾天中）甚至会优于人工标注。
　　Lanes Network自动标注。
　　五、仿真 Simulation
　　视觉图像的仿真是近年来计算机视觉方面的热门方向。在自动驾驶中，视觉仿真的主要目的，是有针对性地生成一些少见场景，从而免掉到真实路测中去碰运气的必要。例如，特斯拉常年头疼的路中央横着大卡车的场景。但是视觉仿真并不是一个简单的问题，对于一个复杂的路口（旧金山的Market Street），利用传统建模渲染的方案需要设计师2周的时间。而特斯拉通过AI化的方案，现在只需要5分钟。
　　视觉仿真重建的路口。
　　具体来说，视觉仿真的先决条件是要准备自动标注的真实世界道路信息 ，和丰富的图形素材库。然后依次进行以下步骤：
　　1、路面生成：根据路沿进行路面的填充，包括路面坡度、材料等细节信息。
　　2、车道线生成：将车道线信息在路面上进行绘制。
　　3、植物和楼房生成：在路间和路旁随机生成和渲染植物和房屋。生成植物和楼房的目的不仅仅是为了视觉的美观，它也同时仿真了真实世界中这些物体引起的遮挡效应。
　　4、其他道路元素生成：如信号灯，路牌，并且导入车道和连接关系。
　　5、加入车辆和行人等动态元素。
　　六、基础设施 Infrastructure
　　最后，我们简单说说特斯拉这一系列软件技术的基础，就是强大的基础设施。特斯拉的超算中心拥有14,000个GPU，共30PB的数据缓存，每天都有500,000个新的视频流入这些超级计算机。为了更高效地处理这些数据额，特斯拉专门开发了加速的视频解码库，以及加速读写中间特征的文件格式.smol file format。此外，特斯拉还自研了超算中心的芯片Dojo，我们在这里不做讲解。
　　视频模型训练的超算中心
　　七、总结
　　随着近两年特斯拉AI Day的内容发布，我们慢慢看清了特斯拉在自动（辅助）驾驶方向上的技术版图，同时我们也看到特斯拉自己也在不停地自我迭代，例如从2D感知，BEV感知，到Occupancy Network。自动驾驶是一个万里长征，是什么在支撑特斯拉技术的演进呢？我想是三点：视觉算法带来的全场景理解能力，强大算力支持的模型迭代速度，海量数据带来的泛化性。这不就是深度学习时代的三大支柱吗？
　　目前，赵行博士的课题组在过去两年做了一系列视觉为主自动驾驶的工作，简称VCAD，Vision-Centric Autonomous Driving（https://vcad-ai.github.io/）。
　　视觉为中心的自动驾驶VCAD (Vision-Centric Autonomous Driving)是其课题组提出的一个自动驾驶感知技术范式，同时是一个开源开放的研究课题。这个技术范式的特点是，主要利用车载的环视相机来实现自动驾驶对环境的感知和认知，选择性地融合其他传感器作为安全性辅助。
　　相比过分依赖激光雷达和高精度地图的自动驾驶感知技术，以视觉为中心的技术有更好的泛化能力，各种规格和价位的车都可以使用。现阶段，赵行博士的课题组正在招生。
　　参考文献
　　[1] Wang, Y., Guizilini, V.C., Zhang, T., Wang, Y., Zhao, H. and Solomon, J., 2022, January. Detr3d: 3d object detection from multi-view images via 3d-to-2d queries. In Conference on Robot Learning(pp. 180-191). PMLR.
　　[2] Li, Z., Wang, W., Li, H., Xie, E., Sima, C., Lu, T., Yu, Q. and Dai, J., 2022. BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. arXiv preprint arXiv:2203.17270.
　　[3] Jiang, Y., Zhang, L., Miao, Z., Zhu, X., Gao, J., Hu, W. and Jiang, Y.G., 2022. PolarFormer: Multi-camera 3D Object Detection with Polar Transformers. arXiv preprint arXiv:2206.15398.
　　[4] Liu, Y., Wang, T., Zhang, X. and Sun, J., 2022. Petr: Position embedding transformation for multi-view 3d object detection. arXiv preprint arXiv:2203.05625.
　　[5] Cao, A.Q. and de Charette, R., 2022. MonoScene: Monocular 3D Semantic Scene Completion. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 3991-4001).
　　[6] Zhao, H., Gao, J., Lan, T., Sun, C., Sapp, B., Varadarajan, B., Shen, Y., Shen, Y., Chai, Y., Schmid, C. and Li, C., 2020. Tnt: Target-driven trajectory prediction. In Conference on Robot Learning 2020, arXiv:2008.08294
　　[7] InterSim, https://tsinghua-mars-lab.github.io/InterSim/
　　[8] Mi, L., Zhao, H., Nash, C., Jin, X., Gao, J., Sun, C., Schmid, C., Shavit, N., Chai, Y. and Anguelov, D., 2021. HDMapGen: A hierarchical graph generative model of high definition maps. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 4227-4236).
　　[9] Liu, Y., Wang, Y., Wang, Y. and Zhao, H., 2022. VectorMapNet: End-to-end Vectorized HD Map Learning. arXiv preprint arXiv:2206.08920.

罗玉凤汉奸言论却被奉为人间清醒，她是如何带跑节奏的提起凤姐，想必很多8090后都还记忆犹新，虽然其长相平平，但是却语出惊人，让所有人在一夜之间记住了这位第一代网红。凤姐在成名之前曾经说过按照我的智商和潜质，往前三百年，往后三百年，好汉要吃眼前亏，吃亏能享长久福，萧何告诉我们的处世智慧萧何，我们并不陌生，刘邦创建大汉王朝的三杰之一，也是刘邦的老乡和同事。刘邦是亭长，萧何是小吏，萧何的出身也就比刘邦高那么一点，为什么也能让人生走上了一个高峰？难道是因为跟对了人吗？回顾风筝结局，才明白韩冰饮下毒酒，郑耀先违反原则的深意风筝这部剧虽然已经收编了，但是郑耀先，韩冰等鲜活的角色以及迷离的情节都使人记忆犹新。因此，若是想看一部很精彩的谍战剧，那风筝便是很好的选择，若是想要一部不忘初心，坚持信仰的教育片，黑神话悟空发布多个招聘岗位游戏开发要加速？近日游戏科学发布黑神话悟空兔年贺岁短片，并宣布游戏将于2024年夏季正式发售。有人发现，游戏科学近期发布多个招聘岗位，除了部分与公司运营相关的常规岗位外，还有大量与游戏开发相关的岗去日本旅游挂红绳，去韩国挂黄牌，如此待遇，国人为什么还要去当下的旅游形式是比较复杂的，每个国家对待中国游客的态度都不一样，有的国家是积极地欢迎，有的国家是限制入境。这取决于很多敏感的因素，但是有的国家是为了单纯地赚钱，无论是怎么样，我们去日本2022年贸易逆差达19。9万亿日元，创历史新高当地时间2022年7月18日，日本横滨，装载集装箱的TY仁川集装箱船在日本横滨港东京湾码头附近。视觉中国资料图当地时间1月19日，日本财务省公布的2022年贸易统计初值（以通关为准传承丨初心不改信仰不移中央纪委国家监委网站张梓健崔道植，七一勋章获得者（制图王婵）看痕知枪，观弹识人一张桌子一台显微镜，一双让物证痕迹开口的火眼金睛，一颗惩恶安民的念念初心，七一勋章获得者我国首席枪弹痕中工漫评丨外卖管家助力老字号焕发新活力绘画刘琪文字张苇柠1月10日，北京华天与美团举行数字化签约仪式，促进老字号持续拓展线上渠道，加速餐饮行业复苏。其中，外卖管家服务由平台外卖管家一对一为老字号餐馆提供线上运营指导，在芯趋势丨存储压力传导全球半导体寻突破21世纪经济报道记者骆轶琪广州报道半导体行业正处在周期波动全球宏观环境急剧变化的行情下。此前一度由产品紧俏和需求增加带来的年收入大涨行情正有所变化。据调研机构Gartner统计，2北山镇新云村基层活动温暖过年红网时刻新闻1月20日讯（通讯员杨可铭）1月20日，长沙县北山镇新云村孔家组组长莫浩，组织本组党员志愿者，来到组上七位80岁以上老人的家中进行春节慰问，致以春节的问候。老人家您身体委员声音刘静建立非学科类培训市场价格监测体系双减政策实施后，湖南实现了一年内有效减轻的预期目标，各地均已出台学科类培训政府指导价，收费标准相比之前降低31。5。省政协委员，省委教育工委委员，省教育厅党组成员副厅长刘静认为，与

<<<<<<－>>>>>>

代表声音杨昕从病毒感染不确定性中，找到个人确定性作为一名医务工作者，医疗卫生事业涉及千家万户，和老百姓日常生活息息相关，我要发挥自己的才能，尽一份社会责任。12月27日，长沙市十六届人大代表长沙市第三医院普外科主任杨昕说，当下最张莹探索那串数字的万有引力世界上有已知的已知事物，即我们已经了解到存在的事物，比如万有引力有未知的未知事物，即我们还未感知到的东西，对于万有引力到底是怎么回事，实际上科学家也不能完全解释清楚。但我们目前可以农业绿色发展突出亮点数字里看我国秸秆综合利用积极成效央视网消息刚刚结束的中央农村工作会议对全面推进乡村振兴加快建设农业强国作出战略部署，提出要发展生态低碳农业。推进秸秆综合利用，打造生态产业，促进减排固碳，是我国发展生态低碳农业的重别克首款奥特能平台大五座SUVElectraE5试装车下线红网时刻新闻12月28日讯（通讯员孟详娣）12月28日，别克首款奥特能平台大五座智能纯电SUVElectraE5试装车从上汽通用汽车武汉基地正式下线，吹响了别克发力主流电动车市场的太平人寿养老服务定点合作单位添新成员携手荣华清荷园为陕西市场提供高品质养老服务近日，西安荣华清荷园养老社区与太平人寿签署合作协议，成为太平人寿客户养老服务体验定点合作单位新成员。双方希望通过保险养老的产业融合，共同推进陕西地区多元化养老服务体系建设，为长者提为什么已经难受得不行了，抗原还是阴的？怎么确定自己是不是阳了头条创作挑战赛可能只是普通流感。冬季正是流感高发季，而流感的症状与新冠非常相似，普通人很难第一时间分辨出自己到底是哪种。可能是抗原检测过程出了错。也有可能，你是真的阳，但由于种种意海信电视上线小聚健康开启大屏问诊新模式中证网讯（王珞）随时随地无接触问诊成为时下受关注的健康服务模式，为满足广大用户需求，海信视像日前为更多电视机型上线了小聚健康服务，实现在家即可大屏问诊。据介绍，小聚健康每天的服务时把握年前红利，看好高新CID的该出手了！阳光讯（记者殷彤）房地产市场一直都有个规律，节前客选房，节后房挑客。年关又至，对于有购房计划的家庭而言，这也是一年中难得的优质时机。疫情防控放开，稳经济成为重中之重，作为支柱性产业调查显示未成年人刷短视频越频繁价值观取向越受影响调查显示未成年人刷短视频越频繁价值观取向越受影响专家建议不得将算法推荐服务应用到未成年人身上本报记者陈磊我家孩子长大以后的理想生活，就是成为一名主播，白天看视频，晚上打游戏。家住北儿童洗发沐浴二合一产品测评宝宝金水等样品香精检出量最多儿童洗发沐浴二合一产品，由于方便携带使用便捷，深受家长们青睐。这类产品洗得干净吗？香精香料防腐剂含量是否会过量？近日，深圳市消委会联合澳门消委会发布25款儿童洗发沐浴二合一产品比较从跟着感觉走到数据说了算！信息技术推进智慧农业发展刚刚闭幕的中央农村工作会议提出，要依靠科技和改革双轮驱动加快建设农业强国。农业农村部表示，作为科技驱动的重要内容，今年以来，现代信息技术赋能农业生产，我国智慧农业加速发展。农业作业