Games > 汽车 > 文章页

《2024特斯拉的自动驾驶系统FSD发展历程、技术原理及未来展望分析报告》钛祺智库报告分享

文章正文

发布时间：2024-12-28 15:02

前言：本报告为特斯拉 FSD 专题报告，从算法端、算力端、芯片端、数据端四个层面出发，对 FSD 系统底层技术原理进行全面深度拆解，并结合端到端架构演进趋势，对 FSD 系统的最新发展变化进行梳理，对板块后续核心催化进行展望。

FSD 是一套包含感知、规控、执行在内的全链路自动驾驶软硬件架构，在算法、算力、数据、芯片等层面实现了高度集成：

1）算法端：感知规划算法全栈自研，实现从纯视觉信息输入到规划方案输出。1）感知。特斯拉采用 BEV+Transformer 架构，将 2D 图像转化为对周围环境的准确 3D 感知。而后，特斯拉将该架构升级为 Occupancy Network，能够直接在向量空间产生体积占用，精准识别物体运动状态差异；2）规划。特斯拉采用交互搜索框架，以任务分解的方式对一系列可能的行驶轨迹进行研究，实现对规划方案的实时评估。通过算法端全栈自研，特斯拉以低成本感知硬件进行高阶智驾能力输出，快速实现自动驾驶算法优化迭代。

2）算力端：从 0 到 1 构建超级计算机系统，为远期算力提供强大支撑。特斯拉从算力芯片开始，完整构建 Dojo 超级计算机系统，以处理自动驾驶所需海量数据。2021 年 8 月，Dojo 在特斯拉首届 AI Day 上正式亮相，定位为超高速训练计算机，采用分布式计算架构设计，算力分为内核级、芯片级、格点级、集群级等四个层级，实现从训练节点到训练集群的完整构建。特斯拉从 0 到 1 构建超级计算机系统，旨在摆脱对英伟达 GPU 的依赖，为远期算力瓶颈进行前瞻布局。

3）芯片端：由合作迈向自研，实现高性能算力集成。特斯拉自动驾驶硬件平台初期与 Mobileye、英伟达等合作，2019 年正式发布基于自研 FSD 芯片的 HW 3.0 系统，开始转向硬件平台全面自研，下一代全自动驾驶（FSD）硬件——AI 5，预计将于 2025 年下半年投产。FSD 硬件计算平台采用两颗 SoC 芯片，以双系统设计提升自动驾驶功能安全冗余。特斯拉构建了神经网络编译器与链接器，以最大化计算资源利用率、吞吐量，并最小化延迟。通过芯片自研，特斯拉能够实现硬件方案的持续快速迭代，与软件算法进行更好的整合，从而实现更优的系统性能。

4）数据端：高效自动标注+构建仿真场景，实现数据驱动训练。2020 年，特斯拉开始研发并使用数据自动标注系统，能够在 12 小时内自动标注一万个驾驶旅程，可抵充 500 万个小时的人工标注工作，极大提高了标注效率。仿真模拟则可以提供现实世界中难以获得或是难以标记的数据，从而加速 FSD 能力的训练，赋能模型迭代。结合真实数据和标签，以及仿真和手动校准的数据，特斯拉形成综合训练数据集，用于训练车端的在线模型，涉及网络占用、车道线和障碍物检测以及规划算法，形成闭环的数据流，实现自动驾驶系统的持续优化。

FSD 技术端快速进化，V12 为首个端到端自动驾驶系统，能够模拟人类驾驶行为，实现感知决策一体化。特斯拉 FSD v12 于 2023 年底推出，采用端到端大模型，消除了自动驾驶系统的感知和定位、决策和规划、控制和执行之间的断面，将三大模块合在一起，形成了一个大的神经网络，直接从原始传感器数据到车辆操控指令，简化了信息传递过程，因而减少了延迟和误差，提高了系统的敏捷性和准确性。特斯拉 FSD 快速进化，V13 即将 10 月推出，有望于 2025 年 Q1 进入中国和欧洲，智能驾驶拐点已至。

“We, Robot”发布会即将开幕，有望成为智驾板块强劲催化。特斯拉将于北京时间 10 月 11 日在美国洛杉矶发布新品，活动主题口号为“We, Robot”。特斯拉 Robotaxi 即将正式推出，有望成为特斯拉发展历程重要里程碑，并与 FSD V13 发布形成共振，共同成为板块强劲催化。

本篇报告与市场不同之处：

1）从算法端、算力端、芯片端、数据端四个层面出发，对 FSD 系统底层技术原理进行全面深度拆解；

2）结合 FSD V12 系统发展路径，对感知端到端到 One Model 端到端的技术架构演进趋势展开研究，探析自动驾驶领域全新发展路径；

3）对特斯拉 FSD 的未来发展路径进行分析，判断特斯拉自动驾驶的重要技术发展节点，并对未来智驾板块的潜在事件催化进行展望。

一、概览：软硬件全链路闭环全栈自研构筑强大技术基石

1.1 发展历程：软硬件持续迭代由外部合作到全栈自研

特斯拉自动驾驶系统发展始于 2013 年，初期采用外部合作方式。2013 年 9 月，马斯克在推特上首次提到 AP（Autopilot 系统），表示特斯拉正在进行自动驾驶领域的探索。2014 年 10 月，特斯拉与视觉处理芯片独角兽公司 Mobileye 进行合作，正式推出第一代 Autopilot 硬件（HW1.0），率先搭载于 Model S。在未来一年多的时间里，特斯拉通过 OTA 不断更新固件，使车辆获得更完善的驾驶辅助或自动驾驶功能。2016 年 10 月，特斯拉推出第二代 Autopilot 硬件（HW2.0），采用了英伟达的 DRIVE PX2 平台，硬件平台进一步升级。

2019 年 4 月，特斯拉推出 HW3.0，正式开启全栈自研。HW3.0 放弃了英伟达的 DRIVE PX2 平台，转而采用特斯拉全栈自研的 FSD 芯片。2020 年 10 月，特斯拉小范围推送 FSD Beta，对 Autopilot 基础架构进行了重大重写。2021 年 7 月，特斯拉开始推送 FSD Beta V9，该版本采用纯视觉自动驾驶方案，摒弃了传统的毫米波雷达和超声波雷达，是特斯拉在自动驾驶技术的重要发展节点。2024 年 1 月，特斯拉 FSD V12 正式向用户推送，将城市街道驾驶堆栈升级为端到端神经网络，该神经网络由数百万个视频片段训练而成，取代了超过 30 万行的 C++ 代码。2024 年 2 月，特斯拉 Model Y 迎来 HW4.0 自动辅助驾驶硬件升级，与 HW3.0 相比，HW4.0 算力提升 5 倍，在硬件设计上实现并行处理能力增强、内存管理优化和专用加速器集成等多项创新。从最初的辅助驾驶系统，到全栈自研自动驾驶技术，特斯拉持续引领智能驾驶技术发展浪潮。

FSD 累计行驶里程快速增长，商业化拐点已至。2024 年 4 月 12 日，为降低 FSD 体验门槛，吸引更多人订阅，特斯拉 FSD 推出单月付费优惠，价格从 199 美元/月调降 50%至 99 美元/月，FSD 买断价格维持 1.2 万美元不变。FSD V12 版本更新、订阅价格下降，共同驱动 FSD 累计行驶历程数快速增长，截至 2024 年 8 月 7 日，FSD 累计行驶里程达 1.6 亿公里，商业化拐点已至。

1.2 系统架构：软硬件全链路闭环实现高度集成

FSD 是一套包含感知、规控、执行在内的全链路自动驾驶软硬件架构，在算法、算力、数据、芯片等层面实现了高度集成。FSD 架构在 Tesla AI Day 2022 完整提出，核心组件包括规划（Planning）、神经网络（Neural Networks）、训练数据（Training Data）、训练基础设施（Training Infra）、AI 编译与推理（AI Compiler & Inference）等。FSD 核心组件在算法端、算力端、数据端和硬件端展现出强大的整合能力：

1）算法端，规划组件专注于解决复杂的多物体关联路径规划问题，通过精确处理自我车辆与周围所有对象的行进轨迹，为汽车提供执行动作的指导。同时，神经网络则利用视频流等信息，输出车辆的运动学状态，如位置、速度、加速度等，以实现精确控制。

2）算力端，训练基础设施提供了强大的计算支持，包括 CPU、GPU 和神经网络加速器单元（Neural Network Accelerator）。这些硬件资源通过 AI 编译器的优化，能够高效地支持神经网络所需的新操作，并映射到最合适的硬件上，从而提升整体的计算效率。

3）芯片端，AI 编译与推理组件确保了神经网络能够在计算机上高效运行。通过将神经网络的执行分配到两个独立的芯片系统上，FSD 实现了高性能的并行计算，进一步提升了自动驾驶系统的响应速度和处理能力。

4）数据端，训练数据通过 4D 自动标注技术、模拟仿真和数据引擎，实现了数据的自动化和精准化处理，形成了一个闭环的数据系统，为算法的训练和优化提供了高质量的数据基础。

二、算法端：创新算法优化实现高效神经网络推理

感知规划算法全栈自研，实现从纯视觉信息输入到规划方案输出。1）感知。特斯拉采用 BEV+Transformer 架构，将 2D 图像转化为对周围环境的准确 3D 感知。而后，特斯拉将该架构升级为 Occupancy Network，能够直接在向量空间产生体积占用，精准识别物体运动状态差异；2）规划。特斯拉采用交互搜索框架，以任务分解的方式对一系列可能的行驶轨迹进行研究，实现对规划方案的实时评估。通过算法端全栈自研，特斯拉以低成本感知硬件进行高阶智驾能力输出，快速实现自动驾驶算法优化迭代。

2.1 感知：先进感知技术，确保精准环境理解和物体识别

2.1.1 HydraNets：感知算法整体框架以标准化流程处理视觉信息

特斯拉视觉感知系统采用 HydraNets 架构，以标准化流程进行视觉信息处理。1）Input。首先，系统接收来自摄像头的原始视觉数据，每个摄像头采集分辨率为 1280×960、36hz、12 bit 的视频图像；2）Backbone。用于提取图像特征，特斯拉主要采用由 RegNets（Residual Neural Networks，残差神经网络）组成的特征网络结构，能够通过不同层次的特征提取，捕捉图像的细节以及整体上下文信息；3）Neck。用于提取更复杂的特征，特斯拉采用BiFPNs（Bi-directional Feature Pyramid Networks，双向特征金字塔网络），通过引入双向信息流，实现多个尺度之间信息交流共享，增强了对多尺度目标的检测性能；4）Head。由多个 Task Specific Heads 组成，负责最终的检测任务，如物体检测、交通信号和车道识别等。

HydraNets 架构能够实现特征共享、任务解耦与特征缓存。1）特征共享。HydraNets 通过共享 Backbone 和 BiFPNs 特征金字塔网络，减少了重复计算工作；2）任务解耦。每个子任务在主干网络上独立工作和微调，而不影响其他子任务，从而可以在不影响其他任务的情况下，单独对某个任务的数据集或头部架构进行更改和优化；3）特征缓存。HydraNets 可以缓存多尺度级别特征，在进行微调工作流程时，可以只使用这些缓存的特征来微调模型的头部，而无需重复计算整个网络。

特斯拉早期方案为先在二维图像空间实现感知，再投射至三维向量空间。摄像头采集到的数据为 2D 图像级，与现实世界不在一个维度，因此要实现完全自动驾驶能力，则需要将二维数据变换至三维空间。特斯拉早期采取的方案是先在二维图像空间（Image Space）实现感知，将其投射至三维向量空间（Vector Space），再将所有摄像头的结果进行融合，但该方法需要对每个像素的信息进行精准深度预测，难度极大。此外，该方法无法对被遮挡的区域进行预测，因此如果物体横跨多个摄像头，且没有任何摄像头能够检测到物体全貌，则难以对多个摄像头采集到的信息进行准确融合，从而无法对物体进行准确预测。

特斯拉采用 BEV+Transformer 架构，将 2D 图像转化为3D感知。为了构建三维向量空间，网络需要进行物体深度信息输出。大部分自动驾驶公司的方案是采用激光雷达、毫米波雷达等传感器来获取深度信息，与视觉感知结果进行融合，而特斯拉坚持使用纯视觉视频数据来计算深度信息，在网络结构中引入一层 BEV （Bird Eye’s View，鸟瞰图）空间转换层，用以构建网络的空间理解能力。特斯拉采用“前融合”方案，将车身多个摄像头获得的视频数据直接进行融合，并采用同一套神经网络进行训练，实现特征从二维图像空间到三维向量空间的变换。Transformer 神经网络是实现二维到三维变换的核心，通过自注意力机制（SelfAttention）和多头注意力（Multi-Head Attention）模块，将每个相机对应的图像特征转换为 Key（键）和 Value（值），然后训练模型以查表的方式自行检索需要的特征用于预测，实现对车辆周围环境的准确感知。

通过虚拟标准摄像头实现图像校准，消除外参误差。不同车辆由于摄像头安装外参的差异，可能导致采集的数据存在微小偏差，为此特斯拉在感知框架中加入了一层虚拟标准摄像头（synthetic virtual camera），引入摄像头标定外参将每辆车采集到的图像数据通过去畸变、旋转等方式处理后，统一映射到同一套虚拟标准摄像头坐标中，从而实现各摄像头原始数据的校准（Rectify），消除外参误差，确保数据一致性。

特斯拉引入时空序列特征层，以进一步提升环境感知准确性。在引入 BEV+Transformer 后，感知网络已经具备三维向量空间的感知能力，但仍是对瞬时的图像片段进行感知，只能根据当前时刻感知到的信息进行判断，感知不到世界空间内部分特征。特斯拉通过引入时空序列特征层，使得感知网络拥有类似于司机的短时记忆，可以对当前时刻的场景做出判断，并根据一段时间内的数据特征推演出目前场景下的可能结果。

时空序列特征层主要包括两部分：

1）特征队列模块（Feature Queue），用来缓存时序与空间特征。其中，时序特征队列每过 27ms 将一个特征加入队列，可以稳定感知结果的输出，比如运动过程中发生的目标遮挡，模型可以找到目标被遮挡前的特征来预测感知结果；空间特征队列每行驶一定固定距离，将一个特征加入队列，用于等红绿灯一类需要长时间静止等待的状态，在该状态下一段时间之前的时序特征队列中的特征会出队而丢失，因此需要用空间特征队列来记住一段距离之前路面的箭头或是路边的标牌等交通标志信息；

2）视频模块（Video Queue），用来整合时序上的信息。特斯拉使用 RNN 结构作为视频模块，命名为空间 RNN 模块（Spatial RNN Module）。车辆在二维平面上前进，可以将隐状态（Hidden State）组织成一个二维网格。当车辆前进时，只更新网格上与车辆当前视野相关的部分，同时使用车辆的运动学状态以及隐特征（Hidden Features）更新车辆位置。空间 RNN 的隐状态可包含多个通道，每个通道可以跟踪道路的不同方面，如道路中心、边缘、标线等，网格可以同时处理多种类型的环境信息。网络可以根据当前的能见度选择性地更新隐藏状态，如果某个区域被其他车辆遮挡，网络可以选择不更新那个区域的状态，直到能见度恢复。视频模块能够提升感知系统对于时序遮挡的鲁棒性、对于距离和目标移动速度估计的准确性。

2.1.2 Occupancy Network：对 HydraNets 进行重要改进直接在向量空间产生体积占用

Occupancy Network 能够对长尾障碍物进行更好表达。在自动驾驶过程中，对常见障碍物如车辆、行人，可以通过 3D 物体检测的方式来估计其位置和大小，但还有更多长尾障碍物也会对行驶产生重要影响，例如：1）可变形的障碍物，如两节的挂车，不适合用 3D bounding box 来准确表示；2）异形障碍物，如翻倒的车辆，难以用传统的 3D 姿态来表示；3）不在已知类别中的障碍物，如路上的石子、垃圾等，无法进行分类。因此，我们希望能找到一种更好的表达来描述这些长尾障碍物，完整估计 3D 空间中每一个位置的占据情况（Occupancy），甚至是语义（Semantics）和运动情况（Flow）。因此，特斯拉引入了 Occupancy Network （占用网络）。

Occupancy Network 是对 HydraNets 的重要改进，能够直接在向量空间产生体积占用。Occupancy Network 算法受到机器人领域中 occupancy grid mapping 启发，将 3D 空间分为大小一致的体素网格（Grid cell），然后判断每个 cell 是否被占用。Occupancy Network 以车辆摄像头产生的视频流作为输入，直接在向量空间产生单一统一的体积占用，对车辆周围 3D 位置被占用的概率进行预测，并可以通过视频信息对被遮挡物体情况进行即时预测。对于每个位置， Occupancy Network 能够产生一组语义，如路缘、汽车、行人和路上的碎片。

Occupancy Network 通过高效的计算能力，在 10 毫秒内快速更新对周围环境的感知，同时提供物体尺寸的近似估计，支持动态及静态场景的全面预测，具有低延迟和低内存占用的特点。Occupancy Network 能够精准识别物体运动状态差异，与传统目标检测网络相比优势明显。中一辆两节的公交车正在启动，其中蓝色表示运动的体素，红色表示静止的体素，Occupancy Network 精确捕捉到公交车第一节已经启动，而第二节还处于静止状态的细微差别，并可对公交车的精确曲率进行预测，而这一过程对传统的目标检测网络来说非常复杂。

Occupancy Network 能够生成可行使表面，增强复杂地形自动驾驶车辆控制能力。除体素网格外，Occupancy Network 还能够生成可行驶表面（driverable surface），可行驶表面具有 3D 几何形状与语义信息，能够增强在多山、弯曲道路等复杂地形上，自动驾驶车辆的控制能力。决策层可利用可行驶表面信息，更好的进行加速、减速等运动决策。

Occupancy Network 引入 Spatial Attention 机制。Occupancy Network 首先利用 RegNet 和 BiFPN 从多相机获取特征，然后采用带有3D 空间位置信息的 Spatial Query，基于 Spatial Attention 注意力机制，实现对多个相机的3D空间位置信息和 2D 图像的信息融合，模型从中学习对应的特征关系，最终输出高维的空间特征。在进行特征融合后，基于反卷积（Deconvolution）的解码器会解码出每个3D 空间位置的占用情况和占用流输出，形成固定大小的体素网络。模型的最后额设计了一个隐式 Queryable MLP Decoder，输入任意坐标值(x,y,z)，可解码出该空间位置的信息，即 Occupancy，Semantics，Flow，打破了模型分辨率的限制。

2.1.3 Lanes Network：提供关键车道拓扑信息优化轨迹与变道决策

Lanes Network 旨在为自动驾驶车辆提供关键的车道拓扑信息，以优化轨迹规划和车道变换决策。初期，特斯拉将车道检测问题建模为图像空间即时分割任务，只能从几种不同类型的几何形状中进行车道预测，适用于高速公路等高度结构化的道路，但无法应对交叉路口等复杂、多样的道路拓扑场景。为此，特斯拉运用神经网络来预测车道与车道之间的连接性。车道检测神经网络由三部分组成，其中第一部分包括卷积层、注意力层与其他神经网络层，对车辆摄像头采集的视频信息进行编码，产生丰富的视觉表示。之后，特斯拉采用涵盖有关交叉口内车道拓扑、各条道路上的车道数等信息的低精度地图，对车道检测神经网络生成的丰富视觉表示进行增强，输出密集张量信息，并最终转化为车道及其连接性的信息。

特斯拉采用离散化处理+样条系数回归的方法，进行车道线预测。特斯拉首先将现实世界进行离散化处理，引入粗略划分的网格，然后对可能位置的热力图进行预测，锁定可能性最大的位置，并在此基础上对预测进行细化，以得到精确的点位。不同点位的标记类型不同，新车道的起点为起始标记，其他点为延续标记，通过回归样条系数来获取两点间的精确几何形状。之后，不断重复这一过程，直到得到车道图中所有标记。

神经网络可专注于计算最重要的区域，以较低延迟对道路上其他物体行为信息进行预测。自动驾驶系统神经网络的运行分为两步：1）神经网络快速识别出3D空间中代理（即车辆或物体）的位置；2）神经网络从这些位置提取张量，结合车辆速度、方向等其他数据，进行后续处理。通过稀疏化处理方式，神经网络可以专注于计算最重要的区域，以较低延迟实现卓越性能，对道路上其他物体行为信息进行预测。自动驾驶系统不仅可以理解环境中的位置和运动状态，还能够对其丰富的语义信息进行预测，从而在保证驾驶安全性的同时，实现类人的驾驶操作。

2.2 规划：采用交互搜索框架快速选择最优方案

效率、安全和舒适是自动驾驶规划的三大目标，非凸性和高维性是自动驾驶规划的两大难点。与高速路况相比，城市路况更为复杂，需要应对临时施工路段、穿行车辆与行人。自动驾驶规划的难点主要体现在两个方面：1）非凸性，行动空间是非凸的，意味着存在多个可能的解，但难以找到全局一致的解决方案，规划可能会陷入局部最小值；2）高维性，车辆需要对未来 10-15 秒的行为做出规划，涉及位置、速度、加速度等大量参数，导致规划问题呈现出高维的特征。

特斯拉将规划问题进行分层分解，先采用离散搜索方法降低非凸性，缩小选择范围，再采用连续优化方法进行优化，得出最终解决方案。对于非凸问题，特斯拉采用离散搜索方法解决，因为离散搜索不会陷入局部最小值，而连续函数优化容易陷入局部最小值；对于高维问题，特斯拉采用连续优化方法解决，因为离散搜索方法不使用任何梯度信息，需要逐点评估每个点的好坏，效率较低，而连续优化方法利用基于梯度的方法，可以快速找到好的解决方案。

自动驾驶规划需要解决多代理联合轨迹规划问题，快速选出最优行驶方案。自动驾驶系统需要解决多代理联合轨迹规划的问题，考虑自己和所有其他车辆、行人的运动轨迹，对所有可能的行驶方案进行评估，快速选出最优行驶方案。评估过程至少需要10 毫秒左右，而在面对繁忙路口等复杂场景时需要 50 毫秒。

为实现实时方案评估，特斯拉采用交互搜索框架，以任务分解的方式对一系列可能的行驶轨迹进行研究。1）自动驾驶系统首先收集车道、障碍物和周围移动物体的视觉测量数据，这些数据被表示为稀疏抽象（Sparse Abstraction）和潜在特征（Latent Features）。自动驾驶系统利用这些信息生成一组候选目标，使用经典优化方法与神经网络规划器来创建初始轨迹；2）得到初始轨迹之后，特斯拉采用递增式的方法，在关键约束的基础上，不断加入新的约束条件，利用较少约束下的最优解作为初值，逐步求解更复杂的优化问题；3）构建轻量级可查询网络，该网络由人类驾驶数据与宽松时间限制下的计算数据进行训练，能够在 100 微秒内对规划轨迹进行评分，显著提升规划效率。

特斯拉主要从四个方面对规划轨迹进行评分，进行决策树剪枝：1）碰撞检查，以确保路径安全；2）舒适性分析，以评估乘客体验；3）干预可能性，以评估候选路径导致人工接管的概率；4）与人类驾驶接近度，基于人类驾驶数据，评估候选路径与人类驾驶员行为的接近程度。通过综合评估，特斯拉规划系统能够高效地筛选出最优路径，优化自动驾驶的决策过程。

· 钛祺智库·

1、如欲获取完整版PDF文件，可以关注钛祺汽车官网—>智库，也可以添加钛祺小助理微信，回复“报告名称：2024特斯拉的自动驾驶系统FSD发展历程、技术原理及未来展望分析报告”

2、钛祺智库目前已收录1000+篇汽车行业最新技术报告，供行业朋友查阅、参考。

3、钛祺智库持续更新、收录行业深度技术文章、研究报告，并不定期上传行业专家特约文章，为汽车行业朋友提供专业支持。

请注册账号，免费下载报告：https://doc.taiqiol.com/m/Register.aspx；

标签