GTC2024：理想汽车对自动驾驶的思考及研发进展

作者： NE时代
2024-04-01 13:23
786

智能化已经成为中国汽车发展的关键趋势和驱动力。大语言模型的应用，已经成中国汽车行业的普遍趋势。

在英伟达GTC2024的AI 驱动汽车科技创新发展的会议上，理想汽车智能驾驶技术研发负责人贾鹏对理想汽车的自动驾驶阐述了端到端模型、大语言模型、视觉语言模型等模型的应用，以及如何提升自动驾驶的安全性等方面进行了详细阐述。

以下是贾鹏演讲内容整理，在不影响原意的基础上略有整理和删减。

注：关注“智车引擎”公众号，并回复数字 “3”，将获得本场讲演的ppt和相关论文。

代码、规则向知识驱动发展

理想汽车从2021年开始自动驾驶的自研，我们从L2开始就是高速NOA开始，逐渐的对自动驾驶这件事情形成了一个比较独特的认知。对于L2来说，都是在固定的场景，已知的场景或者是这种封闭场景，比如高速、城快中去做辅助驾驶，人需要的时候去接管。

这一部分其实过去都是以rule base为主，只有感知部分可能做了一部分的AI化或者模型化，咱们传统用的2G的感知或者是demo的3D，其他部分还是以一些工程化代码、一些规则为主。去年开始大家开始卷城市NOA或者全场景NOA，这一方面，随着开城的进展，大家可能可能都做到全国的开放，这一部分我们称之为L3，一部分因为比L2要困难非常多，它的场景要丰富非常多，传统的L2范式就没办法在L3里去用。随着特斯拉的打样，它是开发出一条新的路，就让数据驱动。

比如说在所有的模块感知、规控都逐渐做成模型化，这里比较大家熟知的BEV的感知做到了比如说多传感器多摄像头的前融合，它的极致就是端到端。完整的端到端就从感知一直到跟踪、预测、决策、规划都做到模型化。这里比较有代表性的就是特斯拉的V12，做到了端到端的模型，不仅是完全模型化，而且可以做到端到端的可虚拟。即使做到了数据驱动或者端到端，是否就可以做到L4？我们自己的思考还是没法没法实现的。因为到了L4在任何的未知场景中，用户都不需要去做监管，因为我们在现实世界中，未知场景是无穷多的，尤其一些长尾的问题，通过数据驱动可能没办法去解决，数据驱动本身还是有了数据，我才能真正去理解，去场景里使用。对于L4来说，我们逐渐认识到可能需要一个新的范式，我们称之为这个知识驱动。

随着大语言模型的过去两年的火爆，其实在L4级别，车辆怎么去应对未知场景，我们可能就需要真正的对世界进行理解，有一定的这种常识去理解世界，我才能做到这个未知场景下才能安全的去驾驶，比如说刚刷的水泥地，如果是传统的数据推广方式，这样的场景非常少，而且我们的模型没有办法理解，如果有了这种超大的LLM 或者是多模态的视觉语言模型，他有这样的常识，他带着场景里他就可以去安全的做驾驶。

理想自动驾驶开发框架

我们现在做L3以及将来做L4都是基于这个框架去进行的，它跟人的思维非常接近，分成快慢系统，快系统就是system1，他是偏直觉，偏有点类似肌肉记忆或者是这种应激反应，我看到类似的场景，我就去执行这样的动作。这一part就是对于我们L3端到端的模型。很直观的就是传感器看到什么样的场景，我做出什么样的决策和动作。

人的另一part其实是慢思考，比如说我做思考题，我做应用题的时候，我需要一定的思考的时间，我们称之为System2，它主要是做一些逻辑的思考。刚才提到在L4的这种这种未知场景或者是复杂场景里，我们得具备这样的常识或者要上他的能力，这一块我们是可以去使用。所谓的认知模型就是偏 LLM去解决这一部分，是它提供了一个基础的一些世界的知识，形成对世界的一定的认知和逻辑思维，同时由于这个模型会比较大，我们还会做一些短期的一些知识的更新，比如通过一些外部去实现这个认证认证模型的一些快速的迭代，这两part结合在一起，但是我们觉得最终能解决L4的整体的车端的框架，除了车端的系统之外，我们还需要一个巨大的云端的试点模型，它的主要作用是去训练快慢系统跟物理世界去做交互，从中不断的去学习。

这个其实有点类似最近比较火爆的sora，它是一个生成式的世界模型，有了它之后，我们就可以通过一个闭环去训练我们的整体的车端的系统，中间的这些领域其实都是我们的数据闭环，有大量的这种数据和训练的快速迭代。

理想自动驾驶亮点介绍

接下来我会从这4个方面去介绍理想汽车，在这个自动驾驶的一些这种亮点，第一部分就是我们端到端的模型，落地的一些场落地的一些情况。第二部分是我们的认知模型，我们的一些预研的进展，然后第三部分是我们世界模型的一些进展，最后是把我们的这个增长的数据闭环里头的一些亮点介绍给大家。

第一部分端到端部分。其实我们做端到端模型已经很长一段时间了，其实业界最早的比如说基于BEV的 3D的一些感知、动态的感知、静态的感知，包括track模型化、前融合都是理想汽车最早一些工作，这也是业界的比较早的一些文章。

基于这些这些工作，我们其实去年量产我们的AD Max3.0推给了我们的全量用户，它的整体框架已经偏端到端，但是还没有完整的端到端，今年会把它作为一个彻底端到端。

它主要是分成三个大的模块，第一个其实是我们感知模型，这是一个大的BEV的感知模型，我们把所有的感知任务统一到一个模型里，包括静态、动态、通用障碍物，预测、决策和规划也做到了模型化，放到了一个模型里，这两部分我们会在今年会把他们的统一在一起，形成一个端到端可训的大模型。

然后另一部分其实在中国很挑战的是红绿灯，因为中国的红绿灯五花八门，各地的红绿灯的样式不同、规则不同，以前的做法是我们会把红绿灯检测出来，然后跟车道做一个关联匹配，然后才能得到本车道的红绿灯状态。

我们红绿灯部分其实是把 Temporal Planner彻底做成一个端到端的模型，进来就是我们的传感器，我们这个模型的输出就是本车道的红绿灯的状态或者意图。同样的一套框架，我们其实做到了这个行车和泊车的一体化。

在此过程中其实和英伟达的合作比较多主要是其中一块比较突出的工作是在我们车端的推理方面跟用它合作进行了一个推理的加速，从我们最早的9赫兹到现在21赫兹，这是我们整个模型方面，也是很感谢NV的帮助，把这个模型推理速度提升提升了很大一部分。

然后基于之上的一些工作，其实我们去年年底推送的AD Max3.0，其实在4个产品里面多少都实现了业界的顶尖水平。

第一个是全场景的NOA，这个全场景包括了高速和城区，城区里面包括了红绿灯路口的左右转，红绿灯的刹停和启停，然后还有包括比如说施工道路的这种避让，静止或者违章车的绕行。在LCC方面跟传统的LKA不一样的是我们的LCC可以做到红绿灯的启停，然后同时也可以做到直行车道上自动的超车变道，同时也可以实现施工路段以及这个违章车的绕行避让，这得益于我们软件的一体化，在泊车方面也得到了一个巨大的提升。除了传统的这个自动泊车之外，我们还实现了一个长距离的AVP，就是从下车过那一刻开始，它可以自动把你带到你的停车位，这期间比如说这有跟其他车的一些博弈、行人的博弈，甚至包括超载车道对其他车的倒车让行都已经能够实现。

同时在主动安全方面，我们也实现了业绩的顶尖的水平，现在我们基本已经就是说可以做到120km/h刹停，两轮车或者是三轮车可以做到100km/h的刹停，行人可能不做90km/h，除了这种正向的性能达到业界顶尖水平之外，这是远超行业标准的水平。那么在误触发方面我们要做到30万公里以上的误触发这个也是业界高的水平。去年的时候我们已经把城市NOA推给了20万的用户，这基本是中国大规模的城市NOA的推送，因为整体有20万的用户，大概去年年底是110城，现在已经做到114城。

随着我们的扩城，可能无论是在城市的数量上和这个覆盖率上也会逐渐提高，今年会把这个全国都开。

除了这个上面提到的L3端到端的一些进展，其实我们放了很多人在L4的一些预研上，刚才提到了第一点就是认知模型，我们会撤单，会跑一个慢系统，比如说快系统中可能有20赫兹，慢性的可能是5赫兹甚至1赫兹，做一些关键场景的决策。我们的方法然后是基于一个多模态的大语言模型，最近发表了一篇论文叫做Drive-VLM，它的思路是不需要任何其他的输入，从多模态语言模型直接出我们的这个规划结果，它是通过三阶段的CoT(注：基于推理的思想链) 去自动去检测，自动去做推理，比如现在的场景是什么？这里头这个场景里头对我的驾驶形成最关键的一些障碍物是什么？它跟我的交互关系是什么？

最后会输出我们叫Meta-action，其实是决策，就是说这个动作是什么样子，最后给出一个模型自动会给出一个三秒的规划结果。刚才提到这是我们的慢系统。结合刚才提到端到端的系统，我们形成了一个快慢系统，这个慢系统系统或者认知模型给出来的决策会和快系统结合在一起，最终给出一个更安全应对更多未知场景的一套系统。

整体的效果我们可以整体看一下，这收视模型直接无论里头框也好，还是底下的文字也好，都是模型自己给出来的，我看到了这样的场景，我会给出一个描述，然后最后给出decision，最后给出一个轨迹，直接一个模型，把所有的事情都做完。

我们在大量的这种corner case或者是L3或城市自动驾驶中遇到的一些这种问题中，都发现它其实对快系统的提升会非常非常多。大家可能关心的就是说LLM它太大了，怎么部署在车端？其实我们在跟nv的合作，一大部分工作也是在这个LLM在车上的加速，然后我们在Orin上已经部署，目前也取得了还不错的效果。

刚才提到除了我的快慢系统之外，还需要云端的世界模型去与车端去做交互训练它、验证它。最近大家SORA很火，因为它是个纯生成式，也看到它的一些问题，有些场景还是不太符合物理规律，所以我们的整体思路跟它有些差异，我们还是想在静态上通过重建，然后静态和动态一起生成，这样的话你在静态上更加符合物理规律，这样我们最近发表的一篇工作叫StreetGaussians，基本实现了实时的场景的重建和渲染。

这里可以看一下我们在在公开数据引擎上的一些表现，有了这个之后，我们其实可以做很多，不仅仅是做重建，我们可以做很多这种场景的支撑，比如说加入一些新的fair或者加入一些新的动态物体，这样就可以就是创造出无数的场景出来。

刚才提到了其实都是偏我们的算法和偏我们的整体的这个慢系统，但是中间串起来的是我们一个庞大的数据闭环的系统，我们基本实现了从数据的这种可以case的收集、自动化的挖掘、自动化的标注、自动化的训练，然后以及新的模型推到车端去做影子模式的验证，整套闭环已经做到非常高效。

随着我们朝L4做，其实一个很困难的点，就是说cornercase的挖掘，尤其是长尾的这种cornercase的挖掘怎么去实现？

传统咱们做挖掘就是通过一些规则去手写，然后去挖。比如说一些场景，比如说我们想挖掘一个骑行人打的雨伞，然后闯红灯横穿路口，这样场景就很难通过规则去匹配出来，我们也借鉴了多模态大语言模型的这个范式，做了一个工作叫BEV-CLIP，它也是个多模态的数据的检索这么一个引擎。我们通过大语言模型的能力，同时加入了自动驾驶的一些先验知识，然后训练了一个这种这个多模态的CLIP，通过这个CLIP我们就可以去类似刚才那种场景的一些复杂场景的一些检索，我们可以把这个场景以文字的方式描述出来，可以快速的找到我们想要的这样的场景。

对于数据闭环这边，云端其实NV方面的帮助也很大，我们跟他们在训练和云端的推理方面都做了很多的这种加速的工作，节省了我们大量的训练时间和推理时间，这时间其实就是资源和钱。

除了刚才提到的数据闭环能串起来我们整个的开发流程之外，其实对于车厂来说，因为我们有很多的车型，那车型之间的数据的复用和适配也是个很大的难点，我们也在NV的NeRF引擎之上，开发了一套数据复用的这么一个开关，我们比如说我们L9的一些数据，通过我们的重建，然后加上一些动态的编辑之后，我们形成新的场景，然后从通过新的Novelview projection投影到新的视角上，然后比如说Mega的传感器上，这样就形成了新的标注数据，这样我们很多历史数据都可以做出。

刚才讲了这个数据闭环，我刚才提到我们是国内最早做也是最大规模的，其实大家并没有太多概念，可以通过几个数字来看，其实我们现场全场景NOA已经达到了，这是年前的一个结果——4亿多公里。过年这期间其实现在已经涨到5亿多公里。除了这个数据之外，计算方面，尤其训练方面，也建设一个大的智驾的训练集群，现在达到了1.4亿FLOPS的计算能力，有了这些之后才能支撑上面快慢系统的快速迭代。