李想：三季度推出无图NOA L4级别自动驾驶三年内可以实现

原创
作者：易车原创报道许振宇YC
2024-06-08 14:11
2.88万

易车讯 6月8日，理想汽车人CEO李想出席了2024中国汽车重庆论坛并发表演讲。李想表示，理想汽车将在今年三季度推出无图NOA，最早今年年底最晚明年年初，推出基于理想自研大模型和VLM视觉模型的L3级自动驾驶系统。李想进一步强调，随着这套技术的演进、算力的增强、模型的加大，无监督的L4级别自动驾驶至少三年内一定可以实现。

以下为演讲原文：

李想表示在过去半年多的时间里，理想汽车做出的一项关于自动驾驶的技术突破，他强调这里的自动驾驶不是智能驾驶，也不是辅助驾驶，而是自动驾驶。李想进一步谈到，我们内部从去年9月份开始思考一个问题，并为此专门建立了一个用于自动驾驶研究的团队。这个问题是人类开车为什么不涉及学习corner case（极端情况）？如果我们不能解决这个问题，所有的自动驾驶团队每天干的活，都是靠人工去调试各种各样的corner case，而且放的人越多，corner case越多，和真正的自动驾驶就越遥远。

首先从理论的角度，我们先是从一本书《思考，快与慢》里得到了启示。《思考，快与慢》讲述了我们的大脑日常在工作的时候，分为系统一和系统二。系统一来处理一些需要直觉、快速响应的事情。就像很多时候我们在开车，开了10分钟、20分钟、30分钟，脑子里在想别的事情，但是我们仍然能够处理路上的各种路况。开到家的时候忘记了过去这半个小时我们是怎么工作的，这时候意味着我们用系统一在工作，并不是我们的大脑不在工作，而是我们大脑以一种它独有的方式，低能耗的方式在工作。

当我们去到一个复杂路况，比如一个十字路口，或者开车的时候遇到一个水坑，这时候我们的大脑就会调用系统二来工作，用它来处理这种比较复杂的逻辑推演的能力，但是它对大脑消耗比较大，所以不会一直用系统二的方式进行开车。解决各种复杂路况、泛化问题和未知问题，大脑会启用系统二来进行工作。正常情况我们开车的时候基本上95%的时间在使用系统一，5%的时间使用来系统二，所以人脑每天并不需要很多的功耗，人也不需要学习corner case，就能学会开车。

这时候我们在想，如果人类是这样的工作方式，那么自动驾驶应该怎么工作呢？什么是自动驾驶的系统一？什么是自动驾驶的系统二？我们随着对各种技术研究，自动驾驶的系统一其实是现在很多自动驾驶团队都在做的端到端的技术。端到端意味着把完整的训练片段放进来，最后产生的结果是，输入直接产生输出，而不是像过往的要分成一个感知模块、一个规划模块、一个决策的模块、一个执行的模块。

（端到端）这样的效率更高，但是挑战也来了，各种人类的规则不会发挥作用。它的挑战主要来自于三个方面：第一个是需要有真正会做端到端，包含端到端数据训练的人才；第二个需要真正高质量的数据；第三个需要有足够多的算力。

因为端到端对于算力的需求和以往比，变得完全不一样了。我们过去在端到端方面做的研究测试中，放了大概100万的clips（预训练模型），用于端到端的训练。大概一个月只需要做10轮左右的训练，训练卡（Training GPU ）要足够多，基本上可以完成一个无图NOA相同上限的水平。

但是面对中国复杂路况，只有端到端不够，所以我们思考什么是系统二。系统二的一个启发是，人类解决各种各样的corner case和各种泛化问题，并不是通过学习corner case。（我身边的）一个明显案例和启发是来源于我的爱人。我爱人刚学会开车后在很长一段时间甚至连续很多年，不停地剐蹭。我和她分析下一次怎么不再剐蹭，其实没有用，下一次还是剐蹭。我就在想，是不是因为买的车个头太大了，一辆宝马X6，所以我换辆小车，换一辆高尔夫GTI，她仍然会刮蹭。

这时候我们会发现学习corner case没有用，我们能不能通过提升能力的方式来解决，所以当时给我爱人报了宝马驾驶培训初级班。宝马驾驶培训初级班一整天通过各种各样的方式只教了两个（内容），第一个是赛道过弯、绕桩、处理环形路面的时候、打转向之前，眼睛看往哪里，不是看即将通过的路口而是看接下来要去的地方；另外一个能力，就是在各种复杂的场景里如何把刹车踩到底，包含在湿滑路面，转弯路面、一半钢板一半道路的路面，如何把刹车踩到底，从而提升一个人对于整车刹车能力的认知。所以宝马驾驶培训初级班一整天时间只教了两个事情，第一个是教看路的能力，第二个是教刹车的能力，没有教任何的corner case。经过一天的训练，我爱人彻底和剐蹭告别了，在接下来十几年里没有出现任何剐蹭。这是人类学习开车的一个方式，我们考虑如何把这样的一套能力给到车上。我们看到一个很重要的技术是VLM的视觉语言模型。为什么不是视觉大语言模型，而是视觉语言模型，是因为没有办法把一个大模型放在云端让车使用，因为响应速度会有比较大的风险。

所以如何把视觉大语言模型进行足够压缩，最后能够放到车上，能够面对没有红绿灯的左转路口提前做出预判，知道这个路口如何进行特殊处理，进行复杂的处理。它还有另外一个重要功能，就是告别高精地图，告别所有轻图在内的方式。为什么？因为视觉语言模型还有一个最重要的功能，就是能够像人类一样去读懂导航地图，导航地图的横向、纵向、速度、时间，包含红绿灯，哪怕有车辆遮挡红绿灯也不会再成为问题。

我们发现可以有效地通过视觉语言模型来解决系统二的问题。一方面为端到端进行兜底，另外一方面能解决各种各样的泛化问题。我们发现非常有意思，我们AD max有两颗Orin-X芯片，正好一个Orin-X芯片跑端到端，另外一颗Orin-X芯片可以运行一个压缩到大概20亿规模的VLM模型。我们验证的结果其实是令人非常兴奋的，我们认为最早在今年年底，最晚在明年上半年，真正的L3我对L3的定义是有监督的自动驾驶，就可以批量向用户交付了，而不是只用于做实验。

解决这两个问题以后，其实还有第三个问题。因为端到端是黑盒子，VLM其实也是黑盒子，它跟过去我们在做智能驾驶、辅助驾驶的一个最大不同是，它不再是功能而是能力。我觉得AI最大的差别是能力，而过去的编程体系，最重要的是功能，因为功能在过去是要通过测试和实验来验证的。但是能力，一个黑盒子怎么拿测试和实验来验证？这是不可能的。所以这时候面临的一个新的挑战是，我们用什么样的技术方式来验证能力？这时候我们又找到了一个新的方式，主要的原理是来自于Sora，我们用Diffusion Transformers (DiTs）的方式来构建一个重要的、小型的世界模型，拿这个世界模型，让我们的车在里面考试。

所以，我们模拟人的一套真正的工作原理就开始呈现了。用端到端来承载人的系统一，VLM来承载人的系统二。系统一来解决所有自动驾驶的，这些正常的反应和驾驶的能力，系统二来解决兜底和泛化的能力，并应用生成式的小的世界模型来进行考试。这是我们在过去的一段时间里，做的最重要的一个技术性的突破，而且我们的研究团队已经通过了正常的研究验证。

李想表示将在今年第三季度推出全国无图NOA，并同步向测试用户推出通过300万clips训练出来的端到端+VLM的监督型自动驾驶体系。最早会在今年年底，最晚明年年初，我们会推出大概通过超过1000万clips训练出来的端到端+VLM，整个带有监督的自动驾驶的体系，我们认为这套体系会是未来整个物理世界机器人最重要的技术架构和技术体系。

李想进一步谈到，接下来的一段时间里，在AI方面的几个关键的技术论坛，我们的技术研究团队也会向整个行业来分享我们对这方面的所有的研究，包括这里的原理和实际结果，把我们进行的一些探索与同行们进行分享。

李想认为，通过这套技术，带有监督的L3级别自动驾驶是100%可以实现的，最早今年年底最晚明年年初，带有监督的L3级别自动驾驶就可以批量向用户交付。而且随着这套技术的演进，算力的增强，模型的加大，李想认为无监督的L4级别自动驾驶至少三年内一定可以实现。