你的浏览器版本过低，可能导致网站不能正常访问！为了您能正常使用网站功能，请使用这些浏览器。

chrome

Firefox

浏览易车国际站

您是否想浏览中国自主品牌出口车型，可以为您切换到易车国际站。

去易车国际站

继续浏览当前页

工具栏

理想L8

中大型SUV指数排行第28名

深度 | 理想智驾端到端，数据练丹+考试真题？

作者：张抗抗KK
2024-08-04 15:16

8月2日，我前往北京顺义的理想汽车总部，和数家专业媒体一起，与理想智驾总负责人郎咸朋，端到端总负责人贾鹏进行了深入交流，并进行了实车体验。

智驾做得好不好，最终的评价指标还是实战评测。本次交流并不涉及到体验评测，从我个人角度来说是一次学习之旅，在此也将交流心得整理分享给大家，供批评指正。

一、理解「端到端」

1、感知-规划-控制

特斯拉FSD的v12版取得长足进步之后，「端到端」就成了国内车企兵家必争的技术名词。这个概念本来就抽象难理解，再成为营销争夺的名词，那就更加扑朔迷离了。

究竟「端到端」做到了什么程度？我们不可能拆开芯片看代码，但可以去观察组织结构变化和流程变更，这都是实实在在的具象事物，更容易观察。

智能驾驶通过由感知-规划-控制三个环节构成，每个环节都对应一群研发人员。

根据软件版本的进度不同，他们齐心协力去攻克不同的智驾场景，使可用范围不断变大。以高速场景为例，小鹏在2021年初就基本搞定了，但直至目前为止几乎所有车企都还搞不定收费站的子场景。

典型工作流程以制定场景需求目标为起点，以完成测试验证为终点。每个环节都需要人员投入，每个场景的增加都需要重复以上过程。其优势为需求目标明确、验证过程清晰。

2、端到端

「端到端」不再将感知、规划、控制给切割开，而是One Model作为一个整体来发挥作用：接收输入端的传感器信号与车辆信息之后，直接输出方向盘转角、踏板深度、悬架控制等车控信号。

由此得到「端到端」的一种直观解释：从输入端直接到输出端，那就是端到端。

郎咸朋作了补充：现阶段并非直接输出车控信号，而是输出轨迹信号。我个人理解，One Model目前涵盖了感知和规划环节，还没有涵盖控制环节。

上个月的理想智驾发布会，其实也提到了这一点。如下图的One Model端到端，右侧的输出信号也是轨迹。

既然都做One Model了，为啥不做得更彻底一些，将控制环节也做进One Model里呢？聊到这里，我们就需要探讨「端到端」的本质了。

3、端到端的本质特征

个人认为，「端到端」的本质是信息的无损传递。传统智驾研发中，感知环节将工作结果总结成「显性表达」：前方30米有一辆车，左前方有一个不明障碍物，右侧有路沿。

这种显性表达的信息越明确，它丢失的信息就越多；显性表达的信息越丰富，对系统硬件和前期研发资源的消耗就越大。

举个例子，你开车行驶在道路上，突然右前方冲出一只狂奔的狗。你赶紧向左打方向盘，中途转为紧急向右打方向盘，最终避开了撞到狗。坐在副驾的朋友问你，为啥要这样操作。

你回答：狗从右侧冲出来，所以本能向左打方向盘躲避；过程中瞥了一眼后视镜发现后方有快车，为避免碰撞所以紧急变更为向右打方向盘的操作。

实际上，你的大脑记录了所有的图像信息，然后做出的直觉式判断，这就是「端到端」的操作。而你回答朋友的描述，是从记录的信息中努力提取的「显性表达」。

这是人类交流的必要手段（毕竟两个人的大脑并不能直接传输信息），但实际上丢失了大量已知信息；若提取的「显性表达」稍有出入，那就做不出正确的车控动作。

「端到端」倾向于以不可言传、只可意会「隐性表达」来传递全局信息，就能做出更好的判断。从「显性」到「隐性」，大家可能会觉得有点反直觉；但如果你研究过偏微分方程组，就会发现这再自然不过了。

因为绝大部分偏微分方程组没有「显性表达」的解析解，我第一次领悟到这一点时甚至有点沮丧：这个曲线明明是存在的、确定性的，为什么没有显性表达式呢？后来逐渐接受了这样的世界。

既然「端到端」的本质是信息的无损传递，那么One Model不包括控制环节也就可以理解了。个人认为原因有三：

适配性更好：不同车型的动力学模型不同，输出轨迹具有更好的车型适配性。
强安全相关：越接近控制，就越安全相关。从轨迹到控制，要塞进去大量的安全兜底措施。如果放进了One Model，这就更不好做了。
确定性较高：不严谨地说，已知轨迹目标，根据高中物理知识就可以算出车控信号。这是一个确认性很强的物理题，没必要用端到端来做。

4、理想的双系统

「端到端」是一位开车高手，但社会经验不足。例如，单车道遇到前方车祸，跨实线到对向车道绕行会扣分吗？

新手司机也会面临这样的疑问，但副驾的老司机会告诉他答案：可以的，不会扣分，就算扣分也可以去申诉！

老司机如何获得这样的社会经验的，是因为在赛道场上练了十年吗？

非也，这种训练方式，就算练成F1冠军也获得不了这样的社会经验，「端到端」也训练不出这样的社会经验（至少短期不能）。

为解决这一问题，理想在「端到端」基础上嫁接了一个VLM视觉语言大模型。

VLM视觉语言大模型，其功能就是以视觉模型理解自己看到了什么，以语言模型来描述看到的东西、并查询相应的应对措施。

两个系统的配合方式为：系统1遇到复杂场景时，以Prompt提示词、图像搜索、视频搜索的方式向系统2征询意见，系统2以老司机的身份来给出决策意见 —— 去压实线吧，不会扣分的。

二、研发体系的变化

在闭关完成双系统之后，理想智驾团队的主要工作人员就投入到了一头一尾两个环节了，即「数据练丹」+「考试真题」。

这次理想智驾专访活动持续四天，每天两场，也就是说郎咸朋和贾鹏整整一周时间投入到媒体交流上。

这可能就与双系统完成之后，投入到端到端模型上的工作任务大大降低有关。

1、数据练丹：钱+数据

关于「数据练丹」。有人问，选择什么样的数据来训练双系统？

郎博回答，可能是大力出奇迹。马斯克说得没错，喂100万Clips(视频片段)能用、300万Clips好用、1000万Clips让人惊讶！

目前推送的千人早鸟版本是100万Clips的训练结果，他们并没有专门训练环岛场景，但「端到端」突然就自己学会环岛场景了！

这就像养娃的过程，某天早上娃突然会叫爸爸了一样，让人惊讶、让人欣喜。你问娃怎么学会的？他答不出来。

这个环节需要钱，估算过目前每年至少需要10亿人民币的投入。如果目标是自动驾驶，那就每年需要投入10亿美元。

都是练丹，为啥有的道士成了张三丰，有的道士只能在崂山混混呢？

这个环节也需要技术与经验，因为练丹也不是瞎练的，需要不断调整Clips的配比，才能练出好药来。

前几天何小鹏和李力耘也表达过，以前需要的人才是写代码又快又好，讲究的是人才的密度；现在需要的人才是「AI驯兽师」，不再讲究人才的数量，而讲究人才的高度。

郎博说投入是值得的，因为喂数据以提升体验这个过程，目前还看不到尽头、目前投入产出还是非常好的！如果哪天到尽头了，那就真到了技术研发的无人区了。

2、考试真题：虚拟仿真验证

关于「考试真题」。有三个来源，一是真题库，比如环岛场景；二是错题库，通过接管、急刹等行为来识别；三是模拟题，主要通过重建+生成的世界模型来覆盖更大的广度。

我提了一个问题：为什么蔚小理今年都特别强调虚拟仿真验证呢？

郎博回答，这是研发体系的变化。以前搞定一个场景的标志，就是测试验证通过，虚拟仿真只是一种补充；现在不一样了，就像高考一样，只要出题水平高，那短短几个小时就能识别出一个人的真正能力。

现在虚拟仿真验证就是高考，它出题水平高低，直接决定了通过考试的是草包还是天才。

贾鹏回答，这是因为虚拟仿真技术有了长足进步，比如，以前的仿真只是「仿真」，只能作为补充；现在的仿真是「以假乱真」。

我想想也有道理，以前我的显卡是3060，打游戏知道那是游戏；现在用的显卡4090，一些3A大作那确实是「以假乱真」，如果还是360度的物理世界模型，那我估计从《黑客帝国》的Matrix里逃不出来。

贾鹏同时强调，Sora很强大，但纯粹的生成式模型会产生太多幻觉，效率很低。因此他们采用了真实物理世界的重建+生成的方式。

关于评分标准，根据驾驶安全性、平顺性来综合打分，得分前3%的"老司机"AI才会交给用户。现场我问了一个问题，老司机也许有不同风格，会不会给出千人千面的答案。

郎博回答不会，原因之一是理想为家庭服务。我想想也有道理，好的奶爸开车总是相似的，而鬼火少年的莽撞则各有不同。

同理，理想也不会做Robotaxi(至少目前是)，原因也是这不能服务于"移动的家，理想的家"这一理念。

3、感叹

当大家聚集于感知-规划-控制整合成One Model端到端时，可能忽略了AI大模型发挥巨大作用在One Model之外的一头一尾两个环节：「数据练丹」+「考试真题」。

AI正在决战于千里之外。

三、小步快跑是否短视？

现场，郎博分享了理想智驾「一年调整三次」的心路历程。我听起来，个人观感他讲得相当坦承。

从有图高速到有图城区：思路是既然高速可行，那就把技术方案拿到城区试试。结果大家也知道了，高精地图就那几个城市，无法做到全国。
从有图到NPN：既然全国的高精地图不可获得，那就退而求其次，采用NPN的先验信息。后来实践结果是，只要用到先验信息，就会遇到鲜度的问题，很难解决、或解决的性价比很低。
从NPN到无图：也就是现在第一梯队的主流方案。前一段时间我去体验了理想的无图NOA，已经做得非常好了。很难说这就是数一数二了，但对理想来说简直就是飞跃进步，而且也让大家相信：理想可以搞定智驾，只是早晚问题。
从无图到端到端：也就是现在千人早鸟版本。今天和大家分享的是理想智驾的技术体系，至于这套体系效果如何，能排第几名，那需要去观察实际上路的表现。

一年变三次技术路线，这种「小步快跑」的方式听起来相当儿戏，也肯定和「长期主义」无缘。

实际上，他们在这些调整过程中一直保持着一个主线目标，那就是自动驾驶。哪种路径更好，那就毫不犹豫地去调整。

但「小步快跑」的好处就在于，一条路走不走得通、适不适合自己，很快就可以撞到南墙来迅速调整方向，节省了时间就是节省了大量的研发经费。

这种模式的执行难度也很大，时间紧、任务重，需要团队具备很强的战斗力，还需要一个赏罚分明的领导。此外，根据我多年旅居北京和上海的经验来看，我认为北京的工作氛围确实也更"奋斗"一些。

现在来看，理想智驾能否战胜行业所有玩家，这是要打一个问号的！但最起码可以肯定的是，「小步快跑」的方式帮助理想战胜了从前的自己。

如果一种方法论最终证明有效，那「始终坚持小步快跑」、「始终坚持实事求是」也许也是一种「长期主义」。

欢迎留言批评指正，我会一一回复。

标签: 理想理想L8 智驾

内容由作者提供，不代表易车立场

收藏成功 ! 去易车app查看收藏文章

猜你想看

排行榜

相关资讯

CopyRight © 2000-2023 BitAuto,All Rights Reserved. 版权所有北京易车信息科技有限公司购车咨询：4000-168-168 (周一至周日 9:00 – 21:00) 法定假日除外