你的浏览器版本过低,可能导致网站不能正常访问!为了您能正常使用网站功能,请使用这些浏览器。
chrome
Firefox

浏览易车国际站

您是否想浏览中国自主品牌出口车型,可以为您切换到易车国际站。

去易车国际站
继续浏览当前页

工具栏

深度 | 理想智驾端到端,数据练丹+考试真题?

8月2日,我前往北京顺义的理想汽车总部,和数家专业媒体一起,与理想智驾总负责人郎咸朋,端到端总负责人贾鹏进行了深入交流,并进行了实车体验。

智驾做得好不好,最终的评价指标还是实战评测。本次交流并不涉及到体验评测,从我个人角度来说是一次学习之旅,在此也将交流心得整理分享给大家,供批评指正。

一、理解「端到端」

1、感知-规划-控制

特斯拉FSD的v12版取得长足进步之后,「端到端」就成了国内车企兵家必争的技术名词。这个概念本来就抽象难理解,再成为营销争夺的名词,那就更加扑朔迷离了。

究竟「端到端」做到了什么程度?我们不可能拆开芯片看代码,但可以去观察组织结构变化和流程变更,这都是实实在在的具象事物,更容易观察。

智能驾驶通过由感知-规划-控制三个环节构成,每个环节都对应一群研发人员

根据软件版本的进度不同,他们齐心协力去攻克不同的智驾场景,使可用范围不断变大。以高速场景为例,小鹏在2021年初就基本搞定了,但直至目前为止几乎所有车企都还搞不定收费站的子场景。

典型工作流程以制定场景需求目标为起点,以完成测试验证为终点。每个环节都需要人员投入,每个场景的增加都需要重复以上过程。其优势为需求目标明确、验证过程清晰。

2、端到端

「端到端」不再将感知、规划、控制给切割开,而是One Model作为一个整体来发挥作用:接收输入端的传感器信号与车辆信息之后,直接输出方向盘转角、踏板深度、悬架控制等车控信号

由此得到「端到端」的一种直观解释:从输入端直接到输出端,那就是端到端。

郎咸朋作了补充:现阶段并非直接输出车控信号,而是输出轨迹信号。我个人理解,One Model目前涵盖了感知和规划环节,还没有涵盖控制环节。

上个月的理想智驾发布会,其实也提到了这一点。如下图的One Model端到端,右侧的输出信号也是轨迹。

既然都做One Model了,为啥不做得更彻底一些,将控制环节也做进One Model里呢? 聊到这里,我们就需要探讨「端到端」的本质了。

3、端到端的本质特征

个人认为,「端到端」的本质是信息的无损传递。传统智驾研发中,感知环节将工作结果总结成「显性表达」:前方30米有一辆车,左前方有一个不明障碍物,右侧有路沿。

这种显性表达的信息越明确,它丢失的信息就越多;显性表达的信息越丰富,对系统硬件和前期研发资源的消耗就越大。

举个例子,你开车行驶在道路上,突然右前方冲出一只狂奔的狗。你赶紧向左打方向盘,中途转为紧急向右打方向盘,最终避开了撞到狗。坐在副驾的朋友问你,为啥要这样操作。

你回答:狗从右侧冲出来,所以本能向左打方向盘躲避;过程中瞥了一眼后视镜发现后方有快车,为避免碰撞所以紧急变更为向右打方向盘的操作。

实际上,你的大脑记录了所有的图像信息,然后做出的直觉式判断,这就是「端到端」的操作。而你回答朋友的描述,是从记录的信息中努力提取的「显性表达」。

这是人类交流的必要手段(毕竟两个人的大脑并不能直接传输信息),但实际上丢失了大量已知信息;若提取的「显性表达」稍有出入,那就做不出正确的车控动作。

「端到端」倾向于以不可言传、只可意会「隐性表达」来传递全局信息,就能做出更好的判断。从「显性」到「隐性」,大家可能会觉得有点反直觉;但如果你研究过偏微分方程组,就会发现这再自然不过了。

因为绝大部分偏微分方程组没有「显性表达」的解析解,我第一次领悟到这一点时甚至有点沮丧:这个曲线明明是存在的、确定性的,为什么没有显性表达式呢?后来逐渐接受了这样的世界。

既然「端到端」的本质是信息的无损传递,那么One Model不包括控制环节也就可以理解了。个人认为原因有三:

  • 适配性更好:不同车型的动力学模型不同,输出轨迹具有更好的车型适配性。
  • 强安全相关:越接近控制,就越安全相关。从轨迹到控制,要塞进去大量的安全兜底措施。如果放进了One Model,这就更不好做了。
  • 确定性较高:不严谨地说,已知轨迹目标,根据高中物理知识就可以算出车控信号。这是一个确认性很强的物理题,没必要用端到端来做。

4、理想的双系统

「端到端」是一位开车高手,但社会经验不足。例如,单车道遇到前方车祸,跨实线到对向车道绕行会扣分吗?

新手司机也会面临这样的疑问,但副驾的老司机会告诉他答案:可以的,不会扣分,就算扣分也可以去申诉!

老司机如何获得这样的社会经验的,是因为在赛道场上练了十年吗?

非也,这种训练方式,就算练成F1冠军也获得不了这样的社会经验,「端到端」也训练不出这样的社会经验(至少短期不能)。

为解决这一问题,理想在「端到端」基础上嫁接了一个VLM视觉语言大模型。

VLM视觉语言大模型,其功能就是以视觉模型理解自己看到了什么,以语言模型来描述看到的东西、并查询相应的应对措施。

两个系统的配合方式为:系统1遇到复杂场景时,以Prompt提示词、图像搜索、视频搜索的方式向系统2征询意见,系统2以老司机的身份来给出决策意见 —— 去压实线吧,不会扣分的


二、研发体系的变化

在闭关完成双系统之后,理想智驾团队的主要工作人员就投入到了一头一尾两个环节了,即「数据练丹」+「考试真题」

这次理想智驾专访活动持续四天,每天两场,也就是说郎咸朋和贾鹏整整一周时间投入到媒体交流上。

这可能就与双系统完成之后,投入到端到端模型上的工作任务大大降低有关。

1、数据练丹:钱+数据

关于「数据练丹」。有人问,选择什么样的数据来训练双系统?

郎博回答,可能是大力出奇迹。马斯克说得没错,喂100万Clips(视频片段)能用、300万Clips好用、1000万Clips让人惊讶!

目前推送的千人早鸟版本是100万Clips的训练结果,他们并没有专门训练环岛场景,但「端到端」突然就自己学会环岛场景了!

这就像养娃的过程,某天早上娃突然会叫爸爸了一样,让人惊讶、让人欣喜。你问娃怎么学会的? 他答不出来。

这个环节需要钱,估算过目前每年至少需要10亿人民币的投入。如果目标是自动驾驶,那就每年需要投入10亿美元。

都是练丹,为啥有的道士成了张三丰,有的道士只能在崂山混混呢?

这个环节也需要技术与经验,因为练丹也不是瞎练的,需要不断调整Clips的配比,才能练出好药来。

前几天何小鹏和李力耘也表达过,以前需要的人才是写代码又快又好,讲究的是人才的密度;现在需要的人才是「AI驯兽师」,不再讲究人才的数量,而讲究人才的高度。

郎博说投入是值得的,因为喂数据以提升体验这个过程 ,目前还看不到尽头、目前投入产出还是非常好的!如果哪天到尽头了,那就真到了技术研发的无人区了。

2、考试真题:虚拟仿真验证

关于「考试真题」。有三个来源,一是真题库,比如环岛场景;二是错题库,通过接管、急刹等行为来识别;三是模拟题,主要通过重建+生成的世界模型来覆盖更大的广度。

我提了一个问题:为什么蔚小理今年都特别强调虚拟仿真验证呢

郎博回答,这是研发体系的变化。以前搞定一个场景的标志,就是测试验证通过,虚拟仿真只是一种补充;现在不一样了,就像高考一样,只要出题水平高,那短短几个小时就能识别出一个人的真正能力。

现在虚拟仿真验证就是高考,它出题水平高低,直接决定了通过考试的是草包还是天才

贾鹏回答,这是因为虚拟仿真技术有了长足进步,比如,以前的仿真只是「仿真」,只能作为补充;现在的仿真是「以假乱真」。

我想想也有道理,以前我的显卡是3060,打游戏知道那是游戏;现在用的显卡4090,一些3A大作那确实是「以假乱真」,如果还是360度的物理世界模型,那我估计从《黑客帝国》的Matrix里逃不出来。

贾鹏同时强调,Sora很强大,但纯粹的生成式模型会产生太多幻觉,效率很低。因此他们采用了真实物理世界的重建+生成的方式。

关于评分标准,根据驾驶安全性、平顺性来综合打分,得分前3%的"老司机"AI才会交给用户。现场我问了一个问题,老司机也许有不同风格,会不会给出千人千面的答案。

郎博回答不会,原因之一是理想为家庭服务。我想想也有道理,好的奶爸开车总是相似的,而鬼火少年的莽撞则各有不同。

同理,理想也不会做Robotaxi(至少目前是),原因也是这不能服务于"移动的家,理想的家"这一理念。

3、感叹

当大家聚集于感知-规划-控制整合成One Model端到端时,可能忽略了AI大模型发挥巨大作用在One Model之外的一头一尾两个环节:「数据练丹」+「考试真题」

AI正在决战于千里之外。


三、小步快跑是否短视?

现场,郎博分享了理想智驾「一年调整三次」的心路历程。我听起来,个人观感他讲得相当坦承。

  • 从有图高速到有图城区:思路是既然高速可行,那就把技术方案拿到城区试试。结果大家也知道了,高精地图就那几个城市,无法做到全国。
  • 从有图到NPN:既然全国的高精地图不可获得,那就退而求其次,采用NPN的先验信息。后来实践结果是,只要用到先验信息,就会遇到鲜度的问题,很难解决、或解决的性价比很低。
  • 从NPN到无图:也就是现在第一梯队的主流方案。前一段时间我去体验了理想的无图NOA,已经做得非常好了。很难说这就是数一数二了,但对理想来说简直就是飞跃进步,而且也让大家相信:理想可以搞定智驾,只是早晚问题。
  • 从无图到端到端:也就是现在千人早鸟版本。今天和大家分享的是理想智驾的技术体系,至于这套体系效果如何,能排第几名,那需要去观察实际上路的表现。

一年变三次技术路线,这种「小步快跑」的方式听起来相当儿戏,也肯定和「长期主义」无缘。

实际上,他们在这些调整过程中一直保持着一个主线目标,那就是自动驾驶。哪种路径更好,那就毫不犹豫地去调整。

但「小步快跑」的好处就在于,一条路走不走得通、适不适合自己,很快就可以撞到南墙来迅速调整方向,节省了时间就是节省了大量的研发经费。

这种模式的执行难度也很大,时间紧、任务重,需要团队具备很强的战斗力,还需要一个赏罚分明的领导。此外,根据我多年旅居北京和上海的经验来看,我认为北京的工作氛围确实也更"奋斗"一些。

现在来看,理想智驾能否战胜行业所有玩家,这是要打一个问号的!但最起码可以肯定的是,「小步快跑」的方式帮助理想战胜了从前的自己。

如果一种方法论最终证明有效,那「始终坚持小步快跑」、「始终坚持实事求是」也许也是一种「长期主义」。

欢迎留言批评指正,我会一一回复。

内容由作者提供,不代表易车立场

收藏

收藏成功 ! 去易车app查看收藏文章

猜你想看

+加载更多

活动推荐

广告
  • 奖 
  • 抢 
  • 奖 

相关车型

CopyRight © 2000-2023 BitAuto,All Rights Reserved. 版权所有 北京易车信息科技有限公司    购车咨询:4000-168-168 (周一至周日 9:00 – 21:00) 法定假日除外