'+e.name+'
'+e.price+"
"}),t+=""),this.asideContentDom.innerHTML=this.asideContentDom.innerHTML+t,yicheUtils.initLazyLoad()},showToolBox:function(e){var t='8月2日,我前往北京顺义的理想汽车总部,和数家专业媒体一起,与理想智驾总负责人郎咸朋,端到端总负责人贾鹏进行了深入交流,并进行了实车体验。
智驾做得好不好,最终的评价指标还是实战评测。本次交流并不涉及到体验评测,从我个人角度来说是一次学习之旅,在此也将交流心得整理分享给大家,供批评指正。
一、理解「端到端」
1、感知-规划-控制
特斯拉FSD的v12版取得长足进步之后,「端到端」就成了国内车企兵家必争的技术名词。这个概念本来就抽象难理解,再成为营销争夺的名词,那就更加扑朔迷离了。
究竟「端到端」做到了什么程度?我们不可能拆开芯片看代码,但可以去观察组织结构变化和流程变更,这都是实实在在的具象事物,更容易观察。
智能驾驶通过由感知-规划-控制三个环节构成,每个环节都对应一群研发人员。
根据软件版本的进度不同,他们齐心协力去攻克不同的智驾场景,使可用范围不断变大。以高速场景为例,小鹏在2021年初就基本搞定了,但直至目前为止几乎所有车企都还搞不定收费站的子场景。
典型工作流程以制定场景需求目标为起点,以完成测试验证为终点。每个环节都需要人员投入,每个场景的增加都需要重复以上过程。其优势为需求目标明确、验证过程清晰。
2、端到端
「端到端」不再将感知、规划、控制给切割开,而是One Model作为一个整体来发挥作用:接收输入端的传感器信号与车辆信息之后,直接输出方向盘转角、踏板深度、悬架控制等车控信号。
由此得到「端到端」的一种直观解释:从输入端直接到输出端,那就是端到端。
郎咸朋作了补充:现阶段并非直接输出车控信号,而是输出轨迹信号。我个人理解,One Model目前涵盖了感知和规划环节,还没有涵盖控制环节。
上个月的理想智驾发布会,其实也提到了这一点。如下图的One Model端到端,右侧的输出信号也是轨迹。
既然都做One Model了,为啥不做得更彻底一些,将控制环节也做进One Model里呢? 聊到这里,我们就需要探讨「端到端」的本质了。
3、端到端的本质特征
个人认为,「端到端」的本质是信息的无损传递。传统智驾研发中,感知环节将工作结果总结成「显性表达」:前方30米有一辆车,左前方有一个不明障碍物,右侧有路沿。
这种显性表达的信息越明确,它丢失的信息就越多;显性表达的信息越丰富,对系统硬件和前期研发资源的消耗就越大。
举个例子,你开车行驶在道路上,突然右前方冲出一只狂奔的狗。你赶紧向左打方向盘,中途转为紧急向右打方向盘,最终避开了撞到狗。坐在副驾的朋友问你,为啥要这样操作。
你回答:狗从右侧冲出来,所以本能向左打方向盘躲避;过程中瞥了一眼后视镜发现后方有快车,为避免碰撞所以紧急变更为向右打方向盘的操作。
实际上,你的大脑记录了所有的图像信息,然后做出的直觉式判断,这就是「端到端」的操作。而你回答朋友的描述,是从记录的信息中努力提取的「显性表达」。
这是人类交流的必要手段(毕竟两个人的大脑并不能直接传输信息),但实际上丢失了大量已知信息;若提取的「显性表达」稍有出入,那就做不出正确的车控动作。
「端到端」倾向于以不可言传、只可意会「隐性表达」来传递全局信息,就能做出更好的判断。从「显性」到「隐性」,大家可能会觉得有点反直觉;但如果你研究过偏微分方程组,就会发现这再自然不过了。
因为绝大部分偏微分方程组没有「显性表达」的解析解,我第一次领悟到这一点时甚至有点沮丧:这个曲线明明是存在的、确定性的,为什么没有显性表达式呢?后来逐渐接受了这样的世界。
既然「端到端」的本质是信息的无损传递,那么One Model不包括控制环节也就可以理解了。个人认为原因有三:
4、理想的双系统
「端到端」是一位开车高手,但社会经验不足。例如,单车道遇到前方车祸,跨实线到对向车道绕行会扣分吗?
新手司机也会面临这样的疑问,但副驾的老司机会告诉他答案:可以的,不会扣分,就算扣分也可以去申诉!
老司机如何获得这样的社会经验的,是因为在赛道场上练了十年吗?
非也,这种训练方式,就算练成F1冠军也获得不了这样的社会经验,「端到端」也训练不出这样的社会经验(至少短期不能)。
为解决这一问题,理想在「端到端」基础上嫁接了一个VLM视觉语言大模型。
VLM视觉语言大模型,其功能就是以视觉模型理解自己看到了什么,以语言模型来描述看到的东西、并查询相应的应对措施。
两个系统的配合方式为:系统1遇到复杂场景时,以Prompt提示词、图像搜索、视频搜索的方式向系统2征询意见,系统2以老司机的身份来给出决策意见 —— 去压实线吧,不会扣分的。
二、研发体系的变化
在闭关完成双系统之后,理想智驾团队的主要工作人员就投入到了一头一尾两个环节了,即「数据练丹」+「考试真题」。
这次理想智驾专访活动持续四天,每天两场,也就是说郎咸朋和贾鹏整整一周时间投入到媒体交流上。
这可能就与双系统完成之后,投入到端到端模型上的工作任务大大降低有关。
1、数据练丹:钱+数据
关于「数据练丹」。有人问,选择什么样的数据来训练双系统?
郎博回答,可能是大力出奇迹。马斯克说得没错,喂100万Clips(视频片段)能用、300万Clips好用、1000万Clips让人惊讶!
目前推送的千人早鸟版本是100万Clips的训练结果,他们并没有专门训练环岛场景,但「端到端」突然就自己学会环岛场景了!
这就像养娃的过程,某天早上娃突然会叫爸爸了一样,让人惊讶、让人欣喜。你问娃怎么学会的? 他答不出来。
这个环节需要钱,估算过目前每年至少需要10亿人民币的投入。如果目标是自动驾驶,那就每年需要投入10亿美元。
都是练丹,为啥有的道士成了张三丰,有的道士只能在崂山混混呢?
这个环节也需要技术与经验,因为练丹也不是瞎练的,需要不断调整Clips的配比,才能练出好药来。
前几天何小鹏和李力耘也表达过,以前需要的人才是写代码又快又好,讲究的是人才的密度;现在需要的人才是「AI驯兽师」,不再讲究人才的数量,而讲究人才的高度。
郎博说投入是值得的,因为喂数据以提升体验这个过程 ,目前还看不到尽头、目前投入产出还是非常好的!如果哪天到尽头了,那就真到了技术研发的无人区了。
2、考试真题:虚拟仿真验证
关于「考试真题」。有三个来源,一是真题库,比如环岛场景;二是错题库,通过接管、急刹等行为来识别;三是模拟题,主要通过重建+生成的世界模型来覆盖更大的广度。
我提了一个问题:为什么蔚小理今年都特别强调虚拟仿真验证呢?
郎博回答,这是研发体系的变化。以前搞定一个场景的标志,就是测试验证通过,虚拟仿真只是一种补充;现在不一样了,就像高考一样,只要出题水平高,那短短几个小时就能识别出一个人的真正能力。
现在虚拟仿真验证就是高考,它出题水平高低,直接决定了通过考试的是草包还是天才。
贾鹏回答,这是因为虚拟仿真技术有了长足进步,比如,以前的仿真只是「仿真」,只能作为补充;现在的仿真是「以假乱真」。
我想想也有道理,以前我的显卡是3060,打游戏知道那是游戏;现在用的显卡4090,一些3A大作那确实是「以假乱真」,如果还是360度的物理世界模型,那我估计从《黑客帝国》的Matrix里逃不出来。
贾鹏同时强调,Sora很强大,但纯粹的生成式模型会产生太多幻觉,效率很低。因此他们采用了真实物理世界的重建+生成的方式。
关于评分标准,根据驾驶安全性、平顺性来综合打分,得分前3%的"老司机"AI才会交给用户。现场我问了一个问题,老司机也许有不同风格,会不会给出千人千面的答案。
郎博回答不会,原因之一是理想为家庭服务。我想想也有道理,好的奶爸开车总是相似的,而鬼火少年的莽撞则各有不同。
同理,理想也不会做Robotaxi(至少目前是),原因也是这不能服务于"移动的家,理想的家"这一理念。
3、感叹
当大家聚集于感知-规划-控制整合成One Model端到端时,可能忽略了AI大模型发挥巨大作用在One Model之外的一头一尾两个环节:「数据练丹」+「考试真题」。
AI正在决战于千里之外。
三、小步快跑是否短视?
现场,郎博分享了理想智驾「一年调整三次」的心路历程。我听起来,个人观感他讲得相当坦承。
一年变三次技术路线,这种「小步快跑」的方式听起来相当儿戏,也肯定和「长期主义」无缘。
实际上,他们在这些调整过程中一直保持着一个主线目标,那就是自动驾驶。哪种路径更好,那就毫不犹豫地去调整。
但「小步快跑」的好处就在于,一条路走不走得通、适不适合自己,很快就可以撞到南墙来迅速调整方向,节省了时间就是节省了大量的研发经费。
这种模式的执行难度也很大,时间紧、任务重,需要团队具备很强的战斗力,还需要一个赏罚分明的领导。此外,根据我多年旅居北京和上海的经验来看,我认为北京的工作氛围确实也更"奋斗"一些。
现在来看,理想智驾能否战胜行业所有玩家,这是要打一个问号的!但最起码可以肯定的是,「小步快跑」的方式帮助理想战胜了从前的自己。
如果一种方法论最终证明有效,那「始终坚持小步快跑」、「始终坚持实事求是」也许也是一种「长期主义」。
欢迎留言批评指正,我会一一回复。
内容由作者提供,不代表易车立场