无人驾驶的大饼，建议马斯克还是别画了

作者：汽车通研社
2024-06-05 16:57
420

一个幽灵，一个名为FSD的幽灵在中国游荡。

没错，马斯克豪赌自动驾驶，和特斯拉FSD即将入华的消息不断刷屏，这成为汽车行业讨论度最高的话题之一。

在之前的深度文章《“第一性原理”正在杀死特斯拉》中，笔者认为特斯拉FSD永远都达不到L4级别的自动驾驶，此言一出引发了巨大争议，本文收获了上百条留言。经过与读者的切磋讨论，和对相关概念进行深入学习后，笔者还是坚持原有的观点：别太高估FSD了，无人驾驶永远都不可能达到。

这里先简单科普一下自动驾驶等级。

零级，代表完全没有自动化，就是人开车。

一级，是指计算机在某些时候、某种程度上可以给人提供一些辅助性的帮助。这个级别已经实现了，像自动刹车、车道保持、停靠辅助系统现在已经大面积应用了。

二级，是有的时候汽车可以自己开，但是要求人一直盯着。特斯拉和国内许多厂商已经做到了这个级别。这就是高速NOA和城市NOA，在空旷的高速公路，或者特定路段，人可以暂时让车自己开一会儿。但总有很多人违反规定，不盯着车，干脆放手不管了，结果出了事都是驾驶员的责任，而不是厂商的。

三级，是说人可以不盯着了，就让车自己开。但是如果车向你发出信号，你要随时接管驾驶。

四级，是指在某些环境和条件下，实现自动驾驶，人去睡觉都没问题。

五级，是完全的自动驾驶，不论什么天气和路况人都不用管车。

特斯拉FSD的原理是什么？

2017年，谷歌的八位科学家发布了一个名为Transformer的人工智能深度学习模型。

这一大模型具有革命性意义，全球科技巨头，纷纷推出了自家基于Transformer的大模型，如Google的BERT，微软的Turing-NLG，英伟达的Megatron、国内华为的盘古、阿里的M6、百度的文心一言等大模型都是基于Transformer来构建。

不同于传统的人工智能模型，Transformer具有以下典型特征：

首先，只要参数足够多，训练达到一定的积累，你就可以做一些事情。比如AlphaGo下围棋可以战胜人类顶级选手。

其次，只要模型大到一定程度，就会涌现出一些让人意想不到的神奇功能。比如AlphaZero不按人类套路下围棋。

最后，因为开悟和涌现，AI现在已经获得了包括推理、类比、少样本学习等等思考能力。

而在自动驾驶领域，特斯拉也基于此发布了纯视觉自动驾驶FSD。从原理上讲，基于Transformer的FSD可以模拟人类的驾驶行为，根据喂养的数据进行深度学习，一旦学习成功，FSD就是一个老司机。

那么特斯拉是如何利用Transformer进行训练的呢？

要知道，想要自动驾驶水平高，就要经历各种可能的情况，尤其是那些老司机一辈子都难遇到几次的特殊情况，比如路面积雪的夜里，接近路口时是黄灯，对向车开着大灯晃你，这时突然有人横穿马路，这种情况下，驾驶员做怎么样的动作才安全。这需要在相同场景下反复训练。

但是这种情况可遇不可求，那怎么办？

特斯拉的做法是利用自动生成路上驾驶的视频。同样一个路口，它可以训练各种方向转弯，各种可能发生的情况……这些自动生成的视频已经是最近两年特斯拉提升自动驾驶水平90%的驾驶经验来源了。

换句话说，特斯拉开始大规模利用人工智能，早就不依赖于真实路面的训练经验来提升自动驾驶了。

而且更夸张的是，在最新发布的FSD V12版本里，工程师把之前30多万行定义驾驶规则的代码删除了，要怎么开车，已经不强烈依赖于“红灯停绿灯行”这类可以用程序表述的指令了。FSD V12版本的驾驶策略几乎都是通过驾驶视频习得的，而且这些视频绝大多数都是自动生成的。

总结来说，基于Transformer的FSD可以模拟人类的驾驶行为，进行深度学习，所以许多激进的观点认为，只要数据量足够大，喂养的时间足够长，FSD将来就能淘汰人类驾驶员，彻底实现无人驾驶。

Transformer的底牌与命门

为什么笔者反对如此激进的观点，理由主要有两个：

第一个理由，FSD作为基于Transformer的大模型的技术方案，是在模拟人脑，作为神经网络，它在本质上不可能超越人脑。

前面我们简单讲了基于Transformer的FSD能开悟，能涌现等神奇的功能。但是要看透FSD的边界，我们依旧要进一步理解：Transformer跟人脑到底如何对比？它有什么限制？有没有它不擅长的东西？

在这里，我们必须提及一位人工智能大牛——史蒂芬·沃尔夫勒姆。

史蒂芬·沃尔夫勒姆是何许人也？他研究开发神经网络已经四十多年了，他早在1983年就自己编程研究过神经网络，OpenAI CEO山姆·奥特曼曾说：“史蒂芬·沃尔夫勒姆是他见过的最牛的人工智能专家。”

史蒂芬·沃尔夫勒姆用一个小例子，指出了Transformer的底牌与命门。

他用ChatGPT做了个最简单的计算题：1231×434523+323×34636 等于多少？

ChatGPT给出的结果是546106021。但如果你用计算器算，那么答案是546085241。

这到底是怎么回事？答案很简单，ChatGPT是Transformer基于人类大脑开发的语言模型，它是用人的语言训练出来的，它的思维很像人的大脑——人脑本身不太擅长算这种数学题的，这样的计算题，普通人都要用计算器。

为什么会这样？沃尔夫勒姆认为核心逻辑是下面这张图。

大圈代表的是一切计算，科学家认为，自然界中所有现象都理解成计算，因为底层都是物理定律，其中绝大多数计算过于复杂，超出了人脑的理解范畴，以至于我们连方程都写不全，不管是用大脑还是用计算机都不能处理，但我们知道那也是计算。

其中的两个小圈，一个是神经计算，简单来说，神经计算善于发现事物的规律，但是对数学问题的处理能力有限。人类的大脑和包括ChatGPT与FSD在内的所有AI，都属于神经计算。

实际上，人工智能模拟的神经计算的底层逻辑还是数学，从原理上来讲，就是大模型模拟人脑，将构成大脑的神经元抽象为数学模型，这就是神经网络的根本出发点。

另一个是形式逻辑，其实就是数学，特点是精确推理，无论有多复杂，只要有方程有算法，就能算出来。

可见，两个小圈远远不能覆盖整个大圈，人类科学技术进步的历史，就是扩大两个小圈的历史。

沃尔夫勒姆有一个深刻的洞见，那就是虽然基于Transformer的大模型比人脑知道的更多，反应更快，但是作为神经网络，它在本质上不可能超越人脑。

他进一步解释说，ChatGPT模拟了人脑的语言系统，这只能说明人脑的语言系统并不厉害。没错，ChatGPT证明了，语言系统是个简单系统，模仿人类写一篇大家读得下去的文章，不是一个难事。

但是如果需要一篇真正意义上的好文章，ChatGPT就写不出来了，这需要调动作者自己的原创思想或者清奇的角度，ChatGPT最多成为一个强大的辅助工具。

沃尔夫勒姆让我们认识到了Transformer的根本局限性：神经网络的计算范围是有边界的，人工智能再强大，也不可能跳出神经计算和形式逻辑去和客观世界接触。

没错，人类社会中的任何事情，科学研究也好，写出有灵魂的作品也好，开车也好，终究还是要需要人直接和客观世界接触，需要调用外部工具和外部信息。

从这个意义上讲，人工智能不可能取代人，而是一件强大的工具。

第二个理由，人工智能永远需要人工干预。

了解完Transformer的边界之后，从原理上讲，今天几乎所有的人工智能产品都是复读，先要有各种知识和信息，ChatGPT和FSD才能工作。你给ChatGPT提供高质量的数据，它就会产生一个高质量的语言模型，然后给出高质量的答案，写出高质量的文章。

相反，你用垃圾数据训练它，它就只能输出垃圾。

我们还是以ChatGPT举例，熟悉大模型的人都知道，ChatGPT背后是有人工干预的，例如ChatGPT平台上那些带有仇恨的言论已经被删除了。

但是，ChatGPT是一个本身有一万亿参数的大模型，人类只能通过输出结果进行修改，换句话说，这个巨大的语言模型就像是一个黑盒子，你无法搞清楚里面那些模型参数的含义。

所以，行业内有一句玩笑话：有多少人工，就有多少智能。

FSD也是如此，哪些驾驶数据是合格的驾驶数据？输出后的结果，哪些能用，哪些不能用？都需要大量的人工进行调整，更为致命的是，这个世界上任何老司机都不可能保证自己不发生意外。所以，从理论上来说，100%完美的驾驶数据是不存在的。

没错，FSD作为一个模拟人类开车的技术方案，永远都做不到100%的准确度，因为人做不到，对驾驶来说，即便99.9999%的判断准确率也不够，因为一旦判断错误就可能是一条人命。任何政府要推动这样激进的立法，阻力很大。

更进一步说，算法再强大，也不可能穷尽所有意外，真实的路面上会有各种意外。

早先，谷歌在训练自动驾驶技术时，遇到过各种各样奇怪的情况。这些东西是无法用数学模型预测的。即便是老司机，注意力不集中，也可能发生意外。

比如有几个小孩在高速公路上在玩青蛙。

又比如一个残疾人坐着电动轮椅，在路中间追逐一只鸭子。鸭子绕圈跑，她也绕着圈追。那你说像这种情况你能一下子就准确预测这些人的行动路线吗？

此外，特斯拉的纯视觉方案采用的是二维的摄像头技术，而不是三维的激光雷达，这就意味着如果在下雪或者下雨，摄像头就可能对周围物体有重大误判。

所以，再强大的自动驾驶，永远都需要人在一旁待命，需要随时接管。

如今，在FSD的开发过程中，特斯拉积累了超过90亿英里使用里程，这是全球最大的自动驾驶数据来源；为了利用这些数据，特斯拉不断扩充其超算集群，到处挖顶级AI工程师，自研算法、芯片和大算力GPU。即便如此，至少目前还是没能让大模型解决这些问题。

这其实就是FSD的一条硬边界，举例来说，你如果有一台制冷机，可以将温度降低。如果你有一个超大功率的制冷机，温度降低得会快得多，但是用再多、再大的制冷机也不可能将温度降到绝对零度以下，因为那是物理学的一条边界。

尾声

基于这样的原理解读，我们至少能得出以下三个结论：

第一，根据技术原理和法律法规，特斯拉FSD最多成为L3级别的自动驾驶，但它将是一个超级强大的辅助人类进行驾驶的工具，它的意义是最大限度地辅助人类驾驶。

第二，特斯拉粉丝不要失望，客观来说，FSD代表着目前最前沿的人工智能驾驶方案，中国厂商在这条赛道上仍旧处于跟随的状态，以特斯拉的技术实力、品牌效应和营销能力，FSD一旦入华，大概率会成为中国智能驾驶行业的一条新鲶鱼，会加速中国自动驾驶产业和人工智能产业的发展，对汽车产业来说，这将大大利好小鹏、问界等主打智能驾驶的车企。