大模型上车难在哪里？

作者： NE时代
2023-10-23 11:20
632

大模型火了，智能汽车也火了，两火相加，会不会更旺？

当然会更旺，从OPEN AI火了之后，已经有多家车企宣布要把大模型上车。

理想汽车的Mind GPT，华为的盘古汽车大模型，百度的文心大模型，广汽的AI大模型平台，小鹏汽车联合阿里打造的自动驾驶AI智驾中心“扶摇”……

光是今年上半年，就有近十个大模型宣布上车。

不同于ChatGPT这种语言类大模型，现阶段在智能驾驶领域应用的主要还是判别类大模型，例如BEV和Transformer。

那么大模型上车，难点是什么？未来又有那些发展可能？这些问题，还是要业内人士才能回答。

在近期的多个论坛上，来自车企和多家自动驾驶研发企业的负责人，就对上述问题进行了讨论。

数据、数据还是数据

打造大模型离不开三个核心关键点，数据、算力和算法。

大模型的训练需要大量数据，数据，高质量数据才是核心。

科大讯飞股份有限公司的智能汽车副总经理李卫兵看来，目前判别式大模型的决策规划无论是基于场景还是基于规划，都是基于人类的先验知识，很难具有类人的自主进化，或者说自主性比较差。尤其智能驾驶应用到城区以后，挑战非常大。这里面或许需要新的方法把判别式模型和生成式模型结合起来。

在李卫兵看来，目前智能驾驶使用的判别式大模型，最让人头疼的是长尾问题，也就是高质量的数据还是不够。

也就是说，算力并不是大模型上车的最大难点，反而是被人关注最少得的数据才是关键。

李卫兵坦言，未来竞争在数据，在算力。算力还好搞，就是贵一点，高质量的数据是核心竞争力。

毫末智行科技有限公司数据智能科学家贺翔同样认为数据是核心竞争力，同时他更加详细的对数据竞争进行了分析。

他认为按照目前的技术手段，想要收集到高精度可用数据是比较难，其原因主要有两个方面：

一是，实际情况与理论预研有区别。

贺翔认为，自动驾驶所需数据来自两个方面，一个是采集车，还有一个是量产车回传的数据。按照设计原理，量产车回传数据逻辑，主要目的不是为了让我们的模型学会怎么开车，而是用来收集BadCase的。

所谓BadCase，就是客户认为汽车智驾系统开的不好情况，一旦用户觉得智驾系统对特情处理有误，客户就踩一下刹车，打一下方向盘，这个时候就应该上传数据用于分析。

但随着智驾系统的实际落地，就能发现传回来的数据对我们训练大模型而言肯定是有帮助的，但还是不够，而这又是为什么？

原因是智驾训练系统所需要的，是一个老司机的驾驶动作，更确切的说是老司机的预判，只有老司机的预判才是有价值的。但不是所有的BadCase都是老司机处理，也可能是新手司机导致的BadCase，这就导致所采集的数据和设计目标不一致。

这就是目前数据采集端的问题，很难保证所采集到的数据质量。但大模型上车的重要前提，就是有足多，足够可靠的高质量数据。

从贺翔的分析不难看出，大模型上车对于高质量数据的需求，远胜高算力需求。目前算力远没有进入到瓶颈期，只要肯花钱，可以较为容易得获得高算力，但高质量数据并不是一蹴而就，需要时间与测试数据的积累，是一个相对慢的过程。

第二是数据多样性问题。

在贺翔看来，现在国内没有哪家企业数据是足够的，尤其是长尾数据更少。数据多样性、分布不够的时候，模型训练的时候，你想让它在模型中学到社会常识，比如这个车往这边靠的时候是为了加塞，你要学这些东西就要有大量的数据，你会发现有的数据不够，怎么办？

贺翔认为，一方面可以借助外部大模型，通过接入外部的大语言模型，或者是多模态大模型，通过一些外部的海量知识，因为这种知识在大量互联网领域里面就已经存在了。通过借用外部大模型帮助智驾驶系了解人类社会的潜在常识，基于这些常识以及智驾驶系的特点，来做更好的预测，有了预测之后才能做到没有地图能够像人一样开车，只需要视觉就能够把车开得很好。

另一方面还是要不断积累数据，尤其是高质量的数据。

在专家眼中，现阶段的核心问题还是数据量不够。

数据共享难度大

就数据方面来说，单纯依靠车企采集的数据是远远不够的。业内想到最直接方法就是建立数据联盟。

但是在李卫兵看来，理想很丰满，现实很骨感。企业未来竞争在数据，高质量的数据是企业的核心竞争力。让企业拿出这些数据难度其实很大。

贺翔想到的问题更为现实，技术上的难度。在贺翔看来，现实问题是数据通用程度不高。虽然每家车企对都在对车辆驾驶进行数据收集，但不同车型的数据通用程度不太高。贺翔拿长城自己的情况举例，长城有那种内部有那种特别小的车欧拉，也有特别大的坦克500/800，他们之间的数据都很难通用，即使内部格式是一样的。

贺翔认为，其他车企的情况应该类似，车型之间、车企之间，不同数据的规格，不同传感器的规格，不同传感器的配置，数据即使凑到一起，如何统一接口，统一规范，统一标准等，这些都是要命的技术问题。统一后，拿到一份标准数据之后，我们能不能把这些数据有效的用起来，也是一个很要命的问题。

事实上，业内由企业在做这样的事情，例如中汽创智。中汽创智作为一家背靠中国一汽、东风、长安、国资委和汽车工程协会的企业，正在推动数据联盟的方式，来为数据建立统一的标准，实现这个联采、联标。

中汽创智智能驾驶CTO张振林表示，他们正在尽可能统一标注、采集的标准，包括统一采集车的配置，包括采集设备和传感器的选择，“我们已经内部实现了部分的数据的这个共享和交易。”

张振林也认为统一数据这件事难度非常大。因为这里面每一家的这个算法，每一家的传感器的这些配置，每一家的这个研发的阶段不一样，它可能会有存量数据的，还有接下来的这些量产数据都有不相同，这是一件非常非常难的事情，不过正因为难，才有意义。

开源有偿和虚拟数据或是新路径

北京汽车研究总院有限公司智能网联中心副主任陈新也提出一个新的思路—开源有偿。

陈新认为，目前现在大家还处于百花争艳时期，还没到一枝独秀的阶段，还需要很长时间让大家研究自己的标准。

而且每家车企都是一个竞争的关系，不可能把自己高质量的数据，都是花钱得来的，采了数据还得制作，还得做成数据集，尤其是高质量的是很难的。

陈新认为可行的方式是，车企可以做自己的一些模型，可以做一些开源的但是有偿的，找国内顶尖专家做有用数据的筛选，可以做一些比赛，包括做一些高质量数据的获取，同时做一些模型的研究。

吉利汽车研究院技术规划中心主任陈勇则提出，可以尝试用虚拟数据。在陈勇看来，不是所有的语言大模型都是人工标注，或是人工生成的，很多虚拟数据。自动驾驶其实也可以。

陈勇认为，单靠一个车企或车型去采集还是蛮难的。周边的环境，包括道路也在不断的更新，我们的数据库在不断更新，十年前采的数据，现在大部分是没什么用的，再过5年，我们今天采的数据还有没有用，不一定。模型也好，整个算法也好，环境也好，都在发生变化，这些数据如何能够保活保鲜。

陈勇提出，通过虚拟场景，比如虚拟仿真、元宇宙建模，用数字孪生去做这个事情，模拟各种交通流，各种事故，各种天气。一方面，靠真实道路去采集，另一些，通过虚拟场景做一些生成，用大模型做一些风格迁移，这种场景相对可行，而且能保证数据量大的问题，做虚拟环境生成的数据量，生成效率还是蛮高的。建一个千公里一万公里，目前3D虚拟资产做好的话，几个小时就能够生成，这可能是一条路径。如果变成虚拟数据之后，就可以考虑哪些可以做共享。

在陈勇看来，数据目前是限制学术发展的关键因素之一，为了做学术，为了做更前瞻的研究，企业之间可以做一些尝试，做更前瞻的技术研究，做一些共享。

未来真的能够上车至少要做到4B以下。陈勇认为，如果解决某个其中一个小的问题，可能连1B模型都不需要，模型参数量的大小还是要看我们在车里面解决什么问题，场景决定了参数量的大小，而不是一味的将大模型搬上车，因为大模型成本也非常高，对用户来讲也不是最经济的。

陈勇还提出，未来对于汽车行业，智能网联汽车来讲，车云一体或者车云协同应该是大的发展方向。

虽然生成式AI的出现，对智能网联汽车的发展带来了新的机遇。但通过上述专家的讨论可以看出，大模型真正用在车上，需要跨越的障碍还有很多，语言类的大模型要完整地搬上车显然不现实，其算力消耗太过惊人，成本难以负担。在智能驾驶领域想要通过大模型进行优化，难度也很大。

因此，大模型对智能网联汽车领域的优化，也面临数据难题。大模型上车任重道远。

标签: 哪里

内容由作者提供，不代表易车立场

收藏成功 ! 去易车app查看收藏文章