毫末联合清华AIR，会带来哪些自动驾驶干货？

作者：踢车帮
2023-07-27 17:00
627

毫末智行是长城汽车旗下一家人工智能初创公司，名字取自“合抱之木，生于毫末”，而滋养“毫末”的养料，正是大数据。

清华智能产业研究院 (AIR ) 图灵报告厅，国内自动驾驶初创公司毫末和清华智能产业研究院 (AIR ) 联合召开了一场自动驾驶公开课，而此次课程的重点，可以概括为自动驾驶数据处理的方法论进化。现今最火热的大数据概念非ChatGPT莫属，实际上GPT就是生成式预训练Transformer。毫末认为，大模型首先肯定是Transformer，是一个训练的范式，第二个它的参数量一定要非常大，所以才叫大模型。它的数据量也非常大，具体用什么语料训练的，用在什么行业，用在什么功能上，跟具体的业务相关。在自动驾驶领域，毫末认为整个行业大概分为三个技术演进阶段。第一阶段以硬件方式来驱动，智能驾驶试验车要布上很多激光雷达，整车自动驾驶硬件成本高达上百万。第二阶段，是软件驱动的时代，模型和算法被引入来解决这些问题，不过虽然引入了一些模型，但仍是非常小的模型，而且训练数据也非常少，所以毫末称之为小模型，少数据。第三阶段，则是数据驱动的时代，其与2.0时代的特点差异就是Transformer千亿大模型，而在大参数、大模型和大数据下，算力就成为必要条件。

搞懂自动驾驶大模型概念，可以类比语言大模型发展，其最早在NLP领域出现，模式类似于做词法、句法和语义分析等，通过十几个，甚至几十个模型组合在一起，完成一个质量分析和相关排序的大任务，进而推动搜索、广告、推荐业务。业务背后包含很多模型。2018年底左右，大模型转向Transformer的另一结构BERT，运作模式类似于完形填空，将中间词抠掉，如果模型预测中间词正确，就证明理解了这句话，理解力自然超过NLP。而到了如今的GPT，就相当于给出一个标题和限定句，让模型自己去写作文，其理解能力明显优于BERT。GPT是更好的，能力更强大的训练范式，但相对来讲训练成本也非常高，要吃大量的数据和算力，甚至有报道称，早期ChatGPT训练一次，成本高达1200万美元。

回到自动驾驶领域，差不多过去20年时间，基本都在按照与NLP非常接近的方式来做，车上解决一个问题，要先做场景拆分，再识别车道线、障碍物和红绿灯等。就比如识别车道线，要先采集各种各样的车道线数据，再进行人工标注，用标注完成后的数据训练一个模型，这个模型才可以识别各种各样的车道线，最后把模型部署到车上去。很显然车上有很多业务，这就会部署很多模型，之后再把模型的结果全部拿出来做一个融合，结合业务的规则，去控制这个车，可以看得出来，这个模式跟NLP基本上是一样。现在自动驾驶也遇到了NLP一样的困境，就是车卖到全国后，覆盖各种各样路况，用户回馈一个case，再向之前一样，根据这个特点寻找一个场景，基于这个场景采集数据，标数据，去解决这个场景的问题，再把这个场景的模型下载到车上，这个过程非常漫长，整个开发的流程大概几个月到一年。

而且，即使有这么做的打算，我们会发现，各种场景非常之多，根本建设不完，甚至有些场景，根本采不到数据。例如，我们能够识别货车，并标注了各种各样的货车，小货车、大货车、商用货车都可以识别，但是货车上运了一个东西，就对识别的准确率有非常大的影响，运的东西小还好，如果运了一棵树，把这个车完全盖住了，摄像头照过去，就是一个叶子，没法识别的载树货车，就是我们常说的corner case。这时大数据和大模型就成了解题之选，大模型有泛化能力，可以覆盖全国各地、各种各样的视频，采集这些视频之后，大模型有希望从海量的图片里面自动地学会什么叫做货车、货车运了各种各样的货车也叫货车，即使把车斗盖住了也是货车。从这个去年发布的AI发布的框架图我们可以看到，毫末已经在用5个大模型惊醒场景覆盖和训练。

这其中，第一个是视觉自监督，目的在于取代我们的眼睛，众所周知我们人看东西的时候，看完了我就知道，这是什么，例如前面看到一个东西叫电驴子，中间是一个行人，那边是一个红绿灯，这些都是基于图片的纹理识别的，在视觉大模型化后，就通过识别图片纹理，识别这个图片里这些东西是什么，并进行标注。第二个是多模态的互监督大模型，而这是受特斯的拉占据网络的启发。目前智能驾驶车上多了配备激光雷达，激光雷达扫过之后，并不是像图片那样获得清晰的物品照片，而是一个轮廓的空间点云，一般只能知道空间上有一个东西。而把激光雷达作为监督信号，希望我们摄像头和视觉系统能够学习到空间被占用的信号，就相当于一个标注员，并进行学习，这样的话，未来在车上就不需要激光雷达了，能够大幅度降低自动驾驶硬件成本。除了正常的数据使用之外，整个空间也在试着被重建出来，我们人类开车时，收集的是三维立体信息，不是平面二维图片，所以可以判断障碍物离我有多远，朝我们的角度是怎样的，它的速度是怎样的。三维重建完后，这个虚拟三维空间里有一个好处，就是可以对虚拟空间进行更多的编辑和生成，比如说我们在虚拟空间里面，可以加上各种各样的东西，做各种各样的调整，就类似于打游戏，给未来数据带来很大的好处。但毫末认为这个规划还是保守了，毫末如今的设计是把五个大模型整合到一起，变成一个端到端的大模型。这样处理后好处是，在清理了输入冗余后，训练数据量下降，训练成本会大幅降低。

另外，大模型跟车端配合也在优化，回到大货车载树的case，有了大模型之后，云端库里有百亿图片，通过多模态的大模型，能够直接标注运树的货车，这样就可以几秒内找出图库里面所有跟运了树的货车，大幅度提升数据筛选能力，进而再训练、反馈回车端。其实可以看出，融合一个端到端的大模型，首要处理的问题是数据的快速标注。过去，在多个摄像头、多个视频片段和激光雷达的复杂环境下标注，涉及上千张图片，包括点云，成本非常高，高达几千元，标注clips是不划算的，大模型可以来解决标注的问题。大模型具体在做的事情，是对图片的纹理做一些识别，识别之后我们可以对这个图片中各种各样的东西做标注，包括车道线、行人和障碍物做对比。大模型做标注和人工做标注的差异在于，可以进行定向的修改，例如可以修改红绿灯，生成黄灯，避免之前采集数据中出现的绿灯和红灯比较多，但黄灯偏少的不正常现象。