占据网络上车，极越离激光雷达更远

作者：赛博汽车
2024-01-17 12:57
239

“现在很多同行把城市NOA搞成了营销。”集度CEO、极越CEO夏一平说道：“开一条路不叫开城。极越的开城标准是至少覆盖用户60-70%的驾驶场景，至少90%的高频场景。2024年，极越会完成200+城市的开城。”

以覆盖超60%驾驶场景为标准的开城，极越的信心来自于“BEV+OCC+Transformer”组成的纯视觉感知完整体系——“B.O.T三向箔”。

1月14日，极越开始为01车型进行首次整车级大版本OTA全量推送升级，V1.3包含了OCC（Occupancy Networks 占据网络）技术上车在内的通用视觉能力进化、SIMO完全融入文心一言4.0在内的通用语音能力进化、冬季模式等安全和生态服务等5大类、超400个功能点升级。

占据网络上车是其中最大的亮点。极越官方表示：通过“B.O.T三向箔”，极越纯视觉方案的3D精度能达到厘米级，比肩甚至超越激光雷达；对运动障碍物的速度识别精度也控制在0.1米/秒误差范围内。

信仰纯视觉的极越，离激光雷达越来越远。

占据网络能否代替激光雷达？

极越官方向《赛博汽车》表示，此次更新的1.3版本占据网络的应用主要是集中在检测静态障碍物和硬隔离。对于车辆和行人的动态障碍物检测，目前还是使用BEV。“但很快我们将提升occ的覆盖类别，前提都是以大量的测试和数据来驱动，保证安全的前提下进行切换。"

所谓占据网络，是通过映射将环境切分为众多格子，并确定哪些格子是被占据的，哪些是空闲的。

依据网络的能力，格子的精度可以是米级，也可以是厘米，甚至更精细。

同为机器视觉算法，BEV对障碍物的检测和识别，必须基于“学过的内容”。而占据网络则可以类比激光雷达，通过对格子内的物体进行分类，来直接给出物体的几何结构，从而指导后续的路径规划。

而且，相比激光雷达，视觉出发的占据网络可以更好将3D的几何与语意信息相融合，而不需要进行激光雷达和相机的时间，外参对齐等工作。

极越官方表示，极越的占据网络体素(格子)甚至可以小于厘米级，将2D BEV转换为3D，来判断驾驶空间里是否被占用，从而发起绕行。

目前，在道路参与者和道路的静态BEV当中，极越已将占据网络的距离信息作为真值来使用。

场景上，极越占据网络目前在遇障刹停，无感绕障，远距离硬隔离(对于不可通行的障碍物，水马等主动远离，提供足够的心理安全感)发挥作用。

不过，由于占据网络的三位表达方式信息密度低，必须在低分辨率特征图上操作，最后再由反卷积补全分辨率，导致大量的算力空耗。

因此，目前行业内在占据网络的应用上主要在于对BEV进行补充，如异形障碍物，离地面较远的高处的障碍物检测。

为什么不用激光雷达？

尽管认为自己走在正确的道路上。但在占据网络上车的沟通会上，百度智能驾驶事业群组（IDG）首席研发架构师，IDG技术委员会主席王亮，还是花了相当的篇幅来解析其去激光雷达的底层逻辑：资源是有限的。

成本当然是第一推动力。在王亮看来，受制于先天的器件和成像原理，激光雷达降本后的价格上限，也会是相机的5-10倍，且当中很多的移动部件的耐久和可靠性存疑。

仅作为传感器，激光雷达也不是完美的部件。一方面，其会产生难以消除的伪影；另一方面，目前主流，和刚刚官宣的未来激光雷达，在分辨率、帧率和点频的成像性能方面，仅是800万摄像头的1/160和1/20，差距巨大。

从实践来看，目前绝大多数激光雷达的采集频率只有10Hz，特斯拉的占据网络输出可以达到和相机相同的36Hz，因此在高速环境或对快速移动物体感知方面，上限更高。

从技术趋势来看，端到端输出的大模型是未来的主流已渐成行业共识。“减少激光雷达的模型，可以给视觉模型多几千万的参数。”王亮表示。

而且低上限的激光雷达会抢夺高上限视觉感知的资源。王亮表示，百度2019年意识到激光雷达和视觉放在一起时，视觉技术发展不了。“工程师还是会用身体投票，他在巨大业绩压力下会选择做简单的事情，会选择用激光雷达解bug，没有人愿意花这么多精力死磕视觉方案。当时我们做了一个决定，把激光雷达拿掉，定了同样的业务目标，让做视觉的算法同学死磕这类问题。”

“如何用长期主义来投资一个技术方案？任何企业的资源都是有限的，我们如何把更好的利用资源，集中在一个技术方向上，把它打透。最关键的是这个方案日后的演进速度是不是更快，它的算法上限是不是更高，如果有这样的方案，我们愿意All in它。”王亮在演讲中表示。

如何获得一个纯视觉占据网络？

目前，极越的“B.O.T三向箔”是想了多任务统一学习，包括整个三维世界的几何、位置、深度、高度信息和语义信息，并自动将几何和语义信息聚合输出三位信息框或占用体素。

对于占据网络的语义理解，王亮表示已标了近一百类物体，以及“其它类”。“从OCC设计理念上肯定追求的就是去白名单化，希望可以涌现障碍物识别或者通行空间识别的能力。”

王亮透露，极越在研机器学习的跟踪和预测。“例如原来速度预估还需要做速度差分，几帧之间的障碍物用数学公式算速度，这个速度很难收敛。现在通过大量的数据，可以把速度和未来运动趋势都做学习。”下一版极越感知网络的输出或许将包括几何结构、语义理解、实例分割和速度&轨迹预测。

不过，占据网络除在端侧算力消耗大之外，巨大的学习成本也是其核心技术门槛之一。

在百度Apollo的技术生态中，有超过6000万公里的高质量的Robotaxi原始数据积累；百度AI超过170亿参数的视觉大模型、高标准的自动化标注产线实现日均产能过百万（帧）、高质量标注数据BEV+OCC精标训练数据过亿(帧)；同时，百度和极越已基于近2EFLOPS高算力训练集群，实现模型高效训练、每周快速迭代。

王亮表示，除极越的量产车之外，百度的高精地图采集车和Robotaxi也是占据网络学习数据的重要来源。

“我通过（地图）采集车上学2D、3D联合的标注，把激光雷达能力通过这个过程融入到纯视觉系统里。

一开始用的是百度Robotaxi超过六千万公里训练的数据，积累的数据，都是全量落盘，各种场景，几十个城市的数据，作为热启动。

这么多信息要训练充分，背后需要很多算力，目前投入到跟极越项目上的卡数超过五千张（A100或A800），每周级别做迭代。”

此外，百度地图的采集车也成为极越开城的先头部队。“我们（智驾）跑的城市，（百度）地图在几个月之前已经跑过一遍，而且这个数据也是全量落得。”

占据网络上车，是极越视觉能力的一次大迭代，但并非终点。王亮表示正在构建视觉建图能力，通过底层原理的改变，替换现有的车道线和红绿灯极检测，推动极越的纯视觉从有图走向轻图，甚至无图的未来。

标签: 雷达激光雷达极越01

内容由作者提供，不代表易车立场

收藏成功 ! 去易车app查看收藏文章