你的浏览器版本过低,可能导致网站不能正常访问!为了您能正常使用网站功能,请使用这些浏览器。
chrome
Firefox

工具栏

占据网络上车,极越离激光雷达更远


现在很多同行把城市NOA搞成了营销。”集度CEO、极越CEO夏一平说道:“开一条路不叫开城。极越的开城标准是至少覆盖用户60-70%的驾驶场景,至少90%的高频场景。2024年,极越会完成200+城市的开城。


以覆盖超60%驾驶场景为标准的开城,极越的信心来自于“BEV+OCC+Transformer”组成的纯视觉感知完整体系——“B.O.T三向箔”。



1月14日,极越开始为01车型进行首次整车级大版本OTA全量推送升级,V1.3包含了OCC(Occupancy Networks 占据网络)技术上车在内的通用视觉能力进化、SIMO完全融入文心一言4.0在内的通用语音能力进化、冬季模式等安全和生态服务等5大类、超400个功能点升级。


占据网络上车是其中最大的亮点。极越官方表示:通过“B.O.T三向箔”,极越纯视觉方案的3D精度能达到厘米级,比肩甚至超越激光雷达;对运动障碍物的速度识别精度也控制在0.1米/秒误差范围内。


信仰纯视觉的极越,离激光雷达越来越远。


01

占据网络能否代替激光雷达?


极越官方向《赛博汽车》表示,此次更新的1.3版本占据网络的应用主要是集中在检测静态障碍物和硬隔离。对于车辆和行人的动态障碍物检测,目前还是使用BEV。“但很快我们将提升occ的覆盖类别,前提都是以大量的测试和数据来驱动,保证安全的前提下进行切换。"


所谓占据网络,是通过映射将环境切分为众多格子,并确定哪些格子是被占据的,哪些是空闲的。


依据网络的能力,格子的精度可以是米级,也可以是厘米,甚至更精细。


同为机器视觉算法,BEV对障碍物的检测和识别,必须基于“学过的内容”。而占据网络则可以类比激光雷达,通过对格子内的物体进行分类,来直接给出物体的几何结构,从而指导后续的路径规划。


而且,相比激光雷达,视觉出发的占据网络可以更好将3D的几何与语意信息相融合,而不需要进行激光雷达和相机的时间,外参对齐等工作。


极越官方表示,极越的占据网络体素(格子)甚至可以小于厘米级,将2D BEV转换为3D,来判断驾驶空间里是否被占用,从而发起绕行。


目前,在道路参与者和道路的静态BEV当中,极越已将占据网络的距离信息作为真值来使用。



场景上,极越占据网络目前在遇障刹停,无感绕障,远距离硬隔离(对于不可通行的障碍物,水马等主动远离,提供足够的心理安全感)发挥作用。


不过,由于占据网络的三位表达方式信息密度低,必须在低分辨率特征图上操作,最后再由反卷积补全分辨率,导致大量的算力空耗。


因此,目前行业内在占据网络的应用上主要在于对BEV进行补充,如异形障碍物,离地面较远的高处的障碍物检测。


02

为什么不用激光雷达?


尽管认为自己走在正确的道路上。但在占据网络上车的沟通会上,百度智能驾驶事业群组(IDG)首席研发架构师,IDG技术委员会主席王亮,还是花了相当的篇幅来解析其去激光雷达的底层逻辑:资源是有限的。


成本当然是第一推动力。在王亮看来,受制于先天的器件和成像原理,激光雷达降本后的价格上限,也会是相机的5-10倍,且当中很多的移动部件的耐久和可靠性存疑。


仅作为传感器,激光雷达也不是完美的部件。一方面,其会产生难以消除的伪影;另一方面,目前主流,和刚刚官宣的未来激光雷达,在分辨率、帧率和点频的成像性能方面,仅是800万摄像头的1/160和1/20,差距巨大。



从实践来看,目前绝大多数激光雷达的采集频率只有10Hz,特斯拉的占据网络输出可以达到和相机相同的36Hz,因此在高速环境或对快速移动物体感知方面,上限更高


从技术趋势来看,端到端输出的大模型是未来的主流已渐成行业共识。“减少激光雷达的模型,可以给视觉模型多几千万的参数。”王亮表示。


而且低上限的激光雷达会抢夺高上限视觉感知的资源。王亮表示,百度2019年意识到激光雷达和视觉放在一起时,视觉技术发展不了。“工程师还是会用身体投票,他在巨大业绩压力下会选择做简单的事情,会选择用激光雷达解bug,没有人愿意花这么多精力死磕视觉方案。当时我们做了一个决定,把激光雷达拿掉,定了同样的业务目标,让做视觉的算法同学死磕这类问题。”



“如何用长期主义来投资一个技术方案?任何企业的资源都是有限的,我们如何把更好的利用资源,集中在一个技术方向上,把它打透。最关键的是这个方案日后的演进速度是不是更快,它的算法上限是不是更高,如果有这样的方案,我们愿意All in它。”王亮在演讲中表示。


03

如何获得一个纯视觉占据网络?



目前,极越的“B.O.T三向箔”是想了多任务统一学习,包括整个三维世界的几何、位置、深度、高度信息和语义信息,并自动将几何和语义信息聚合输出三位信息框或占用体素。


对于占据网络的语义理解,王亮表示已标了近一百类物体,以及“其它类”。“从OCC设计理念上肯定追求的就是去白名单化,希望可以涌现障碍物识别或者通行空间识别的能力。”


王亮透露,极越在研机器学习的跟踪和预测。“例如原来速度预估还需要做速度差分,几帧之间的障碍物用数学公式算速度,这个速度很难收敛。现在通过大量的数据,可以把速度和未来运动趋势都做学习。”下一版极越感知网络的输出或许将包括几何结构、语义理解、实例分割和速度&轨迹预测。


不过,占据网络除在端侧算力消耗大之外,巨大的学习成本也是其核心技术门槛之一。


在百度Apollo的技术生态中,有超过6000万公里的高质量的Robotaxi原始数据积累;百度AI超过170亿参数的视觉大模型、高标准的自动化标注产线实现日均产能过百万(帧)、高质量标注数据BEV+OCC精标训练数据过亿(帧);同时,百度和极越已基于近2EFLOPS高算力训练集群,实现模型高效训练、每周快速迭代。


王亮表示,除极越的量产车之外,百度的高精地图采集车和Robotaxi也是占据网络学习数据的重要来源。


我通过(地图)采集车上学2D、3D联合的标注,把激光雷达能力通过这个过程融入到纯视觉系统里。


一开始用的是百度Robotaxi超过六千万公里训练的数据,积累的数据,都是全量落盘,各种场景,几十个城市的数据,作为热启动。


这么多信息要训练充分,背后需要很多算力,目前投入到跟极越项目上的卡数超过五千张(A100或A800),每周级别做迭代。


此外,百度地图的采集车也成为极越开城的先头部队。“我们(智驾)跑的城市,(百度)地图在几个月之前已经跑过一遍,而且这个数据也是全量落得。”


占据网络上车,是极越视觉能力的一次大迭代,但并非终点。王亮表示正在构建视觉建图能力,通过底层原理的改变,替换现有的车道线和红绿灯极检测,推动极越的纯视觉从有图走向轻图,甚至无图的未来。

内容由作者提供,不代表易车立场

收藏

收藏成功 ! 去易车app查看收藏文章

猜你想看

+加载更多

活动推荐

广告
  • 奖 
  • 抢 
  • 奖 

相关车型

CopyRight © 2000-2023 BitAuto,All Rights Reserved. 版权所有 北京易车信息科技有限公司    购车咨询:4000-168-168 (周一至周日 9:00 – 21:00) 法定假日除外