浏览易车国际站
您是否想浏览中国自主品牌出口车型,可以为您切换到易车国际站。
427
近日,地平线公布了一段 SuperDrive 的智驾演示视频,其中有几个关键信息,北京城区、晚高峰、雨天和五十分钟零接管。并且,地平线 CEO 余凯邀请大众中国 CEO 贝瑞德共同感受了一下此次智驾表现,视频结尾贝瑞德的评价是「Future is coming」。
我们先来感受一下这段 50 分钟无接管的城区智驾表现(视频有部分加速):
今年北京车展前夕,地平线正式公布征程 6 系列的智驾硬件方案。在发布会上,地平线官宣了征程 6 系列的 10 家首批量产合作车企及品牌,包括上汽集团、大众汽车集团、比亚迪、理想汽车、广汽集团、深蓝汽车、北汽集团、奇瑞汽车、星途汽车、岚图汽车等国内外主流车企。
值得一提的是,此次发布会还公布了基于征程 6 旗舰版开发的 SuperDrive 全场景智能解决方案。地平线在硬件方面的市占率不必多言,那软件能力到底如何,借着这次公布的演示视频,我们一起来挖一挖。
博弈、避障、施工视频刚开始,视频车辆就面临一个拥堵丁字路口的左转,车辆启动后可以看到第一个细节,红灯变绿后车辆启动速度极快,几乎没有存在任何延迟,现阶段市面上不少高阶智驾在红绿灯起步时依旧会存在 1 - 2 秒的延迟。
启动后由于横向通行并未结束,不得已进行了一次博弈。当前方车辆起步后,视频车立刻作出响应,向前「蹭一蹭」的动作非常拟人,在左侧车辆让行后,视频车加速完成左转,一气呵成。
结合视频和可视化视图可以看到后方车辆和视频车同时实现了左转。在处理这个路口时,SuperDrive 的处理非常像老司机,并且智驾和人类驾驶员的通行效率几乎相当。
之后一个施工路口,面对对向来车和电动车,没有一丝犹豫,通过非常从容。这个施工路口还是很好的展现了 SuperDrive 的感知和规控能力,具体我们放到后文聊。
再来一段无保护左转的博弈,无保护左转基本是城区智驾最难的几个场景之一,毕竟要面对对向直行车流、行人和电动车这样难预测的场景,对博弈能力提出了极高的要求。可以看到视频车在有遮挡的前提下,依旧是采用了拟人的蹭一蹭策略,在发现可以通过路口时,加速完成左转。
如果刚才这段无保护左转你还是觉得简单,再来看下面这一段。
可以看到视频车在左转时,并没有清晰明确的路径,而是不断摸索向前,动态实时寻找路径,当发现客车前面有空间时,可视化路径迅速规划,完成左转。
换成策略更保守的车型则会选择刹停等到完全没车时在进行通过,甚至可能会遇到再次变成红灯,最终停在路中间的尴尬情况。
这段上下匝道对于现阶段的高阶智驾来说已经是「洒洒水」的能力了。不过,匝道汇出又再次展示了 SuperDrive 的博弈能力,左后方有大客车的情况下,缓慢向左并道,同样也是慢慢挤的节奏和人类驾驶员的驾驶习惯并无两样。
现阶段大多数高阶智驾的车型面对这种博弈场景都会需要驾驶员来轻踩油门来加强「自信心」,从而完成汇出,如果让车辆自动完成,多数会刹停或让驾驶员接管。
礼让行人右转的场景看起来并不稀奇,不过可以仔细看一下右下角的可视化界面,在面对双向六车道的大路口时,整个感知系统前后左右的感知能力和动态追踪能力。
并且从整个视频可视化视图的反馈上,我们也可以看到斑马线、车道线、路肩、清晰的路径规划、不同的交通参与者,甚至是行道树来重构车外的物理世界,非常细致。优秀的可视化视图也大幅加强了驾驶员在使用智驾时的驾驶信心和使用频次。
下面两段视频可以很清晰的看到 SuperDrive 的避让能力,视频车此时正好处于变道车辆的盲区,出现压线时,视频车做了一个紧急避让的动作,并没有进行急刹车,强化了乘坐体感。
第二个场景中,面对「鬼探头」车辆,视频车依然采用避让动作,并进行减速,可以看到系统反应非常迅速。在完成绕行后,加速快速驶离。
此外,面对环岛场景、逆行自行车、拥堵汇流等等场景下,SuperDrive 的处理都非常拟人化,这极大的提升了 其可用范围和通行效率。
从演示视频来看,这套 SuperDrive 在北京晚高峰的表现,完全可以和牌桌上的各位掰掰手腕。对于这家大家熟知的硬件公司,能够拿出这样的软件工程能力,有必要探究一番。
软件工程的魅力其实,近年来地平线一直双线开工。
一方面地平线的征程系列芯片快速上车,另一方面地平线在算法上也不曾掉队。在 2021 年 7 月的地平线发布会上,除了拿出了征程 5 这颗芯片外,地平线已经开始迈向整车智能解决方案的供应商,如今地平线公司的愿景已经演变成「让每一辆乘用车都搭载我们的智能驾驶解决方案」。
地平线在 2022 年提出行业领先的自动驾驶感知端到端算法 Sparse 4D,如今已经演进到 V3 版本。提出 Sparse 4D 算法的次年,由地平线学者作为第一作者在业界首个公开发表的端到端自动驾驶大模型 UniAD,并荣获 CVPR 2023 最佳论文。
地平线作为智驾解决方案的公司,「好用」是第一要素。从下图中可以看到,地平线想要解决的是在性能最优和大范围可用之间寻求平衡或者说是最优点。既能让智驾跑在更多的路面上,又要保证其自身能力足够优秀。
针对性能和可用范围,地平线给出的方案是端到端 World Model(世界模型)配合交互博弈,实现全场景的高阶智驾。那什么是世界模型,什么又是交互博弈?
2024 年,自动驾驶领域中世界模型变得火热。
不过时间先要回到 2023 年 6 月,Tesla 自动驾驶团队在 CVPR 2023 WAD Workshop 中提出了 World Model,也就是世界模型。当然,这只是世界模型在自动驾驶领域的率先提出。更广义的来看 World Models 在 2018 年第一次被德国计算机科学家 Jürgen Schmidhuber 提出。
参考一下 Runway 公司对于世界模型的概述,「世界模型是一种人工智能系统,它构建环境内部,并使用它来模拟该环境中的未来事件。」
在 2024 年初 Open AI 发布 Sora 再次将世界模型的热度推到顶点,随后谷歌的 Genie 也打出了世界模型的口号。六月底 Runway和 Luma 两个 AI 视频网站也是针尖对麦芒,其中 Runway 推出在六月底 Gen-3 Alpha 时,官方表示「朝着构建通用世界模型迈出了重要一步」。
对于世界模型也是说法不一,Meta 首席科学家 Yann LeCun 就曾表达过大量不同观点。而放在自动驾驶领域,世界模型也正在「野蛮发展」。按照 Tesla 的理念,世界模型是凭借自动驾驶车辆采集的大量实时视频数据,利用神经网络根据过去或事物来预测未来,构建损失函数,这就可以不依赖标注信息对模型进行训练。不过实现世界模型需要大量对于现实世界的理解能力。
国内方面,理想在 7 月的 2024 智能驾驶夏季发布会中也提到了世界模型,理想的世界模型是结合了重建和生成两种技术路径,将真实数据通过 3DGS(3D高斯溅射)技术进行重建,再利用真实数据的先验信息给出布局来做约束,再通过提醒词和参考图片,最终生成符合现实规律的新场景。其目的是让自动驾驶进行充分的学习和模拟考试,来强化其能力。
在 7 月底的蔚来 NIO IN 科技日中,也提到了世界模型 NWM(NIO World Model),可全量理解数据、具有长时序推演和决策能力,能在 100 毫秒内推演出 216 种可能发生的场景,寻找到最优决策。并且作为生成式模型,NWM 也可以通过短视频(驾驶)作为提示词,生成长视频进行闭环仿真测试。
回到地平线,地平线对于世界模型的定位则是为 AI Driver 打造「世界观」,这就有别于理想,更倾向于 Tesla 的策略。这会让 SuperDrive 对于现实世界的通用理解能力更强,对世界的认知能力和系统性能带来提升。
更简单的理解,传感器信息和地图信息输入到端到端世界模型中,通过数据训练、动静态场景推理、理解和泛化,最终输出动静态的目标和多维度预测信息,再交给交互博弈环节来负责规控。
地平线这套端到端世界模型的感知更加稳定和精准,上限也更高。从数据上来看:
看完数据可以回顾下文章第二部分的实际道路表现。
当然,博弈环节也是实现国内城区智驾的重中之重。
从视频中我们已经看到 SuperDrive 的整体表现非常老司机,几乎和人类开车的行为不相上下。这依靠的是地平线的交互式博弈算法。
交互式博弈算法为 SuperDrive 提供了整个智驾系统的决策规划核心,为高阶智驾提供了一种思维路径而并不是一套公式。更详细的解释一下,SuperDrive 的规控系统拥有更多的先验和实时结果,在系统内搜索模块,再通过大量数据和可能性中寻找最优解或相关信息,同时考虑时间和空间因素,输入数据和推理结果,最终生成随时间变化的轨迹做出预测或决策,然后制定运动轨迹,控制车辆做出相应动作。
SuperDrive 的规控能力在视频中「无保护左转场景」中,动态 Driveline 进行了很好的演示。
城区智驾会更加复杂,面对车辆或许可以「抢」一下,面对行人就需要「让」一下。在「抢」和「让」中间如何平衡呢?这就需要将刚刚所说的过程通过决策神经网络核心进行交互式预测,在推理过程中反复多次规划和预测道路参与者的行径,来决定「抢」和「让」。
其实我们日常开车中就有非常多的博弈环节,比如变道打转向灯后,会快速留意后方车辆的动态,如果加速,变道行为终止。反之,完成变道。同理,礼让行人时也是看双方不同的动作来进行判断,只不过我们通过大脑实时分析和经验判断的能力,将这些不经意的行为合理化。
此外,地平线又多思考了一步,让规控的能力实现更强的泛化能力,在原有的规控经验中,进行对比、思考、推理和模仿来生成最符合当时场景下的决策,这也就进一步解决了从未见过或未处理过的 Case 问题。减少车辆「犯傻」、降级和人为接管的频率。
写在最后地平线作为一家「披着硬件外衣的软件公司」,自身还有其独特的优势。
比如基于 BPU 纳什架构打造的征程 6 系列,相比上一代性能大幅提升外,全新 BPU 架构可以面向全场景支持更高效的交互博弈能力。此外,征程 6 系列也针对 Transformer 大模型进行优化,更高效的支持 Transformer 的应用。
这样软硬件紧密协作,不仅能够提升计算效率和降低能耗,也确保了系统和硬件的共同进步,提升整体系统性能。
这次地平线 50 分钟北京晚高峰零接管展现出来的能力,我觉得用地平线公司的使命是一个很好的结尾,「赋能智能驾驶,让人类生活更安全、更美好」。
标签: ID.4 CROZZ
内容由作者提供,不代表易车立场
19.39-29.39万
获取底价