关于汽车场景人机交互的想法（三）

作者：汽车大嘴巴
2024-04-14 20:49
349

由于智能驾驶的门槛太高，核心能力主要集中在几个头部供应商手中，所以智能座舱成为电动车时代的重要战场，每个车厂都在这个方向上不断投入，连最保守的日系大厂也不得不紧紧跟随。

2015年BMW首次在7系车上推出了手势控制系统，我查了查当时的媒体评价，也许受限于当时的技术能力，效果不尽如人意；

时隔7年之后，2022年发布的理想L9，将手势控制提升到了一个全新体验，之前讲过的空间手势控制后排屏，以及手势+语音的“打开这个”车内部件控制，且不说最终用户评价如何，至少车评媒体圈里被刷爆流量。

还有比较典型的是DMS（Driver Monitor System）的应用，本来是为了疲劳监控，但随着技术的发展，大家都试图扩展其能力，判断驾驶员情绪、健康状态……，某日系大厂甚至将健康检测&情感判断作为未来的价值方向。

发展至今，针对车内人、宠物、物品的各类“监控”手段，以及针对“监控结果”的反馈手段（振动、灯光、声音、图像等）花样百出，这种情况甚至发展至车外：当车主接近车辆被“监控”到，车会亮灯“眨眼”，甚至自解锁、启动……

而2023年底突然爆发的生成式大模型：文本、图像、视频的实时反馈，更是让这种交互能力变得更强——“多模态交互”成为当下最热门的领域，被汽车圈不断地创新、投入、迭代！

多模态交互最大的价值并不是其炫酷的展现方式，而是单一手段的信息模糊性导致无法满足目的判断（机器理解人）的精确性，以及信息传达（人理解机器）的有效性。

多种方式的感知，比如语音+手势、DMS+语音（语气），甚至将车辆当前的内部状态数据、外部环境数据相结合（比如车窗起雾时，用户指着前窗说：解决一下这个问题），机器将这些感知信息聚合在一起去判断：前窗+内外温差大+车内湿度高+用户很着急=结雾导致前窗看不清路，必须马上启动除雾！

多种方式的反馈，比如声音+灯光+振动，甚至结合语音&画面，能让用户及时、清楚地获得汽车要反馈的内容：停车开门且后面有自行车时，语音播报“小心开门”，视频显示后面自行车与车位置的动画，氛围灯闪动等，甚至应该鸣笛双闪，引起后面自行车的注意！

多模态交互将车载人机交互体验提升了一个等级，且随着技术的进度还有更大的提升空间，但我们也不得不面对这种技术应用带来的风险与问题。

首先是单一模态交互技术的准确性问题：与传统的点击、滑动等明确清晰的交互不同，无论是表情还是语气，都存在着模糊性问题，比如有些人本身喜怒不形于色，就连人与人之间，也无法准确地去识别“情绪”这种模糊化的指标，所以会导致这类交互的目的判断，必须结合其他交互方式才能具有实用价值；

其次是多种反馈信息带来的“信息过载”问题：驾驶环境中，人的注意力更多是在判断路面风险，过多的信息打扰会让注意力分散，同时也会让驾驶者产生“信息处理”压力。就像你身边有好几个人同时在耳边絮叨，会让人无所适从，所以反馈手段必须是根据场景精简优化过的；

最后是成本问题：每增加一种交互手段，就会增加一份成本，且有些交互技术本身就需要大量的成本投入。比如前面说的DMS，增加了硬件成本自不必说，就软件层面来看，原本作为疲劳监控，从识别算法上来说还相对简单，但要加入情绪、健康等判断目标，其算法复杂度要有几个数量级的增加，这都是成本，这些成本对应到实际应用价值中，是否值得，需要车厂做出谨慎的判断！

如何在效果、体验、成本三者之间去做平衡，将是各车厂未来面对的重大课题。

以下提出几条个人建议：

一、硬件复用，软件迭代—上面说的DMS，本身硬件就是带红外的摄像头，那么如何充分利用软件算法去加载更多的识别内容，不仅是情绪、健康，还可以识别驾驶员手势……这是车厂降本的最有效方式，这个原则同样适用于其他车辆功能，比如ADAS的前置摄像头，完全也可以作为行车记录仪使用，更多的硬件复用不再列举，但需要特别说明的是，这种软件算法迭代还是要依赖整车E/E架构设计，比如摄像头信号，如何同时输入给智驾和车机？这些都需要合理地设计！再延展开来说，这些优秀的整车设计，才是软件迭代的基础。

二、丰富感知，精简反馈——前面提到的单一信息模糊性，需要丰富的感知信息组合在一起实现精准判断，就感知来说，其实对象只有三个：人、车、环境，将这些感知信息有效地融合，就可以让人通过最直觉的表达，完成最有效的输入。这样就需要汽车可以提供丰富的数据信息，这些信息不仅是车上的实时信号，也依赖于云端信息的接入；而对于反馈信息来说，反馈“内容”是技术课题，会随着技术迭代不断提升其有效性，反馈“方式”则是设计问题，这就需要产品经理的智慧与克制，从“人”的视角去思考，及时、准确、不打扰、不“过载”。

三、技术无感，效果惊艳—交互是一种体验，不是炫技，用户通过最简单的表达获得最有效的反馈才是交互的最高目标！多模态不是为了酷炫存在的，“打开这个”这种连说带比划的方式是否真的比直接去按一个实体按钮有更好的体验？我个人还是觉得有些过度设计了。

基于以上三点，举一个很久之前我企划的场景功能案例来说明一下：副驾坐着女朋友时，她看着右前方问你：“那车是什么牌子？”你犹豫半分钟回答：“五菱宏光？”……如果此时你伸出手，指向右前方，问汽车：“那是啥车？”，大屏显示出汽车图片及价格信息，并语音回答你：“科尔维特！”