在座舱里，我们到底在「chat」什么？

作者： GeekCar极客汽车
2023-07-15 22:19
638

盘点一下今年上半年的「当红炸子鸡」，非 ChatGPT 模式莫属。OpenAI 和它的 GPT 不仅凭一己之力将 AI 再度推上风口，也带起了大模型之战。如今还没摩拳擦掌打造自家大模型的科技公司，在这轮 AI 大战里已经可以宣告出局了；还没有计划将大模型引入汽车的车企，动作似乎也有点慢了。

如果说去年大火的「元宇宙」离汽车多少有点远，那AI 大模型跟汽车的距离就近多了。毕竟「ChatGPT」的「chat」就与如今座舱里离不开的语音交互密切相关。语音交互也因此成了大模型上车的第一站，比如，之前 GeekCar 抢先体验的文心大模型上车，理想宣布自研的 MindGPT，商汤在上海车展期间展示的 SenseChat 中文语言模型，而奔驰更是直接在北美开启了 ChatGPT 上车测试。各家在探索的同时，更好奇大模型、生成式 AI 究竟能给语音交互和智能座舱带来什么改变？

前不久，GeekCar 有幸采访到全球车载语音巨头赛轮思首席执行官 Stefan Ortmanns 博士。赛轮思技术应用在全球汽车占比约 53% ，这意味着每两辆新生产的汽车中就有一辆是使用它的技术。值得一提的是，在北美开启 ChatGPT 测试的奔驰 MBUX 系统，早已采用了 Cerence JustTalk 车载助理功能。在 Stefan Ortmanns 博士看来，目前的车载语音正处在「从典型的出行助理解决方案到沉浸式伴侣体验」的过程中，其中离不开 AI 的驱动。

赛轮思首席执行官 Stefan Ortmanns 博士

目前语音交互究竟是怎样向着「沉浸式伴侣体验」发展的？在这个过程中大模型究竟能带来哪些想象力？我们一起来看看。

车载语音 1.0时代：

任务型助手的升级

对于很多人来说，目前语音交互最常见的两个场景，一个是在车里，另一个可能就是智能音箱了。

眼看着座舱智能语音的在新车中的渗透率高达 70%以上，在车里用语音交互被越来越多人接受，相比之下，智能音箱的处境就没那么乐观了，更多地沦为了家里哄孩子的工具，或者是控制智能家居的中台。其中关键一因素就是：边界。

如果把智能语音划分成任务型和闲聊型，目前智能座舱里的语音交互就是「任务型助手」的代表。相对封闭的环境，容易把控的使用场景，让车载语音助手可以针对高频需求优化训练，主打一个「有求必应」：无论是打开车窗、空调，还是设置导航播、放视频，都建立在明确的指令下。给出指令——解决问题，一来一回，正好满足驾驶场景的需求。

因此，现阶段车载语音交互更多关注的是如何给任务型助手的升级：一方面是提高识别和响应速度；另一方面就是优化体验，比如类似的 oneshot、多轮对话能力，前面提到的 Cerence JustTalk 全时免唤醒对话功能，都建立在 AI 对全栈式技术的优化基础上，提高语音交互的准确率的同时，也提高了交互的效率。

作为用户来说，这种优化更直接的感受就是车载语音更加务实了：识别准确率提升，能摆脱冗余的唤醒词，不必再记住特定的指令，模糊指令也能识别……

从「出行助理解决方案」这个工具属性来看，体验提升了不少。不过对于智能语音来说，目标显然不止于此。

车载语音 2.0 时代：

AI 驱动更主动、更像自然人的交互

尽管很多时候大家会说「谁开车时会需要闲聊啊？这不是耽误开车么？」但是更具有主动感知能力和自然交互能力的交互体验，一直是不可阻挡的趋势。

在以往的概念车上看到的语音+眼神指令的察言观色、语音+手势的 3DTof 功能，甚至不少车企打出的「情感交互」牌。

如果说情感交互、主动式交互听起来太抽象，那用 Stefan Ortmanns 博士的话来说就是：「从出行助理解决方案向沉浸式伴侣体验的过程，中间阶段就是虚拟副驾驶（Co-Pilot）阶段，这种趋势意味着能带来大量的信息。」

也就是从任务型助手向沉浸式交互发展，意味着更多信息的交互：系统获取更多的信息，处理更多信息，以及向用户传递更多信息 。

现阶段是怎么做的呢？最常见的就是多模态融合。通过将语音和摄像头等实时信息融合，或者与以往的数据库融合，给出主动式的服务。

比如，赛轮思推出的 Cerence Co-Pilot 功能，就是将语音系统与视线、手势和触摸输入及汽车传感器信息融合。当你看着车窗说热的时候，系统能自动打开车窗；当监测到马上要到家时，提前询问是否打开家里的空调；当汽车电量不足时，主动提示附近充电桩导航；甚至引入生物识别引擎 Voice Biometrics，在座舱里实现声纹识别等多模态生物识别功能。