体验了6款车载智能语音助手后的总结
目前智能汽车可以分为自动驾驶和智能座舱两大块,而智能座舱里的一个比较核心的能力就是只能语音助手,通过智能语音助手帮助用户去操控整个智能座舱,为用户提供服务。本文作者对智能座舱里的智能语音助手进行了分析,一起来看一下吧。
智能汽车可以分为两大块:自动驾驶和智能座舱。
自动驾驶主要研究的是怎么从A点移动到B的点;而智能座舱主要研究的是,在移动的过程中,怎么给车舱内的用户创造更好的生活体验。
现在大家提成出了一个新的概念:智能座舱是第三生活空间。即继家庭、工作以外的另一个生活空间。
目前在智能座舱里比较核心的一个能力就是智能语音助手,通过智能语音助手帮助用户去操控整个智能座舱,为用户提供服务。
本文主要讨论的是智能座舱里的智能语音助手。
一、车载智能语音助手目前都能做些什么?
总的来说,车载语音助手可以给车机系统的应用程序发送指令和给车机部件发送指令。可见即可说,即在中控屏上看到的功能,都可以用语音的方式发送指令控制。
主要分为两大块:
1. 操控娱乐信息
操控娱乐信息是指控制中控屏里的娱乐信息应用程序(非汽车部件),如播放音乐、查天气、查股票、播放电影、播放电台等。
2.操控车机
操控车机是指操控汽车零部件,如操控空调、车窗、座椅、氛围灯等;但通常不会控制汽车行驶移动相关的功能,如不控制汽车行驶的速度、转向等。
小结
通常座舱内会有多个麦克风,能够识别到用户在哪个位置说话。比如坐在副驾驶的用户说"打开车窗",会打开副驾驶的车窗,不需要用户说明要打开哪个车窗。
目前主要是通过语音呼叫方式来唤醒语音助手,类似于智能音箱的唤醒方式。
未来应该会朝着多种唤醒方式的方向发展,如通过视觉的方式,看到用户在调座椅,助手可以主动说"可以通过说话方式来调整座椅哦"。主动地给用户提供服务,目前更多是被动的方式。
有些厂商目前一次唤醒只能发送一条指令,未来应该会朝着持续监控用户意图的方式发展。
目前理解用户意图基本只会通过语音的方式,未来肯定是朝着多模态的方向发展,如通过语音+视觉+各种传感器等多纬度的信息理解用户的意图。
二、各车型智能语音助手功能总结
笔者通过线下体验店体验了6款车型的智能语音助手,记录了体验的感受。当然会有误差或不准确,仅供大家参考。误差的影响因素可能来自:环境网络差、用户操作不当、环境噪音等。
1. 比亚迪-汉
关键字:中规中矩、无明显短板也无明显亮点
基础的控制汽车部件、控制媒体信息的能力都有;媒体信息的丰富度也很多、响应速度和准确率也不错。
缺点:不支持一次唤醒多次对话。大多数场景不支持多轮交互(如先播放周杰伦的音乐,再说:再播放他的电影,不支持)。闲聊能力几乎没有,如说:"你好笨啊"、"我生气了",助手接不了话。
2. 零跑-C01
关键字:基础能力都有,但不稳定基础的控制汽车部件、控制媒体信息的能力都有;媒体信息的丰富度也很多、响应速度和准确率也很高。支持一次唤醒,在一定时间内可进行多次交互。
缺点:说打开车窗、换个氛围灯等对汽车零部件的控制指令,不稳定,有时不执行。大多数场景不支持多轮交互(如先播放周杰伦的音乐,再说:再播放他的电影,不支持)。闲聊的内容几乎没有,如说:"你好笨啊"、"我生气了",助手接不了话。
3. 问界-M5车机用的是鸿蒙系统,手机跟车机系统互联互通(不是投屏)、响应超快。支持一次唤醒,在一定时间内可进行多次交。支持多意图,如能识别并执行"打开车窗和打开"。有多轮交互的能力,如先说:"把主驾驶座椅调成按摩",再说"座椅调前一点",能理解到说的是前排座再调前一点。支持根据人脸ID,记忆用户偏好,如座椅位置。
缺点:一系列都需要用的是华为的产品、限制比较多、应用软件必须要在鸿蒙系。闲聊的能力几乎没有,如说:"你好笨啊"、"我生气了",助手接不了。
4. 理想-L9
1)语音助手支持语音+视觉方式结合去理解用户的意图。
比如,"打开这个",边说,边用手指指着要操作的物体,就能识别。
暂且不说有多方便,起码算是语音和视觉一起识别用户意图的一个开始,后续有很多想象的空。
2)支持一次唤醒,在一定时间内可进行多次交。(没有找到明显的缺点)
5. 极氪-001
1)有一定的闲聊能力。
2)支持一次唤醒,维持一段时间的交互。
缺点:一些使用频次低的功能,意图的识别准确度还是比较低。不支持多轮交互,如"座椅调前一点";再说"再调前点",就每办法识别了。
6. 特斯拉-Model3
缺点:需要按住按钮才能说话意图缺乏泛化能力,基本要完全命中文案才会执行很多命中了也没办法执行指令
总的来说【简约】,能减的功能都给你减了。
使用体验评分
根据个人的体验,做了下评分,供大家参考。
三、总结智能车载语音助手待优化问题1.唤醒问题
很多厂家的语音助手还是只能支持一次唤醒,一次对话的形式。若用户需要连续跟助手对话时,交互的效率和体验会大打折扣的。
一次唤醒,一段时间内支持监测用户多次说话,可能会引发误理解的问题。用户在跟其他人说话或者在唱歌,可能会给语音助手误以为是在给它发指令,引发误操作。
2.低频使用的功能待完善
虽然很多厂家都标榜自己可见即可说,但实际上很多低频操控的功能还不是很完善。比如说:调整座椅等,意图的识别准确率偏低,意图识别的颗粒度不够细。
3.多模态识别问题
目前理解用户意图的方式还是比较单一,大多数只能通过语音理解。
但在环境音比较嘈杂的情况下,理解的准确率度会偏低,如打开车窗后噪音比较大、车内多乘客同时说话、媒体音量比较大时,都会影响助手对用户意图的理解。
在这样的环境下,如果让语音+唇语+手势等其他纬度结合去理解用户的意图,可以提升对用户意图理解的准确率,这也是未来大家争相要突破的方向。
4.多轮交互问题
大多厂商的语音助手在多轮交互上的能力还是比较欠缺的,甚至没有。
比如,先说"放一首周杰伦的歌",然后再说"放他的电影吧",这时就识别不了是要放周杰伦的电影了。
需要实现多轮的对话能力,还需要涉及怎么维持对话的状态、记录对话的槽位信息等等。
用户实际的对话场景是非常复杂的,如果让语音助手看起来跟智能,有更加自然的对话效果,还是有很长的路要走的。
5.闲聊、情感陪伴问题
大多数厂商在闲聊(非执行任务或指令)的场景下,能力还是很弱的,甚至是没有的。
比如说:"今天天气真好"、"今天好开心啊"、"又下雨了怎么办呢"等等,智能助理基本是无法接话的。
处理执行任务和指令是基础能力,但闲聊和情感陪伴是个性化和拟人化的必经之路。
比如,智能助理能够记住跟用户历史的聊天记录。若用户之前跟助手提过自己的生日,或者提过女朋友的生日,下次聊天问"你还记得我生日吗",助手能回答。
甚至在记住我生日后,在生日那天主动跟我说生日快乐。这样整个助手就会更加的有人的温度。
本文由 @JM 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议。
肝血越少做梦越多,睡眠越少,一盒中成药心肝同补,让你酣睡一夜肝主藏血,血具有濡养心神的作用,如果心神失养,就会睡不好觉,血不养魂呢,就会做很多梦,还大多伴随着浑身乏力,心情烦躁,睁眼闭眼都睡不着,入睡难的情况,今天分享的中成药酸枣仁胶囊可以
Redis网络模型究竟有多强?如果面试官问我Redis为什么这么快?我肯定会说因为Redis是内存数据库!如果不是直接把数据放在内存里,甭管怎么优化数据结构设计怎样的网络IO模型,都不可能达到如今这般的执行效率
2022年散记(上)又到了一年中需要回顾与总结的时刻了。前几天没有更新博文,有小部分身体原因,更多的还是因为身处居丧期,我想为老岳父静默几日,以示哀思。在这样的心境下,让我回顾一年来的经历,难免会带有
不管(原创)无形中,经常是独个儿胡思乱想,只是不知道这一天,会有多遥远,或许,也许也许不会有那么一天吧?翘首望,天空中的云层压得很低很低,我多么希望可以下一场雨,一场大雨,冲刷掉所有的躁动和不
2023年马上就要到啦,你的跨年文案准备好了吗?快来看看吧我给大家整理出来50条很高级的跨年文案,总有一个会让你满意,快快点赞赞收藏,赞爆朋友圈!!来看我1。新的一年,愿日子如熹光,温柔又安详,你我赤诚且勇敢,欣喜也在望,日迈月征,朝暮轮
冬。落寞。颓废登高远眺,心底四野苍茫,远山一片红云飘荡,近处水墨,瘦笔淡墨。青石板路上,落叶在暖阳里轻舞,有的已经飘飞落定,静静享受着生命的安静,飞过露水与叶,遥相辉映之间,仿佛听到了落叶诵经的
这几个意外离世的名人,让人意难平!如果能复活1个,你选谁?生命只有一次,这一生是漫长还是短暂?有的人觉得人生苦短一百年也不够,甚至还想向天再借五百年有的人觉得人生漫长活着没意义,选择主动结束生命有的人还没来得及思考这个问题,就遭遇飞来横祸
冒寒冬完成收官之战长征四号连续两年发射量超10次12月27日15时37分,中国在太原卫星发射中心用长征四号乙运载火箭,成功将高分十一号04星发射升空庄嘉靖摄中新网上海12月27日电(郑莹莹马帅莎)长征四号系列运载火箭这两年很忙,
大脑的思考是量子计算,这一猜测有了新证据机器之心报道机器之心编辑部都柏林圣三一大学的科学家们认为,我们的大脑会做量子计算。几十年来,科学家们一直在探索人脑的计算和思考机制。但人脑的构成太过复杂,包含几百亿个神经元,相当于
春节蕴含的中医文化中医学始终植根于传统文化的土壤中,与衣食住行,以及岁时节令等各类民俗息息相关。眼看着今年快收尾了,那今天就和大家一起聊聊春节里的中医文化吧。每年从祭灶(即农历腊月二十三)到除夕为止
美女图16大家周一早阿,欢迎来到小妮妮美女图库世界,喜欢关注点赞评论,你们的支持是我最大的鼓励早安让过去的遗憾随风而去让新的一天点亮内心的光要活成一轮火热的朝阳无惧未知挑战去邂逅更多美好温暖