童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

AI产品经理需要了解的语音交互评价指标

7月23日 心碎巷投稿
  本文主要从5大方面具体介绍了现在行业内对语音交互系统的常见评价指标,分别是语音识别、自然语言处理、语音合成、对话系统和整体用户数据指标。enjoy
  最近,在饭团“AI产品经理大本营”里,有团员提问:如何制定针对自然语言语音交互系统的评价体系?有没有通用的标准?例如在车载环境中,站在用户角度,从客观,主观角度的评价指标?
  上周,我在专属微信群内抛出了这个问题,当晚,胡含、我偏笑、艳龙等朋友就分享了不少干货心得;最近几天,在飞艳同学的协助整理下,我又补充了一些信息,最终形成这篇文章,以飨大家。
  一、语音识别ASR
  语音识别(AutomaticSpeechRecognition),一般简称ASR,是将声音转化为文字的过程,相当于人类的耳朵。
  1、识别率
  看纯引擎的识别率,以及不同信噪比状态下的识别率(信噪比模拟不同车速、车窗、空调状态等),还有在线离线识别的区别。
  实际工作中,一般识别率的直接指标是“WER(词错误率,WordErrorRate)”
  定义:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。
  公式为:
  Substitution替换
  Deletion删除
  Insertion插入
  N单词数目
  3点说明:
  WER可以分男女、快慢、口音、数字英文中文等情况,分别来看。
  因为有插入词,所以理论上WER有可能大于100,但实际中、特别是大样本量的时候,是不可能的,否则就太差了,不可能被商用。
  站在纯产品体验角度,很多人会以为识别率应该等于“句子识别正确的个数总的句子个数”,即“识别(正确)率等于96”这种,实际工作中,这个应该指向“SER(句错误率,SentenceErrorRate)”,即“句子识别错误的个数总的句子个数”。不过据说在实际工作中,一般句错误率是字错误率的23倍,所以可能就不怎么看了。
  2、语音唤醒相关的指标
  先需要介绍下语音唤醒(VoiceTrigger,VT)的相关信息。
  (1)语音唤醒的需求背景
  近场识别时,比如使用语音输入法时,用户可以按住手机上siri的语音按钮,直接说话(结束之后松开);近场情况下信噪比(SignaltoNoiseRatio,SNR)比较高,信号清晰,简单算法也能做到有效可靠。
  但是在远场识别时,比如在智能音箱场景,用户不能用手接触设备,需要进行语音唤醒,相当于叫这个AI(机器人)的名字,引起ta的注意,比如苹果的“HeySiri”,Google的“OKGoogle”,亚马逊Echo的“Alexa”等。
  (2)语音唤醒的含义
  简单来说是“喊名字,引起听者(AI)的注意”。如果语音唤醒判断结果是正确的唤醒(激活)词,那后续的语音就应该被识别;否则,不进行识别。
  (3)语音唤醒的相关指标
  a。唤醒率。叫AI的时候,ta成功被唤醒的比率。
  b。误唤醒率。没叫AI的时候,ta自己跳出来讲话的比率。如果误唤醒比较多,特别比如半夜时,智能音箱突然开始唱歌或讲故事,会特别吓人的
  c。唤醒词的音节长度。一般技术上要求,最少3个音节,比如“OKGoogle”和“Alexa”有四个音节,“HeySiri”有三个音节;国内的智能音箱,比如小雅,唤醒词是“小雅小雅”,而不能用“小雅”如果音节太短,一般误唤醒率会比较高。
  d。唤醒响应时间。之前看过傅盛的文章,说世界上所有的音箱,除了Echo和他们做的小雅智能音箱能达到1。5秒,其他的都在3秒以上。
  e。功耗(要低)。看过报道,说iPhone4s出现Siri,但直到iPhone6s之后才允许不接电源的情况下直接喊“HeySiri”进行语音唤醒;这是因为有6s上有一颗专门进行语音激活的低功耗芯片,当然算法和硬件要进行配合,算法也要进行优化。
  以上a、b、d相对更重要。
  (4)其他
  涉及AEC(语音自适应回声消除,AutomaticEchoCancellation)的,还要考察WER相对改善情况。
  二、自然语言处理NLP
  自然语言处理(NaturalLanguageProcessing),一般简称NLP,通俗理解就是“让计算机能够理解和生成人类语言”。
  1、准确率、召回率
  附上之前文章《AI产品经理需要了解的数据标注工作入门》中,分享过的一段解释:
  准确率:识别为正确的样本数识别出来的样本数
  召回率:识别为正确的样本数所有样本中正确的数
  举个栗子:全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象,其中18名为男性,2名为女性。则
  精确率18(182)0。9
  召回率18300。6
  再补充一个图来解释:
  2、F1值(精准率和召回率的调和平均数)
  模型调优后追求F1值提升,准确率召回率单独下降在一个小区间内,整体F1值的增量也是分区间看(F1值在60内,与60以上肯定是不一样的,90以上可能只追求1的提升)。
  P是精准率,R是召回率,Fa是在F1基础上做了赋权处理:Fa(a21)PR(a2PR)
  三、语音合成TTS
  语音合成(TextToSpeech),一般简称TTS,是将文字转化为声音(朗读出来),类比于人类的嘴巴。大家在Siri等各种语音助手中听到的声音,都是由TTS来生成的,并不是真人在说话。
  主观测试(自然度),以MOS为主:
  MOS(MeanOpinionScores),专家级评测(主观);15分,5分最好。
  ABX,普通用户评测(主观)。让用户来视听两个TTS系统,进行对比,看哪个好。
  客观测试:
  对声学参数进行评估,一般是计算欧式距离等(RMSE,LSD)。
  对工程上的测试:实时率(合成耗时语音时长),流式分首包、尾包,非流式不考察首包;首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU占用、324小时crash率等。
  四、对话系统
  对话系统(DialogueSystem),简单可以理解为Siri或各种Chatbot所能支持的聊天对话体验。
  1、用户任务达成率(表征产品功能是否有用以及功能覆盖度)
  (1)比如智能客服,如果这个Session最终是以接入人工为结束的,那基本就说明机器的回答有问题。或者重复提供给用户相同答案等等。
  (2)分专项或分意图的统计就更多了,不展开了。
  2、对话交互效率
  比如用户完成一个任务的耗时、回复语对信息传递和动作引导的效率、用户进行语音输入的效率等(可能和打断,Oneshot等功能相关);具体定义,各个产品自己决定。
  3、根据对话系统的类型分类,有些区别。
  (1)闲聊型
  CPS(ConversationsPerSession,平均单次对话轮数)。这算是微软小冰最早期提出的指标,并且是小冰内部的(唯一)最重要指标;
  相关性和新颖性。与原话题要有一定的相关性,但又不能是非常相似的话;
  话题终结者。如果机器说过这句话之后,通常用户都不会继续接了,那这句话就会给个负分。
  (2)任务型
  留存率。虽然是传统的指标,但是能够发现用户有没有形成这样的使用习惯;留存的计算甚至可以精确到每个功能,然后进一步根据功能区做归类,看看用户对哪类任务的接受程度较高,还可以从用户的问句之中分析发出指令的习惯去针对性的优化解析和对话过程;到后面积累的特征多了,评价机制建立起来了,就可以上强化学习;比如:之前百度高考,教考生填报志愿,就是这么弄的;
  完成度(即,前文提过的“用户任务达成率”)。由于任务型最后总要去调一个接口或者触发什么东西来完成任务,所以可以计算多少人进入了这个对话单元,其中有多少人最后调了接口;
  相关的,还有(每个任务)平均slot填入轮数或填充完整度。即,完成一个任务,平均需要多少轮,平均填写了百分之多少的槽位slot。对于槽位的介绍,可详见《填槽与多轮对话AI产品经理需要了解的AI技术概念》。
  (3)问答型
  最终求助人工的比例(即,前文提过的“用户任务达成率”相关);
  重复问同样问题的比例;
  “没答案”之类的比例。
  整体来说,行业一般PR宣传时,会更多的提CPS。其他指标看起来可能相对太琐碎或不够高大上,但是,实际工作中,可能CPS更多是面向闲聊型对话系统,而其他的场景,可能更应该从“效果”出发。比如,如果小孩子哭了,机器人能够“哭声安慰”,没必要对话那么多轮次,反而应该越少越好。
  4、语料自然度和人性化的程度
  目前对于这类问题,一般是使用人工评估的方式进行。这里的语料,通常不是单个句子,而是分为单轮的问答对或多轮的一个session。一般来讲,评分范围是15分:
  1分或2分:完全答非所问,以及含有不友好内容或不适合语音播报的特殊内容;
  3分:基本可用,问答逻辑正确;
  4分:能解决用户问题且足够精炼;
  5分:在4分基础上,能让人感受到情感及人设。
  另外,为了消除主观偏差,采用多人标注、去掉极端值的方式,是当前普遍的做法。
  五、整体用户数据指标
  常规互联网产品,都会有整体的用户指标;AI产品,一般也会有这个角度的考量。
  1、DAU(DailyActiveUser,日活跃用户数,简称“日活”)
  在特殊场景会有变化,比如在车载场景,会统计“DAU占比(占车机DAU的比例)”。
  2、被使用的意图丰富度(使用率X的意图个数)。
  3、可尝试通过用户语音的情绪信息和语义的情绪分类评估满意度。
  尤其对于生气的情绪检测,这些对话样本是可以挑选出来分析的。比如,有公司会统计语音中有多少是骂人的,以此大概了解用户情绪。还比如,在同花顺手机客户端中,拉到最底下,有个一站式问答功能,用户对它说“怎么登录不上去”和说“怎么老是登录不上去”,返回结果是不一样的后者,系统检测到负面情绪,会提示转接人工。
  结语
投诉 评论

电商巨头的明争暗斗,成为推动中国商业前进的动力随着电商巨头竞争而来的,是能拉动整个行业升级、变革、与创新的利好氛围。阿里和京东两大电商平台长期占据着国内电商市场的半壁江山。所谓一山不容二虎,两大电商价格战、品牌战、配……给你一个品牌,如何让它像江小白、喜茶一样快速走红、脱颖而出要想让品牌快速走红,必须做好品牌运营。品牌运营对公司来说,到底有多重要?1、同样一双运动鞋,贴上Nikelogo后的价格与代工厂的价格相差十几倍;2、同样进入……AI产品经理需要了解的语音交互评价指标本文主要从5大方面具体介绍了现在行业内对语音交互系统的常见评价指标,分别是语音识别、自然语言处理、语音合成、对话系统和整体用户数据指标。enjoy最近,在饭团“AI产品经……用不可描述之事修炼的AI们让这个世界不仅是代码和关键词,还有更复杂也更简单的人性。这篇文章的最高期望,是希望能为你理解AI与现实间的关系提供一个新的脑洞;最低期望,就是不要被删掉。正在审查的……saybyeto《产品经理日报》,sayhelloto《产品嗨,大家好,我是小编daisy。一周不见,可有人想念我的《产品经理日报》呢?我相信是有的,正如下图这位小伙伴在周一那天没看到PM日报就跑去天天问留言:说真的,当同事……App耗电分析与优化文章作者结合自身经验分享了关于APP耗电优化的相关知识,希望能够给你带来帮助。虽然市面上出现了各种大容量的电池或者快充技术,但是目前在没有新材料的支撑下,都不可能完全解决……信息流战争升级,今日头条的如意算盘不好打流量红利行将结束,“水落”则“石出”,在爆炸性的用户增长开始放缓、竞争对手玩法日趋成熟的时候,今日头条究竟还能不能获得竞争优势?已经十分热闹的信息流的战争看起来远没有停止……如何看待”得到”的野蛮生长?匮乏饥饿之人,只求快餐果腹,食物从何而来并不重要,又何来精与不精?得到逻辑思维毫无疑问,逻辑思维的成功,为后续得到的发展提供了可观的用户,也为其核心用户“拍了照”,……10万媚俗女王咪蒙打造课程时,为何承诺“3年后可申请退款”?咪蒙承诺“3年后可申请退款”的课程背后,到底暗含的是什么样的逻辑?上午收到一条推送“咪蒙课程上线喜马拉雅FM,听课三年后加薪不超50可申请退款”,反正我是不信“我会因为这……支付宝、微信、银联的移动支付三国之战(吴篇)移动支付领域尚未一统,厮杀不断,尚未可知“谁笑到最后,谁笑得最好”。吴之微信:微信凭借着庞大的社交基础,借微信红包之势,迅速在线下移动支付端站稳脚跟,迅速分的市场第二大的……AI:连漫画都看不懂,谈什么毁灭世界?任何事物都有其局限性,AI也并非无所不能。作为一个AI垂直自媒体的作者,我工作中的很大一部分就是替AI“带路”,然后告诉人类读者们,你们的这项和那项工作都要被AI替代了。……资深运营总监带路,多维度提升运营能力,冲刺年终奖做运营是一种什么样的体验?打杂、加班多;苦哈哈设计出的运营方案,用户就是不买单;自学了许多套路招数,但总觉得知识很零散,成长缓慢为什么大部分运营人都被这种苦恼围绕?……
壹周潮话题木村夫妇结婚20年首秀恩爱,海狸Kaia居家没忘秀滴,你的春天已余额不足。新曲回归张艺兴许久不见的艺兴带着最新原创单曲《Joker》在《我是唱作人2》的首秀舞台上回归啦!大家都看了咩呀?COCO可是刷了N多遍……评分最高恋爱番,终于等到它更新!戳上方蓝字关注,自动为你推荐一部热门好片整点电影你有128个好友已关注对于二次元少年来说,2019年绝对是各种爆款番剧横行的一年。有万众……方方有点辜负支持她的人。。作者闲时花开IDxsha369《方方日记》开始连载后,我读过一些,在之前的文章《出生世家却干了4年苦力,如今她在“封城日记”里说尽了大实话》也曾对其表示支……丰富自己,比取悦他人更有力量!提升自己必读的几个公众号,真不2020年过去三分之一了。是时候,调整你的生活节奏了。会思考的年轻人,都懂得善用新媒体获取高品质、可信赖的信息。那么,这几个顶尖知识类公号你一定不能错过!!!快来关……去年卖了10000,巨好喝!春夏必备小甜水,囤10瓶都不够喝广州最近的天气一天比一天热,惹人想喝点小酒。把酒放进冰箱凉透,就着一碟下酒菜。一个人慢慢的小酌一杯,身心和大脑都不自觉的放松下来,特别解压!喝到微微醺的感觉最……会盟创业社:今天在分享5款互联网创业项目,希望能给你一点启发无货源网店:这个项目阳光且好操作,虽然已经是网贝兼圈玩剩下的。但是依然有很多人在里面赚到不少的真金白银。不过之前的淘宝客,现在大部分的人都转向拼多多了,日入过千那真是在简……女性消费市场达10万亿:能挣会花的她们都在买什么?不久前,我们与第一财经商业数据中心(CBNData)共同发起2020女性品质生活大调查。深度洞察了当下中国女性消费群体的整体面貌,探寻新一代女性对品质生活的态度和实践。n……她逃离北京,回老家过起了山居生活,竟吸引二十多万粉丝争相围观她叫周猎猎是一个编剧十年前,她从中国戏曲学院毕业了和很多同学一样周猎猎一毕业,就怀抱着编剧梦加入了北漂的大潮拥挤的出租屋,阴冷潮湿的地下室……优质严选丨8件单品承包你整个春夏look大嘎好这里是每周日都来给你种草的优质严选最近气温反复,昨天还在初冬,今天就变成初夏,比女朋友的心情还难猜。不过再怎么变,……如何快速提升在团队中的影响力?自己解决问题是英雄,命令下属解决问题是老板,动员团队解决难题才是领袖。领导力不是当领导,领导力的核心是动员团队解决难题。领导力的短期任务是解决某个具体难题,长期任务是提升……风吹雨洗一城花谷雨读诗赏牡丹关注国学精粹与生活艺术顶级传统文化美刊谷雨诗词选《阳羡杂咏十九首茗坡》唐陆希声二月山家谷雨天,半坡芳茗露华鲜。春醒酒病兼消渴,惜取新芽旋摘煎。……解封后,湖北再次求救!人们最担心的事情还是发生了。。。从1月23日封城,到4月8日0时解封,经过76天的管控后,这个被“封印”了的省份,在熬过寒冬后,终于在春天浴火重生。大病初愈后的湖北,好像一切正都在欣欣向荣。大家都……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界