童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

如何评测语音助手的智能程度(1):意图理解

2月10日 海岸线投稿
  本文重点定义和讨论第一大模块【意图理解】,即是否能够理解识别用户表述的意图。笔者以为,这个模块是衡量AI智能与否的核心维度,并将为大家揭晓评测维度与指标。
  从事AINLP领域已经一年半了,一直潜心学习。
  平日里研究各种各样的语音助手,输出各种类型的调研分析报告,以培养自己的业务敏锐度,同时也研究各种框架型知识以丰富自己的知识库。
  在仔细、反复研读完了《Google对话式交互规范指南》、《阿里语音交互设计指南》、《亚马逊语音交互设计规范》三大交互规范后,累积过往的工作过程中所遇见的问题,自己努力尝试着提炼出一个知识框架,并期望把这些规范类的东西,内化成为自己的被动技能,继而为自己以后做出更好用的产品做出积累。
  一、我心中的超级人工智能
  私以为,最理想的人工智能,就像:
  《Her》里面的萨曼莎;
  《钢铁侠》里面的贾维斯;
  《超能陆战队》里面的大白;
  《多啦A梦》里面的机器猫;
  这些超级英雄总能解决我们生活中的各种各样的问题。
  虽然我们的世界距离这种超级人工智能还非常遥远,也许永远达不到,但是不妨以一种非常高的标准对AI去做出苛求,继而去倒逼自己做出更好的产品。
  文章开始前,请先短暂忘记自己是AI从业者这个身份,让我们变成一个小白用户,尽管提要求吧。
  简单而言就是一句话“我就想要一个聪明且好用的智能助理,能够满足我生活中的各种需求。”
  “好用”如何定义?“各种需求”如何满足?难就难在没有边界。
  真正意义能符合上面要求的是,可以无限许愿的神灯。
  所以我们干脆模块化一些,笔者就智能语音助理这一产品有如下四个大的评判维度,它们依次是【意图理解】、【服务提供】、【交互流畅】、【人格特质】。
  亦或者是说,这些指标如果能够得到全部满足,距离我们想要的超级人工智能也就不远了。谁能够提供,谁就可以获得用户的亲睐。
  每个评判维度还有对应的细分指标,让我们一步步拆解。
  二、【意图理解】维度的5个指标
  本文重点定义和讨论第一大模块【意图理解】,即是否能够理解识别用户表述的意图。
  私以为,这个模块是衡量AI智能与否的核心维度。
  (1)中控分配意图能力
  当前市面上的AI智能助手,往往包含着各种各样的能力。
  从业者角度而言,本质是各个技能的集合,而每一项能力都是服务和满足特定领域类的需求,比如听音乐,导航,事项提醒,电影票,机票,火车票什么的。
  很多的技能在固定域里面能够表现得非常好,但是集中到一起,表现就未必好了。
  核心考量点:准确识别用户需求,并分配到指定技能服务的能力。
  用户提出的每个需求,计算机都会做出反馈(文本、语音、图片、功能卡片、多媒体事件等等)。
  在反馈之前,是先要做到识别并理解,然后成功分配到指定的技能上,最后由指定的技能完成反馈,即服务行为。
  而人类的语言表达千奇百怪,我们期望计算机自然能够通过人的自然表达,成功理解人类的意图,并使用对应的回复衔接业务。
  例子:
  “我想听我想去拉萨”意图应该分配给音乐,然后由【音乐】完成反馈。
  “我想去拉萨”意图分配导航,然后由【导航】完成反馈。
  例子:
  “提醒我一下我明天帮女朋友买一束花花”意图可以分配给【事项提醒】技能
  “我想明天帮女朋友订一张到上海的火车票,你早上8点半提醒我下抢票”意图如果分配给【订火车票】技能就错了
  这个就是中控分配意图的能力。也是所有AI智能助手,集合各项能力的一个核心能力。做不好中控的意图识别,智能化无从谈起。
  市面上,例如腾讯叮当、小爱同学,小度助手这类大生态的集合的处理方案,属于最大的开放域,相当多的技能只能是采用命令词跳转的方式启动,这种对话行动无疑是要等待,而且对话流程冗长,面对着输入的不确定性,所以用户为什么不用GUI(图形交互界面)去完成目标呢。
  而一些细分领域的,比如说出行、餐饮、客服、游戏领域的智能助手,这些相对的封闭固定的领域,还用关键词的方式进入指定技能再寻求服务,就显得非常笨了。
  如果做不到全开放域的中控,至少也得在固定域里面做好意图需求识别以及分配的能力,这样方便发挥语音输出便捷直达目标的能力,才不至于像个玩具。
  (2)句式话术词槽泛化度
  用大白话来讲:同一个意思,当用户采用不同的表达的时候,AI是否能够正确理解。
  业内的专业说法是“可识别话术词槽的泛化程度”。解决方案是“增加更多的语义覆盖”。
  泛化有两种,一种是句式,另一种是词槽。
  先说句式的例子:
  笔者经常观察用户的对话日志后台,发现用户在播放音乐的时候,表述各种各样。
  “我想听音乐随便放首歌音乐响起来music走起”
  有些能够能理解,【音乐】正确回复随机歌单,有些话术的表述无法理解则被【兜底】给接走了,这种反馈就是助手的失误了。
  列举词槽例子:
  “我想吃711想吃七十一”想吃seveneleven想吃关东煮想吃好炖
  我想吃肯德基想吃KFC“想吃开封菜”
  笔者的所开发的智能助手有一个【电影票】技能,观察用户对话日志时的一些发现:
  《速度与激情8》刚刚上映,用户会表述是“我想看速度与激情、速激、速8等等;
  《魔童哪咤》上映的时候,用户的表述是我想看哪咤的电影;
  《叶问3》上映的时候,用户的表述会是,叶问。甚至是“甄子丹的那个电影”;
  而AI先提取对应的影片名,然后交给接口方去完成查询行为,只有正确填充“指定电影的全称”才能够可查询成功,所以此处就需要做映射关系的特殊处理。
  在定电影票例子中,是十分考虑场景和时效性,也就是说,用户在不同的时间点,说我要看《某》系列电影的时候,口语上大概率是绝对不会带上第几部的。
  这些要求其实都是生活中的一些例子,既然人类可以做到理解,自然AI也理所应当做得更好。
  作为从业者,一定要多看自己的公司业务的对话日志后台,观察用户在对话过程中,究竟是如何去使用我们的产品,这个是我们的迭代产品的重要依据,随时根据用户实际使用情况,做出完善。
  就过往的泛化经验而言,结构性的句子变化相对较小,而词语的变化就很多,像分析数据一样经常看用户的对话日志,会有很多的积累。
  比如阿里巴巴的天猫精灵是具备线上语音购物的能力的,那么眼下的2020春节,相当多的用户会在我想买口罩这种话术之外,直接表述,我想买3M的口罩甚至会直接问有没有N95卖毕竟在眼下的这个语境,N95几乎就是口罩的代名词了。
  如果这类没有覆盖,那你也只能通过版本迭代去训练,各位AI从业者基于自家产品的版本迭代效率,思考一下差距。
  所以“一开始就做好”相比“通过各种渠道反馈发现不好,然后通过迭代去做好”,从产品设计基本功上来看,根本是两种境界。
  所以解决方案是,此处应该是有一个动态热词的词库,产品设计和运营方式不展开,不在本篇讨论范围内。
  在实际的业务中,很多词汇和句式会被不断地造出来,至于优先级如何选择,如何泛化覆盖词槽和句式,鉴于文章定位,此处不适合展开。
  (3)反馈准确度容错率
  考量AI的反馈给用户的内容是否能够准确匹配需求,是否具备显性确认以提升容错性。各个语音交互设计规范都提及了这一点。
  例子:
  “我想听林志炫的《烟花易冷》”如果AI推送的是周杰伦的就不对。
  如果没有资源,也应该处理成,未找到XXX,让我们来听YYY方为合理。
  而当接口方真(因为版权)没有资源时,明确没有,是一种我听懂了,但是实在没有,给你提供替代方案的处理,而如果你不明示没有,我可能会再追问一句,然后你还是不明示,到底是我没说明白,还是你没听懂呢?
  例子:
  假设现在是1月1日的晚上23点钟,用户说“帮我订一个明天早上7点的闹钟”
  假设现在是1月2日的凌晨1点钟,用户说“帮我订一个明天早上7点的闹钟”
  第二种情况,如果按照计算机的逻辑去理解,那1月2日的明天早上则是1月3日的早上了,这种定闹钟的方式意味着悲剧。
  而基于日常逻辑,两种情况,都应该提供1月2日,早上7点钟的闹钟方为合理。
  逻辑处理完毕后,然后就是话术的处理,回复方式有几种选择:
  回复1:“已经为您设置闹钟。”
  回复2:“已为您设置明天早上7点钟的闹钟。”
  回复3:“已经为您设置明天早上7点的闹钟,我将会在6个小时后叫醒你。”
  如果没有显性确认,就没有容错性,用户就会心中不安,一旦被【闹钟】服务坑过用户一回,那么就会恶评如潮。本来用户就用的低频,一旦不信任,被打入冷宫再也没什么机会了。
  只要你仔细体验观察,相当多的AI语音助手在给于反馈的时候,此类细节处理得不好,容错率实在是太低了。好的容错性设计,其实应该是每个AI从业者体内的基因,成为被动技能,天赋一样的能力。
  (4)模糊歧义表述处理
  GUI的交互意味着输入可控,CUIVUI的交互意味着输入不可控。
  这中间相当一部分是人类的表达问题,但是一旦造成的回复不满意,意味着用户将花费巨大的成本去再来一次。最后被用户批评或者被定性为“人工智障”、“就是个能对话的玩具”往往很让人沮丧。
  核心考量点:当用户使用模糊歧义表述的时候,AI的处理方式。
  例子:“我明天下午4点要去上海出差。”
  注意此时至少存在两处模糊歧义表述:
  用户并没有指定交通工具。
  明天下午4点,指的是4点出发,还是4点到那里。
  例子:(假设现在是周一)“帮我定下周三去上海的机票”。
  注意:ASR的转化是无法翻译停顿的,到底是“帮我订,下周三”的,还是,“帮我定下,周三”的呢?
  在真实的对话中,人们是能够根据停顿节奏,以及具体的场景猜测到底是如何断句的。
  以上两个例子是我们业务中反馈的真实案例。
  说说我自己处理这类问题的思路,即提前交付结果,等待用户反馈。
  第一个例子,根据用户的GPS坐标出行便捷程度以及商业诉求进行推荐。火车,飞机,或者是打车均是正确的选择。
  例如可以做出如下回复,“基于天气情况,建议火车出行,为你找到从XX到上海的火车票,1月3日出发,高铁二等座,价格
  第二个例子,根据用户提出需求的时间,就近选择结果反馈,并给予显性确认。
  当面对模糊歧义意图的时候,一定要有一个处理逻辑,去管理用户的期望值和服务。
  面对模糊歧义表述的处理方式在行业内通通都是大难题。好的处理方案,能够判断用户的歧义表述,并引导纠错。
  至于处理逻辑是直接给于结果,还是通过追问的形式二次判断,就是具体业务具体场景的选择了。
  不过多举例,但是有无处理方案,应该纳入进评测点。
  (5)任务目标达成表现
  核心考量点:帮助用户达成目标中间所花费的成本。
  当前市面上几乎所有的服务类技能,都是AI通过提取用户表述中的具体信息,填充到指定槽位完成服务的推荐,而当用户没有给予主要槽位的时候,是需要引导用户完成的。
  市面上有两种做法,一种是固定路径,不可改变的填槽。
  比如说【火车票】技能,正常的对话是这样的。
  先问出发地和目的地,然后问出发日期,然后确定车次,中间不能改不能乱,然后方可完成查询行为。
  用户第一句话:“我想买火车票?”AI回复:“好的,你想从哪里到哪里?”
  用户第二句话:“从北京到上海。”AI回复:“您想什么时候出发?”
  用户第三句话:“明天下午出发。”AI回复:“为你找到如下车次,请问你想要第几个。”
  用户第四句话:“那就第一个吧。“AI回复:“好的,正在为你下单。”
  这种我称之为,固定序不可逆填槽,简直笨到了极致。
  如果你颠倒顺序填充槽位,AI很可能就智障掉了。
  生活中,我们这边一个70岁以上的老人,可以在窗口完成火车票购买,(抛开口音的问题)但是无法通过AI助手完成火车票的购买。
  为什么呢?很多比较笨的AI,跟图形界面一样,要求用户适应它的逻辑去完成填充。
  这种处理方案,简直违背自然语言处理的这一初衷。
  而好的智能助手是可以做到乱序填槽,并且随意改槽位条件的。
  例子:
  用户第一句话:“我想买一张明天从北京到上海的火车票,我要下午四点出发的,我想要一等座。”
  我们可以根据结果,着AI提取槽位,以及反馈的能力。
  用户第二句话:“再帮我看看,后天上午十点出发的,二等座也行。”
  如果AI能够搞定,那证明可以达到一定的智能化程度了。
  以上是应对用户的表述,而在对话服务过程中,还有一个反向管理,完善槽位的引导。
  我们可以做一个简单的练习,例如在买电影票的场景,从需求到下单至少需要4个核心槽位。A电影名,B电影院,C场次,D几张票。(选座可以提供默认规则)
  想要完成订单的确认,则成功引导用户填充ABCD四个槽位即可。好的完善和引导,则是:
  如果用户填充了AB,AI应该追问CD的例子:“我想看《魔童哪咤》,帮我在附近找个最近的电影院。”此时AI需要展示哪几个场次可以选择,然后追问要买几张票
  如果填充了ABC,应该追问D的例子:“我想看《魔童哪咤》,附近找个最近的电影院,8点钟左右开场的。”此时AI只需要追问要买几张票即可。
  ABCD四个主槽位,无论用户的先后顺序,先填充哪个槽位,后续能够完善填充即可。
  人类的表述千奇百怪,无论多少个槽位,人类都可以组织语言联合起来表述。乱序填充槽位才是智能化,自然表述的的基本要求。
  三、篇幅所限的阶段性结尾
  笔者刚进入AI行业NLP领域工作的时候,梦想着有一天能够做出伟大的产品。
  什么算伟大的产品,每个人定义不同。
  从业以来,就我们目前技术发展的前提下,能做的真的有限。科幻影视作品里面的超级人工智能,目前来看似乎遥不可及。
  遂化为小白用户,提出一个最为直白的需求“我就想要一个聪明且好用的智能助理,能够满足我生活中的各种需求。”
  所以在当前的技术实现下,输出了过往在工作中一些评测产品以及处理问题的具体表现。
  实际上,原本在意图理解这个单元模块,有更多评测点去列举,但是受限于篇幅以及能力所限,删掉的一些内容。
  用提问的方式,列举一下我删除掉的指标:
  上述我提到的种种问题,其实都可以设计考核指标。
  笔者可以讲清楚是什么,解决方案以及思考后续会以独立文章的形式分享。
  既然是评测指标,自然是有权重之分。
  有些是可以努力做好的部分,比如前文中就【意图理解】这个维度提及的5个模块,各个例子的列举,都是基于用户的对话日志后台,是实际业务中非常高频的。
  而另外的有些是重点加分项,有些是附加加分项来评定。
  【意图理解】越深,越到位,都是让我们极尽所能,在【意图理解】这个维度,无限逼近超级人工智能的种种思考。
  而笔者的思路是,用户尽管提要求,余下的尽量去想办法去实现,如此才能够尽量去逼近伟大的产品。
  以上,关于本文第一大模块【意图理解】的部分,就此完结。
  后续文章会补充余下的部分,并以相同的形式去进行补充解释和完善。
  【服务提供】当用户提出需求时,有无高质量的反馈,重点是关于服务价值提供的多样性,反馈表现,价值大小来设计评测指标。
  【交互流畅】当用户与AI进行交互的时候,重点就交互反馈过程中的性能指标,体验是否流畅来设计评测指标。
  【人格特质】智能助手是否具备足够的魅力人格化特质,就情绪表现,情商,共情、个性化、拟人化程度来设计评测指标。
投诉 评论 转载

如何用数学函数去理解机器学习?本文主要分享了如何基于数学函数原理去理解机器学习的本质,并简要介绍了机器学习的过程。近期也是在做项目的过程中发现,其实AI产品经理不需要深入研究每一种算法,能了解机器学习……产品经理10大基础技能(5):读透神经网络和机器学习本篇先介绍许多热门的行业均在产生AI产品经理岗位的需求,再详细介绍AI产品经理必懂的AI技能,接着撰写什么是神经网络?什么是机器学习?最后用一个案例详细拆解AI产品经理如何用机……从算法到产品:NLP技术的应用演变文章回顾了近几年NLP的发展历程,从项目实施的两个阶段中带我们梳理了NLP技术的应用演变。第一个与大家分享的Case,基于NLP展开。分为3个部分,分别是NLP的发展、项……如何评测语音助手的智能程度(5):指标权重设计这是一份前面四篇评测维度介绍文章的总结,同时也是一份清单使用说明书。知己知彼,百战不殆,调研评测其他公司的产品是从业者的日常操作,那么当一个产品放到我们手里的时候,到底看……关于BI,你想知道的都在这里过去几十年,BI经历了从工具到“决策大脑”的角色转变,而未来一定是向“智能决策大脑”转型,也就是“AIBI”。未来5年,BI不会只停留在对历史数据的多维统计。当很多人还不……机器学习中的判别式模型和生成式模型如今已经进入2020年了,5G的时代已经到来,而机器人应用将更加的广泛,下面就让我们去了解机器人在学习中的两类模型,这文章告诉两种类型的区别,推荐给对机器人感兴趣的朋友们阅读!……如何评测语音助手的智能程度(3):交互流畅本篇文章为大家带来【交互流畅】维度的评测点拆解。这个模块,重点考量智能助手各个性能指标及交互体验层面的表现。希望对从事相关领域工作的各位有所启发。当用户发起需求后,【意图……如何评测语音助手的智能程度(2):服务提供关于如何评测的问题,笔者从四个维度展开了分析,而本文服务提供维度展开评测点的拆解,考量的是场景理解及整合应用CP和SP的能力。很多人觉得AI是一个行业,但AI其实并不是行……如何用AI技术保护隐私安全?在AI技术与相关产品高速发展的时代,大量用户隐私未经同意而被用于AI机器学习中,危害用户隐私安全。而国内外AI巨头也意识到这一点,并积极用AI技术制定出保护隐私安全的……如何评测语音助手的智能程度(1):意图理解本文重点定义和讨论第一大模块【意图理解】,即是否能够理解识别用户表述的意图。笔者以为,这个模块是衡量AI智能与否的核心维度,并将为大家揭晓评测维度与指标。从事AINLP领……2020年中国语音OS市场专题分析伴随5G技术的发展、人工智能技术以及自然语言理解能力的提升,带动了一波产业热潮,国内百度、科大讯飞、喜马拉雅等巨头纷纷在智能语音领域发力,智能语音产业迎来发展黄金期。未来……AI落地到教育领域,需要哪些必备条件?本文以教育机器人为例,来实际探讨如何让教育机器人,逐步成为中小学AI技术课程和综合实践课程的良好载体。信息技术的迭代发展不断推动着教育的变革创新,随着人工智能技术的发展,……
阿里巴巴推仓储集货服务布局B2B外贸物流新模式Google证实将推团购服务或名为GoogleOffers腾讯推出类Kik免费短信应用“微信”可免费发短信警示:土豪是什么让你的MAC不在安全???腾讯内部人士确认将于Groupon成立合资公司【人人早报】第312期:那些富可敌国的科技公司美国第二大团购网站LivingSocial收购团呀网进入中国朋友圈卖货日渐衰微,微商的未来会如何发展?苹果计划推出iPhoneiPad移动支付服务小米4年600亿背后用人之道:去KPI,用环境塑造人!科技圈CEO夜不能寐,微信都做了什么?Google推出Chrome浏览器追踪屏蔽工具我喜欢的金鱼子宫健康的女性,早上起床上厕所有4个表现,。。。早报新能源车传来利好冰雪旅游受追捧春节消费虎虎生威早上起床视力不好怎么回事儿资生堂艳容露适合哪种肤质资生堂艳容露怎么样思维上的痛苦其实是在疗愈积极的面对人生,没有走不完的路手拿包搭配菱格子镂空套装彰显知性优雅(图)一对长寿夫妇的健康秘诀在哪里最新专利实施许可合同范本【完整版】今日广州南铝锭价海南海灵通今日铝锭价格四种手相一辈子不缺钱

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界