童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

语音交互的三驾马车:ASR、NLP、TTS

6月14日 桃花醉投稿
  语音交互是AI最重要的领域之一,也是目前落地产品比较成熟的领域,比如说智能客服、智能音箱、聊天机器人等,都已经有成熟的产品了。语音交互主要由哪些部分组成?各自主要处理什么任务?目前都遇到什么困难?本文将跟大家一起探讨下。
  01语音交互的组成
  我们以一个智能音箱的例子来开始今天的讨论:
  假设我们对智能音箱天猫精灵说“放一首周杰伦的《晴天》”。天猫精灵就会说“好的,马上为你播放周杰伦的《晴天》”,并且开始播放音乐。
  这个过程猫精灵都做了些什么?
  首先,天猫精灵把听到的声音转化成文字,然后理解内容,最后做出相应策略,并把响应策略转化成语音。
  因此,语音交互就可以成以下这三个模块:
  语音识别(AutomaticSpeechRecognition):简称ASR,是将声音转化成文字的过程,相当于耳朵。
  自然语言处理(NaturalLanguageProcessing):简称NLP,是理解和处理文本的过程,相当于大脑。
  语音合成(TextToSpeech):简称TTS,是把文本转化成语音的过程,相当于嘴巴。
  下面我们就来详细的介绍每一个模块。
  02语音识别(ASR)
  通常语音识别有两种方法:
  “传统”的识别方法,一般采用隐马尔可夫模型(HMM)
  基于深度神经网络的“端到端”方法。
  两种方法都需要经过“输入编码解码输出”的流程。
  2。1编码
  编码就是把声音转化成机器能识别的样式,即用数字向量表示。
  输入的声音信号是计算机没办法直接识别的,首先需要将声音信号切割成一小段一小段,然后每一小段都按一定的规则用向量来表示。
  2。2解码
  解码就是把数字向量拼接文字的形式。
  首先,将编译好的向量,放到声学模型中,就可以得到每一小段对应的字母是什么;
  然后,把翻译出来的字母再经过语言模型,就可以组装成单词了。
  当然声学模型和语言模型也是个神经网络,是通过大量的语音和语言数据来训练出来了,在这里就不展开讲了。
  这里来个脑暴:
  神经网络能不能做到,不需要编码和解码的过程,不需要声学和语言模型,直接把声音信号丢到神经网络里去训练,最后输出结果就是文字,具体中间过程是怎样的,让机器自己去学。如果这样能实现,我觉得很酷,看起来是不是真的很智能。
  03自然语言处理(NLP)
  NLP是语音交互中最核心,也是最难的模块。
  NLP主要涉及的技术有:文本预处理、词法分析、句法分析、语义理解、分词、文本分类、文本相似度处理、情感倾向分析、文本生成等等。但不局限于这些,涉及的技术比较多,且比较复杂。下面我们就挑几个主要的技术点简单聊下。
  3。1文本预处理
  1)去噪声:
  只要跟输出没有关系的我们就叫噪声,比如:空格、换行、斜杆等。
  去噪声后,文本变得更加规范化,不会出现各种乱七八糟的符号,对于后续的处理非常重要。
  2)词汇归一化
  这个在处理英文文本时比较常用,如“play”,“player”,“played”,“plays”和”playing”是“play”的多种表示形式。虽然他们的含义不一样,但是上下文中是相似的,可以把这些各种形式的单词归一化。
  归一化是具有文本特征工程的关键步骤,因为它将高纬特征(N个不同特征)转化成低维空间。
  3。2词法分析
  1)分词
  分词就是把一个句子,切分成多个词汇。
  比如:输入“明天深圳的天气怎样?”,这个句子就会被分成“明天深圳的天气怎样”。其中“明天”、“深圳”、“天气”就是这句话的关键词,通过关键词去匹配内容。
  2)实体识别
  实体提取:是指在一个文本中,提取出具体特定类别的实体,例如人名、地名、数值、专有名词等。
  比如:输入“詹姆斯在NBA打了多少年”,其中“詹姆斯”就是实体词,计算机可能就可以通过当前的时间和詹姆斯加入NBA的时间给出他在NBA的球龄。
  实体识别在信息检索、自动问答、知识图谱等领域运用的比较多,目的就是告诉计算机这个词是属于某类实体,有助于识别出用户意图。
  3。3文本分类
  主要目的是为了将文档(文章)的主题进行分类,比如说是属于经济类、体育类、文学类等等。
  解决文案分类问题,比较经典的算法是TFIDF算法。
  TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
  比如说“NBA”这个词在一篇文章中出现的次数比较多,但又很少在其他文章中出现,那这篇出现多次“NBA”这个词的文章很可能就是体育类文章。
  3。4文本相似度处理
  文本相似度通常也叫文本距离,指的是两个文本之间的距离。文本距离越小,相似度越高;距离越大,相似度越低。
  比如:用户输入“这件衣服多少钱”或者说“这件衣服怎么卖”,这都是很口语化的句子,那要怎么给用户返回“衣服价格”呢?就是根据文本相似度处理的。
  需要我们计算出“多少钱”、“怎么卖”跟“价格”的相似度,然后根据相似度去匹配最佳答案。
  应用场景:推荐、排序、智能客服以及自动阅卷等。解决之前只能靠关键词精准匹配问题,识别语义,扩大了应用的范围。
  3。5情感倾向分析
  情感倾向分析,主要分为两大类:情感倾向分类、观点抽取。
  1)情感倾向分类
  情感倾向分类是识别文本的情感倾向,如:消极、积极、中性。
  比如:“这家餐馆不错,服务态度好、价格便宜”,整个句子是积极的评价。
  情感倾向分类对给用户打标签,给用户推荐内容或服务,有比较好的效果。
  2)观点抽取
  观点抽取是把句子中的观点抽取出来。
  还是“这家餐馆不错、服务态度好,价格便宜”这个句子,其中“服务态度好”、“价格便宜”就是观点词。
  观点抽取对建立服务或内容的评价体系,有重要的意义。
  3。6目前遇到的困难
  1)语言不规范
  虽然目前我们可以总结出一些通用的规则,但是自然语言真的太灵活了。同一个词在不同的场景可能表达多个意思,不管是通过理解自然语言的规则,还是通过机器学习,都显得比较困难。
  2)错别字
  在处理文本时,会发现有大量的错别字,怎么样让机器知道这些错别字,并且改过来呢,也是NLP的一大难点。
  3)新词
  在互联网高速发展的时代,网上每天都会产生大量的新词,我们如何快速地发现这些新词,并让机器理解,也是非常重要的。
  04语音合成(TTS)
  实现TTS,目前比较成熟的有两种方法:“拼接法”和“参数法”。
  4。1拼接法
  首先,要准备好大量的语音,这些音都是又基本的单位拼接成的(基本单位如音节、音素等),然后从已准备好的声音中,抽取出来合成目标声音。
  优点:语音合成的质量比较高。
  缺点:数据量要求很大,数据库里必须有足够全的“音”。
  4。2参数法
  根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形。
  优点:对数据的要求要小点。
  缺点:质量比拼接法差一些。
  4。3其他方法
  谷歌DeepMind提出的WaveNet方法,基于深度学习的语音合成模型,不会对语音信号进行参数化,使用神经网络直接在时域预测合成语音波形的每一个采样点。
  DeepVoice3采用一种新颖的用于语义合成的全卷积架构,可以用于非常大规模的录音数据集。
  VoiceLoop是Facebook提出的一种新的TTS神经网络,它能将文本转换为在室外采样的声音中的语音,且该网络架构比现有的网络架构简单。
  参考文章
  《CUI三部曲之语音识别机器如何听懂你的话?》AI新司机
  《AI是怎样理解人话的?浅析NLP中的分词和关键词AI研习小分队》艺馨20171101
  《语音合成TTSAI产品经理需要了解的AI技术概念》
  《干货整理2017(北京)百度技术沙龙NLP》AI游学小分队20171104
  《语音合成TTS技术的最新进展信息汇总》赵琦20180404
  《【NLP技术】:NLP简单介绍》
  《AIPM应该懂的自然语言处理(NLP)知识》
投诉 评论

“大案牍术”救不了在线招聘笔者将目光聚焦于在线招聘,并分析总结了在线招聘领域的发展弊端与顽疾,并讲了如何利用AI技术改进在线招聘,以及在线招聘的破局点在何处。求职者:千里马常有,而伯乐不常有。……语音交互的三驾马车:ASR、NLP、TTS语音交互是AI最重要的领域之一,也是目前落地产品比较成熟的领域,比如说智能客服、智能音箱、聊天机器人等,都已经有成熟的产品了。语音交互主要由哪些部分组成?各自主要处理什么任务?……智能安防机器人概述本篇文章主要关注基于安防任务的机器人,笔者为我们详细介绍了安防机器人的发展现状、类别以及它的技术难点。安防行业是随着现代社会安全需求应运而生的产业。可以说,社会只要还有犯……AI入门:循环神经网络今天我们主要讨论的循环神经网络,到底循环神经网络能解决什么问题,它的结构是怎样的?有什么优缺点?应该在那些领域上上?本文将跟大家一起探讨。讲到AI不得不讲深度学习,而讲到……AI入门:卷积神经网络讲到AI不得不讲深度学习,而讲到深度学习,又不能不讲卷积神经网络。如果把深度学习比作中国的互联网界,那卷积神经网络和循环神经网络就是腾讯和阿里级别的地位。今天我们主要讨论的卷积……如何建立人和AI协同工作中的信任?随着技术的发展,AI这个“聪明的工具”出现了,它不再是简单被操作,具有全新的性质。那我们今天就来聊聊怎样建立人与AI协同中的信任。一直以来我们都在尝试更多的利用AI算法分……AI时代的中层支柱:统计学本文笔者将通过对统计学和AI的关系进行分析,追溯他们的发展史,去探究:如何将对统计学如何应用到人工智能领域?AI不过是统计学ThomasJ。Sargent:人工智能……深度学习到底有多深?现在搞AI的公司,不管用什么样的算法,都想让自己跟深度学习扯上点关系,因为这样好像显得逼格够高。目前比较前沿的语音交互、计算机视觉等,就连神坛的AlphaGo的算法都是用深度学……我们访谈了117位家长,发现了儿童手表的秘密儿童手表如何在眼花缭乱的同类产品中赢得家长的认可?消费决策者最看重儿童手表哪些功能?如何在白热化的市场竞争中突出重围?儿童诱拐、丢失事件频发,一则则消息牵……AI时代人车交互体验:从“被动”到“主动”、从车内到车外AI时代,人与车的交互将打破由人来发起再逐层深入的方式,在用户需要的时候AI主动的把对应的服务放到用户面前。7月3日4日,“BaiduCreate2019”百度AI开发者……亚马逊Alexa语音交互设计四范式(下)本文笔者将与大家分享Alexa技能设计的四大范式中的两大范式BeAvailable(设计易用性)、BRelatable(设计亲和力)。BeAvailable(……亚马逊Alexa语音交互设计四范式(上)本文笔者将与大家分享Alexa技能设计的四大范式中的两大范式BeAdaptable(设计可适应),以及BePersonal(设计个性化)。较之已有相当成熟,且被业界广泛应……
内推网的招聘模式与其他招聘网站有什么不同,招聘效率如何?下来为来着内推网创始人黄小亮的回答:1)垂直,只做互联网,应聘者和招聘者都是互联网圈子的,双方对接起来效率应该会更高一点;2)只有经过公司邮箱验证的人才能发布招聘信……你真的了解VR和AR吗?VR和AR在过去的2015年着实火了一把,根据高盛2016年2月份发布的《VR与AR:解读下一个通用计算平台》报告显示:基于标准预期,到2025年VRAR市场规模将达到800亿……【人人早报】595期:与“魏则西百度推广事件”有关的信息增量导读新浪微博上魏则西百度推广事件的话题阅读量已经达到2600万,讨论量1。6万条,微博话题榜总榜排名第四。微信朋友圈、微信公众号几乎都是该话题的内容,各大新闻客……圆脸盘的女生什么发型好看显脸小6款气质女神发型推荐摘要:圆脸长发菇凉实在不知道怎么扎发型才好看吗?其实盘发种类有千种样,适合自己脸型的才是最佳的,奉上最适合圆脸妹纸的小清新扎发,甜美瘦脸好感度倍增。这款带有乖巧意味的盘发……精品课程Axure实战训练营开启报名在互联网时代,产品经理供不应求产品经理的职业发展让互联网其他所有岗位羡慕嫉妒恨工资高、权限大、离CEO最近,BAT大佬们都说自己是产品经理越来越多运营、交互、……物联网的四大难题:不解决这些,谈何智能化不少企业都认为物联网是个大商机;从马桶、冰箱到汽车、楼房,我们身边的一切似乎都在智能化。但在物联网真正大面积普及之前,我们先来谈谈这四大难题。解决不了这些,我们的麻烦可就大了。……精益快速启动创业前三月:这样了解用户,可以让你把握产品的命运关于生意的一切都是从客户中来;因此在试图做其他事前,要先了解客户是谁,他们在乎什么。过去我曾在一年半时间里失去4位祖父母,那段时间我非常痛苦,但跟我父母比,我的痛苦就不算……移动互联网的未来国外网络媒体BusinessInsider总编辑兼CEO亨利布洛格特(HenryBlodget)近日发布报告《移动互联网的未来》。报告中指出,互联网流量消费中,已有超过五分之一……如何从硬件产品用研成功转型到互联网产品用研?2014年8月从华为荣耀手机的用研转到腾讯互娱用研团队,通过2年左右的培训、日常交流和项目锻炼,深刻体会到互联网的轻资产、变化快、产品迭代速度快等特点,这些点点滴滴的冲击扩展了……新美大、糯米和口碑,谁找到了通往未来的钥匙O2O的风口正在从餐饮等刚需、高频的领域,拓展到美发、结婚、家装等相对低频,但对品质要求更高的领域。不管是美发、美甲的商家,还是KTV、按摩,一夜之间都成为各大O2O平台争相拉……产品更新:胖乎乎的微信〔核心提示〕微信的功能越来越细致,也变得更加复杂,这一定是好事儿么?微信iOS版本的微信在本周再次迎来了比较大的更新,新增了不少功能。对于微信来说,这些功能可能是必……墨迹空气果:与其做气象站,不如做智能家居〔核心提示〕墨迹天气的空气果售价不菲,背后是期望改善中国空气质量的浓烈情怀。然而对于这一进军硬件的新丁,智能家居领域也许是更好的选择。墨迹天气早在数月前就开始为其全新硬件……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界