童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

让智能音箱连续对话,百度工程师都做了些什么?

7月3日 莫思归投稿
  怎样让人工智能变“聪明”?百度工程师们为了使我们和智能音箱的对话和人交互一样,攻坚了许多技术难题。
  如果家里没一台“智能音箱”,怎么好意思说自己是极客Boy。
  可当你忍不住剁手后,体验了一两天的尝鲜感,十有八九会把它扔在角落里吃灰。
  每次对话都要喊一下唤醒词,感觉好不别扭,邻居家还可能以为你养了条叫“XX”的狗;指令说道一半就会被打断,莫名其妙的回了句“对不起,请再说一遍”;上一句还在问今天天气怎么样,下一句问今天穿什么衣服,给到的是和天气毫无关系的答案
  不只是你觉得这种体验很不爽,百度的工程师们也忍受不了这种“人工智障”,在今年的百度世界大会上,百度语音技术部总监高亮就聊了聊语音技术是如何让智能音响变聪明的。
  一、先定一个小目标
  钢铁侠和自己的AI管家贾维斯对话时,如果每次交互都要重新唤醒,不管是什么人都能发号施令,环境太吵的时候就听不清,钢铁侠不知道会被打趴下多少次。
  在百度世界,高亮说:“远场语音的技术发展特别快,百度的唤醒、远场识别以及基于高频Query解决的语音语义一体化等技术,可以解决基础体验问题,让音箱唤得醒,听得清。”
  但是,解决基础体验还不够,如果和智能音箱交互,你就会发现:“听懂”才是最难的。
  “小度小度,放一首许巍的歌”
  “现在播放许巍的歌曲《故乡》”
  “嗯这是他哪张专辑里的?”
  “来自专辑《那一年》”
  在高亮现场的演示里,搭载了百度远场语音技术方案的智能音箱只需唤醒一次就可以连续多轮对话,能够准确识别用户说话时的犹豫停顿、能够区分并跟随首次唤醒的人。
  与此同时,回应还相当灵敏,与小度的问答越来越像一场“交谈”而不仅仅是一次“交互”。从“交互”到“交谈”,这就是百度工程师们正在做的事情。
  当下的人工智能远没有科幻电影中成熟,普遍认为还只有五六岁小孩的智商,可你和五六岁小孩沟通时也会这么费劲吗?
  就如高亮所言“每一个技术问题都会面临一个技术解决的方法”,或许普通用户只能吐槽抱怨一下,但百度的一群工程师们却默默定了个小目标,不是先挣一个亿,而是:
  一次唤醒可以连续交互:只需要唤醒一次,就可以进行连续对话,不管智能音箱处于什么样的工作状态,哪怕正在播放音乐。就像人与人之间的对话那样有问有答,不再是每次对话都要说出唤醒词,真正的语音交互不应该是刻板的。
  说话停顿不会打断:当你说“给我放一首周杰伦的呃菊花台”,智能音箱不是着急随便放了一首周杰伦的歌,而是播放菊花台。智能音箱要明白你什么时候说完了,什么时候没说完,不会把你没说完的话切断,毕竟谁还没有犹豫的时候呢?
  知道说话人是谁:一个典型的三口之家,有爸爸、妈妈、孩子,每个人的需求是不一样的。智能音箱要精准识别出每一个人的声音,知道问题是谁问的,然后给出准确的答案。
  上下文对话连贯:智能音箱在回答你现在的问题时,也要知道上一个问题是什么,要学会结合上下文,不能答非所问。只有这样人和智能音箱的对话才会更自然,我们想要的不是没有情感的机器,至少对话要有逻辑性。
  听清听懂不傻冒泡:你在客厅和朋友聊天时,可能有些话是说给朋友听的,有些是给智能音箱的指令,这时候智能音箱就要进行精准判断,准确识别出你是不是在和音箱对话,而不是在不该出现的时候“插两句嘴”。
  现在语音交互用到的技术主要是麦克风阵列、语音识别、语义理解、语音转文字、文字转语音等等,都是人工智能技术最基本的应用,几乎一个十几人的创业团队就能完成。但百度工程师们的小目标,却需要一连串的技术攻坚。
  百度高级副总裁、AI技术平台体系总负责人王海峰所说过:AI技术与产业的结合愈发多元化,单一技术已无法满足应用需求,只有更懂得理解和思考,最终将帮助人们更便捷自然地获取信息找到所求的交互,才能带动整个生态的发展。
  二、用技术拯救“人工智障”
  想要智能音箱可以连续对话、应答如流,最简单的办法就是“人工”智能,比如2015年横空出世的某客服机器人,凭借软萌的声音、流畅的反应、高度人性化的对答,几乎可以和钢铁侠的贾维斯媲美,最后却被扒出是“摄像头变声器人工客服”。
  当然,“人工”智能也只有在演示时骗一骗领导,让几千万台智能音箱、智能家居、智能手机等都能对答如流,又该怎么实现呢?
  高亮在百度世界告诉我们,百度的工程师已经想出了一套系统化方案:
  1。语音信号处理
  语音激活检测技术已经非常成熟,苹果的“Hey,Siri”、DuerOS的“小度小度”都是案例,一次唤醒多次会话看起来也不复杂,比如设定智能音箱在一定时间内自动收音。难点在于怎么知道用户的话到底有没有说完。
  因为我们说话不会永远都是连续不卡壳的,比如我想听一首薛之谦的歌,我可能会说“小度小度,给我播首薛之谦的”思考12秒,然后说“认真的雪”。而这12秒间,就可能让智能音箱以为你说完了,从而接收指令给你播起了薛之谦的所有歌曲,甚至停止响应。
  百度的工程师们准备了十几万小时的仿真训练数据,数千套房间数万组冲击响应函数,上万小时真实AEC录制数据,以及几十万小时的无监督声音数据,利用云、端语音完整性联动训练的方法,然后基于大数据进行声学建模和尾点检测,打造了全新的语音识别引擎。
  当你对智能音箱说话的时候,音箱会立刻感知到,然后持续不断向云端发送语音数据,进行语义分析,监测你说的话是不是完整,然后智能音箱就能判断你的话是否说完了。
  上传的语音数据只有几十K大小,整个过程不到一秒钟就能完成。不会出现诸如音箱在放着音乐,你说了一句“暂停”,音箱两三秒才响应,这个时候你可能会觉得音箱没有听见(尤其是音箱播放音量比较大的时候),然后再补一句“暂停”的情况。
  就像高亮在现场的举例:“给我放一首刘德华的呃忘情水”,这个犹豫发问和提笔忘字一样,是很普遍的场景,需要对声学建模做一些特殊处理,要有非常精准的尾点检测,让系统能够明白我们什么时候是犹豫,什么时候是说完了话,从而明确用户所表达的意图。
  2。声纹跟踪和决策
  成年人的声音可以长期相对稳定不变,就算别人故意模仿你的声音和语气,声纹却始终不会相同。和指纹、虹膜等生物识别一样,声纹也是独一无二且相对稳定的生理特征,这样智能音箱可以拒绝掉不需要的声音。
  于是百度的工程师们,根据自然界声音标定的声学置信度,对百万人量级的声纹进行学习建模,并推出了面向智能音箱连续交互场景的语义置信度技术,也是业界首创自动区分语音中不同说话人身份的商用系统。
  会对唤醒人的声纹进行注册、跟踪、拒识,和唤醒人方向不一样的声音会被拒绝掉,声纹不同的声音会被拒绝掉,和智能音箱场景不匹配的声音也会拒绝掉。
  比如说你和朋友聊天的时候,聊到某首歌时想让智能音箱播放,也可能会聊到一些电视剧和工作上的事情。百度的智能音箱已经达到了这样的聪明程度:自动判断是不是在和它说话,发现命令会立刻执行,不相关的对话绝不插一句嘴。
  3。交互上下文管理
  现在的人工智能不是仿生学,而是通过各种各样的算法,毕竟人类连大脑的工作原理都还没有搞清楚,让人工智能像人类一样思考还很遥远。
  那么问题就来了:和人工智能进行单次的对话并不难,想要把上下文的信息关联在一起就需要考验工程师们的脑洞了。
  百度的工程师们先做了语音语义一体化技术,把声学、声纹、语义置信度和从DuerOS获得到的垂类信息资源融合起来,在深度神经网络的多信息融合技术、高频图和通用图并行解码决策的基础上,对对话的上下文进行跟踪管理:判断了说话对象后,可以知道之前交互的内容,知道对象的角色、喜好,然后综合所有这些信息作出精准决策,这样就解决了上下文关联的问题。
  假如你问百度智能音箱明天天气怎么样,下一句问穿什么衣服比较合适,听到的回答会是和明天天气相关的穿衣搭配。不会像一些智能音箱一样,你问穿什么衣服,冷冰冰的来一句:“我找到附近有三家卖衣服的店铺”
  技术可能不是万能的,但没有技术是万万不能的。
  三、哪些场景可以用?
  一次唤醒多轮对话的能力依赖于多项声纹、语音、语义技术的进步,包括创新的尾点检测技术,其利用云端信号AD技术一边做语音识别一边发给语义VAD,将声学技术与语义技术结合在一起,能够适应用户说话速度,知道用户什么时候说完了,不在中间打断。
  鲁棒拒识技术创新了声纹跟踪、语音置信度、声学置信度,可以基于特定说话人的场景化识别,拒绝非音箱交互人声,拒绝聊天内容与场景不一致的对话。
  现场,高亮也用一款音箱向大家展示了百度远场语音技术方案通过一连串流利的交互,在大会会场高噪音的环境下,说话的距离超过1米,音箱的唤醒和识别表现很好。
  并且一次唤醒就能多次对话,智能音箱在说话时,也能聆听用户的新命令并且快速执行。从更多的演示deme和视频来看,维纳斯智能音箱也能实现一定的上下文理解。
  想要让智能音箱实现连续对话的,不只是百度的工程师们,谷歌、亚马逊等同样在努力。这些个工程师们加班加点,冒着掉头发的风险去做技术研发,仅仅是为了让智能音箱不在角落里吃灰吗?
  其实场景还有很多。
  王海峰曾在中国图灵大会上展示过百度的智能语音搜索:当用户直接对着手机询问“天气热吗?”,她会回答当地的天气是热还是凉爽,气温如何等情况;当用户接着问“上海呢?”,她能够基于上下文理解技术自动补全用户的问题是上海的天气,从而给出准确的回答。
  此外在王海峰在百度AI开发者大会上的那段“花式RAP”,百度AI也完全不懵逼,妥妥应答如流。
  再比如公室里的小组会议总需要安排一个人进行会议纪要,又不是专业的速记员,难免忘了某个问题是谁提的,某个人说了一大对话可能只记了开头几句。
  这时候声纹识别技术就可以派上用场了,两人场景中百度的识别准确率为95。2,三人及以上场景也达到了92。9,远比普通人的会议纪要靠谱。
  更多的应用场景在用户家中在典型的三口、四口之家,音箱能听清、听懂、满足小孩、老人、妻子和丈夫,每个人不同的需求;能够区分人声和电视的噪音、家电的噪音,能够明白用户的指代关系,在一次连续交互的过程当中应答如流;能够在当用户表达完意图的话,1秒内有动作,最迟不超过1。5秒。
  又或者家里来了朋友,智能音箱可以能够在用户和朋友对话、聊天时能够分辨来自同一方向的两种声音,哪个是指令,哪个是闲聊;更能够明白主人什么时候在和它讲话,什么时候在和朋友讲话,不能两个人讨论着《延禧攻略》的剧情,音箱突然唱起了《红墙叹》或者放起了秦岚的新闻。
  还有在家里用智能音箱听歌的时候,你喜欢听的是周杰伦,你女朋友偏偏是邓紫棋的粉丝,之前还存在互相切歌的场面。假如你有一台DuerOS加持的技术音箱,你发出的指令立刻执行,对你女朋友的指令置若罔闻,切歌大战轻松分出胜负。当然,游戏的前提是你要有个女朋友。
  音箱只有做到该说话的时候说话,不该说话的时候不说话,才能跟我们真实交互场景变得非常像。
  所以,领教了百度这群执着的工程师后,我们有理由相信:更好更智能、能跟你“对话”的智能设备全面融入你生活的日子已经不远了。
投诉 评论

chatbot系列:引导及个性化推荐提升用户粘性chatbot一系列的文章主要介绍的就是关于对话式机器人交互设计方面的知识,也是本人在参与近一年机器人产品设计过程中的理念梳理、总结。本文主要探究在对话式机器人领域里,产品该怎……当AI邂逅少儿经济,如何才能C位出道?AI作为当下创投圈的“显学”,亦是风光无二。那么AI少儿市场,其体量更是不容小觑。面对如此丰腴的金矿,又将演绎怎样一出的夺宝奇遇记?少儿市场很奇特,虽然该群体没有消费能力……让智能音箱连续对话,百度工程师都做了些什么?怎样让人工智能变“聪明”?百度工程师们为了使我们和智能音箱的对话和人交互一样,攻坚了许多技术难题。如果家里没一台“智能音箱”,怎么好意思说自己是极客Boy。可当你忍……AI在爱奇艺商业广告中的应用和探索爱奇艺各项业务高速发展,也需要AI技术的支持;本文就以广告为例,谈谈爱奇艺技术产品团队在广告算法系统搭建过程中的一些经验和总结。Enjoy一、业务背景广告是互联网流……重温五条AI基础规律本文详细介绍了5条帮助工程师们处理技术问题的基础AI规律,enjoy如果每个人都有足够的时间和热诚,并乐意去大学拿个AI学位,那你大概就不会读到这篇博客了。……一起聊聊:“AI”智能电话营销机器人的产品特征本文将要讲述电销行业的前世今生与未来,结合“AI”智能电话营销机器人的产品特征,看能否迸发更多火花开创电销2。0时代。时代背景1900年,我国第一部座机电话在南京问……AI影像医疗,阿里腾讯科大讯飞等公司如何破局?医疗影像与人工智能的结合,是数字医疗产业的热点。大公司的布局,让AI医疗影像又迎来了一个新的突破点。AI医疗市场成为风口,腾讯、科大讯飞、推想科技纷纷布局AI医疗影像,今……AI能读懂情绪了,我们到底该拿她来干嘛?很多人都想拥有一个能陪伴自己的暖心“大白”,但能像大白一样读懂人类情绪的机器人真的存在吗?近日亚马逊称其语音助手Alexa能够通过分析用户指令的高低和音量等反应,识别出“……创新想法:AI赋能新媒体平台运营本文创新提出AI赋能新媒体平台运营策略,与你分享一。AI赋能新媒体运营综述新媒体平台运营往往会经过种子期、爆发期、平台期的运营策略。在此基础上,基于用户赋能的视角,……智能硬件市场与产品概况整理近年来,随着智能设备的飞速发展,各种各样的智能硬件设备如同潮水一般涌到用户面前。智能硬件可谓正当风口,国内各大互联网公司、传统电商公司、硬件厂家纷纷布局智能领域。近期,苏宁成立……三次元维度下,语音交互如何更好的应用于有屏设备中?市面上对人工智能技术以及语音交互的热炒和当下以智能手机为主的有屏设备,对语音交互应用甚少的矛盾思考。文章只试探性的讨论下在有屏设备中,如何更好的使用语音交互这一点。交互,……从智能音响开发者生态角度,看阿里、百度、小米、京东各有何优劣智能音响被卖得风生水起,市场日益壮大,发展迅猛,驱动因素有内有外,究其原因,还得从它本身出发。那本文就从智能音响开发者生态角度,看看阿里、百度、小米、京东各有何优劣?9月……
【人人早报】第320期:美团上市,还有哪些隐患要除?早报导语近日,有某知名电商战略分析师在微博爆料美团正在准备IPO,虽然真伪尚未得到最终确认,但正所谓无风不起浪,在阿里赴美成功上市之后,各大互联网公司蠢蠢欲动,但仅就美团……张朝阳:新一轮互联网泡沫正在逼近互联网企业扎堆上市,业界担心出现新一轮泡沫。“中国概念股现在比较火爆,有点像1999年的泡沫时期,随便一个公司都能在美国上市而且获得很高的市值。”4月25日搜狐公布了2011年……互联网产品有哪些技术和设计可以申请专利呢?lulu导语:互联网公司各个产品之间的抄袭往往为人诟病,大都是你抄抄我我抄抄你的那么关于互联网产品有没有什么知识产权是可以申请专利被保护起来的呢?李雷上图是这几家企……消息称称Facebook即将完成交易与百度合作进军中国市场北京时间4月9日消息,据国外媒体报道,消息人士透露,Facebook正在与潜在的合作伙伴商谈以设法进军中国市场。据悉,相关讨论都还处于试探性阶段,可能不会达成协议。据外媒……国家安全周360或成最大受益者自从去年阿里提出“去IOE”概念以来,国内对此争论呈现愈演愈烈的态势,与此同时,恰逢棱镜门持续发酵,引发高层对国内网络安全的高度重视,一时间去IOE论调上升到国家战略级层面,整……盛大富微博产品“推他”曝光与点点竞争4月17日消息,就在前盛大边锋总裁许朝军创办的点点网公测,并获得千万美元融资之际,许朝军的老东家盛大网络近日低调内测富微博社区“推他”,值得注意是,这款产品与点点网模式类似,双……有钱任性易信放免费电话大招IM与SNS协同作战昨日,一向低调的易信又放出一记大招,3。0版本推出真正意义上的免费电话。不过,易信此次免费电话又一次被腾讯抢了风头,年初手Q推出OTT通话功能时也是先于易信一周左右时间,前后出……新浪微博打造政府微门户给微博页面添加定制内容4月8日下午消息,新浪微博正在加入个性化特色:低调上线的个性化定义模块已经出现在新浪微博的微博页右侧。国内第一家开通的公安微博、目前拥有65万粉丝量的“平安肇庆”公安微博成为首……Visa与零售商Gap合作推出实时优惠券推送服务据国外媒体报道,Visa正在利用其全球网络向消费者实时推送优惠券(如果消费者选择了使用这项服务)。该公司和著名零售商Gap合作,在用户用Visa卡完成某些交易后,这个服务就会通……互联网越来越垂直、细分,低频移动互联网用户是未来的机会小编导读:2014年第三季度,中国活跃智能设备量已经超过9亿;2014年9月,活跃的电视盒子的数量,是2013年12月的3倍;通过4G联网的启动次数比2014年初增长30倍;对……Google1在于改善社会化搜索结果过数月关于GOOGLE开发什么东西来挑战Facebook的猜测之后,这个搜索巨人最终揭开了它的社会产品1的面纱。那么什么是1呢?很显然,它是GOOGLE挑战的是FACEBOOK……【人人早报】第319期:16年的QQ,该如何抓住年轻人早报导语真正让用户仔细思考QQ是不是太老了这个问题,是去年腾讯上线手Q4。0版本引起的风波。这一版本遭到大量用户抵制,最多被提及的原因是取消了用户在线状态显示。这也是QQ……

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界