童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

唇语识别,真会是语言交互的终极战场?

7月15日 不回头投稿
  自出现唇语识别技术出现起,就有声音说唇语识别是语言交互的高阶战,甚至可能带来一场革命。不过,从本文来看,唇语识别还不能快速地普及。
  在今年的乌镇世界互联网大会上,搜狗展出了一项黑科技唇语识别,12月14号搜狗在北京又公开演示了这项技术。作为行业领先的唇语识别系统,搜狗在非特定开放口语测试中,通用识别的准确率在60以上,而在车载、智能家居等垂直场景下,已达到90的准确率。
  虽说搜狗是国内第一家公开演示这项技术的公司,但早在2017年3月,海云数据创始人兼CEO冯一村在亚洲大数据可视分析峰会上,就发布了重庆市公安科研所与海云数据共同研发的唇语识别技术,它的中文识别模型准确率已达到70。
  而谷歌DeepMind团队,在2016年利用BBC视频对他们的AI系统进行了5000个小时的训练,测试时唇语识别正确率达到了46。8。
  这并不是场独角戏,那唇语识别到底是何物?未来又有着怎样的想象空间?
  唇语识别只是语言识别的进化
  虽说唇语识别近期才进入公众视野,但唇语识别技术的发展可以追溯到上世纪80年代。
  当时,语音识别技术迅速发展,出现了许多实用的语音识别系统,然而这些系统抗干扰能力不强,在有背景噪音与交叉谈话的情况下,它们的性能会大幅降低。而在自然应用环境中,噪音现象十分常见,研究者们为了解决上述缺陷,一方面采用降噪技术降低干扰,另一方面开始寻求其它解决方法。
  那唇语识别技术是怎么发展来的呢?语音识别的研究者们突然发现,其实人类的语言识别系统是由两个感知过程构成的,声音虽然是人类语言认知过程中最重要的方式,但在日常交流中,我们还会用眼睛看着对方的口型、对方的表情等,来更加准确的理解对方所讲的内容。受此启发,研究者们开始研究唇语识别。因为唇语识别完全不会受到噪声干扰,在多人对话中也能有效进行区分,这就有望解决语音识别的缺陷。事实上也是,将唇语识别与语音识别结合起来能够大大提高系统的正确率和抗干扰能力,于是唇语识别便有了更多的发挥空间。
  换汤没换药,近30年的发展,核心步骤还是三步
  经过研究各类资料发现,唇语识别技术从摄像头输入到理解输出,中间最重要的是这三个单元视觉前段、视觉特征提取、以及唇动识别。
  (图为:唇语识别的步骤)
  其中,视觉前段包括人脸检测与唇的检测和定位,早期检测方法比较笨拙,不允许人脸自由移动,有些还会手动添加特定标志来跟踪唇动。目前的检测方法主要是基于算法,先用人脸检测算法得到人脸然后有针对性的定位唇动;或者利用最佳闽值二值化算法,以唇的边缘是平滑的,和左右形状对称为条件,作为二值化闽值选定的约束条件,得到平滑而对称的唇图像。
  视觉特征提取是对获取的唇图像进行处理得到对应特征,特征提取方法主要分为两大类:基于像素的方法和基于模型的方法。所谓基于像素的方法,就是利用包含嘴的灰度级图像或利用经过预处理后得到的特征向量的一类方法。这种方法的缺陷在于对二维或三维的缩放、旋转、平移、光照变化以及说话人的变化都很敏感,会造成提取过程中特征丢失的情况,不能得到完整的特征信息。而搜狗所用的基于模型的方法就是,对唇的轮廓建立一个模型,将特征信息包含在这个模型之中,并对模型中特征信息的变化用一个小的参数来描述。这类方法的优点是重要特征被表示成二维参数,不会因光照、缩放、旋转、平移而改变,缺点是忽略了细微的三维信息,可能会对后面的识别过程造成影响。
  目前唇动识别采用的技术大多是隐马尔可夫模型,该技术基本思想是,认为唇动信号在极短时间内是线性的,可以用线性参数模型来表示,然后将许多线性模型在时间上串接起来,组成一条马尔可夫链。马尔可夫链可以用来描述统计特征信息的变化,并且这种变化过程与人的唇动过程是相吻合的,所以隐马尔可夫模型能够识别唇动并与相应语句匹配转化成文字。
  看似应用方向很多,最重要的还是辅助语音识别
  唇语识别技术的应用方向有很多,比如手语和听力障碍患者的辅助教育、国防反恐方面的情报获取、个人的身份识别以及公共安全领域等都拥有巨大的应用潜力。但在目前来看最大的应用还是辅助语音识别,毕竟它自诞生之初就是为了解决语音识别的噪音问题而研发的,这也会使得语音交互更加完善。
  说到这里就不得不提到智能音箱,其实除搜狗之外,很多大公司也在布局语音交互,国内有阿里巴巴、百度、科大讯飞,国外有苹果、谷歌、微软、亚马逊。在今年7月阿里巴巴就发布了一款智能音响天猫精灵,可以接受各种语音指令,搭载中文人机交流系统AliGenie,有望成为家庭智能小助手。在11月16日百度也推出了首款智能音响ravenH,其采用1919的点阵触摸屏,内置DuerOS2。0语音交互系统,拥有语音和控制器两种交互方式。其余还有京东的叮咚智能音响,小米的小爱同学,喜马拉雅的小雅音响等智能音响产品。对于这些公司而言,似乎不出一个智能音响都不好意思说自己在人工智能领域混。
  那智能音响到底与唇语识别有啥关系?大厂们纷纷推出智能音响的原因是看到了新型交互方式的大趋势,但是智能音响能够满足需求的场景较少,且智能音响还有两大顽疾抗噪音能力与远场交互能力较低。
  根据声学在线的测试,即便是市面上最主流的智能音响,在抗噪音能力与远场交互能力上的表现也不尽如人意,5米的中短距离上有很多失误。
  (图为:5m距离智能音响唤醒失败次数统计)
  而且,传统语音交互对输入音频要求高,在背景噪音大时很容易失效,若人与机器再隔得远一点,失效的情况就更加严重了。但唇语识别就可以解决这两个问题。
  若要快速普及,还有两个问题待解
  自出现唇语识别技术出现起,就有声音说唇语识别是语言交互的高阶战,甚至可能带来一场革命。不过,根据观察,目前来说,唇语识别还不能快速普及。这主要的问题在:
  1、摄像头录入存在很大的限制,不能完全满足日常交互需求
  在目前的唇语识别系统中,获得的嘴唇视觉特征信息都是正向的,这就意味着你与它交互时,必须时刻正对着它,第一视角被其牢牢占据,这在真实应用场景下难以达到。要能够应用更多的场景,应该使人在侧着身子说话时也能被检测识别,这要求在人脸识别、唇的检测与定位方面研究出更强的定位、跟踪算法,提高算法的普适性,使之适用于非特定姿势和位置的识别定位,并且唇动识别技术也要提高,使之能处理非正向的、较不完整的视觉特征信息。
  2、识别的准确度也是一个关键的问题,在有关安全的场景下,准确度是不容有差的
  但我们知道其实口型与拼音序列是一对的多关系,如zhi、chi、shi对应的口型序列是一样的,单纯利用视觉特征难以区分,会造成信息识别错误,处理这个问题,传统的技术方法是文法型语言模型,它基于人工编制的语言学文法,这种语言模型一般用于分析特定领域内的语句,无法处理大规模的真实文本。目前很多识别系统是人工限定的框架,在某一场景中对可能会出现的语句进行了很多设置,这是搜狗唇语识别系统在垂直场景(如车载)中表现得很好的原因,这同样也是它还不能大规模应用到其他场景的原因,因为要对所有场景进行设定,几乎是不可能的。
  不过,我们依然要满怀信心,随着人类社会的发展,真实信息越来越多,处理数据的手段也越来越丰富,基于语料库的统计语言模型发展迅速,借助于统计语言模型的概率参数,可以估算出自然语言中每个句子出现的可能性,并通过对语料库进行深层加工、统计和学习,获取自然语言中的语言知识,从而可以处理大规模真实文本,并能识别出语言中细微的差别。目前在通用识别场景的准确率只有60到70,虽然稍显不足,但可以预见,随着大数据与人工智能的发展,未来的识别准确率会达到更高。
  这看起来,一个新的时代正向我们迎面走来。
投诉 评论 转载

我不是一名UX设计师,你也不是我们不是电影导演,过山车设计师,甚至小说家。我们只是推动者:完成类似清理影院爆米花,按下“启动”按钮,设置软件或网页类型等工作。这些工作可能并不光鲜亮丽,但却实际有用。最……全面屏下的新交互方式全面屏时代,交互方式会有哪些变化?什么是全面屏?2017年可以称为全面屏集中爆发的一年,小米,OPPO,VIVO,华为,三星,苹果等等都在今年发布了全面屏手机,全面……唇语识别,真会是语言交互的终极战场?自出现唇语识别技术出现起,就有声音说唇语识别是语言交互的高阶战,甚至可能带来一场革命。不过,从本文来看,唇语识别还不能快速地普及。在今年的乌镇世界互联网大会上,搜狗展出了……经验分享如何更好地推动产品及交互需求顺利落地?本文作者将从设计流程介绍、需求收集筛选、需求设计评估、需求开发验收及需求管理及开发沟通工具介绍五个维度来分享,如何推动产品及交互需求落地。enjoy我很喜欢这样的一句话:……2018年技术驱动下的UX设计趋势即将到来的用户体验设计趋势,可能会提高最终用户的满意度。用户体验在2017年具有重大意义,不论从产品界面还是用户进行消费的内容各种数字平台。人与物更自然的交互方式在技术的……按钮组设计总结:按钮组排布时,是组合在一起好还是分开好?本文主要是对按钮组的使用场景进行了一个简单的总结,enjoy上周一个朋友问了我一个问题,按钮组排布的时候是组合在一起好还是分开好?这个问题当时就把我问倒了,因为我之前从来……交互设计前期,需求分析的三境界需求分析不能用简简单单的好与坏来评价,需求分析是依存于具体的场景,只有在具体场景下的需求分析才是有意义的。佛家观世有三重境界:第一重境界是“看山是山,看水是水”;第二重境……Materialdesign与iOSHumanInterfa本篇分析对比是基于各自官网最新的Materialdesign与iOSHumanInterfaceGuidelines文档,官方文档地址将在文末给出,供各位交流学习。规范目……iOS和Android规范解析手势随着iPhoneX将Home键去掉,手势在交互导航中的作用更加重要了。今天我们来研究一下GoogleMaterialDesign规范和iOS人机设计规范中对于手势的介绍。……UX设计:一个金融数据可视化案例在UX设计中有一种设计叫信息设计,就是如何让查看信息的人一目了然,金融数据往往会面临这样可视化的问题,让用户看到一张简单易懂的图的背后,是信息的逻辑。小试牛刀,此文做一个简单举……【长文分析】11个角度,全面分析交互设计师(35年)所需要具作为35年的交互设计,都需要怎样的能力?作者从10家一线互联网公司入手,对拉勾等多个招聘渠道的JD信息进行分析总结,拆解出这11项能力,看看你是否符合。交互设计师是国内最……一款APP设计的从0到1之:iOS篇(精华版)很多时候,我们都忙碌在每天的撸图和改稿中,很少的去整理归纳结和思考工作的一些问题和方法,善于总结反思才能达到事半功倍的效果。今天U妹在这里将自己在设计中的一些经验和技巧分享给小……
如何应用数据做二级页面优化和热卖款页面优化提升流量价值自动化测试回顾与展望关于互联网产品经理有哪些经典书籍?让用户对工具型产品产生情感“互联网思维”这种东西你早就烦了吧?少谈主义,空谈误人用户体验的高级进阶:学会讲故事想搞懂互联网思维,必须读读这10本好书高大上公司应届产品经理面试指南巧用工具洞察用户行为成为一名用户体验思维模式的塑造者如何展示你的设计方案?产品职责:你都干了什么
树倒猢狲散!“大妈们”纷纷逃离数字货币性知识百科女人达到高潮的六种方法最经不起性诱惑的几类女人推荐几款入门级桥筏竿穴位辨识与应用(13)太溪穴和复溜穴(。。。狼三则其二的原文及译文什么是非法剥夺公民宗教信仰自由罪的构成要件?热闻聚热点网 你是一首孤独的诗材料化学方向专业的自荐信头发烫了后很毛躁怎么办是不是软化过度了六版嫦娥奔月有人闹成笑话,有人美成画!你觉得谁的最还原?莫言

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界