专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

智能语音之远场关键词识别实践(一)

  语音识别主要分两大类:大词汇量连续语音识别技术(LargeVocabularyContinuousSpeechRecognition,LVCSR)和关键词识别(keywordSpotting,KWS)。LVCSR由于对算力要求较高,一般在云端(服务器侧)做,而KWS对算力的要求相对较小,可以在终端上做。我们公司是芯片设计公司,主要设计终端上的芯片,想要在语音识别上做点事情,最可能的是做KWS,于是我们就选择KWS来实践语音识别。按距离远近,语音识别可分为近场识别和远场识别,远场的应用场景更丰富些,如智能音箱、智能家居等,如是远场的话需要用到麦克风阵列。讨论下来我们决定做远场下的关键词识别。图1是其框图:(麦克风阵列为圆阵且有四个麦克风,即有四个语音通道)
  图1
  从上图可以看出,系统可以分为前端和后端两部分。前端主要包括去混响、声源定位和波速形成(beamforming)、单通道降噪四大模块。混响是指声音信号遇到墙壁、天花板、地面等障碍物形成反射声,并和直达声相叠加的现象。去混响就是去除那些叠加的声音。声源定位是利用多通道语音信号来计算目标说话人的角度和距离从而实现对目标说话人的跟踪,严格的声源定位是指同时确定说话人的角度(包括方位角、俯仰角)和距离。在消费级的麦克风阵列中,通常关心的是声源到达的方向,也就是波达方向(DirectionofArrival,DOA)。波束形成是对信号进行空域滤波,将多个通道的语音数据变成一个波束(即一个通道)的目标声源,目标声源的信干噪比(SINR)得到提升。单通道降噪是抑制单个通道上的噪声。后端主要包括特征提取和神经网络模型推理两大模块,特征提取是得到作为神经网络模型输入的语音的特征向量,神经网络模型推理是根据输入的特征向量计算出一个输出。不管是前端还是后端,对我们都是陌生的,讨论下来由于我们team人数较少就先从后端入手,有一个识别率较高的模型后再去做前端相关的。本篇先讲在后端上的一些实践,下篇讲在前端上的一些实践以及将前端和后端连起来形成一个完整的方案。
  后端主要是语音识别相关的。语音识别分为训练和识别两个阶段。在训练阶段,用海量的相关的语料训练出一个识别率较高的神经网络模型。在识别阶段,采集到的语音经过前端处理后提取出特征向量再经过神经网络模型推理得到相应的输出。后端的主要工作如下:训练语料获取、语料数据增强、模型训练、模型量化、模型推理实现等。
  1,训练语料获取
  训练语料一般有三种办法获得。一是用公开的语料库,中文比较出名的语料库有thchs30等,但这些公开的一般适用于LVCSR,不太适用于KWS,因为KWS是一些特定词。二是花钱买,三是自己录。花钱买的语料库一般较贵,当前我们处于起步阶段,所以我们决定自己录语料。自己录要先选定应用场景和关键词,讨论后我们选定了智能家居场景,关键词包括打开空调、关闭空调、打开窗帘、拉上窗帘等。定好关键词后就开始录音了,我们先后录过两次音。第一次录音是在做后端神经网络模型时,录的是单声道数据。找来5台安卓手机,装上录音软件easyrecord,放在一个安静的会议室里,距离说话人50CM左右处,示意如图2:
  图2
  说话人先以正常语速说一遍关键词,然后以较快语速说一遍,最后以较慢语速说一遍。当时请了部门里几乎所有同学近100人参与录音,得到了一个我们自己定义的单声道关键词的语料库。由于人数较少,是一个小语料库。第二次录音是在做前端麦克风阵列中去混响、波束形成等算法时,录的是多声道数据。买来一块多声道采集的评估板放在一个大会议室里,同时评估板边上放风扇、菜场等噪声,说话人在相对远处不同的位置上说关键词,示意如图3:
  图3
  依旧是先以正常语速说一遍关键词,然后以较快语速说一遍,最后以较慢语速说一遍。这是一个带不同种类噪声的关键词多声道语料库。
  2,对语料做数据增强
  刚开始我们采集到语料后就开始训练模型了。由于录到的语料都是干净语音,模型训练好后干净语音识别率还可以,但是带噪语音就不行了。遇到问题就要找解决方法。调查后发现通常的做法是对语料做数据增强(augmentation)。所谓数据增强就是用一些音频处理的算法(比如加噪声)对已有的训练集里的语音(通常训练集里的语音是在安静的环境下录制的,比如录音棚里)进行一定的处理,让其变得更接近真实场景中的语音,来增加训练样本的多样性。基于神经网络的深度学习技术,通常都需要使用大量的数据来训练,语音识别也不例外。对一个语音识别系统而言,决定其识别准确率的关键因素,大致可以分为两个方面:一是模型本身的好坏;二是训练所使用的训练数据。对于训练数据而言,其与真实使用场景中的数据的匹配度越高,则语音识别的性能越好。实际应用中,语音识别的使用场景很复杂,环境噪声、人的说话方式,如音量、语速等,都会一定程度上影响语音识别系统的准确率。训练数据对这些复杂的情况覆盖得越全面,则语音识别系统的效果越好。为了构建一个强大的语音识别系统,应该广泛地搜集各种复杂的真实场景下的语音数据,来构建训练集。然而在现实条件下,想要做到这一点却很不容易,尤其对于中小厂商。因为不是每个厂商都有获取真实场景语音数据的渠道和能力,即使成功获得了真实场景的语音数据,数据标注也是一项极为费时费力费钱的工作。在训练集数据有限的情况下,可以通过数据增强的方法来扩充训练集数据,使训练集数据更多样性,来提高语音识别的准确率。我们用python开源库(nlpaug。augmenter。audio)做了数据增强,用的数据增强方法主要有如下几种:
  1)Loudness:调整音频的音量(增大或减小)
  2)Speed:调整音频的播放速度(加速或减速)
  3)Pitch:调整音频的音高
  4)Noise:加入噪声,主要有白噪声、粉红噪声、环境噪声等。
  做好数据增强后语料库就增大了好多倍。用增大后的语料库去训练得到新的模型,再用带噪语音去测试模型识别率提高了好多。
  3,模型训练
  模型训练是个大话题,这里就简述了,主要分几块:语料库的数据预处理、模型选择和迭代训练及评估。这些都在python下实践。找一个开源的语音识别开源框架,并根据自己的需求改造。我们是在框架中基于keras来训练模型的。
  1)数据预处理
  数据预处理主要包括语音的特征(feature)选取和提取以及标签(label)处理。语音识别里常用的特征是MFCC和Fbank。我们刚开始用的特征是MFCC,后来随着用的深入,发现Fbank的效果比MFCC好,就改成用Fbank了。特征提取就是把wav中的每帧PCM数据变成特征向量,作为神经网络模型的输入。标签(label)就是标注wav文件对应的内容。语音识别神经网络模型通常都是分类模型,且有不同的分类方法。可以以音素分类,分出来的音素类型有几十或者上百个,标注时就是以音素为标签(label),代码中每个音素都有一个数字ID。如果用作唤醒词识别(唤醒词识别是关键词识别的一个特例,只有一个关键词),就是一个典型的二分类问题,是唤醒词的标注为1,不是的标注为0。把这些label作为target也作为模型的输入。训练前要把语料分成训练集验证集测试集,通常比例是8:1:1。训练集和验证集用于训练,测试集用于评估。
  2)模型训练和评估
  模型训练的第一步是选择网络架构。对于语音识别,目前主流的网络架构有卷积神经网络(CNN)和循环神经网络(RNNLSTM)等。我们根据项目的需求选择CNN作为网络架构(主要是因为CNN相对简单且有很多KWS论文里的网络模型可以参考)。网络架构确定后训练模型时最好先找一个相关论文里的成熟模型来借鉴,然后对其进行改进,最终通过训练确定CNN层数、每层的Kernel个数、KernelSize、Stride等。训练过程就是用训练集的数据作为输入,经过网络前向传播计算出输出,再同事先设定的标签(label)进行loss计算(根据设定的损失函数计算),然后通过反向传播来更新权重后,再迭代进行前向传播、loss计算和反向传播更新权重,直至loss值达到预期效果的过程。根据应用场景我们先后训练出两个网络模型,多关键词网络模型和单关键词(即唤醒词)网络模型。多关键词网络模型是音素分类模型,以CTC为损失函数,网络模型输出是每个音素的概率值,概率最大的那个音素作为输出,后接CTC解码,得到结果。唤醒词网络模型是二分类模型,以交叉熵为损失函数,网络模型输出是唤醒词和非唤醒词的概率值,再设定一个是唤醒词概率的阈值,如果输出的唤醒词概率大于阈值,就认为是唤醒词了,反之不是。
  模型训练好后要对其进行评估,看是否满足要求。KWS模型一般都是分类模型,对于分类模型,曾写过文章介绍过评价指标,具体见《深度学习分类问题中accuracy等评价指标的理解》。只有这些评价指标都符合要求了,模型训练工作才算结束。否则要分析不达标的原因,找解决方法,再重新训练,直到所有指标都达标。模型训练就是一个不断重复迭代的过程。
  4,模型量化
  训练好的模型中的参数都是浮点数,在识别过程中模型推理(inference)时为了降低CPUload和节省memory,需要对模型做量化处理。至于具体怎么做,请参见曾写过的文章《深度学习中神经网络模型的量化》。
  5,模型推理实现
  KWS模型训练是在python下完成的,但识别推理是在嵌入式系统上完成,因此要用其他语言把模型推理实现了。嵌入式系统上最常用的语言是C,我们就用C实现了模型推理。实现过程中参考了CMSIS的代码。为了节省memory,我们对实现过程做了优化,具体见曾写过的文章《嵌入式设备上卷积神经网络推理时memory的优化》。
  以上就是后端的主要工作。写起来简单,其实都是需要花不少时间的,尤其在模型训练上。如果是第一次做,则需要花更多的时间,有一个摸索的过程。

易建联无法重回国家队!二方面原因,真不怪杜锋易建联无法重回国家队!二方面原因,真不怪杜锋很多人表示,这次中国男篮能够继续战胜两支球队,包括伊朗和巴林,现在都不是弱队,主要的原因就是,杜锋的用人上非常的精妙,让老队长周鹏,继续从C罗双胞胎儿子的死亡谈早产的高危因素日前,C罗在接受英国名嘴皮尔斯摩根专访时再次谈到了龙凤胎儿子的夭折,虽然没有公布孩子的具体死因,但是从网上曝光的一些细节,我们可以推测很有可能是因为早产。C罗及乔治娜罗德里格斯去年上岗即失业!广东弃将无球可打全运会场均267封神23岁面临退役广东队今年夏天进行了全方位的人员调整,周鹏苏伟威姆斯几名老将相继离队,就连汤杰也被广东队辞退,这样的结果的确出人意料。其实汤杰在广东队已经展现出了他的最好状态,尤其是在上赛季半决赛上海男篮内线大调整,18岁超新星做出重要决定,李春江终于等到了上海男篮内线大调整,18岁超新星做出重要决定,李春江终于等到了。在CBA联赛正式进入到了窗口期之后,各支球队都在进行针对性引援,据悉上海男篮在李春江的指示之下已经和布莱索以及奥布莱从8连胜到5连败!骑士露原形,还说不需要詹姆斯骑士又输了,98113不敌雄鹿,遭遇5连败。米切尔打了34分26秒,虽然拿到23分2篮板3助攻,但19投只有7中,三分球9中3,效率很低。加兰德23分4篮板8助攻,莫布里20分7篮东部格局改变!字母哥成绿叶,大洛轰下29分,黑马5连败逐渐掉队北京时间11月17日,NBA常规赛继续进行,雄鹿主场迎战骑士。自从字母哥成长为联盟一线球星后,雄鹿在过去几年的常规赛中一直非常稳定,经常抢占东部头把交椅。本赛季雄鹿开赛一度取得9连白话战国史1三家分晋春秋战国春秋战国是一个人才思想家辈出百家争鸣的时代,我称之为中国历史上最璀璨的时代也不过分吧,因为那时候诸侯割据,竞争激烈,如果不出人头地就得饿死,古有苏秦说使我有洛阳二顷田,安能北马今年肯定算不上最好的,却绝对是影响最深远的北马如期开跑,是一件出圈的事。也是这些年来,马拉松极为少见能以正面形象让大家关注的一个大新闻。在当下这个节点,北马能够在城市仍有新增病例,并且多个高中风险区的氛围下,冲破重重阻力,不是配角,王哲林能上能下!名副其实,谁说大王只会洗剪吹两场比赛,两场来之不易的胜利,尽管男篮完成了提前晋级的目标,但是过程还是让人提心吊胆,幸好有王哲林的挺身而出,这一次他不是软蛋,更不是空砍,而是真正的领袖,带领中国男篮顶住了压力,亘古长安独库公路文字月枫,摄影月枫独库公路,系217国道之独山子至库车段,因横穿天山,亦称天山公路。该公路北起北疆克拉玛依市独山子区,南至南疆阿克苏地区库车市。独库公路由南至北沿途著名景区有库车大10月家具零售总额继续下滑,家居卖场销售同比降四成记者蓝丽琦编辑作为一年内的装修旺季,今年10月份的家具类销售出现了下滑。11月15日,国家统计局发布2022年110月国民经济运行情况。数据显示,今年110月,全国家具类零售总额为
关于拆除华为设备,英国宣布新决定,外媒任正非没有说错出于维护自身科技霸权和一些不为人知的目的,老美在国际上肆无忌惮地散播华为设备存在安全后门的谣言,并采用威逼利诱的手段阻扰其他国家与华为在5G领域展开合作,让华为遭到了极其不公正的待海豚一款合适年轻人的代步车对于现在暴涨的油价,买一款电车必是一个明智之选,海豚就能满足年轻人对于一款纯电车的所有需求。海豚的颜值特别高,它是那种海洋美学式的设计,特别符合现在的年轻人,开上路也是特别拉风,而楼市释放3个坏消息,房价或超出想象?该不该买房有数了2022年以来,房地产市场的新变化一次又一次地引发了人们的广泛关注。从最开始的楼盘打折促销发放购房补贴,到后来的下调贷款利率降低首付比例,以及最近一段时间的取消限购限贷,降低公积金9月销量超8千辆,均价超20万元,这几款车型算不算国货之光?以前,对于中国品牌而言,20万元基本算得上自主车型难以逾越的天花板。不过,随着新能源化智能化等浪潮来袭,自主品牌也顺势而起,推出了比亚迪汉等车型,且做到了量价齐升,引领了新一轮中国2022年,房贷利率下调明显,之前5。66。3买房的人怎么办?文桐影随着人们经济水平的不断提高,人们对房子的需求也越来越大,尤其是正处于婚恋期的情侣。对于男方来说,拥有婚房可以让这段婚姻更加稳定持久。回顾当初房价的上涨,从人们的收入水平和储蓄信用卡和贷款暂时无力归还?停息挂账了解一下嗨大家好,我是财小猫()近年来因为疫情,大家的收入肯定都在不同程度上受到影响了,尤其是做生意的人,好不容易贷款开个店,结果经营不佳资金链断裂,导致贷款还不上。如果遇到这种情况我们也美议员要求倒退50年,让美元重回金本位时代,普京提议去美元化前两天举行的亚信会议峰会上,俄罗斯总统普京提议,为了摆脱少数国家利用金融霸权,收割全球的现状,各国应该在国际贸易中,侧重发展本币交易,以解除对美元的依赖。事实上最近这两年,虽然美联今年全球外汇储备减少1万亿,中国减少2000亿,我们被收割了吗?据彭博社,今年以来,全球外汇储备减少约1万亿美元,至12万亿美元,降幅7。8,为彭博社2003年起编制该数据以来最大降幅。此外,国际货币基金组织数据显示,全球外储在今年46月降至1童话创作心得2写作就是惯性,童书比波王子昨天最大的问题是一天几乎什么也没写。没准时起床做早点,他没吃,我就去洗衣服,结果家里的家务活越来越多。一想到九点多做核酸,看看时间上电脑也写不了什么,索性就做家务吧。于是把早上这最世锦赛最终排名出炉!塞尔维亚夺冠,中国女排第6,美国无缘奖牌世锦赛最终排名出炉!塞尔维亚夺冠,中国女排第6,美国无缘奖牌。2022年女排世锦赛决赛,巴西女排对阵塞尔维亚女排,此役,塞尔维亚女排从一开始就占据了场上的主动权,首局还遇到了一些抵久违了,昔日的美国舞娘现身名牌精品大秀,现如今长这样时尚名品RalphLauren日前在洛杉矶附近举办明年春季新系列发表会,影坛众星前往捧场,除了话题夫妻班艾佛列克与珍妮佛洛佩兹奥斯卡影后杰西卡查斯坦资深动作天王席维斯史特龙外,似乎
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网