范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

智能语音之远场关键词识别实践(一)

  语音识别主要分两大类:大词汇量连续语音识别技术(Large Vocabulary Continuous Speech Recognition,LVCSR)和关键词识别(keyword Spotting,KWS)。LVCSR由于对算力要求较高,一般在云端(服务器侧)做,而KWS对算力的要求相对较小,可以在终端上做。我们公司是芯片设计公司,主要设计终端上的芯片,想要在语音识别上做点事情,最可能的是做KWS,于是我们就选择KWS来实践语音识别。按距离远近,语音识别可分为近场识别和远场识别,远场的应用场景更丰富些,如智能音箱、智能家居等,如是远场的话需要用到麦克风阵列。讨论下来我们决定做远场下的关键词识别。图1是其框图:(麦克风阵列为圆阵且有四个麦克风,即有四个语音通道)
  图 1
  从上图可以看出,系统可以分为前端和后端两部分。前端主要包括去混响、声源定位和波速形成(beamforming)、单通道降噪四大模块。混响是指声音信号遇到墙壁、天花板、地面等障碍物形成反射声,并和直达声相叠加的现象。去混响就是去除那些叠加的声音。声源定位是利用多通道语音信号来计算目标说话人的角度和距离从而实现对目标说话人的跟踪,严格的声源定位是指同时确定说话人的角度(包括方位角、俯仰角)和距离。在消费级的麦克风阵列中,通常关心的是声源到达的方向,也就是波达方向(Direction of Arrival,DOA)。波束形成是对信号进行空域滤波,将多个通道的语音数据变成一个波束(即一个通道)的目标声源,目标声源的信干噪比(SINR)得到提升。单通道降噪是抑制单个通道上的噪声。后端主要包括特征提取和神经网络模型推理两大模块,特征提取是得到作为神经网络模型输入的语音的特征向量,神经网络模型推理是根据输入的特征向量计算出一个输出。不管是前端还是后端,对我们都是陌生的,讨论下来由于我们team人数较少就先从后端入手,有一个识别率较高的模型后再去做前端相关的。本篇先讲在后端上的一些实践,下篇讲在前端上的一些实践以及将前端和后端连起来形成一个完整的方案。
  后端主要是语音识别相关的。语音识别分为训练和识别两个阶段。在训练阶段,用海量的相关的语料训练出一个识别率较高的神经网络模型。在识别阶段,采集到的语音经过前端处理后提取出特征向量再经过神经网络模型推理得到相应的输出。后端的主要工作如下:训练语料获取、语料数据增强、模型训练、模型量化、模型推理实现等。
  1, 训练语料获取
  训练语料一般有三种办法获得。一是用公开的语料库,中文比较出名的语料库有thchs30等,但这些公开的一般适用于LVCSR,不太适用于KWS,因为KWS是一些特定词。二是花钱买,三是自己录。花钱买的语料库一般较贵,当前我们处于起步阶段,所以我们决定自己录语料。自己录要先选定应用场景和关键词,讨论后我们选定了智能家居场景,关键词包括"打开空调"、"关闭空调"、"打开窗帘"、"拉上窗帘"等。定好关键词后就开始录音了,我们先后录过两次音。第一次录音是在做后端神经网络模型时,录的是单声道数据。找来5台安卓手机,装上录音软件easyrecord,放在一个安静的会议室里,距离说话人50CM左右处,示意如图2:
  图 2
  说话人先以正常语速说一遍关键词,然后以较快语速说一遍,最后以较慢语速说一遍。当时请了部门里几乎所有同学近100人参与录音,得到了一个我们自己定义的单声道关键词的语料库。由于人数较少,是一个小语料库。第二次录音是在做前端麦克风阵列中去混响、波束形成等算法时,录的是多声道数据。买来一块多声道采集的评估板放在一个大会议室里,同时评估板边上放风扇、菜场等噪声,说话人在相对远处不同的位置上说关键词,示意如图3:
  图 3
  依旧是先以正常语速说一遍关键词,然后以较快语速说一遍,最后以较慢语速说一遍。这是一个带不同种类噪声的关键词多声道语料库。
  2,对语料做数据增强
  刚开始我们采集到语料后就开始训练模型了。由于录到的语料都是干净语音,模型训练好后干净语音识别率还可以,但是带噪语音就不行了。遇到问题就要找解决方法。调查后发现通常的做法是对语料做数据增强(augmentation)。所谓数据增强就是用一些音频处理的算法(比如加噪声)对已有的训练集里的语音(通常训练集里的语音是在安静的环境下录制的,比如录音棚里)进行一定的处理,让其变得更接近真实场景中的语音,来增加训练样本的多样性。基于神经网络的深度学习技术,通常都需要使用大量的数据来训练,语音识别也不例外。对一个语音识别系统而言,决定其识别准确率的关键因素,大致可以分为两个方面:一是模型本身的好坏;二是训练所使用的训练数据。对于训练数据而言,其与真实使用场景中的数据的匹配度越高,则语音识别的性能越好。实际应用中,语音识别的使用场景很复杂,环境噪声、人的说话方式,如音量、语速等,都会一定程度上影响语音识别系统的准确率。训练数据对这些复杂的情况覆盖得越全面,则语音识别系统的效果越好。为了构建一个强大的语音识别系统,应该广泛地搜集各种复杂的真实场景下的语音数据,来构建训练集。然而在现实条件下,想要做到这一点却很不容易,尤其对于中小厂商。因为不是每个厂商都有获取真实场景语音数据的渠道和能力,即使成功获得了真实场景的语音数据,数据标注也是一项极为费时费力费钱的工作。在训练集数据有限的情况下,可以通过数据增强的方法来扩充训练集数据,使训练集数据更多样性,来提高语音识别的准确率。我们用python开源库(nlpaug.augmenter.audio)做了数据增强,用的数据增强方法主要有如下几种:
  1)Loudness:调整音频的音量(增大或减小)
  2)Speed:调整音频的播放速度(加速或减速)
  3)Pitch:调整音频的音高
  4)Noise:加入噪声,主要有白噪声、粉红噪声、环境噪声等。
  做好数据增强后语料库就增大了好多倍。用增大后的语料库去训练得到新的模型,再用带噪语音去测试模型识别率提高了好多。
  3,模型训练
  模型训练是个大话题,这里就简述了,主要分几块:语料库的数据预处理、模型选择和迭代训练及评估。这些都在python下实践。找一个开源的语音识别开源框架,并根据自己的需求改造。我们是在框架中基于keras来训练模型的。
  1) 数据预处理
  数据预处理主要包括语音的特征(feature)选取和提取以及标签(label)处理。语音识别里常用的特征是MFCC和Fbank。我们刚开始用的特征是MFCC,后来随着用的深入,发现Fbank的效果比MFCC好,就改成用Fbank了。特征提取就是把wav中的每帧PCM数据变成特征向量,作为神经网络模型的输入。标签(label)就是标注wav文件对应的内容。语音识别神经网络模型通常都是分类模型,且有不同的分类方法。可以以音素分类,分出来的音素类型有几十或者上百个,标注时就是以音素为标签(label),代码中每个音素都有一个数字ID。如果用作唤醒词识别(唤醒词识别是关键词识别的一个特例,只有一个关键词),就是一个典型的二分类问题,是唤醒词的标注为1,不是的标注为0。把这些label作为target也作为模型的输入。训练前要把语料分成训练集/验证集/测试集,通常比例是8:1:1。训练集和验证集用于训练,测试集用于评估。
  2)模型训练和评估
  模型训练的第一步是选择网络架构。对于语音识别,目前主流的网络架构有卷积神经网络(CNN)和循环神经网络(RNN/LSTM)等。我们根据项目的需求选择CNN作为网络架构(主要是因为CNN相对简单且有很多KWS论文里的网络模型可以参考)。网络架构确定后训练模型时最好先找一个相关论文里的成熟模型来借鉴,然后对其进行改进,最终通过训练确定CNN层数、每层的Kernel个数、Kernel Size、Stride等。训练过程就是用训练集的数据作为输入,经过网络前向传播计算出输出,再同事先设定的标签(label)进行loss计算(根据设定的损失函数计算),然后通过反向传播来更新权重后,再迭代进行前向传播、loss计算和反向传播更新权重,直至loss值达到预期效果的过程。根据应用场景我们先后训练出两个网络模型,多关键词网络模型和单关键词(即唤醒词)网络模型。多关键词网络模型是音素分类模型,以CTC为损失函数,网络模型输出是每个音素的概率值,概率最大的那个音素作为输出,后接CTC解码,得到结果。唤醒词网络模型是二分类模型,以交叉熵为损失函数,网络模型输出是唤醒词和非唤醒词的概率值,再设定一个是唤醒词概率的阈值,如果输出的唤醒词概率大于阈值,就认为是唤醒词了,反之不是。
  模型训练好后要对其进行评估,看是否满足要求。KWS模型一般都是分类模型,对于分类模型,曾写过文章介绍过评价指标,具体见《深度学习分类问题中accuracy等评价指标的理解》。只有这些评价指标都符合要求了,模型训练工作才算结束。否则要分析不达标的原因,找解决方法,再重新训练,直到所有指标都达标。模型训练就是一个不断重复迭代的过程。
  4,模型量化
  训练好的模型中的参数都是浮点数,在识别过程中模型推理(inference)时为了降低CPU load和节省memory,需要对模型做量化处理。至于具体怎么做,请参见曾写过的文章《深度学习中神经网络模型的量化》。
  5,模型推理实现
  KWS模型训练是在python下完成的,但识别推理是在嵌入式系统上完成,因此要用其他语言把模型推理实现了。嵌入式系统上最常用的语言是C,我们就用C实现了模型推理。实现过程中参考了CMSIS的代码。为了节省memory,我们对实现过程做了优化,具体见曾写过的文章《嵌入式设备上卷积神经网络推理时memory的优化》。
  以上就是后端的主要工作。写起来简单,其实都是需要花不少时间的,尤其在模型训练上。如果是第一次做,则需要花更多的时间,有一个摸索的过程。

越南吸引外资,创五年来的新高,越南为什么受到全球资本的青睐?近些年,越南已经成为国际资本的新宠。据越南计划投资部外国投资局的报告,截止8月20日,越南吸引外国投资注册资金达近168亿美元,创五年来的新高。外国投资者对越南21个国民经济行业中小伙打新能源出租,65公里花719元,司机我没错,计价没问题8月31日,一则小伙乘坐出租车被索要719元的视频引起人们的广泛关注。这到底是怎么回事?案件回顾据当事人小王表示,当天他在济南西站外拦了一辆新能源出租车,上车后他告诉司机,要去山东奇瑞新能源小蚂蚁,主动安全配置竟如此强大奇瑞新能源小蚂蚁,主动安全配置竟如此强大小蚂蚁都配有哪些主动安全配置呢?我们来看ESC车身稳定控制系统可修正侧滑,提高行驶稳定性,如同小孩学骑车,家长在旁守护。EBA刹车辅助系统提CBA有哪些外援适合归化?四人呼声最高,但年龄都大了中国篮协已在认真考虑使用归化球员根据篮球评论员杨毅报道,中国篮协已经在认真考虑归化球员,关于中国男篮到底归化什么样的球员,在网络上引起了强烈讨论,有些人赞成,有些人反对。使用归化球接棒奶茶,咖啡冲天咖啡行业在海外历史悠久,目前在中国处于快速渗透阶段,2020年中国一线城市的人均咖啡消费量为326杯年,与发达国家数量相近,中国大陆整体的消费量仅为9杯年,现制咖啡门店布局三线以下星巴克换帅面临多重挑战袁勇星巴克近日宣布,英国家庭用品巨头利洁时CEO纳拉辛汉将从今年10月1日起担任星巴克候任CEO,并将于2023年4月1日正式就任星巴克CEO。纳拉辛汉曾就职于麦肯锡和百事可乐,2官宣!又可以少交税了!国家刚宣布三项新的减税政策将出台恭喜!这类企业又能少交企业所得税了!2022年最新最全的税前扣除表和优惠集合也给大家准备好了,一起来看看吧!01hr刚刚!国家新宣布!将出台三项新的减税政策!9月7日召开的国务院常2021重庆企业工资价位表出炉来看看你的行业和岗位排第几华龙网新重庆客户端讯(记者姜念月)重庆哪个行业收入丰厚?哪些岗位工资高?近日,市人力社保局发布了重庆市2021年人力资源市场工资价位和企业人工成本信息。根据调查数据,重庆市企业20为什么你扎马尾软塌显脸大?记住这几个技巧,简单耐看显气质炎热的天气,女生最爱的发型就是马尾辫了。但是,这种大光明的发型对于颜值的考验性真是太大了,尤其是头扁的女生来说,马尾一扎,头型的缺陷真是分分钟暴露无遗了。你以为你的马尾辫是这样的头比亚迪小心了!本田纯电大SUV将国产,造型炫酷,你会买吗?汽车元宇宙了解到,神龙汽车位于武汉经济技术开发区的第二工厂已经由东风本田接手,其总投资达到70。71亿元,将该工厂改造成专门生产纯电车型的全新工厂。东风本田利用神龙武汉二厂现有基础拿去美国也用不了!iPhone14中国版本完全阉割了卫星通信一下子,全球有两款支持卫星通信的手机了,一款是华为发布的Mate50,一款是苹果发布的iPhone14。相比Mate50,苹果的卫星通信更先进一些。iPhone14使用的是卫星运营
郑永年跨越中等技术陷阱本报记者段树军无论是跨越中等收入陷阱,还是实现高质量发展,关键是如何跨越中等技术陷阱。香港中文大学(深圳)教授郑永年在中国发展高层论坛2023年年会经济峰会投资中国创新驱动高质量发故乡的记忆故乡的记忆郭永明编辑于20159122132朋友的几幅照片,撬开了我对故乡的回忆。我的故乡在黄土高原的一个村落。贫脊和干涸镶嵌在我童少年的记忆。茫茫荒原,时而可见的几棵老榆树,挣扎盘点性能强悍笔记本第一不愁卖,第二款性价比高,第三难以置信前言目前几乎所有的笔记本品牌都推出了RTX40系笔记本,也让消费者选择性更加宽广,同时也大开眼界了。毕竟相比于以前的老款,都是属于新鲜的配置。就如联想推出拯救者Y9000P2023搭载锐龙5800H,支持三屏输出,高性能迷你主机,零刻SER5Pro评测目前是见过很多关于零刻主机的评测,不仅如此在身边也逐渐有人开始选择迷你主机作为办公主力机。确实在我之前的几篇评测文章里面都有提到过,零刻迷你主机不管是办公还是游戏生产力都表现出很强英伟达发布ChatGPT专用GPU,性能提升10倍Pine发自凹非寺量子位公众号QbitAIAI的iPhone时刻已至,英伟达或成最大赢家。在GTC2023大会上,黄仁勋接连放出大招不仅发布了ChatGPT专用GPU,比之前就能实美国最薄弱银行一年内存款流失或达万亿美元新华社北京3月25日电美国摩根大通银行分析师估算,自去年以来,美国最薄弱的各家银行存款金额可能共计流失大约1万亿美元其中半数存款外流发生在美国硅谷银行本月被接管后。由尼古劳斯帕尼格使命第三章重生在暗夜中经历无数的挣扎,我始终无法战胜黑暗,因为靠自己,是不足以抵挡那背后的神秘力量的。于是父神让我来到人世间历练,以助我修心得圆满。这一世的人间炼狱般的生活,真正开始于17球6助!阿根廷8000万先生失宠,顺位不及曼城帝星,未来需靠他在卡塔尔世界杯上夺冠后,三星阿根廷迎来了夺冠后的首秀,对阵世界排名第61的巴拿马,梅西再次挺身而出,他的圆月弯刀帮助潘帕斯雄鹰20击败了对手,由于这是世界杯后阿根廷的首场比赛,赛后父亲突然倒下之后,生活让我接受了现实父亲突然倒下之后,生活让我接受了现实我想到这个梦,以为自己已经慢慢接受现实,但其实并没有。因为不论吃到什么,看到什么,我都在想要是爸爸在就好了。前言在我儿时的记忆里,没有寻常人家家手机贷款app哪个容易下款?这5个动动手指就下款!手机贷款现在是越来越普遍,用户的需求度也越来越高。很多人在没钱花的时候,都会想到通过手机贷款APP来应急。不过,有时大家找到的APP特别坑。那么,急需用钱手机贷款APP哪个好?下面曾经拥有年度活跃用户数达8。9亿的淘宝,现在真的没人逛了吗?淘宝APP是一款功能强大购物体验优秀的移动端购物应用程序,为用户提供了便捷安全优惠的购物方式,是中国电商行业的重要一员。曾拥有8。9亿活跃用户的淘宝现在没有人用了吗?本文将为你分析