保健励志美文体育育儿作文
投稿投诉
作文动态
热点娱乐
育儿情感
教程科技
体育养生
教案探索
美文旅游
财经日志
励志范文
论文时尚
保健游戏
护肤业界

找不到中文语音预训练模型?中文版Wav2vec2。0和HuB

  机器之心专栏
  作者:腾讯游戏知几AI团队,西北工业大学音频、语音与语言处理研究组(ASLPNPU)
  近日,腾讯游戏知几AI团队与西工大ASLP组联合发布了基于WenetSpeech1万小时数据训练的中文版Wav2vec2。0和HuBERT模型。
  Wav2vec2。0〔1〕,HuBERT〔2〕和WavLM〔3〕等语音预训练模型,通过在多达上万小时的无标注语音数据(如Librilight)上的自监督学习,显著提升了自动语音识别(AutomaticSpeechRecognition,ASR),语音合成(Texttospeech,TTS)和语音转换(VoiceConversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。
  WenetSpeech〔4〕是由西工大音频、语音和语言处理研究组(ASLPNPU)、出门问问、希尔贝壳联合发布的1万多小时多领域语音数据集。为了弥补中文语音预训练模型的空缺,我们开源了基于WenetSpeech1万小时数据训练的中文版Wav2vec2。0和HuBERT模型。
  为了验证预训练模型的性能,我们在ASR任务进行了验证。实验结果表明,在100小时有监督数据ASR任务上,预训练模型学到的语音表征相对于传统声学FBank特征有显著的性能提升,甚至仅用100小时有监督数据能够得到和1000小时有监督数据可比的结果。
  模型链接:https:github。comTencentGameMatechinesespeechpretrain
  模型介绍
  Wav2vec2。0模型
  图1:Wav2vec2。0模型结构(Baevskietal。,2020)
  Wav2vec2。0〔1〕是Meta在2020年发表的无监督语音预训练模型。它的核心思想是通过向量量化(VectorQuantization,VQ)构造自建监督训练目标,对输入做大量掩码后利用对比学习损失函数进行训练。模型结构如上图1,基于卷积网络(ConvoluationalNeuralNetwork,CNN)的特征提取器将原始音频编码为帧特征序列,通过VQ模块把每帧特征转变为离散特征Q,并作为自监督目标。同时,帧特征序列做掩码操作后进入Transformer〔5〕模型得到上下文表示C。最后通过对比学习损失函数,拉近掩码位置的上下文表示与对应的离散特征q的距离,即正样本对。
  原论文中,Wav2vec2。0BASE模型采用12层的Transformer结构,用1000小时的LibriSpeech数据进行训练,LARGE模型则采用24层Transformer结构,用6万小时的Librilight数据训练。训练时间方面,BASE模型使用64块V100显卡训练1。6天,LARGE使用128块V100显卡训练5天。在下游ASR评测中,即使只用10分钟的有监督数据,系统仍可得到4。8的词错误率(WordErrorRate,WER)结果。
  HuBERT模型
  图2:HuBERT模型结构(Hsuetal。,2021)
  HuBERT〔2〕是Meta在2021年发表的模型,模型结构类似Wav2vec2。0,不同的是训练方法。Wav2vec2。0是在训练时将语音特征离散化作为自监督目标,而HuBERT则通过在MFCC特征或HuBERT特征上做Kmeans聚类,得到训练目标。HuBERT模型采用迭代训练的方式,BASE模型第一次迭代在MFCC特征上做聚类,第二次迭代在第一次迭代得到的HuBERT模型的中间层特征上做聚类,LARGE和XLARGE模型则用BASE模型的第二次迭代模型提取特征做聚类。从原始论文实验结果来看,HuBERT模型效果要优于Wav2vec2。0,特别是下游任务有监督训练数据极少的情况,如1小时、10分钟。
  中文预训练模型
  实验配置
  我们使用WenetSpeech〔4〕trainl集的1万小时中文数据作为无监督预训练数据。数据主要来源于YouTube和Podcast,覆盖了各种类型录制场景、背景噪声、说话方式等,其领域主要包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景。我们基于Fairseq工具包〔6〕分别训练了Wav2vec2。0和HuBERT模型,遵循〔1,2〕的模型配置,每个预训练模型模型包括BASE和LARGE两种大小。对于BASE模型,我们使用8张A100显卡,梯度累计为8,模拟64张显卡进行训练。对于LARGE模型,我们使用16张A100显卡,梯度累计为8,模拟128张显卡进行训练。
  下游语音识别任务验证
  为了验证预训练模型在下游ASR任务的效果,我们遵循ESPnet〔7,8,9〕工具包中的Conformer〔10〕模型实验配置,即将预训练模型作为特征提取器,对于输入语音提取预训练模型各隐层表征进行加权求和,得到的语音表征将替换传统FBank特征作为ConformerASR模型的输入。Aishell数据集
  我们使用Aishell178小时训练集作为有监督数据进行训练,分别对比了使用FBank特征、Wav2vec2。0BASELARGE模型特征和HuBERTBASELARGE模型特征的字错误率(CharacterErrorRate,CER)结果。同时,我们额外对比了使用WenetSpeechtrainl集1万小时中文数据进行训练时,其在Aishell测试集上的效果。训练数据使用了变速(0。9、1。0、1。1倍)和SpecAugment数据增广技术,解码方式为beamsearch,使用了基于Transformer的语言模型进行rescoring。
  表1:不同模型在Aishell测试集上的字错误率(CER)结果
  根据表1结果可以看到,通过结合上万小时无监督数据训练的预训练模型,下游ASR任务效果均有显著提升。尤其是使用HuBERTLARGE模型时,在Test集上得到约30的CER相对提升,实现了目前在178h有监督训练数据下业界最好结果。WenetSpeech数据集
  我们使用WenetSpeechtrains集100小时中文数据作为有监督数据进行训练,分别对比了使用FBank特征、Wav2vec2。0BASELARGE模型特征和HuBERTBASELARGE模型特征的字错误率(CharacterErrorRate,CER)结果。同时,我们额外对比了使用WenetSpeechtrainm集1000小时和trainl集1万小时中文数据FBank特征训练的模型结果。训练数据没有使用变速或SpecAugment数据增广技术,解码方式为beamsearch,没有使用语言模型rescoring。
  表2:不同模型在WenetSpeech测试集上的字错误率(CER)结果
  根据表2结果可以看到,通过结合上万小时无监督数据训练的预训练模型,下游ASR结果得到了巨大提升。尤其当使用HuBERTLARGE作为语音表征提取器时,使用100小时有监督数据训练的ASR模型要比1000小时基于FBank特征训练的模型效果要好,甚至接近1万小时数据训练的模型。
  更多语音下游任务实验结果请关注GitHub链接(https:github。comTencentGameMatechinesespeechpretrain)。欢迎大家使用我们提供的中文语音预训练模型开展研究工作,一起探索语音预训练模型在中文和相关众多场景下的应用。
  参考文献
  〔1〕AlexeiBaevski,HenryZhou,AbdelrahmanMohamed,andMichaelAuli,Wav2vec2。0:Aframeworkforselfsupervisedlearningofspeechrepresentations,inProc。NeurIPS,2020。
  〔2〕WeiNingHsu,BenjaminBolte,YaoHungHubertTsai,KushalLakhotia,RuslanSalakhutdinov,andAbdelrahmanMohamed,HuBERT:Selfsupervisedspeechrepresentationlearningbymaskedpredictionofhiddenunits,IEEEACMTransactionsofAudio,Speech,andLanguageProcessing,vol。29,pp。34513460,2021
  〔3〕SanyuanChen,ChengyiWang,ZhengyangChen,YuWu,ShujieLiu,ZhuoChen,JinyuLi,NaoyukiKanda,TakuyaYoshioka,XiongXiao,JianWu,LongZhou,ShuoRen,YanminQian,YaoQian,JianWu,MichaelZeng,XiangzhanYu,andFuruWei,WavLM:Largescaleselfsupervisedpretrainingforfullstackspeechprocessing,arXivpreprintarXiv:2110。13900,2021
  〔4〕BinbinZhang,HangLv,PengchengGuo,QijieShao,ChaoYang,LeiXie,XinXu,HuiBu,XiaoyuChen,ChenhenZeng,DiWu,andZhendongPeng,WenetSpeech:A10000hoursmultidomainMandarincorpusforspeechrecognition,inProc。ICASSP,2021
  〔5〕AshishVaswani,NoamShazeer,NikiParmar,JakobUszkoreit,LlionJones,AidanN。Gomez,LukaszKaiserandIlliaPolosukhin,Attentionisallyouneed,inProc。NeurIPS,2017
  〔6〕MyleOtt,SergeyEdunov,AlexeiBaevski,AngelaFan,SamGross,NathanNg,DavidGrangier,andMichaelAuli,fairseq:Afast,extensibletoolkitforsequencemodeling,inProc。NAACL,2019。
  〔7〕ShinjiWatanabe,TakaakiHori,ShigekiKarita,TomokiHayashi,JiroNishitoba,YuyaUnno,NelsonEnriqueYaltaSoplin,JahnHeymann,MatthewWiesner,NanxinChen,AdithyaRenduchintala,andTsubasaOchiai,ESPnet:Endtoendspeechprocessingtoolkit,inProc。Interspeech,2018,pp。22072211
  〔8〕PengchengGuo,FlorianBoyer,XuankaiChang,TomokiHayashi,YosukeHiguchi,HirofumiInaguma,NaoyukiKamo,ChendaLi,DanielGarciaRomero,JiatongShi,JingShi,ShinjiWatanabe,KunWei,WangyouZhangandYuekaiZhang,RecentdevelopmentonESPnettookitboostedbyConformer,inProc。ICASSP,2021
  〔9〕XuankaiChang,TakashiMaekaku,PengchengGuo,JingShi,YenJuLu,AswinShanmugamSubramanian,TianziWang,ShuwenYang,YuTsao,HungyiLee,andShinjiWatanabe,Anexploratinoofselfsupervisedpretrainedrepresentationsforendtoendspeechrecognition,inProc。ASRU,2021
  〔10〕AnmolGulati,JamesQin,ChungChengChiu,NikiParmar,YuZhang,JiahuiYu,WeiHan,ShiboWang,ZhengdongZhang,YonghuiWu,andRuomingPan,Conformer:ConvolutionaugmentedTransformerforspeechrecognition,inProc。Interspeech,2020,pp。50365040

周末去撒野丨去人烟罕至的绝美溪谷玩水吃西瓜Hey大家好!我是爱户外爱旅行的王大仙当端午小长假的人潮涌向延琉路、栗花沟、菜食河的时候我带着老妈和闺女奔向了一个距离北京150公里的深山之中在这里找到了一片……三年级作文我和弟弟一起捞鱼今天是周末,我和弟弟在外公的鱼池里捞鱼。先是弟弟,只见他拿起鱼网,伸进水里,嘴里还嘀咕着:ldquo;捞条大的!捞条大的!rdquo;该我捞了,我接过鱼网,放进水里……参观海洋馆作文我有很长时间没去海洋馆参观啦。今天,我们和老师、同学一起去海洋馆游玩。我们首先来到了北京动物园,我就迫不及待地直奔海洋馆。首先,我们去看了一些淡水鱼,然后我们就进入……NASA启动不明飞行物研究将向公众开放研究结果当地时间6月9日,美国国家航空航天局(NASA)表示,该机构正在组建一个不明飞行物研究小组,专门研究未知的空中现象。据了解,该团队将由天体物理学家大卫斯佩格尔领导,研究将……你就在我身边初中作文【网络综合初二学生写人作文:你就在我身边】以下是为大家整理的关于初二学生写人作文:你就在我身边的文章,希望大家能够喜欢!更多初中作文资源请搜索初中作文频道与你分享!……11,又翻车!世界第5倒下,2轮0胜排名垫底,欧国联出线悬了欧国联小组赛第2轮,英格兰客场挑战德国,最终以11的比分打平对手,遭遇2轮不胜,仅仅拿到1分。此役,霍夫曼为德国队首开记录,英格兰在最后关头获得点球机会,哈里凯恩主罚命中,完成……盼春节作文500字ldquo;春节到,春节到,穿新衣,放鞭炮,走亲访友真热闹;压岁钱,装口袋,包饺子,贴春联,小娃娃盼望春节到!rdquo;每当我听到这首儿歌,脑海里就会浮现出过年时热热闹闹的场……我家的芦荟品学网专稿未经允许不得转载我们家里种着一棵芦荟。这棵芦荟一共有七条枝,每条枝上都长着一根又尖又长的ldquo;绣花针rdquo;。似乎这些枝是它绣出来的ldquo;……95岁高龄主持人宋海出殡全体喜剧人致敬刘在锡姜虎东抬棺记者吴睿慈综合报导南韩最高龄主持人宋海于8日在家中昏迷辞世,享耆寿95岁,10日清晨是他的出殡日,综艺界大佬李龙植献上追忆词,数名喜剧人出现其中,由全有成、刘在锡、姜虎东……书是成长路上的伙伴400字作文在我成长的过程中,书一直陪伴着我,激励着我。从小我就在书的海洋里遨游。记得我在上幼儿园的时候,我在看一本书叫做《蚯蚓日记》。那时因为我的头发太长了,所以我要去理发店理发。……国企改革看山东山东国投创新驱动科技创新收入达总收入九成记者张玉岩山东国投公司成立于2005年,于2015年改建为省内唯一一家省级国有资本运营公司,承担着贯彻落实省委、省政府战略意图,推动国有资本保值增值,引导带动全省经济创新……守护甜心待我再次睁开眼睛时,我已来到了一片花海。ldquo;怎么样?rdquo;落樱随着一朵飞舞的樱花来到我面前,rdquo;这可是货真价实的呢,一般地方可见不到的哦hellip……
记忆犹新的意思及造句下面品学网小编整理记忆犹新的意思和造句。造句,是使学生牢固地掌握和正确地运用学过的词语的一种有效练习方式。所以同学们要多做一些练习。记忆犹新的意思:拼音:jigra……今天我当家星期六的早晨,爸爸妈妈都出去了,家里就只剩下我一个人。我想:今天由我来当家吧,我应该把家整理得井井有条才对,让爸妈高兴。可家务事妈妈都做完了。我看了看地板,都是灰尘,好吧,我就……红糖对女性的三大好处所谓女子不可一日无糖,被誉为妇女之友的红糖功效更不容小觑。第一、日本的科研人员发现,红糖中含有一直叫糖蜜的多糖,它可以抗氧化,抗衰老。第二、红糖还可以活血化瘀,缓解痛经。……建议中年女人T恤不要买上一堆,衣橱有这4款就够了,时髦洋气市面上的T恤多到令人眼花缭乱,加上价格不高,很多人在买T恤时都不会太心疼钱,看见一款T恤比较好看个性就会入手。但事实上,我们衣橱里的绝大多数T恤都会被闲置掉,占据空间还派不上用……全球经济复苏不确定性提升,还有健康动态需要关注上周,美国高通胀对全球经济金融秩序的冲击不断显现,全球对通胀压力加剧的担忧有所增加,多个国际组织发布报告下调世界经济增长预期,全球经济复苏不确定性进一步提升。当前,世界经……巧克力对心脏健康的益处当你想到心脏健康的饮食时,一块巧克力可能不是你添加到列表中的第一件事。然而,研究人员正在研究巧克力是否对健康有益特别是对心血管系统。研究一些研究表明,吃巧克力……清新亮丽的时尚女孩装扮配饰鞋的基本款式类型(1)浅口鞋:鞋口较大,穿脱方便,脚面露出部分较多,不配纽带或金属卡等任何部件,前帮的总长度较浅,所以称为浅口鞋。这是女鞋中最基本的款式。(2)船鞋:因与船形状相似而得名……羽田机场周边景点9选隈研吾设计色彩博物馆超人气松饼店羽田机场是不少人来东京自由行时的首选机场。下机后其实不用到都心区域,羽田机场周边的大田区、品川区和川崎市内,就有许多具特色的景点和商店。只要善用上机前和下机后的时间,来个东京快……调查环境的作文怎么写在经济飞速发展的今天,各方面都取得了可喜的成就。人们的物质文明不断提高,人们都过上了小康生活,同时,由于人们没有较强的环保意识,面临着十分严重的环保问题。下面是小编为大家收集整……反超小米苹果,这家新兴的国产手机底气何在?不知不觉,一年一度的618硝烟味越来越浓了。在不景气的全球大环境,加之被挥之不去的疫情笼罩下,各个行业都希望借618的机会打一个漂亮的翻身仗。那竞争日益激烈的手机行业自然也不例……HTC的元宇宙旗舰手机预计会延迟到6月发布距离HTC发布上一款高端旗舰手机已经有好几年了,在今年年初的时候,该公司调侃说,有一款手机正在酝酿之中。而现在来看,HTC的这款元宇宙手机因一系列的因素不得不推迟。HTC设计推……凤凰花开的作文又时一个凤凰树绚烂的季节,在雨水的洗条下,校园的凤凰树更为清新怡人,景物变换,新旧交替,无不流淌着生命里的生生不息。在我的校园里,有几棵美丽的凤凰树,有的在我们升旗台两侧……
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网