专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

语音识别技术在B站的落地实践

  前言
  自动语音识别(AutomaticSpeechRecognition,ASR)技术目前已大规模落地于B站相关业务场景,例如音视频内容安全审核,AI字幕(C端,必剪,S12直播等),视频理解(全文检索)等。
  AI字幕(中英文C端,必剪,S12直播等)
  全文检索
  本文将介绍在这一过程中,我们在数据和算法上所做的积累与探索。
  高质量ASR引擎
  一个适合工业化生产的高质量(高性价比)ASR引擎,它应该具有如下的特点:
  说明
  高精度
  在相关的业务场景精度高,鲁棒性好高性能
  工业化部署延迟低,速度快,计算资源占用少高扩展性
  能高效支持业务迭代定制,满足业务快速更新需求
  下面结合B站的业务场景在以上几个方面介绍我们相关的探索与实践。
  数据冷启动
  语音识别任务即从一段语音中完整识别出其中的文字内容(语音转文字)。
  满足现代工业生产的ASR系统依赖大量且多样的训练数据,这里多样是指说话周围环境,场景语境(领域)及说话人口音等非同质数据。
  针对于B站的业务场景,我们首先需要解决语音训练数据冷启动的问题,我们将碰到如下挑战:冷启动:开始只有极少量的开源数据,购买的数据和业务场景匹配度很低。业务场景领域广:B站音视频业务场景覆盖几十个领域,可以认为是泛领域,对数据多样性要求很高。中英文混合:B站年轻用户较多,且存在较多中英文混合泛知识类视频。
  对于以上问题,我们采用了以下的数据解决方案:
  业务数据筛选
  B站存在少量UP主或用户投稿的字幕(cc字幕),但同时也存在一些问题:时间戳不准,句子开始和结束时间戳往往在首尾字中间或者数个字之后;语音和文字没有完全对应,多字,少字,注释或翻译,存在按意思理解生成字幕的情况;数字转换,比如字幕2002年(实际发音二千零二年,二零零二年等);
  为此,我们基于开源数据,采购的成品数据及少量标注数据训练一个筛选数据的基础模型,以投稿字幕文本训练子语言模型,用来做句子时间对齐及字幕筛选过滤;
  半监督训练
  近年来因数据,GPU计算能力大幅提升及大规模人工标注数据成本过高,业界涌现了大量无监督(wav2vec,HuBERT,data2vec等)〔1〕〔2〕及半监督训练方法。
  B站存在大量的无标注业务数据,同时我们也从其它网站获取了大量无标注视频数据,我们前期采用被称为NST(NoisyStudentTraining)〔3〕的半监督训练方法,
  初期按领域及播放量分布筛选了近50万稿件最终生成约4万小时自动标注数据,加上初始1。5万小时标注数据训练后识别精度有相对近15左右的提升,且模型鲁棒性改善明显。
  图一
  通过开源数据,B站投稿数据,人工标注数据及自动标注数据我们初步解决数据冷启动问题,随着模型的迭代,我们可以进一步筛选出识别比较差的领域数据,
  这样形成一个正向循环。初步解决数据问题后,下面我们重点介绍模型算法相关优化。
  模型算法优化
  ASR技术发展历程
  我们简单回顾下现代语音识别发展历程,大体可以分为三个阶段:
  第一阶段是从1993年到2009年,语音识别一直处于HMMGMM时代,由以前基于标准模板匹配开始转向统计模型,研究的重点也由小词汇量、孤立词转大词汇量、非特定人连续语音识别,自90年代以后在很长一段时间内语音识别的发展比较缓慢,识别错误率没有明显的下降。
  第二阶段是2009年到2015年左右,随着GPU计算能力的大幅提升,2009年深度学习又开始在语音识别中兴起,语音识别框架开始转变为HMMDNN,开始步入DNN时代,语音识别准确度得到了显著的提升。
  第三阶段是2015年以后,由于端到端技术的兴起,CV,NLP等其它AI领域的发展相互促进,语音识别开始使用更深,更复杂的网络,同时采用端到端技术进一步大幅提升了语音识别的性能,在一些限制的条件下甚至超过了人类水平。
  图二
  B战ASR技术方案
  重要概念介绍
  为方便理解,下面简单介绍一些重要基础概念
  建模单元
  HybridorE2E
  第二阶段基于神经网络的混合框架HMMDNN相比比第一阶段HMMGMM系统语音识别准确率是有着巨大的提升,这点也得到了大家的共识。
  但第三阶段端到端(endtoend,E2E)系统对比第二阶段在开始的一段时间业界也有争议〔4〕,随着AI技术的发展,特别是transformer相关模型的出现,模型的表征能力越来越强,
  同时随着GPU计算能力的大幅提升,我们可以加入更多的数据训练,端到端方案逐渐表现出它的优势,越来越多的公司选择端到端的方案。
  这里我们结合B站业务场景对比这两种方案:
  图三
  图三是一个典型的DNNHMM框架,可以看出它的pipeline很长,不同的语言都需要专业的发音词典,
  而图四端到端系统把所有这些放在一个神经网络模型中,神经网络输入是音频(或特征),输出即是我们想要的识别结果。
  图四
  随着技术的发展端到端系统在开发工具,社区及性能上优势也越来越明显:代表性工具及社区比较
  混合框架(hybrid)
  端到端框架(E2E)
  代表性开源工具及社区
  HTK,Kaldi
  Espnet,Wenet,DeepSpeech,K2等
  编程语言
  CC,Shell
  Python,Shell
  可扩展性
  从头开发
  TensorFlowPytorch
  性能比较
  下面表格是典型的数据集基于代表性工具下的最优结果(字错误率CER):
  混合框架(hybrid)端到端框架(E2E)
  代表工具
  KaldiEspnet代表技术
  tdnnchainrnnlmrescoringconformerlasctcrnntLibrispeech3。061。90GigaSpeech14。8410。80Aishell17。434。72WenetSpeech12。838。80
  总之,选择端到端系统,相比传统的混合框架,在资源一定的情况下,我们可以更快更好的开发出一个高质量的ASR系统。
  当然,基于混合框架,如果我们也采用同等先进的模型及高度优化的解码器也是可以达到和端到端接近的效果,但我们可能需要投入数倍的人力及资源来开发优化这个系统。
  端到端方案选择
  B站每天都有数十万小时的音频需要转写,对ASR系统吞吐和速度要求都很高,生成AI字幕对精度也有较高的要求,同时B站的场景覆盖也非常广泛,选择一个合理高效的ASR系统对我们来说很重要。
  理想的ASR系统
  图五
  我们希望基于端到端框架构建一个高效的ASR系统解决在B站场景的问题。
  端到端系统比较
  图六
  图六是现在有代表性的三种端到端系统〔5〕,分别是E2ECTC,E2ERNNT,E2EAED,下面从各个方面对比各个系统优缺点(分数越高越好)系统比较
  E2EAEDE2ERNNT优化的E2ECTC识别精度
  6hr5hr6hr实时(流式)
  3hr5hr5hr成本及速度
  4hr3hr5hr快修
  3hr3hr6hr快速高效迭代
  6hr4hr5非流式精度比较(字错误率CER)
  2000小时15000小时KaldiChainmodelLM13。7
  E2EAED11。8
  6。6
  E2ERNNT12。4
  E2ECTC(greedy)13。1
  7。1
  优化的E2ECTCLM10。2
  5。8
  上面是分别基于2000小时及15000小时视频训练数据在B站生活美食场景的结果,其中Chain及E2ECTC采用了相同语料训练的扩展语言模型,
  E2EAED及E2ERNNT没有采用扩展的语言模型,端到端系统都是基于Conformer模型。
  从第二表格可以看出单一的E2ECTC系统精度并不明显弱于其它端到端系统,但同时E2ECTC系统存在着以下优点:因为没有神经网络的自回归(AEDdecoder及RNNTpredict)结构,E2ECTC系统在流式,解码速度,部署成本有着天然的优势;在业务定制上,E2ECTC系统也更容易外接各种语言模型(nnlm及ngram),这样使得在没有足够数据充分覆盖的通用开放领域其泛化稳定性要明显优于其它端到端系统。
  高质量ASR解决方案
  高精度可扩展ASR框架
  图七
  在B站生产环境中对速度,精度以及资源消耗都有较高的要求,在不同的场景也有快速更新及定制的需求(比如稿件相关的实体词,热门游戏及体育赛事的定制等),
  这里我们总体采用端到端CTC系统,通过动态解码器解决可扩展性定制问题,见图七。下面将重点分开阐述模型精度,速度及扩展性优化工作。
  端到端CTC区分性训练
  我们系统采用中文字加上英文BPE建模,基于AED及CTC多任务训练完以后,我们只保留CTC部分,后面我们会进行区分性训练,我们采用端到端的latticefreemmi〔6〕〔7〕区分性训练:区分性训练准则
  区分性准则MMI
  和传统区分性训练区别
  1。传统做法
  a。先在CPU上生成全部训练语料对应的alignment和解码lattice;
  b。训练的时候每个minibatch由预先生成的alignment和lattice分别计算分子和分母梯度并更新模型;
  2。我们做法
  a。训练的时候每个minibatch直接在GPU上计算分子和分母梯度并更新模型;和kaldi基于phone的latticefreemmi区分性训练区别
  1。直接端到端对字及英文BPE建模,抛弃phonehmm状态转移结构;
  2。建模粒度大,训练输入没有近似截断,context为整个句子;
  下表是在15000小时数据上,CTC训练完成后,用解码置信度选取3000小时进行区分性训练的结果,可以看出采用端到端的latticefreemmi区分性训练结果要好于传统DT训练,除了精度上的提升,整个训练过程都能在tensorflowpytorchGPU中完成。
  B站视频测试集CTCbaseline6。96
  传统DT6。63
  E2ELFMMIDT6。13
  相对混合系统,端到端系统解码结果时间戳都不是很准,AED训练没有随时间单调的对其,CTC训练的模型相比AED时间戳准确很多,但也存在尖峰问题,每个字的持续时长不准;
  经过端到端区分性训练后,模型输出会变得更加平整,解码结果的时间戳边界更加准确;
  端到端CTC解码器
  在语音识别技术发展过程中,无论是基于GMMHMM的第一阶段还是基于DNNHMM混合框架的第二阶段,解码器都是其中非常重要的组成部分。
  解码器的性能直接决定了最终ASR系统的速度及精度,业务的扩展及定制也大部分依赖灵活高效的解码器方案。传统解码器不管是动态解码器还是基于WFST的静态解码器都非常复杂,不仅依赖大量的理论知识,还需要专业的软件工程设计,开发一个性能优越的传统解码引擎不仅前期需要投入大量的人力开发,而且后期维护成本也很高。
  典型的传统的WFST解码器,需要把hmm,triphonecontext,字典,语言模型编译成一个统一的网络,即HCLG,在一个统一的FST网络搜索空间,这样可以提升解码速度,提高精度。
  随着端到端系统技术的成熟,端到端系统建模单元粒度较大,比如一般为中文的字或英文的wordpiece,因为去除了传统HMM转移结构,triphonecontext及发音字典,这使得后面的解码搜索空间变的小很多,这样我们选择基于beamsearch为基础的简单高效动态解码器,下图八是两种解码框架,相比传统的WFST解码器,端到端动态解码器有以下优势:占用资源少,典型的为WFST解码资源15;其耦合度低,方便业务定制,方便和各种语言模型融合解码,每次修改不需要重新编译解码资源;解码速度快,采用字同步解码〔8〕,典型的比WFST解码速度快5倍;
  图八
  模型推理部署
  在一个合理高效的端到端ASR框架下,计算量最大的部分应该在神经网络模型的推理上,而这块计算密集的部分可以充分利用GPU的计算能力,我们分别从推理服务,模型结构及模型量化几部分优化模型推理部署:模型采用F16半精度推理;模型转FasterTransformer〔9〕,基于nvidia高度优化的transformer;采用triton部署推理模型,自动组batch,充分提升GPU使用效率;
  在单块GPUT4下速度提升30,吞吐提升2倍,1小时能转写3000小时长音频;
  总结
  这篇文章主要介绍了语音识别技术在B站场景的落地,如何从头解决训练数据问题,整体技术方案的选择,各个子模块的介绍及优化,包括模型训练,解码器优化及服务推理部署等。未来我们将进一步提升相关落地场景用户体验,比如采用即时热词技术,优化稿件级别相关实体词准确率;结合流式ASR相关技术,更加高效的定制支持游戏,体育赛事的实时字幕转写。
  参考资料
  〔1〕ABaevski,HZhou,etal。wav2vec2。0:AFrameworkforSelfSupervisedLearningofSpeechRepresentations
  〔2〕ABaevski,WHsu,etal。data2vec:AGeneralFrameworkforSelfsupervisedLearninginSpeech,VisionandLanguage
  〔3〕DanielS,YZhang,etal。ImprovedNoisyStudentTrainingforAutomaticSpeechRecognition
  〔4〕CLscher,EBeck,etal。RWTHASRSystemsforLibriSpeech:HybridvsAttentionwoDataAugmentation
  〔5〕RPrabhavalkar,KRao,etal,AComparisonofSequencetoSequenceModelsforSpeechRecognition
  〔6〕DPovey,VPeddinti1,etal,PurelysequencetrainedneuralnetworksforASRbasedonlatticefreeMMI
  〔7〕HXiang,ZOu,CRFBASEDSINGLESTAGEACOUSTICMODELINGWITHCTCTOPOLOGY
  〔8〕ZChen,WDeng,etal,PhoneSynchronousDecodingwithCTCLattice
  〔9〕https:github。comNVIDIAFasterTransformer
  本期作者
  邓威资深算法工程师哔哩哔哩语音识别方向负责人
  来源:微信公众号:哔哩哔哩技术
  出处:https:mp。weixin。qq。coms2ofk4uDW7gqJKMy2X5IQ

专访霹雳舞国家队广东舞者彭莹追梦之路,勇往直前南都讯记者汪雅云随着中国霹雳舞国家队在本周对外公布了男女8名成员名单,也正式宣告这一明年巴黎奥运会新增项目的国字号组队完成。而来自广东云浮的女舞者彭莹以业余选手的身份成功入选,让家早期泰拳风格训练方法回顾一些早期的泰拳风格训练方法也很有趣。他们让我们得以一窥昔日的战士们是如何为战斗做准备的。今天的拳击手可能不会使用那些相同的旧训练方法,但了解它们肯定会更好地欣赏很久以前的Nak什么是性成瘾?患者自述比烟瘾酒瘾厉害多了,10年才戒掉2022生机大会英国女孩CourtneyDaniella有上瘾症,不过她不是烟草上瘾,也不是酒精上瘾,而是对成人色情网站上瘾。10岁那年,Courtney无意间看到了大人的色情片,小门牙作者周晓枫去做梦,去冒险,无畏疼痛,勇敢成长北京老舍文学院专业作家北京作家协会副主席周晓枫在线上科普课堂分享小门牙(视频截图)。长江网讯(见习记者周庭怿)1月8日下午,作家周晓枫在武汉书展作家出版社主题日线上直播间分享了其新学学股市方法步骤!别再盲目炒股!原创四色交易策略,简单叙述绿色柱子个股,不碰!绿变黄色柱子,关注!红变黄,减仓,或清仓!红色柱子,耐心持股!傻瓜式操盘,交易买卖点清晰,适合新手老手,使用该指标,新手胜老手。低位为队记浓眉可能从水下ampampamp反重力跑步机训练开始有望在月底前复出直播吧1月10日讯湖人球星安东尼戴维斯在去年12月17日对阵掘金的比赛中受伤,被诊断为右脚应力性伤病,一直缺阵至今。据橘郡纪事报记者KyleGoon报道,一位了解戴维斯康复情况的消C罗讨薪?前韩国国脚在沙特踢球拿不到月薪,还不能向王子要钱直播吧1月10日讯C罗加盟沙特球队利雅得胜利成为全球热门话题,前韩国国脚李天秀也在自己的youtube节目中借此谈到了自己曾在沙特联赛踢球的经历,他表示在那曾受到拖欠工资的困扰。我身患心脏病,最后却成奥运冠军,蔡赟的人生到底有多传奇?中国羽坛出现过许多位令人尊敬的选手,除了大家所熟知的林丹外。还有像鲍春来傅海峰蔡赟谌龙等众多选手。这些运动员都为中国羽坛做出过卓越的贡献。然而这其中最特殊的当属蔡赟。不仅他的职业生姚迪留洋美梦成真,头顶四连冠的光环助力朱婷冲击意甲冠军姚迪给人一种有点大器晚成的感觉,年近三十才获得出国打球的机会,不容易呀!姚迪在天津女排也是大神级的球员,作为队长的她一直是球队的中坚力量,这一次全胜战绩夺取冠军,成就自己的四连冠不追光丨两个赛季一场不败,这支女排球队为啥这么牛?职业联赛激烈而残酷连续赢球非常不易整个赛季全胜更是难得一见但有一支球队连续两个赛季都没输过这就是天津女排刚结束的20222023赛季女排超级联赛天津女排复刻了上赛季不败的完美战绩以大师赛八强决出四席奥沙利文轰出61惨案,希金斯不敌利索夫斯基北京时间1月10日,备受关注的斯诺克大师赛第一轮继续厮杀,在最新结束的两场比赛中,世界排名第一的奥沙利文火力全开轰出61的比分打爆了比利时名将布雷切尔,利索夫斯基轰两杆破百和两杆6
竭尽全力的奋斗,不断管理好每天时间,疯狂前进竭尽全力的奋斗,不断管理好每天时间,疯狂前进。日日不断,做好时间管理和眼前工作。绳锯木断,水滴石穿。时间管理的过程就像跳水,动作越少越好,极致断舍离,保持精深聚焦。就是您应该做好时6070岁程序员工资暴涨,就因为这门没啥人学的编程语言凯特琳是美国一个计算机专业的大学生,今年刚毕业,得找点活干。原本以为疫情工作不好找,但没想到面试时,老板还吵着要给她一个薪水更高的职位。原因很简单,就是她的求职简历上写了一个技能C解放战争,国共两党阵亡最高长官都是谁?1945年,日本宣布无条件投降,中国人民迎来了抗日战争的胜利。但俗话说,一山不能容二虎,国共两党也就如何合理分配这胜利的果实而展开了新一轮的争斗。久经战乱之后,人民渴望和平民主,重创投周报中安国通设500亿卫星产业基金德尔科技融资超20亿中新经纬9月17日电(邓芷若)本周(9月10日9月16日),国内创投圈共发生68起投融资事件,已披露的投融资总金额为73亿元,含氟新材料开发商德尔科技完成20。36亿元的PreIP2023年,全球经济会衰退吗?世界银行和摩根大通给出了不同的答案视频请点击下方链接2023年,全球经济会衰退吗?世界银行和摩根大通给出了不同的答案当前,全世界都在寻求一个答案,那就是在美联储大幅加息的情况下,美国经济衰退的风险越来越大,这会不会我国首次火星探测任务一批科学研究成果发布据国家航天局探月与航天工程中心消息,截至2022年9月15日,天问一号环绕器已在轨运行780多天,火星车累计行驶1921米,完成既定科学探测任务,获取原始科学探测数据1480GB。巴基斯坦洪灾致经济损失超100亿美元农民无奈贱卖牲畜自今年6月中旬以来,强降雨在巴基斯坦引发的洪水等各类灾害,造成了严重的人员伤亡和财产损失。洪灾过后,信德省的一些农民因为无力饲养牲畜,不得不低价卖掉他们的牛羊。在巴基斯坦南部信德省顶着与中国脱钩的名,狠坑了盟友一顿,忍不了,韩国要让美吃官司上个月,美国总统拜登签署了一项通胀削减法案,虽然说是为了降低通胀,但实际上,就是为了打压中企,将中国排挤在供应链之外。根据法案规定,只有在北美生产的电动汽车,才能享受退税补贴,从消东京正赛中国第5人诞生!中国金花爆发轰6个ACE横扫华裔名将东京500赛中国第5人诞生,她就是尤晓迪。资格赛决胜轮,尤晓迪2比0横扫加拿大华裔赵一羽,昂首挺进东京正赛,她将和张帅郑钦文王蔷王欣瑜一起征战这项赛事。WTA东京站资格赛决胜轮展开夏朝,可能不在中国?真亦假时假亦真,无为有处有还无!夏商周三代在史书当中往往是一起出现的,三代也成了一直传承的概念,不过认真算来,夏商周属于半信史时代,周朝是三代当中文字记载最详细的,殷商文明多集中在恒驰5量产如何用高品质征服用户视频加载中新能源汽车市场再迎喜讯9月16日,恒驰5在天津工厂正式量产,10月开启交付。此前,恒驰5一经预售,不到半个月就拿下3。7万订单的好成绩,如今恒驰5交付在即,第一批尝鲜的车
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网