保健励志美文体育育儿作文
投稿投诉
作文动态
热点娱乐
育儿情感
教程科技
体育养生
教案探索
美文旅游
财经日志
励志范文
论文时尚
保健游戏
护肤业界

世界最大的多语言语音数据集现已开源超40万小时,共23种语言

  最近,Facebook开源了目前世界上最大的多语言语音数据集,VoxPopuli:
  这一数据集共涵盖了23种语言,时长超过40万小时。
  其中,每种语言都有9000到18000小时的无标签语音数据。
  此外,还包括了共1800小时,16种语言的转录语音数据,以及17300小时,15种目标语言的口译语音数据。
  国外网友很快为这一行为点赞:
  显然,如果数据集已经存在,那么它应该被利用,并以一种道德的方式来改善人类社会。
  这一数据集庞大的无标签数据量和广泛的语言覆盖率,对改进自监督模型有着很大的帮助。
  而Facebook也希望能够帮助提高语音数据集的质量和鲁棒性,使训练语音转换神经网络更加可靠。
  最终加速新的NLP系统的开发,使AI翻译的效果越来越好。
  而数据集的名字,VoxPopuli的直译人民的心声也表示了其原始数据的来源
  即源语音全都收集自20092020年欧洲议会的活动录音。来自10年欧会的语料库
  在欧洲议会的各自活动,如全体会议、委员会会议和其他活动上,发言者都会以不同的欧盟语言轮流发表演讲。
  Facebook就是从欧会官网上抓取了每个演讲的文字记录、演讲者信息、开始结束时间戳。
  然后,将所有的原始演讲数据进行处理,大致分为以下3类:
  共40万小时,23种语言的无标签语音数据
  每种语言都有8千到2万多的原始语音数据。
  因此,Facebook基于能量的语音激活检测(VAD)算法,将完整音频分割成1530秒的短片段。
  最终得到没有太多的数据不平衡,也不需要调整数据采样策略的数据集。
  因此非常适合多语言模型的训练。
  而上表中除了无标签数据,也有转录的语音数据,这也就是第二种:
  共1800小时,16种语言的转录语音数据。
  欧会官方的时间戳虽然可以用来在会议中定义演讲者,但常常会被截断,或混合前后演讲的片段,因此并不完全准确。
  所以Facebook对全会话音频采用了声纹分割聚类(SD)。
  这时的语音段落平均时长为197秒,再利用语音识别(ASR)系统,将其细分为20秒左右的短片段。
  观察上表,可以看到最终得到的数据中,有包括各语言的持续时间、发言人数量、女性发言人百分比、标记数量等多种属性。
  17300小时的15种目标语言的口译语音数据:
  每个原始语音都有相对应的同声传译,并互相关联。
  但要使这个数据集可用,必须经过大量的预处理和过滤。
  因此,Facebook使用了语音识别(ASR)系统在句子层面上对齐源语音和目标语音。在域外环境的半监督学习下具有通用性
  那么这一数据集用起来到底怎么样?
  首先,是使用包含了域外语言(outofdomainoutoflanguage)的无监督预训练,进行少样本的语音识别:
  可以从表中看到,VPMono5K在5种VoxPopuli语言上,都优于XLSRMono和XLSR10。
  而VP100K则在10种语言中的8种上的都比XLSR10的表现更好。
  并且,虽然XLSR53涵盖了Zh语言,但与VP100K(Large)在Zh上的表现相距甚远。
  这表明VP100K所学的语音表征具有高度的通用性。
  然后是使用VoxPopuli数据集进行自我训练或弱监督的语言翻译(ST)和语音识别(ASR):
  从表中可以看到,不管是对于域内语言还是域外语言,对VoxPopuli的自我训练在大多数时候都能够提高性能。
  而在翻译上,也不用再增加昂贵的标签数据。
  通过自我训练,就能够缩小端到端模型和级联模型之间的差距。
  论文地址:
  https:arxiv。orgabs2101。00390
  下载:
  https:github。comfacebookresearchvoxpopuli
  参考链接:
  〔1〕https:www。reddit。comrMachineLearningcommentsowll7gnfacebookaireleasesvoxpopulialargescale
  〔2〕https:www。marktechpost。com20210802facebookaireleasesvoxpopulialargescaleopenmultilingualspeechcorpusforaitranslationsinnlpsystems

韩联社三星电子有望与LGDisplay签署液晶电视面板供应协IT之家7月13日消息据韩联社今日报道,三星电子公司正在与LGDisplay关于购买显示面板一事进行商议。韩联社援引消息人士爆料称,三星电子与LGDisplay可能在近期签署液……谷歌21亿美元收购Fitbit智能手表商交易终于完成重新起航北京时间1月14日晚间消息,据报道,可穿戴设备厂商Fitbit今日宣布,已正式加入谷歌大家庭。这意味着谷歌正式完成以21亿美元收购Fitbit交易。Fitbit联合创始人……白鹅教学设计7第一课时参考【教学目的】、会认个生字,会写个生字。正确读写高傲、郑重、京剧、滋味、倘若、侍侯、脾气、责备、临近等词语。、有感情地朗读课文,背诵自己喜欢的部分。、感受作者对……Linux5。11内核将添加对英伟达RTX30系列显卡的支持IT之家1月16日消息尽管Linux5。11内核即将于2月初发布,但Linux创始人LinusTorvalds表示,已经决定将英伟达RTX30系列Ampere显卡新发布的开源驱……激励人生的短语说说在人生中,有时最好走的路不一定是大路,而是小路。下面请欣赏品学网小编给大家带来的激励人生的短语说说相关内容。激励人生的短语说说欣赏1)心中有所牵挂,生命才会坚强。2……大量5G手机等助推,去年11月份全球半导体产品销售额仍在增长1月5日消息,据国外媒体报道,在居家办公学习及娱乐设备的需求增加、5G智能手机大量推出的推动下,全球半导体产品的需求明显增加,半导体产品的销售额也持续增长,相关机构的数据显示,……跳槽上市高龄创业2020中国芯片圈十大最人物2020年接近尾声,中国半导体圈的江湖中,又增添了许多新故事。顶着新冠疫情肆虐、全球供应链一度瘫痪、多种产品出现缺货、美国精准打击等各方面的压力,在全球GDP倒退的背景下……唯美爱情心情短语爱是一壶美酒,一饮就醉了;思念,是汹涌澎湃的大海,轻易就淹没了我;你,是朵娇艳的花,在我心中早已悄然开放!下面是品学网小编给大家整理的唯美爱情心情短语,供大家阅读!唯美爱情心情……武汉经济开发区高度重视小米造车计划,成立工作专班对接IT之家4月2日消息小米集团此前宣告称将成立一家全资子公司并由其负责高品质智能电动汽车业务。小米造车首期投资为100亿元人民币,预计未来10年投资额100亿美元。此外,小米首席……第22课人类三大人种的基本特征学习与探究之四设计思想活动目标:通过梳理三大人种历史发展的基本脉络,进一步了解和掌握三大人种的基本特征。通过收集和整理有关三大人种的历史资料,学习查阅历……文言文阅读训练答案及翻译阅读下面的文言文周美传(节选)周美字之纯,灵州回乐人。少隶朔方军,以才武称。赵保吉陷灵州,美弃其族,间走归京师。天子召见,隶禁军。契丹犯边,真宗幸澶州,御敌城北门,……消息称河南周口富士康最快4月5日开工生产手机平板电脑等关键零IT之家3月11日消息,据《周口日报》报道,河南周口富士康主要生产研发手机、平板、电脑及穿戴装置等关键零组件产品,规划总占地面积820亩,两期建成后预计年产值可达31亿元,用工……
五月天等歌手乐队演唱会上线,微信视频号直播迎来改版新增音悦会IT之家2月18日消息,微信官方今日宣布:新的一年,视频号直播上线音悦会专栏,热爱音乐的你们,快来解锁视频号直播新玩法吧!音悦会新专栏上线微信视频号直播迎来改版,新增音悦……砂锅菜谱及火锅店广告语篇一:沙锅菜谱温情砂锅菜热气腾腾全身暖一家人围在餐桌旁,吃着热腾腾的砂锅,团圆、温暖幸福的感觉油然而生。砂锅烧菜既美味又营养,在保证健康的同事,还能保持汤浓味鲜的口感,使……2021年教师节表彰大会讲话稿伴随着时光款款的脚步,相携着岁月累累的硕果,满载着流年盈盈的喜悦,一年一度的教师节又与我们相约。下面是品学网小编给大家整理的20xx年教师节表彰大会讲话稿,仅供参考。20xx年……八年级期末操行评语一到期末写好学生学期操行评语,能正确反映学生道德面貌和品德行为,可以让学生正确认识自己。本文是八年级期末操行评语,希望对大家有帮助!八年级期末操行评语1。你是个非常优秀的……天津集成电路产业链2021年增加值同比增长56,今年12月预2月6日,据天津广播新闻中心消息,2021年天津市集成电路产业链增加值同比增长56,增速位居12条重点产业链之首。今年开年,尽管受疫情影响,但集成电路产业链依然保持强劲势头,预……推广违规学科培训业务,北京王后雄教育科技有限公司被处理IT之家1月21日消息,据首都教育发布,1月18日,市教委印发《北京市教育委员会关于检查线上学科类培训机构发现问题的通报》(京教函〔2022〕26号)。通报指出,近日,市教委联……梦想的演讲稿三篇导语人人都有梦想,为实现梦想,我们每个人都需要全力以赴。下面是小编带来的梦想的演讲稿三篇,供各位参阅。梦想的演讲稿一大家好!这天我要讲的是《放飞梦想期望的萌动》。……报告2021年AI岗年薪下降8。9,收入不及2018年在全球最热门、发展最快速的AI领域,去年平均薪资反倒下降了?据IEEESpectrum报道,2021年全美技术人员的平均年薪上涨了6。9,从五位数(97859美元,约62……谷歌云计算2021年4季度营收同比增长44。谷歌母公司Alphabet的财报显示,谷歌云计算业务在去年4季度的营收为55。41亿美元,较上一年同期的38。31亿美元增加17。1亿美元,同比增长44。营收同比大增,谷……腾讯央视频AI手语翻译官聆语由公司技术团队打造感谢IT之家网友肖战割割的线索投递!IT之家2月6日消息,今日,腾讯发文表示,在央视频的比赛播放中,央视频AI手语翻译官聆语为武大靖夺金时刻带来了手语解说。此外,腾讯3D……数据显示阅读苹果的用户协议实际需要半小时,微软居首超一小时IT之家12月18日消息,据9to5Mac报道,很少有人会在创建AppleID前真正阅读苹果的条款和条件。Statista数据显示,如果这样做的话可能需要半个小时。IT之……班主任月常规工作评比细则班主任月常规工作评比细则及班主任费发放办法为了客观公正地评价班主任工作,更充分地调动班主任的主动性、积极性,切实加强班级管理,创建更好的育人环境,特制定本细则,以此构建科学、合……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网