范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

世界最大的多语言语音数据集现已开源超40万小时,共23种语言

  最近,Facebook 开源了目前世界上最大的多语言语音数据集,VoxPopuli:
  这一数据集共涵盖了 23 种语言,时长超过 40 万小时。
  其中,每种语言都有 9000 到 18000 小时的无标签语音数据。
  此外,还包括了共 1800 小时,16 种语言的转录语音数据,以及 17300 小时,15 种目标语言的口译语音数据。
  国外网友很快为这一行为点赞:
  显然,如果数据集已经存在,那么它应该被利用,并以一种道德的方式来改善人类社会。
  这一数据集庞大的无标签数据量和广泛的语言覆盖率,对改进自监督模型有着很大的帮助。
  而 Facebook 也希望能够帮助提高语音数据集的质量和鲁棒性,使训练语音转换神经网络更加可靠。
  最终加速新的 NLP 系统的开发,使 AI 翻译的效果越来越好。
  而数据集的名字,VoxPopuli 的直译"人民的心声"也表示了其原始数据的来源 ——
  即源语音全都收集自 2009-2020 年欧洲议会的活动录音。来自 10 年欧会的语料库
  在欧洲议会的各自活动,如全体会议、委员会会议和其他活动上,发言者都会以不同的欧盟语言轮流发表演讲。
  Facebook 就是从欧会官网上抓取了每个演讲的文字记录、演讲者信息、开始/结束时间戳。
  然后,将所有的原始演讲数据进行处理,大致分为以下 3 类:
  共 40 万小时,23 种语言的无标签语音数据
  每种语言都有 8 千到 2 万多的原始语音数据。
  因此,Facebook 基于能量的语音激活检测(VAD)算法,将完整音频分割成 15-30 秒的短片段。
  最终得到没有太多的数据不平衡,也不需要调整数据采样策略的数据集。
  因此非常适合多语言模型的训练。
  而上表中除了无标签数据,也有转录的语音数据,这也就是第二种:
  共 1800 小时,16 种语言的转录语音数据。
  欧会官方的时间戳虽然可以用来在会议中定义演讲者,但常常会被截断,或混合前后演讲的片段,因此并不完全准确。
  所以 Facebook 对全会话音频采用了声纹分割聚类(SD)。
  这时的语音段落平均时长为 197 秒,再利用语音识别(ASR)系统,将其细分为 20 秒左右的短片段。
  观察上表,可以看到最终得到的数据中,有包括各语言的持续时间、发言人数量、女性发言人百分比、标记数量等多种属性。
  17300 小时的 15 种目标语言的口译语音数据:
  每个原始语音都有相对应的同声传译,并互相关联。
  但要使这个数据集可用,必须经过大量的预处理和过滤。
  因此,Facebook 使用了语音识别(ASR)系统在句子层面上对齐源语音和目标语音。在域外环境的半监督学习下具有通用性
  那么这一数据集用起来到底怎么样?
  首先,是使用包含了域外语言(out-of-domain out-of-language)的无监督预训练,进行少样本的语音识别:
  可以从表中看到,VP-Mono5K 在 5 种 VoxPopuli 语言上,都优于 XLSR-Mono 和 XLSR-10。
  而 VP-100K 则在 10 种语言中的 8 种上的都比 XLSR-10 的表现更好。
  并且,虽然 XLSR-53 涵盖了 Zh 语言,但与 VP-100K(Large)在 Zh 上的表现相距甚远。
  这表明 VP-100K 所学的语音表征具有高度的通用性。
  然后是使用 VoxPopuli 数据集进行自我训练或弱监督的语言翻译(ST)和语音识别(ASR):
  从表中可以看到,不管是对于域内语言还是域外语言,对 VoxPopuli 的自我训练在大多数时候都能够提高性能。
  而在翻译上,也不用再增加昂贵的标签数据。
  通过自我训练,就能够缩小端到端模型和级联模型之间的差距。
  论文地址:
  https://arxiv.org/abs/2101.00390
  下载:
  https://github.com/facebookresearch/voxpopuli
  参考链接:
  [1]https://www.reddit.com/r/MachineLearning/comments/owll7g/n_facebook_ai_releases_voxpopuli_a_largescale/
  [2]https://www.marktechpost.com/2021/08/02/facebook-ai-releases-voxpopuli-a-large-scale-open-multilingual-speech-corpus-for-ai-translations-in-nlp-systems/

特斯拉新工厂或选址密苏里州,后者承诺10亿美元优惠北京时间4月15日早间消息,据外媒报道,特斯拉准备在美国建一座新工厂生产Cybertruck电动汽车,它正在挑选地址,密苏里州乔普森(Joplin)可能会胜出。3月份,特斯拉CEO富士康3月销售额同比下降7。7北京时间4月7日凌晨消息,苹果公司的主要供应商之一鸿海精密(即富士康)称,该公司3月销售额同比下降7。7。这家全球最大的电子产品代工厂商周一提交监管备案文件称,该公司3月营收为34维修连锁企业用侵权零件修华为手机涉案金额3亿元感谢IT之家网友深圳靓仔的线索投递!据深圳市场监管消息,近日,深圳市市场监督管理局打击侵犯华为商标专用权的专项执法行动成功收网,并于昨日举行案件通报会。2019年9月4日,深圳市市雅虎财经贸易摩擦抑制了美国芯片商,而非华为在最初同意部分解禁后,唐纳德特朗普(DonaldTrump)当地时间8月9日宣布美国政府不会与华为做生意,并且他不准备很快与中国达成贸易协议。美国将华为列入黑名单不仅阻碍了该公司,增加投放引入新帮手华为加强在美游说C114讯北京时间8月14日下午消息据美国媒体报道,在经历特朗普政府打压的过程中,华为正在引入新的游说帮手。报道称,该公司今年前两个季度已经花费了12。5万美元用于游说,这一速度将小米有品羽泉演唱会因艺人原因取消,门票可换产品IT之家11月28日消息小米有品官微发布公告称,因艺人原因,取消原定于2018年12月25日在北京工人体育馆举办的获得羽泉20周年演唱会北京特别版。已经参与了本次演唱会在自媒体平台红杉上市项目总市值达千亿美元,美团拼多多贡献过半11月24日下午消息,据硅谷商业期刊报道,今年以来,著名风险投资机构红杉资本上市被收购成员企业总市值已达1000亿美元,独占鳌头。其中最大的两个里程碑来自于中国的美团点评和拼多多上华为陈黎芳华为针对李洪元事件声明不是以势压人12月5日下午消息,华为高级副总裁陈黎芳今日在清华大学的讲座中提到近日的李洪元事件。她称,华为举报李洪元一定不是为了30万的离职补偿,而是因为华为不是公权力部门,这超出了华为一个企华为终端服务热线换号12月6日启用,与原号同步使用在今日的华为nova6发布会上,华为消费者业务手机产品线总裁何刚宣布,华为终端服务热线启用新号。华为终端服务热线新号码均以950开头,后接800801805,分别对应全国终端服务热柳青响应柳传志号召我们这代人定能接过父辈接力棒!近日2019年亚布力中国企业家论坛第十五届夏季高峰会在天津举行,联想控股董事长柳传志发表题为今天,我们血脉贲张演讲,建议年轻人必须牢记历史,守初心,担使命。柳传志之女滴滴出行总裁柳联想控股董事长柳传志不做改革中的牺牲者作为改革开放后中国第一代企业家,年过七旬的联想控股董事长柳传志目前深耕投资,是为数不多仍在商界驰骋的一位。2018年5月,因为一场5G编码的投票风波,联想被拿来和华为作比较,再次引
都2020年了,iOS14还能把桌面小组件玩出什么花样?iOS14最大的变化之一,就是支持桌面小组件了。之前的小组件只能在今天视图,也就是负一屏中添加,自由度有限,而把范围扩展到桌面后,小组件的能力形态都有了很大的变化。有的人可能会说,不再推荐健康群组!Facebook清理平台不实信息据报道,Facebook本周四表示,不会再在推荐中显示健康群组,因为用户应该从权威来源获取健康信息。去年Facebook封杀100多万个群组,因为它们违反Facebook政策,散布Facebook内部论坛政策更新限制员工谈论社会问题据报道,Facebook周四表示,该公司将更新内部讨论政策,限制其员工讨论社会和政治问题的能力。Facebook发言人乔奥斯本(JoeOsborne)称,该公司CEO马克扎克伯格(英特尔断供浪潮,没有赢家就在全民为腾讯老干妈真假广告合同事件反转再反转吃瓜之际,一则ToB行业的大事件正在悄无声息地引起震动。近日,多个外媒披露,美国出口管理条例再升级,实体清单企业成员也在不断调整。受此浪潮遭遇英特尔暂停供货,别再把鸡蛋只放在一个篮子里2020下半年的第一天,业界就有大事件。今天,有关全球第三国内最大的服务器厂商浪潮遭遇英特尔断供的传闻在业内引起热议。在关注事件本身进展的同时,我们也不得不再次对加强自主可控能力的民营火箭公司蓝箭航天宣布完成12亿元人民币C轮融资9月9日上午消息,近日蓝箭航天空间科技股份有限公司(蓝箭航天)宣布完成12亿元人民币C轮融资,过去12个月,蓝箭航天共获得投资超18亿元人民币。此前,华创资本曾于2018年领投蓝箭马斯克除了火箭,所有交通工具都可能实现电动电动汽车制造商特斯拉正在德国柏林建设其欧洲首家超级工厂,其首席执行官埃隆马斯克(ElonMusk)近日前往德国进行了为期四天的访问,包括视察工厂建设进度。他在工厂参加了现场问答活动台媒功率放大器供应商稳懋已供货SpaceX,用于星链计划各项硬件9月2日消息,据台湾媒体报道,稳懋半导体(稳懋)台光电等已成为SpaceX星链计划概念股。稳懋台媒介绍称,稳懋为功率放大器(PA)供应商,目前已有供货SpaceX,用于星链计划中的马斯克Neuralink向德州扩张招募人员开发人脑植入设备据报道,埃隆马斯克的神经科学初创企业Neuralink正在开发可直接插入人脑的计算机,该公司正向德州扩张,这是亿万富翁马斯克利用硅谷以外人才资源战略的一部分。该公司网站上发布的职位德国经济部长会见马斯克在这建厂,要啥给啥德国经济部长彼得阿尔特迈尔(PeterAltmaier)日前向特斯拉CEO埃隆马斯克(ElonMusk)表示,德国政府将以任何必要的方式为特斯拉提供帮助,以便让特斯拉柏林工厂尽快投资深人士新版Switch有望明年Q2推出,任天堂正与外部合作积极推动新作品IT之家8月25日消息周二上午,台湾媒体报道称任天堂有望于2021年推出新版Switch主机。随后,长期关注游戏领域的华尔街日报记者望月崇发表了他的看法。望月崇称,对于新版Swit