范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

未来十年,AI语音识别将朝着这五个方向发展

  作者 | Migüel Jetté
  编译 | bluemin
  编辑 | 陈彩娴
  在过去的两年中,自动语音识别(Automatic Speech Recognition, ASR)在商用上取得了重要的发展,其中一个衡量指标就是:
  多个完全基于神经网络的企业级 ASR 模型成功上市,如 Alexa、Rev、AssemblyAI、ASAPP等。
  2016年,微软研究院发表了一篇文章,宣布他们的模型在已有25年历史的"Switchboard"数据集上,达到了人类水平(通过单词错误率来衡量)。
  ASR 的准确性仍在不断提高,在更多的数据集和用例中逐渐达到人类水平。
  图源:Awni Hannun 的博文 "Speech Recognition is not Solved"
  随着 ASR 技术的识别准确度大幅提升,同时应用场景越来越丰富,我们相信:现在还不是 ASR 商用的巅峰,该领域的研究与市场应用还有待发掘。
  我们预计未来十年 AI 语音的相关研究和商业系统将重点攻克以下五个领域 :
  1 多语言ASR模型
  "在未来十年,我们将在生产环境中部署真正的多语言模型,使开发人员能够构建任何人都能理解任意语言的应用程序,从而真正向全世界释放语音识别的力量。"
  图源:Alexis Conneau 等人在 2020 年发表的"Unsupervised cross-lingual representation learning for speech recognition"论文
  如今的商用 ASR 模型主要使用英语数据集进行训练,因此对英语输入具有更高的准确性。由于数据可用性和市场需求,学术界和工业界对英语的长期关注度更高。法语、西班牙语、葡萄牙语和德语等商业流行语言的识别准确度虽然也较为合理,但显然存在一个训练数据有限且ASR输出质量相对较低的语言长尾。
  此外,大多数商业系统都是基于单一语言,这无法适用于许多社会特有的多语言场景。多语言可以采用背靠背语言的形式,例如双语国家的媒体节目。亚马逊最近推出了一款集成语言识别(LID)和ASR的产品,在处理这一问题上取得了长足进步。相比之下,跨语言(也称为语码转换)是个人使用的一种语言系统,该系统可以将两种语言的单词和语法结合在同一个句子中。这是一个学术界继续取得有趣进展的领域。
  正如自然语言处理领域采用多语言方法一样,我们将会看到ASR在未来十年也会效仿。随着我们学习如何利用新兴的端到端技术,我们将会训练可以在多种语言之间进行迁移学习的大规模多语言模型。Meta的XLS-R就是一个很好的例子:在一个演示中,体验者可以说21种语言中的任何一种,而不需要指定某种语言,模型最终都会翻译成英语。通过理解和应用语言之间的相似性,这些更智能的ASR系统将为低资源语言和混合语言用例提供高质量的ASR可用性,并将实现商业级别的应用。
  2 丰富的标准化输出对象
  "在未来十年,我们相信商业 ASR 系统将输出更丰富的转录对象,其中包含的内容将不止简单的单词。此外,我们预计,这种更丰富的输出将得到W3C等标准组织的认可,以便所有API都将返回类似构造的输出。这将进一步释放世界上每个人的语音应用潜力。"
  尽管国家标准技术研究院(NIST)在探索"丰富转录"方面有着悠久传统,但在将其纳入ASR输出的标准化和可扩展格式方面仍是浅尝辄止。丰富转录的概念最初涉及大写、标点和日记化,但在某种程度上扩展到说话人角色和一系列非语言性言语事件。预期的创新包括转录来自不同说话者、不同情绪和其他副语言特征的重叠语音,以及一系列非语言甚至非人类的语音场景和事件,还可以转录基于文本或语言多样性的信息。Tanaka等人描绘了一个用户可能希望在不同丰富程度的转录选项中进行选择的场景,显然,我们预测的附加信息的数量和性质是可指定的,这取决于下游应用。
  传统的ASR系统能够在识别口语单词的过程中生成多个假设的网格,这些已被证明在人工辅助转录、口语对话系统和信息检索中大有裨益。在丰富的输出格式中包含n-best信息将鼓励更多用户使用ASR系统,从而改善用户体验。虽然目前不存在用于构建或存储语音解码过程中当前生成或可能生成的附加信息的标准,但CallMiner的开放语音转录标准(OVTS)朝这个方向迈出了坚实的一步,使企业易于探索和选择多个ASR供应商。
  我们预测,在未来,ASR系统将以标准格式产生更丰富的输出,从而支持更强大的下游应用程序。例如,ASR系统可能会输出全部可能网格,并且应用程序可以在编辑转录内容时使用这些附加数据进行智能自动转录。类似地,包括附加元数据(如检测到的区域方言、口音、环境噪声或情绪)的ASR转录可以实现更强大的搜索应用。
  3 面向所有人的大规模 ASR
  "在这十年中,大规模的 ASR(即私有化、可负担、可靠和快速)将成为每个人日常生活的一部分。这些系统将能够搜索视频,索引我们参与的所有媒体内容,并使世界各地的听力受损消费者能够访问每个视频。ASR将是对每一个音频和视频都实现可访问和可操作的关键。"
  我们可能都在大量使用音视频软件:播客、社交媒体流、在线视频、实时群聊、Zoom会议等等。然而相关的内容实际上很少被转录。如今,内容转录已经成为ASR API的最大市场之一,并将在未来十年呈指数级增长,特别是考虑到它们准确性和经济性。话虽如此,ASR转录目前仅用于特定应用程序(广播视频、某些会议和播客等)。因此,许多人无法访问此媒体内容,并且在广播或活动结束后很难找到相关信息。
  在未来,这种情况将会改变。正如Matt Thompson在2010年预测的那样,在某种程度上,ASR价格廉价并被广泛普及,以至于我们将体验到他所谓的"演讲性"。我们预计,未来几乎所有音频和视频内容都将被转录,并且可立即访问、可存储、可大规模搜索。但ASR的发展不会到此停滞,我们还希望这些内容具有可操作性。我们希望消费或参与的每个音视频会提供额外的上下文,例如从播客或会议中自动生成的见解,或视频中关键时刻的自动总结等等,我们希望NLP系统可以将上述处理日常化。
  4 人机协同
  "到本世纪末,我们将拥有不断发展的ASR系统,它就像一个活的有机体,在人类的帮助或自我监督下不断学习。这些系统将从现实世界中的不同渠道学习, 以实时而非异步的方式理解新单词和语言变体,自我调试并自动监控不同的用法。"
  随着ASR成为主流并涵盖越来越多的用例,人机协同将发挥关键作用。ASR模型的训练很好地体现了这一点。如今,开源数据集和预训练模型降低了ASR供应商的准入门槛。然而,训练过程仍然相当简单:收集数据、注释数据、训练模型、评估结果、改进模型。但这是一个缓慢的过程,并且在许多情况下,由于调整困难或数据不足而容易出错。Garnerin等人观察到,元数据缺失和跨语料库表示的不一致性使得在ASR性能方面难以保证同等的准确性,这也是Reid和Walker在开发元数据标准时试图解决的问题。
  在未来,人类将通过智能手段高效地监督ASR训练,在加速机器学习方面发挥日益重要的作用。人在回路方法将人工审查员置于机器学习/反馈循环中,可以对模型结果进行持续审查和调整。这会使机器学习更快、更高效,从而产生更高质量的输出。今年早些时候,我们讨论了ASR的改进如何使Rev的人工转录员(称为"Revvers")能够对ASR草案进行后期编辑,从而提高工作效率。Revver的转录可以直接输入到改进的ASR模型中,形成良性循环。
  对于ASR,人类语言专家仍然不可或缺的一个领域是反向文本规范化(ITN),他们将识别的字符串(如"five dollars")转换为预期的书面形式(如"$5")。Pusateri等人提出了一种使用"手工语法和统计模型"的混合方法,Zhang等人继续沿用这些思路,用人工制作的FST约束RNN。
  5 负责任的 ASR
  "与所有人工智能系统一样,未来的ASR系统将坚持更严格的人工智能伦理原则,以便系统平等对待所有人,可解释性程度更高、对其决策负责、并尊重用户及其数据的隐私。"
  未来的ASR系统将遵循人工智能伦理的四项原则:公平性、可解释性、尊重隐私和问责制。
  公平性:无论说话者的背景、社会经济地位或其他特征如何,公平的ASR系统都能识别语音。值得注意的是,构建这样的系统需要识别并减少我们的模型和训练数据中的偏差。幸运的是,政府、非政府组织和企业已经着手创建识别和减轻偏见的基础设施。
  可解释性:ASR系统将不再是"黑盒":它们将根据要求对数据收集与分析、模型性能与输出过程进行解释。这种附加的透明度要求可以对模型训练和性能进行更好的人为监督。与Gerlings等人一样,我们从一系列利益相关者(包括研究人员、开发人员、客户,以及Rev案例中的转录学家)的角度来看待可解释性。研究人员可能想知道输出错误文本的原因,以便缓解问题;而转录学家可能需要一些证据来证明ASR为什么会这么认为,以帮助他们评估其有效性,特别是在嘈杂的情况下,ASR可能比人"听"得更好。Weitz等人在音频关键词识别的背景下,为终端用户实现可解释性采取了重要的初步措施。Laguarta和Subirana已将临床医生指导的解释纳入用于阿尔茨海默症检测的语音生物标记系统。
  尊重隐私:根据各种美国和国际法律,"语音"被视为"个人数据",因此,语音记录的收集和处理受到严格的个人隐私保护。在Rev,我们已经提供了数据安全和控制功能,未来的ASR系统将进一步尊重用户数据的隐私和模型的隐私。在许多情况下,这很可能涉及将ASR模型推向边缘(在设备或浏览器上)。语音隐私挑战正在推动这一领域的研究,许多司法管辖区,如欧盟,已经开展立法工作。隐私保护机器学习领域有望引起大家对技术这一关键方面的重视,使其能够被公众广泛接受和信任。
  问责制:我们将对ASR系统进行监控,以确保其遵守前三项原则。反过来需要投入资源和基础设施,以设计和开发必要的监测系统,并针对调查结果采取措施。部署ASR系统的公司将对其技术的使用负责,并为遵守ASR伦理原则做出具体努力。
  值得一提的是,作为ASR系统的设计者、维护者和消费者,人类将负责实施和执行这些原则——这是人机协同的又一个示例。
  参考链接:
  https://thegradient.pub/the-future-of-speech-recognition/
  https://awni.github.io/speech-recognition/

海湾镇蜡梅已上线!来感受这份冬日限定的小梅好!开百花之先,独天下而春。深冬已至,在这样的季节里,或许没有雪,但一定有蜡梅。海湾国家森林公园的蜡梅早已悄悄绽放,在晴朗的冬日,可不要错过了这份冬日限定美好!凌寒独自开不惧天寒地冻,在冬日行走(组诗)韦漠1。迷失冬月晨雾如薄薄棉被盖住整个小城灯光迷失了自己影子也都模糊不清楼房透出的灯光已是点点繁星昔日的飞鸟没有展翅的机会在屋檐低鸣呼唤阳光2。错过不乱错过季节的禾苗仍在抽穗托起欢秋景正绚烂,来柘林邂逅醉人秋色湛蓝的天空,洁白的云朵舒爽的秋风,绚烂的风景一年好景君须记最是橙黄橘绿时秋色的调色盘颜料被十一月的笔触浸染画出醉人的柘林浪漫画卷融媒体专班施俊炜摄柘林的秋天是色彩斑斓的,漫步在柘林双面贾跃亭圈钱跑路的骗子,从未放弃的梦想家,到底哪一面是他贾跃亭只去过一次美国。他最喜欢的就是马刺队更衣室里那一句话当一切看起来无可挽回之时,我跑去看石匠重复捶击他面前的岩石一百次,而那块石头连一个裂缝都没有露出来。接下来的第一百零一次捶土耳其大地震!或打乱郎平复出执教计划,中国女排球迷遗憾众所周知,目前中国女排全队正在主教练蔡斌的带领之下,在宁波北仑的训练基地进行集训备战。这次的备战不仅仅是为了下半年即将到来的杭州亚运会,另外也是在为将要开打的巴黎奥运会资格赛进行合金枝(全本)中原大地上的家族史诗作为中国作家协会新时代文学攀登计划入选作品,鲁迅文学奖获得者邵丽的最新长篇小说金枝(全本)由人民文学出版社出版,并于近日举行新书发布会。金枝(全本)以中原大地颍河岸边的一个古老村庄立春过后万物苏醒邕城大地焕发勃勃生机春风如贵客轻舞万物醒大型无人机进行试水工作,为春耕做准备。记者叶子榕摄春又来,花再开,满城皆繁华。记者梁枫摄享有中国绿城美誉的南宁,四季如春是这里的特色。地处祖国南疆,春天的脚步似史上三次诡异大爆炸!中国王恭厂大爆炸,死伤万人衣服皆失踪在人类历史上发生过的爆炸事件有许多,但有三场诡异的天灾却给人们带来了毁灭性的伤害,且至今都没办法用科学来解释。那么这三场灾难分别是啥?现场又出现了怎样诡异的现象?为啥会被称为世界三偷偷为你总结了网上衣服越来越难买的7大原因现在网络上的衣服五花八门,很多人是不是在网络上看了半个月都买不上一件称心如意的衣服?下面是我为大家总结的七大原因,大家也可以避避雷。风格太难懂现在的衣服要么就是版型太大,全部都是男铜奔马脚下踏的是燕?专家你瞧瞧匈奴王冠上是啥,马踏飞鹰啊!导言甘肃武威擂台汉墓的马踏飞燕,因造型奇特成为我国旅游业的标志,但是从出世之后,围绕着其脚下所踏飞禽的争议就从未断绝,是燕是龙雀还是鹰隼?奔马飞鸟事实上,古代关于骏马的表现题材不在2022年逆势热销5。4万辆,凯迪拉克XT5缘何成为顾家首选?2022年车市有多难?上半年众多车企受到芯片供应短缺影响,开局便抑制了市场增量的释放,而全年国内多个一二线城市也因为防疫因素被打乱供需关系,可以说除了高歌猛进的新能源市场以外,其余
韩国人的反击农心杯第四局姜东润终结范廷钰连胜农心杯范廷钰再夺三连胜,不光打破李昌镐的农心杯历史胜局纪录,还第四次获得连胜奖,前无古人。第一阶段共下四局,最后一战,范廷钰迎来韩国队二将姜东润的挑战。本届农心杯,范廷钰的对手从一成绩太差!尤文已暂停所有续约谈判根据意大利国内媒体足球市场的报道,在近期成绩糟糕的情况下,尤文图斯的管理层非常不满,尤其是主席阿涅利,对球员的场上态度屡次提出严厉的批评,尤文图斯目前已经叫停了队内所有球员的续约谈杨毅遭CBA官方警告!林书豪被郭士强弃用,莫科慧眼挖掘外援新人头条创作挑战赛据著名篮球评论员杨毅透露,CBA官方已经向各直播平台解说员发出警告,不允许评论本赛季裁判的争议判罚,也不允许讨论裁判的业务水平。这可真是现代版的掩耳盗铃,滑天下之大稽不愧是铁卫!拉莫斯44岁妻子自曝两人性生活频率我们每天都做爱最近巴黎圣日耳曼的新闻大部分都是关于姆巴佩不开心要离队的消息,在积攒了多名大牌球星之后,这支球队场内场外的新闻很多。今天我们就来看一条稍微轻松一点的新闻,铁卫拉莫斯的妻子在电视节目10。13欧联杯皇家贝蒂斯vs罗马欧联杯小组三轮完赛,贝蒂斯三战三胜排名第一。魔力鸟的罗马最近状态低迷,排名小组第三。贝蒂斯上轮西甲做客平瓦拉多利德,上半场佩塞利亚被罚下,联赛暂时贝蒂斯主场保持全今日,11名中国大陆网球选手,冲击八项赛事单打四强北京时间10月14日,星期五,本周最后一个工作日,中国网球全力冲击各项赛事单打四强。WTA250罗马尼亚克卢日纳波卡网球赛赛会7号种子王曦雨(世界排名第59位)孤身闯进八强,四分之穆帅战平贝蒂斯让罗马保留欧联杯出线机会,满意下半场的发挥直播吧10月14日讯在北京时间今天凌晨结束的欧联杯小组赛中,罗马客场与贝蒂斯11战平,仍保留欧联杯小组出线希望。赛后罗马主帅穆里尼奥接受了球队官网采访。总结比赛虽然11的比分让我们亚洲第四!女足最新世界排名出炉,恭喜水庆霞,已将韩国甩在身后日前,国际足联公布最新一期女足世界排名,中国女足相较上期上升一名至第15,亚洲第四。中国女足能在国际足联最新一期女足世界排名上升一位,对于球队来说就是好消息。中国女足自从请来水庆霞乾隆的真实长相,被意大利画家偷偷还原,网友和一位明星很像一片一片又一片,两片三片四五片,六片七片八九片,飞入芦花都不见。乾隆乾隆是清朝名气很大的一位皇帝,在管理国家方面,他与自己的父亲爷爷共同打造了康乾盛世。此时清朝的国力也达到了巅峰,太空念出中国古文的意大利宇航员曾来华训练,中文名叫莎莎仰观宇宙之大,俯察品类之盛,所以游目骋怀,足以极视听之娱,信可乐也。10月12日,远在国际空间站执行任务的意大利宇航员萨曼莎克里斯托福雷蒂(SamanthaCristoforett中国女排3消息朱婷复出惹争议,丁霞上热搜,蔡斌被要求下课最近,中国女排已经结束世锦赛的征程,最终还是输给意大利女排无缘进入四强,再度继世联赛之后止步八强。接下来比赛结束,即将要回国进行隔离,后续有各自的安排。而随着这一次比赛落下帷幕之后