专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

使用魔搭开发自己的语音AI从入门到精通

  简介:语音AI是最早从实验室走向应用的AI技术,其发展史就是不断创新、解锁应用的历史,从1995年DragonDictate的桌面孤立词语音识别,到2011年苹果的手机语音助手SIRI,再到当下百花齐放的各种智能语音应用。
  作者袁斌、鄢志杰阿里达摩院语音实验室
  来源阿里开发者公众号
  语音AI是最早从实验室走向应用的AI技术,其发展史就是不断创新、解锁应用的历史,从1995年DragonDictate的桌面孤立词语音识别,到2011年苹果的手机语音助手SIRI,再到当下百花齐放的各种智能语音应用。
  由于技术的快速进步,以及各大云计算厂商以API形式提供的语音AI能力,目前开发者已能便捷使用语音AI去搭建应用。但API也存在局限性,不少开发者希望获得更多、更底层的把控力,希望对API背后AI模型有更深入的了解;不只是开发应用,还可以开发模型;不只是调用API接口,还可以通过对模型的训练或微调(finetuning),以提升实际应用效果。
  为了让所有满怀创意的开发者实现更高水平的创新,在最近推出的魔搭社区ModelScope上,阿里达摩院首批开源开放了40多个语音AI模型,公有云上广受欢迎的付费模型这次也免费开放。模型背后,我们提供了训练或微调脚本工具链,含盖语音AI各个主要方向。
  下面,就让我们以语音合成、语音识别、语音信号处理为例,来展示如何玩转魔搭社区的语音AI模型。
  一、语音合成
  语音合成是将文字作为输入,让AI能够将文字转换为语音的原子能力。例如,我们希望AI朗读如下的一段文字:
  最当初,他只是觉得赛伦看莫颖儿的眼光温柔得超过一般父女或是师徒的感情,在观察了一段时间过后,他才逐渐确定赛伦似乎很在乎这个少女。
  在魔搭社区,可以有两种方式来进行语音合成模型的体验:
  第一种方式是使用模型详情页的在线体验功能,以最直观的方式对每个语音合成模型进行体验。这对模型的初步体验和把玩品鉴非常高效。
  接下来以SambertHifigan语音合成中文多人预训练16k模型为例,介绍如何进行在线体验。
  模型链接查看文末〔1〕。
  第二种方式是使用编程,通过简单的几行代码,就可以实现自己的语音合成功能,并集成嵌入到具体的应用中去。这种方式适合选定喜欢的发音人后、进行深度的应用开发。
  魔搭社区提供了免费的CPU算力(不限额)和GPU算力(NVIDIAV10016G限额100小时),供开发者进行使用,下面我们使用Notebook开发环境来简单演示如何实现使用代码进行语音合成。
  让我们选择CPU服务,稍等几分钟服务启动,我们点击查看NoteBook,进入开发环境,选择启动一个python脚本。
  这些语音AI模型都配备了代码示例,我们可以在模型详情页的代码示例中找到:
  将该代码进行复制并粘贴至notebook的python脚本当中,我们可以将代码中‘待合成文本’字符串替换成想要的合成本文,并执行程序,便可以下载生成的音频文件进行试听。
  这项语音合成技术背后是达摩院的显式韵律声学模型SAMBERT以及HifiGAN声码器的结合。
  在语音合成领域,目前以FastSpeech2类似的NonParallel模型为主流,它针对基频(pitch)、能量(energy)和时长(duration)三种韵律表征分别建模。但是,该类模型普遍存在一些效果和性能上的问题:独立建模时长、基频、能量,忽视了其内在联系;完全非自回归的网络结构,无法满足工业级实时合成需求;帧级别基频和能量预测不稳定。。。
  因此达摩院设计了SAMBERT,一种基于NonParallel结构的改良版TTS模型,它具有以下优点:建立时长与基频、能量的依赖关系,并使用自回归结构的时长预测模块,提升预测韵律的自然度和多样性;Decoder使用PNCA自回归结构,降低带宽要求,支持CPU实时合成;音素级别建模基频、能量,提高容错率;以预训练BERT语言模型为编码器,在小规模数据上效果更好。
  二、语音识别
  在魔搭社区上,达摩院语音实验室开放了核心的语音识别模型Paraformer语音识别中文通用16k离线,这是即将大规模商业部署的下一代模型,其训练数据规模达到5万小时以上,通过对非自回归语音识别模型技术的改进,不仅达到当前类Transformer自回归模型的语音识别准确率,而且在推理效率上有10倍的加速比提升。
  模型链接参考文末〔2〕。
  在魔搭社区中,语音识别模型与语音合成一样,提供Demo和Notebook两种方式进行效果体验,操作方法请参见上文,不再赘述。
  除了开放最先进的Paraformer模型之外,语音实验室还免费开放了当红的语音识别模型UniASR,它在公有云上提供商业化的服务,广受欢迎。UniASR模型含盖了中、英、日、俄等语种,支持8k16k采样率,可以满足开发者不同场景的开发需求。
  模型链接参考文末〔3〕。
  三、语音信号处理
  信号处理也是语音处理的一个重要的技术组成分支,达摩院开源了基于深度学习的回声残余抑制算法。
  模型名:DFSMN回声消除单麦单参考16k
  模型链接参考文末〔4〕。
  从用户体验角度,一个理想的回声消除算法要达到以下效果:远端单讲(farendsingletalk)时零回声泄露;近端单讲(nearendsingletalk)时语音无损;双端同时讲话时可以互相听清,也即双讲(doubletalk)通透。目前在开源的信号处理算法当中,双讲时的效果都比较差强人意。这是因为目前的开源信号处理算法无法有效区分录音信号中的回声信号和近端语音信号,而且真实通话中双讲出现的时间一般较短、时间占比也很低,所以从策略上为了确保零回声泄露,只好牺牲双讲时的效果。
  点击查看原文,获取更多福利!
  https:developer。aliyun。comarticle1103557?groupCodealitech?utmcontentg1000365848
  版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

文案关于军训日常的文案无军训不青春军训前小白脸军训后包青天有一种从白到黑的进化叫军训站军姿时想的那个人肯定真爱故事的开头是军训是少年青葱的记忆我军训了这一次属于我的太阳我都得晒回来那些年在错过的大雨请务人生第一烧头条创作挑战赛七个多月的宝宝经历了她人生的第一次发烧,很突然的就发生了,搞得新手妈妈措手不及。2022。8。23号上午宝宝像往常一样正常的吃辅食喝母乳,精神状况良好,一个人在床上翻入秋后,吃萝卜白菜不如吃它,鲜嫩营养,全身是宝,蒸包子吃特香导语入秋后,吃萝卜白菜不如吃它,鲜嫩营养,全身是宝,蒸包子吃特香大家好,我是傻姐美食,生活中唯有美食和美景不可辜负。今天跟大家介绍一种蔬菜它被称为长寿菜,看着不起眼确实餐桌上的美味它是湿气最怕的一道菜,营养美味易吸收,好吃不贵!别错过如果你也喜欢美食,点击关注,每天不断更新精彩内容!导读它是湿气最怕的一道菜,营养美味易吸收,好吃不贵!别错过!相信大家也知道,这个季节天气干燥,温差较大,很多朋友在这个时候都处于口今日推荐红烧肉色香味俱全,红烧肉界的扛把子惊喜需要准备食材五花肉鹌鹑蛋(鸡蛋也可)葱姜蒜生抽料酒老抽蚝油八角桂皮,香叶。做法1五花肉切块。鹌鹑蛋(鸡蛋)煮熟剥壳备用。2五花肉冷水下锅,加一勺料酒血菇怎么做好吃,血菇的家常做法血菇是一种可食用的蘑菇是一种外表为红色的野生菌,它营养丰富,保健功效出色,但在平时生活中并不常见,很多人都不知道血菇怎么做好吃,今天我会为大家介绍学过的家常做法,想吃血菇的人可以重秋季早餐做法分享,3天不重样,换着花样吃,20分钟就上桌秋季,这时候的气候明显干燥了起来,平常除了多饮水以外,饮食上也要适量补水,防秋燥,避免上火。尤其是早餐这一顿,有干有稀吃着才舒服。就拿我家来说,干稀都有是标配,根据家人的饮食习惯,从iPhone14看苹果与华为的不同9月8日凌晨,iPhone14发布,外观的毫无改动跟Pro版药丸(官方命名灵动岛)的创新让人知道,这操作很库克。自库克接受苹果以来,每代iPhone都是给点消费者想要的,又留点遗憾iPhone14系列来了!为您总结苹果发布会全系列新品昨晚看发布会了吗?iPhone14Pro系列的灵动岛什么?之前说iPhone14系列部分将采用摄像头挖孔设计,设计成本以及采购价格将会大幅提升,昨晚小编爆肝熬夜到凌晨,为您总结苹果(国际)苹果公司发布新品美国苹果公司于当地时间7日在位于加利福尼亚州旧金山湾区的乔布斯剧院举行新品发布会,推出新一代苹果手机智能手表和耳机。这是9月7日在美国加利福尼亚州旧金山湾区拍摄的苹果公司新产品。新苹果正式发布A16处理器!4nm160亿晶体管6516核心iPhone14iPhone14Plus果然使用了上代A15处理器,iPhone14ProiPhone14ProMax则毫无疑问升级为最新一代A16Bionic。A16重点提升能效
性感不需要表达,黑色系来穿搭,豹纹也有型,原来可以这样穿冬日的风并没有降低人们对于服饰的喜好,宅在家中的女孩也想要表达独特的美,独自一人在家中坐,性感不能没有你。野性豹纹的时髦,并不是生来就惧怕路人的眼媚。搭配个性范的长款裙,也是让人眼超200万人中招,曝光黑色产业链最近安全专家在研究中发现有多个恶意的Chrome扩展插件和浏览器劫机者(BrowserHijackers)感染了超过200万用户。浏览器劫机者是一种不受欢迎的程序,它在没有用户许可卫龙通过港交所聆讯,辣条涨价后收入反而下滑了本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。出品公司研究室大消费组文曲奇11月23日,港交所显示,卫龙美味全球控股有限公司通过港交所上市聆讯。11月24日开始I中国财富报道国有大行释放融融暖意房企获得多元化资金支持视频加载中11月23日至11月24日,六家国有大型银行密集与房地产企业签署战略合作协议,提供包括信贷资金在内的多种金融支持,为促进房地产行业良性循环和平稳健康发展积极贡献力量。专家烂大街的羽绒服别穿了,现在流行灯芯绒西装外套,时髦又高级冬天外套除了大衣羽绒服,还有哪些值得买的时尚单品?今天要分享的是一件可盐可甜,可通勤可柔美的冬季外套灯芯绒西装外套。不同颜色的灯芯绒西装也会呈现出不同的风格,关键在于搭配。下面分享阔太刘涛挺懂打扮,穿西装也要配腰带,不仅显瘦,还提升品味衣品好的女生,都很注重配饰的运用。像我们大多数人,在日常穿搭当中,运用配饰的概率其实并不高,顶多就是搭配个包包。但其实,有一些配饰,在提升衣品方面,有着至关重要的作用。比如腰带,就陆毅鲍蕾合体录综艺,穿情侣鞋甜蜜吸睛,陆毅西装配短裤个性时髦头条创作挑战赛陆毅鲍蕾夫妇在娱乐圈中属于比较低调的夫妻,很少公开撒狗粮秀恩爱,她们结婚已经很多年了,有了两个可爱又漂亮的女儿,一家四口十分甜蜜幸福。当综艺节目妻子的浪漫旅行第六季官贝克汉姆成卡特尔世界杯代言人,壕赚12亿,出场两套西装很绅士大自然的力量不在于一成不变地保持固定方式,而在于经常改变自己的法则。佩特罗尼乌斯残属集虽然伴随着焦虑和不舍,我们不得不承认,我们一直在改变,我们的偶像也是如此。光阴回到26年前,一成毅登封面,鹿晗穿西装解说世界杯,王凯蒋欣这次都有亮相哦整理了一组明星们最新的穿搭造型,看看Ta们都穿了什么,有没有你喜欢的。蒋欣,Prada2022秋冬系列,madameFIGAROHOMMES2022年12月刊。娘娘好久不见。古力娜世界杯开幕式贝克汉姆太帅了!穿西装和卡塔尔富豪站一起,太亮眼近日2022年世界杯随着开幕式的成功举办,让比赛的赛程也正是开始了,贝克汉姆作为这次世界杯的代言人,在当到达卡塔尔的时候,就受到了最高级的接待待遇,而这次在开幕式上,小贝也出现在观白鹿穿着西装小巧卷发轻抚面颊!雪肤玉貌风情万种美呆了11月18日,著名女星白鹿工作室公开一组都市佳人写真,魅力十足!图中,白鹿身穿灰色西装衣裤,搭黑色内衬衣裳,她俏脸成熟温柔,五官精致,明眸善睐,烈焰红唇,卷发微遮面颊,韵味十足。白
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网