童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

AI助力语音克隆,人和自己“对话”的障碍在哪?

12月20日 终离去投稿
  语音克隆技术是什么?又能做些什么?
  如果有一天,你可以将你的声音通过人工智能技术“克隆”出来,而且你还能和“你”进行各种对话,你是否愿意尝试?
  这个场景并不遥远,不久前,“AIFirst”的谷歌表示,其最新版本的人工智能语音合成系统Tacotron2合成出来的语音几乎和真人声音一模一样。它拥有两个深度神经网络,第一个能够将文本转化为频谱图,第二个则负责将频谱图生成相应的音频。
  而麻省理工评论则认为百度的技术则更进一步,百度在最近发布的新论文中表示,该技术只要通过一个半小时的语音数据的学习,就能“克隆”出原对象的声音。虽然以前百度的“DVoice”也能够生成语音,但让生成出来的语音附带不同的语言特色正是语音生成的一大突破,而且它除了能“克隆”之外,还能对该声音的性别或口音进行更改,甚至还能赋予该克隆声音一些简单的情感。
  语音克隆技术是什么?又能做些什么?
  语音合成的技术有三种,但只有AI技术才能称为语音克隆
  最早的语音合成技术通过预先录制好的字词、短句来实现的,把各个部分串成一行,以此产生完整的句子。生活中各种服务热线的自助语音系统就是用这种方式实现的,所以会经常存在卡顿,音色不一样等问题,语气也很冰冷。
  第二种手段虽然能够使语音更加自然,但其中也需要大量的人工处理,首先是制作语音库,确定音色、风格、特性、角色等要求后,投入音库生产线,设计录音脚本、训练录音资源、进行效果优化,在输出的时候还要进行各类语言处理,包括文本规整、词的切分,然后是韵律处理,为其划出音段特征,如音高、音长和音强等等,使合成的语音给人的感觉更加自然些。
  但这类合成系统因为进行韵律预测处理方面的工作量巨大、所以也存在表现能力不足等问题,如合成语音对不同情感的表达会不够恰当,使得合成语音听起来缺乏人情味。而语音合成的技术发展不仅要让说话的声音达到真人水准,也应当在情感表达方面有所突破,使语音交互带有情感,达到更好的交流体验。
  最近爆出的百度DVoice技术,则是通过深度学习技术实现“语音克隆”的,通过真实语音的训练,能在“听”的过程中学会每个人说话时字词、音位和句子的发音特点,并通过模仿这个人声音中的情感和语调,“说”出全新的语句;“一听一说”之间,整个过程基本不用人工干预,深度学习技术可以自行完成所有工作。
  具体来说,百度的研究人员是通过两种具体的方法来实现的:说话人适应(adaption)和说话人编码(encoding)。它们可以只用最少的音频数据来完成任务,并且在深度语音系统中,即使处于一个多扬声器模型,也不会降低质量。
  其中“说话人适应”是使用多个克隆样本,基于反向传播的优化方法对多个说话人语音生成模型做精细调节。这个方法可以只作用于低维度的说话人嵌入,或者作用于整个模型;在低纬度的嵌入时,每个说话人所需的参数量比较少,而且需要较长的克隆时间,生成语音的质量也会差一些。
  其中“说话人编码”则需要训练一个单独的模型,用它直接从语音样本中推断出一个新的嵌入数据,然后再把这个嵌入数据用在多个讲话人语音生成的模型中。而且这个方法还带有时域和频域的处理模块,可以从音频样本分析中提取到有关说话人的身份信息,然后用注意力模块把各种信息以最优的方式结合起来。这个方法的好处是克隆耗时少、标明说话人信息所需要的参数少,使得这种方法在输入资源有限的场景中也能够使用。
  语音克隆的功与过
  在人机交互的个性化场景中,研究人员预期语音克隆可能会有很重要的作用,如可以用来订制个人AI助手、读书音频以及残疾人语音系统等,且对有语言障碍人来说,这个程序能帮助他们练习发声,使他们更容易与人交流,这种过程就像是在和一个善解人意的朋友在聊天一样,可能会成为一个重要的社交工具。
  而在心理医疗领域,如果能复原出逝者的声音,这对于痛失亲人后在心理上造成了创伤的人们来说,也无疑是巨大的安慰。
  不过语音克隆也会带来一些麻烦,它可能会被用来对公众人物进行恶意攻击;也可能会使声纹识别形同虚设,因为据《新科学家》报道,使用人工智能技术做出声音识别软件,在测试中,准确率已经超过了95;也可能破坏录音作为法律证据的可信度;还可能会用来假冒他人身份,成为语音诈骗的帮凶。它预示着未来的声音可能会像照片一样,可以很容易地进行伪造。
  但克隆出的人类声音,这其中还是会有些细微差别,经不起详细推敲取证专家可能会通过分析语音中的数字签名,从而证明其为合成语音;而研究人员也开始在研究一种“声纹”系统,以期其能很容易的分辨出原声和生成的语音;不过语音克隆还是存在着很多隐患,因为在普通的生活当中,足以造成相当严重的误导性效果。
  要实现“完美”的语音克隆,最大的一道坎在哪?
  智能相对论认为,完美的语音克隆,也应该能够克隆出说话人携带的情感,而不仅仅是音色等表象的元素,就像是这个声音拥有自己的灵魂。而目前语音克隆能够进行的情感表达,更多的是研究人员修改完成的,而且还需要对各类情感进行标注。
  谷歌的Tacotron2系统也还只能进行模式化的情感表达,如根据输入文本的标点符号的不同而在语气上有所区分;在读大写单词时加重语气等。
  百度和谷歌的语音合成技术暂时不能达到自行合成情感,这也是语音克隆其技术本身所限,要实现合成出的每一句话有其恰当的情感,这里面有情感识别、情感自动标注、、语气调整等大量的数据和工程难度,费用和技术也暂时难以逾越。
  而更进一步,想要和机器进行有情感语音的交互就更加困难了,因为这并不是单一技术所能完成的,它除了能输出情感之外,还必须要求自然语言处理技术能够识别出人类表达中的各种情感,以此作为回应的前提,而这已经超出了语音克隆的技术范围。
  在语音交互中,让机器能够自然、顺畅的说话是人机交互的一大要求,表现力、音质、复杂度和自然度一直是语音合成所追求的。
  而随着AI技术的发展,语音交互的音质、流畅度、自然度都得到了很大的提高,但在表现力方面依旧是其最大的痛点,不过随着各大厂商的持续发力,未来使机器也能像朗读者一样,抑扬顿挫、情感起伏、拿捏到位也不是梦想。
投诉 评论

为什么用互联网思维,却做不好硬件互联网领域,小步快跑是常用模式;而在硬件制造领域,一味求快,把不确定性留到上市后,风险和代价都是非常高的。所以,互联网思维并不能做好AI硬件。提及互联网思维,大家头脑中可……微软AI设计原则:智能助理研究的重点在于如何处理与用户的关系编者按:AI设计的思路是什么?更完美?更能想用户之所想?本文作者CliffKuang在“Thecompanystudiedpersonalassistantshumanones……风口之上,智能投顾怎么突然失声了智能投顾在欧美国家,正如火如荼的进行,而在我国,情况却并不明朗。那又为什么,这个被看好的智能投顾却突然失声了呢?智慧金融,一直被认为是AI目前最被看好的落地领域,特别是智……猎豹之夜:用好奇心打败灰心,用初心替代胜负心在复杂的世界里,我们更希望都能够做一个简单的孩子,用好奇心去打败灰心,用初心去替代胜负心,用无比的热爱在这个时代一起进化。大家好,我是傅盛。我们为今天的发布会、今天的环境……谷歌最新机器学习术语表:MW的定义解释(下)谷歌在不久前发布了机器学习术语表,本文主要列出MW的机器学习术语和TensorFlow专用术语的定义,与大家一起探讨学习。AL部分参见谷歌最新机器学习术语表:AL的定义解……AI产品经理究竟是个什么“货色”?骚年出招吧!哥让你三行代码记得很久以前,程序员就叫程序员,需求就叫需求,美工就叫美工,测试就叫测试,只有管事管人的叫做经理。后来,慢慢衍生出了一个新的角色一个叫做产品经理……人脑思维对机器人的直接控制:脑机接口的前景与弊端脑机接口技术的发展随着霍金轮椅的三次升级获得了巨大的进步,帮助了更多的残障人士。而脑机接口技术在今天,它发展到了什么地步?它未来的前景如何?它是否带有弊端?英国著名物理学……AI助力语音克隆,人和自己“对话”的障碍在哪?语音克隆技术是什么?又能做些什么?如果有一天,你可以将你的声音通过人工智能技术“克隆”出来,而且你还能和“你”进行各种对话,你是否愿意尝试?这个场景并不遥远,不久前……AI下一步发展的关键应用场景落地垂直细分,在某种程度上代表着差异化,差异化则意味着拥有竞争力。在刚刚过去的2017年,互联网领域可谓风起云涌。人工智能、共享经济、新零售都在这一年集中爆发,科技巨头、初创……视觉数据和AI的“致命应用”考特尼威尔逊跟随是CloudFactory营销总监。最近发表了篇关于人工智能的文章,翻译过来供大家学习交流,外语水平有限,如有语病,请海涵!虽然许多人正在寻找“杀手级”的……智能音箱新势力(下):国内焦灼战局的三步策略在本系列的前两篇文章中,我们分析了国际智能音箱格局和EchoShow的发展历程。Echoshow以百万的销量,证实了屏幕化的趋势,汹涌不可挡。这一篇,重点讨论国内音箱格局的对策……AI可以让“记者助理”复活吗?我想对于大部分劳碌的记者来说,对AI能够实质性环节工作压力的美好期待,会远远大于被AI抢饭碗的恐惧。不知道有没有喜欢看《演播时刻》的朋友。这部据说融入了BBC真实历史的英……
回归直播,郭聪明选择了快手2月7日,2018年的现象级网红郭聪明带着1074万人(直播预约人数)的期待,开启了快手直播回归首秀。这场回归首秀的直播,从舞台设计、灯光效果,还有现场乐队配置,以及嘉宾……贩卖ChatGPT的淘金人互联网语境里,ChatGPT泛起的涟漪,已然变成了汹涌的巨浪。海外,谷歌、苹果等科技巨头正紧急思索着防御对策,国内,百度等玩家试图抓住窗口期,重塑搜索大业,云从科技等逐梦……长视频,会员为何总是自感受伤在长视频的爆款逻辑没有根本改变之前,如果只是在视频会员获取内容的渠道上设置收费门槛,靠某些爆款内容收“过路费”,更像是饮鸩止渴。长视频,最近重头剧很多,但是争议也很多。……聊聊这两年游戏行业最大的认知陷阱最近和一些老板和制作人交流,葡萄君发现不少曾经被认为是真理的观念,正在重新受到挑战:在文化创意行业,好内容是一切的核心。精品内容的成本……北漂逃回老家县城的同学,比我更敢花钱县城消费大翻身今年春节期间,被家乡县城的发展震惊这一话题在社交媒体引发热议,县城商业面貌的日新月异,让我这个两年没回过老家的人感慨颇深。我的老家是一个平平无奇的安徽……体验了微软的ChatGPT后,我觉得谷歌、百度麻烦了早晚会发生的。ChatGPT又一次迎来了不同意义上的爆红。在淘宝上,开始出现大量店铺售卖ChatGPT相关商品;在微信上,也涌现了一大堆真假难辨的ChatGPT中转机器人……花200元烤红薯橘子,围炉煮茶的“氛围感”仅朋友圈可见围炉煮茶,成了这届年轻人的新欢。窗外冷风呼啸,小雨淅沥,屋内却是另一幅光景。生一炉炭火,摆上一壶热茶,四周散落着橘子、红薯、棉花糖,茶香果香正随着热气上扬。再约上三五好友……抖音电商:过去一年优质内容创作者数量增长484站长之家(ChinaZ。com)2月9日消息:抖音电商“寻找同行者”举办优质内容分享专场,数据显示,截至去年10月,抖音电商优质内容创作者数量较年初增长484;平台挖掘优质短视……《狂飙》在短视频“狂飙”2023开年,《狂飙》就上演了一出“高开飙走”大戏。这部以扫黑除恶为主题的主旋律电视剧,在春节档激烈的“大逃杀”中拿下了赢家奖杯。在豆瓣,《狂飙》的评分一度升至9。1分,……直播卖药获批,抖音直播已经上架抖音开始直播卖药“药品”这个曾经的直播禁区,如今却有着放开的苗头。近日,不少网友刷抖音时发现,部分药房、医药电商平台在抖音开始了直播。不同于以往只敢上架养生、保健类……抖音试水外卖,2023电商的战场攻入“本地”?抖音的触手终于伸到了超市。自从布局本地生活业务以来,从到店业务再到试水外卖,抖音迈着大步,深入美团腹地。日前,抖音将在北京、上海、成都试点外卖业务的消息登上微博热搜榜,这……高颜值cos博主涨粉300万,3个视频获千万点赞,秘籍是?抖2023年第一个月,什么类型的内容更“吃香”?通过飞瓜数据,新播场盘点了抖音1月份的涨粉数据及视频表现情况,推出“抖音1月黑马榜”。涨粉数据方面,抖音1月共有38位……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界