一起了解下人工智能声音克隆技术和应用前景
声音克隆是一种深度学习算法 , 可以对目标声音的未排序数据进行训练,最终以简单快速、容易的方式,生成一段完整的音频。人们将克隆的音频从设备中导出时,音色和音质几乎不会受到压缩和影响。 主流的声音克隆算法只需要几十秒清晰录音,就可以克隆出你的声音。
人工智能
声音克隆过程 :首先提取待克隆的声音特征数据和待合成的文字向量数据,进行语音合成,同时通过神经网络算法进行训练,进而输出需要的声音。
算法流程
这种声音克隆技术使用起来并不复杂,人们只需要对着麦克风仔细录制几分钟,就完成了克隆的第一步,录制的过程中不好时只要多录制些即可。
任何人都可以自主且简单地克隆自己的声音,而克隆出来的声音近乎逼真。 在语音合成领域,人工智能克隆技术的应用,昔日繁琐且枯燥的配音工作有望被取代。
录制后,将生成的音频文件导出并做一定的处理,克隆的声音就完成了。人工智能克隆技术就可以在较短的时间内生成专属你自己的"逼真声音"。
Veritone 公司执行副总裁肖恩·金表示:"将一个人的声音克隆得形象逼真,以及如何对其应用场景进行扩展只是时间的问题,我们对很多不同行业带来的新机会,感到非常兴奋。"
声音克隆技术可能是未来几年最为明显的商业化应用 。随着克隆技术的成熟,且技术难度相对较低,将会有许多初创公司提供相关技术服务。经纪公司可以通过克隆和出租公司旗下艺人的声音,以最小的努力轻松获得不菲的收入。
参考资料
https://zhuanlan.zhihu.com/p/99895222?from_voters_page=true
https://www.theverge.com/22672123/ai-voice-clone-synthesis-deepfake-applications-vergecast