专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

图片竟能直接生成逼真音效?这AI模型也太神奇了吧!

  导读:如今的AI技术发展堪称very神奇,文字、图片竟能一键直接生成逼真音效,嗯,妥妥都是因为TA,一款在语音音频领域横空出世的新模型:MakeAnAudio。
  近期AIGC如同上了热搜一般,火热程度居高不下,当然除了名头格外响亮,突破也是绝对斐然:输入自然语言就可自动生成图像、视频甚至是3D模型,你说意不意外?
  但在音频音效的领域,AIGC的福利似乎还差了一些。主要由于高自由度音频生成需要依靠大量文本音频对数据,同时长时波形建模还有诸多困难。为了解决上述疑难,浙江大学与北京大学联合火山语音,共同提出了一款创新的、文本到音频的生成系统,即MakeAnAudio。TA可以将自然语言描述作为输入,而且是任意模态(例如文本、音频、图像、视频等)均可,同时输出符合描述的音频音效,广大网友很难不为其可控性以及泛化性点赞。
  论文链接:https:arxiv。orgabs2301。12661
  项目链接:https:texttoaudio。github。io
  短短两天,Demo视频在Twitter上获得了45K的播放量。
  图1:研究团队公布的演示视频
  2023年除夕后,以MakeAnAudio、MusicLM等大量音频合成文章涌现,48小时内已经有4篇突破性的进展。
  图2:网友评论1
  广大网友们纷纷表示,AIGC音效合成将会改变电影、短视频制作的未来。
  图3:网友评论2
  图4:网友评论3
  更有群众发出这样的感叹:audioisallyouneed
  图5:网友评论4
  这样的听觉效果,难道你不爱吗?
  研究团队已公布部分音频生成结果在工作的主页上:https:texttoaudio。github。io,该模型除了可以一键生成大片音效以外,还可以做音频修复、图片生成音频以及视频配音等多种任务。
  图6:音频修复(前)
  图6:音频修复(后)
  图7:图片转音频样例输入
  图7:视频转音频样例输入
  这款网红模型的内在技术原理究竟是?
  深度解析网红模型的神奇内在,我们还要回到音频自然语言对数据稀少的客观问题上,对此浙大北大联合火山语音团队共同提出了DistillthenReprogram文本增强策略,即使用教师模型获得音频的自然语言描述,再通过随机重组获得具有动态性的训练样本。
  具体来说,在Distill环节中,使用音频转文本与音频文本检索模型,找到语言缺失(LanguageFree)音频的自然语言描述候选(Candidate),通过计算候选文本与音频的匹配相似度,在阈值下取得最佳结果作为音频的描述。该方法具有强泛化性,且真实自然语言避免了测试阶段的域外文本。在Reprogram环节中,我们从额外的事件数据集中随机采样,并与当前训练样本相结合,得到全新的概念组合与描述,以扩增模型对不同事件组合的鲁棒性。研究团队表示。
  图8:DistillthenReprogram文本增强策略框架图
  如上图所示,自监督学习已经成功将图片迁移到音频频谱,利用了频谱自编码器以解决长音频序列问题,并基于LatentDiffusion生成模型完成对自监督表征的预测,避免了直接预测长时波形。
  图9:MakeAnAudio模型系统框架图
  此外在研究中团队还探索了强大的文本条件策略,包括对比式ContrastiveLanguageAudioPretraining(CLAP)以及语言模型(LLM)T5,BERT等,验证了CLAP文本表征的有效与计算友好性。同时还首次使用CLAPScore来评估生成的音频,可以用于衡量文本和生成场景之间的一致性;使用主、客观相结合的评估方式,在benchmark数据集测试中验证了模型的有效性,展示了模型出色的零次样本学习(ZeroShot)泛化性等。
  图10:MakeAnAudio与基线模型主客观评测实验结果
  神奇模型的应用前景知多少?
  总体来看,MakeAnAudio模型实现了高质量、高可控性的音频合成,并提出了NoModalityLeftBehind,对文本条件音频模型进行微调(finetune),即能解锁对任意模态输入的音频合成(audioimagevideo)。
  图11:MakeAnAudio首次实现高可控X音频的AIGC合成,X可以是文本音频图像视频
  在视觉指导的音频合成上,MakeAnAudio以CLIP文本编码器为条件,利用其图像文本联合空间,能够直接以图像编码为条件合成音频。
  图12:MakeAnAudio视觉音频合成框架图
  可以预见的是,音频合成AIGC将会在未来电影配音、短视频创作等领域发挥重要作用,而借助MakeAnAudio等模型,或许在未来人人都有可能成为专业的音效师,都可以凭借文字、视频、图像在任意时间、任意地点,合成出栩栩如生的音频、音效。但现阶段MakeAnAudio也并不是完美无缺的,可能由于丰富的数据来源以及不可避免的样本质量问题,训练过程中难免会产生副作用,例如生成不符合文字内容的音频或有害的音频,所以哪怕MakeAnAudio在技术上被定位是辅助艺术家生成,但也可能出现创意内容被滥用的潜在风险,但可以肯定的一点,AIGC领域的进展确实令人惊喜。
  火山语音,长期以来面向字节跳动各大业务线提供全球优势的AI语音技术能力以及全栈语音产品解决方案,包括音频理解、音频合成、虚拟数字人、对话交互、音乐检索、智能硬件等。自2017年成立以来,团队专注研发行业领先的AI智能语音技术,不断探索AI与业务场景的高效结合,以实现更大的用户价值。目前其语音识别和语音合成已经覆盖了多种语言和方言,多篇技术论文入选各类AI顶级会议,为抖音、剪映、飞书、番茄小说、Pico等业务提供了领先的语音能力,并适用于短视频、直播、视频创作、办公以及穿戴设备等多样化场景,通过火山引擎开放给外部企业。

黄埔观鸟地上榜最新发布的广东省观鸟手绘地图!周末走起观鸟拍鸟有向导啦!近日,广东省观鸟手绘地图正式发布!全省首份超全面观鸟地图来啦黄埔大吉沙成功上榜!这本手册不仅记录着广东省内最佳观鸟点,也记录着鸟儿们生存的生态环境,还是一份充满趣为什么现在美人不如上世纪的好看?作者hikura编辑郭恩一2022年眼看就结束了,年度内娱角逐也差不多尘埃落定了。不得不说,今年是95后小花们杀出血路的一年。光阴荏苒,四小花旦已经换了好几波人了。纵观这些人气女星逃不掉的痛,儿童糖尿病是因为遗传导致的?经常听到一些糖尿病患者抱怨,得糖尿病后,饮食方面需要特别注意,不能想吃什么吃什么,太难受了,最主要是每年还要花很多钱去治疗,如果找不到更好的治疗方法的话,需要一直吃药甚至打胰岛素,好书推荐男孩鼹鼠狐狸与马动画故事绘本头条创作挑战赛书名男孩鼹鼠狐狸与马动画故事绘本作者查理麦克斯CharlieMackesy译者韩絜光出版天下杂志提要这是一个下雪天,一位迷路想找到家的男孩独自坐在雪地中,一只热爱蛋糕来自欧洲历史的国民玩具品牌超凡宝物,有什么超凡之处?近期,一群奇奇怪怪可可爱爱的超凡宝物在玩具市场火了,也在孩子们的世界里炸开了锅。他们成群结队悄咪咪地爬到了孩子们的桌子上床上,让平时很难安静下来的神兽们屏息凝神地拆起了盒子和袋子,喝小米粥会不会升高血糖?糖尿病人喝了会怎样?早知早放心在很多人的认知当中,小米粥是一种营养价值比较高的粥类饮品,因为小米的营养成分本身就非常丰富,适当用来煲粥和能够让身体获得比较全面的营养物质。作为一种谷物类食物,小米当中所含有的营养关于睡觉这件事睡觉这件事说起来挺简单眼睛一闭一睁一天就过去了三分之一我们人生中有三分之一的时间都在睡觉但睡眠问题还是层出不穷!也有调查显示社会中百分之70的人存在睡眠问题今天小编就带大家了解一下前列腺炎类型以及调理方案前列腺炎也是男性常见疾病之一,很多男性被他折磨的痛苦不堪,主要表现尿频,尿急,尿道有灼热,尿道刺痛,会阴部坠胀等,今天就给大家说一说3种常见前列腺炎的问题1湿热型前列腺炎这种情况病冬天皮肤干又痒?四杯茶为不同体质者润肤止痒皮肤干燥瘙痒,擦了润肤霜也没多少改善?中医师教你,对于不同体质有何不同调理方法!冬季皮肤干痒不仅是气候干燥所致为何入冬后,皮肤干燥瘙痒的人会那么多?广东省中医院皮肤科主任医师闫玉红阳康之后别大意,牢记少吃2物,多吃3样,忌2事,少复阳阳康后别大意,少吃2物,多吃3样,少做2件事,补足体力,少复阳疫情基本要到一个高峰期,第一波进入羊圈的小伙伴,现在也应该转阴了,有的人也是铆足了劲儿想放肆一下。但是千万不可大意,大阳转阴后别嘚瑟,记得3多2少,不做2事,恢复体力迎新年这2天渐渐消失的同事陆陆续续地回来了,尽管有的头还疼,有的还咳嗽,但是大家的精神头又恢复了。看着他们又开始炸鸡薯片,我的心都揪到了嗓子眼,真够折腾自己的。阳转阴还没有一个星期就嘚瑟
虎年最成功的一笔投资,就是提前还了部分房贷2021年3月着急忙慌的买了人生中的第三套房,说着急忙慌是因为从看户型到下定前后不过两个小时,当然日后有不尽的后悔和遗憾为这次着急忙慌买单。首付契税杂七杂八的费用,一共付了差不多6铜价是中国经济的标志之一,经济复苏必然意味着铜价的上升?2022年12月,高盛金属策略师NicholasSnowdon表示政策目标和绿色转型承诺的连续增加,以及迄今为止最小的供应反应,导致了更早规模更大的开放式短缺状况,这些状况基本上已巴菲特这位股神,真的是金融市场最后的圣人吗?(一)我们想让你知道的是作者陈思进具有欧美大型证券公司的工作经验,并担任央视大型纪录片华尔街的学术顾问,让本书融会了国际性的金融观点和与贴近的华人思维,更整理了阅读财经新闻的四大原则,让2022年全球车企市值榜特斯拉瘦死的骆驼比马大,比亚迪跻身前三继2020年和2021年汽车股的大幅增长后,2022年,随着全球经济衰退的隐忧电动汽车初创企业市值泡沫的破裂汽车库存的低企和不断飙升的通胀和利率,汽车股的整体表现令人沮丧。2022中国减持美债,美财长发出威胁,访问非洲,指责中国设立债务陷阱根据美国财政部发布的公告显示,中国在2022年12月份之前,已经连续3个月减持美国国债。美国财政部是在2023年1月份公布了截止到2022年12月份之前的数据。根据数据显示,中国拥对普通股民来说,在股市里要想长久的赚钱,归根到底只有两种股市赚钱的两种方法!我总结了多年,股市赚钱其实就两种方法如果你不能像徐翔前期炒股一样,成为百万里挑一的短线高手如果你不能像他后期炒股一样,成为左右个股的庄。家。那么只有两种方法供你历史首次!美国M2货币总量减少,美联储印的钱去哪了?春节长假期间美国公布了一个让人颇感意外的金融数据,有朋友甚至觉得这一定是搞错了。2022年12月美国的广义货币总量(M2)同比2021年12月下降了1。3,这意味着印钱大户美国的货太壕气!A股2022年回购20强名单出炉,这些公司耗资逾10亿,五大行业成回购集中地兔年大吉上市公司的回购行为往往代表着其看好企业的长期发展,这对提升投资者信心提振股价起到积极作用。2022年五大行业回购力度较大证券时报数据宝统计,以最新公告时间为依据,2022全110100阶梯式发展,平顶山市新华区跑出项目发展新势头河南日报客户端记者张建新通讯员毛玺玺1月26日,农历正月初五,平顶山市新华区区长张伟民到该区新的经济增长点高新技术产业园区,与园区负责同志及恒一锂能国碳纳米富士达慧奇西美等重点企业给我一个支点,我可以撬动一个万亿级市场阿基米德说给我一个支点,我可以撬动地球。阿基米德能不能撬动地球我不知道(理论上可以),但我知道,给我一个支点,我可以撬动一个万亿级市场!我的想法很简单,就是给大棚内外装上地暖(棚内社保断了几年再交,之前的年限还算吗小豆社保社保交纳业务覆盖300城市,手机自助交纳,智能参保系统零失误操作,办理进度实时跟踪,心里有谱更放心社保保障着我们生活中的方方面面,如果有条件能连续缴纳社保是再好不过的,但是
友情链接:快好知快生活快百科快传网中准网文好找聚热点快软网