专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

谷歌AI练习生写了首歌,网友听完心率都低了

  杨净衡宇发自凹非寺
  量子位公众号QbitAI
  一段话整出一首歌,甚至是男女唱(跳)rap的那种。
  谷歌最新模型MusicLM一经推出就惊艳四座,不少网友惊呼:这是迄今听到最好的谱曲。
  它可以根据文本生成任何类型的音乐,不管是根据时间、地点、年代等各种因素来调节,还是给故事情节、世界名画配乐、生成人声rap口哨,通通不在话下。
  比如这幅《呐喊》(Scream)
  在一段摘自百科的说明提示下,它就能生成一段高契合度的音乐。
  (蒙克在一次幻觉经历中感受到并听到了整个自然界的尖叫声,它的灵感来源于此,描绘了一个惊慌失措的生物,既像尸体又让人联想到精子或胎儿,其轮廓与血红色天空的旋涡线条相呼应。)
  ViT(VisionTransformer)作者在听过一段关键词含平静舒缓长笛和吉他的生成音乐后,表示自己真的平静下来。
  也不免有同行表示,这对我来说比ChatGPT更值得关注,谷歌几乎解决了音乐生成的问题。
  毕竟MusicLM背靠280000小时音乐的训练数据库,事实上从现释出的Demo来看,MusicLM的能力还不止如此。还可以5分钟即兴创作
  可以看到,MusicLM最大的亮点莫过于就是根据丰富的文字描述来生成音乐,包括乐器、音乐风格、适用场景、节奏音调、是否包括人声(哼唱、口哨、合唱)等元素,以此来生成一段30秒的音乐。
  即便说的只是那种说不清道不明的氛围,迷失在太空、轻松而悠闲;又或者是直接用在一些实用场景上,比如街机游戏配乐、给绘画配乐等。
  除此之外,MusicLM具备长段音乐创作、故事模式、调节旋律等方面的能力。
  在长段音乐方面,它能完成5分钟即兴创作,即便提示只有一个词。
  比如仅在Swing(摇摆)的提示下,听着真就有种想马上下班去跳舞的冲动。(bushi)
  而在故事模式中,不同的情标记甚至可以精确到秒的生成,哪怕情境之间完全没有任何联系
  游戏中播放的歌曲(0到15秒)河边播放的冥想曲(15到20秒)火(0:300:45)烟花(0:450:60)
  更让人惊艳到的是,它还有很强的实用性功能。
  一方面,它可以将旋律的提示结合进文本提示当中去,这样一来可以更精细地来调整音乐。有点改甲方爸爸需求那味了。
  另一方面,它还能根据具体的乐器、地点、流派、年代、甚至是音乐家演奏水平等文本来生成。
  背后生成模型MusicLM
  但有一说一,AI生成音乐模型不在少数,谷歌自己此前也推出有类似的模型AudioLM。
  此番MusicLM究竟有何不同?
  据研究团队介绍,贡献主要有三个方面:生成模型MusicLM。把方法扩展到其他条件信号,如根据文本提示合成的旋律,并生成5分钟的demo。发布了首个专门为文本音乐生成任务评估数据集MusicCaps。
  首先,MusicLM正是基于谷歌三个月前提出AudioLM模型的拓展。
  AudioLM不需要转录或标记,只需收听音频,AudioLM就能生成和提示风格相符的连贯音乐,包括钢琴音或人声对话等复杂声音。
  而最新的MusicLM,就是利用了AudioLM的多阶段自回归建模作为生成条件,且以此为基础进行拓展,使其可以通过文本提示来生成和修改音乐。
  它是一个分层的序列到序列(SequencetoSequence)模型,可以通过文本描述,以24kHz的频率生成音乐,并在几分钟内保持这个频率。
  具体而言,研究团队使用了三个模型来用来预训练,包括自监督音频表征模型SoundStream,它可以以低比特率压缩一般音频,同时保持高重建质量。
  还有语义标记模型w2vBERT,促进连贯生成;音频文本嵌入模型Mulan,它可以将音乐及其对应的文本描述投射到嵌入空间(以消除在训练时对文本的不同需求),并允许纯音频语料库上进行训练,以此来应对训练数据有限的难题。
  训练过程中,他们从纯音频训练集中提取MuLan音频标记、语义标记和声学标记。
  在语义建模阶段,他们用MuLan音频标记作为条件来预测语义标记。随后在声学建模阶段,又基于MuLan音频标记和语义标记来预测声学标记。
  每个阶段都被建模为一个序列序列任务,均使用单独解码器Transformer。
  在推理过程中,他们使用从文本提示中计算出的MuLan文本标记作为调节信号,并使用SoundStream解码器将生成的音频标记转换成波形。
  在280000个小时的训练后,MusicLM最终学会了保持24kHz的频率生成音乐,哪怕用来生成音乐的文本非常绕口。
  类似迷人的爵士歌曲与令人难忘的萨克斯独奏和独奏歌手或柏林90年代低音和强烈的电子乐之类的。
  研究团队还引入了一个高质量音乐数据集MusicCaps来解决任务缺乏评估数据的问题。
  MusicCaps由专业人士共建,涵盖5500个音乐文本对。研究团队公布了这个数据集,方便大伙进一步的研究。
  这么一套操作下来,通过定量指标和人工评估,MusicLM在音频质量和文本契合度等方面都优于此前的音乐生成AI。
  不过,谷歌研究团队说了:目前没有对外发布MusicLM的计划。
  原因很简单,除了训练过程中难免出现的样本质量失真,最最关键的还有2点。
  一来,尽管MusicLM在技术上可以生成合唱和声等人声,但是仔细听来,生成音乐的歌词,有的还勉勉强强听得出是音乐,有的根本就是无人能听懂的外星方言。
  再者,研究团队发现系统生成的音乐中,约有1直接从训练集的歌曲中复制这已经足以阻止对外发布MusicLM了。
  此外,还有批评者质疑,在受版权保护的音乐素材上训练AI模型到底合不合理。
  不过团队在论文中介绍了下一步动向,主要关注歌词生成、改善提示文本准确性以及提高生成质量。
  复杂音乐结构的建模也将成为团队的重点关注方向之一。音频生成AI
  这个研究的背后团队,是谷歌研究院。
  共同一作TimoI。Denk,是谷歌瑞士的软件工程师,每天的工作就是利用ML进行音乐理解。
  在这里多说两句,MusicLM的论文中,研究团队提到,MusicLM在质量和提示依从性方面都优于以前的系统。
  以前的系统包括哪些?
  一个是Mubert,已在Github开源API,是一个texttomusic的AI,系列产品有根据既有标签生成音乐的MubertRender、听歌软件MubertPlay等。
  还有Riffusion,它建立在AI绘图的基础上,但将其应用于声音。
  换句话说,Riffusion的工作原理是首先构建一个索引的频谱图集合,上面标记代表频谱图中捕获的音乐风格的关键字。
  在频谱图主体上训练时,Riffusion就用StableDiffusion的同一个方法干预噪音,来获得与文本提示匹配的声波图像。
  还有针对音乐制作人和音乐家的AI音频生成工具DanceDiffusion,OpenAI推出的可自动生成音乐的ML框架Jukebox
  要咱说,别成天盯着ChatGPT了,AIGC下一个风口万一是音乐生成呢?
  参考链接:
  〔1〕https:googleresearch。github。ioseanetmusiclmexamples
  〔2〕https:arxiv。orgpdf2301。11325。pdf
  〔3〕https:techcrunch。com20230127googlecreatedanaithatcangeneratemusicfromtextdescriptionsbutwontreleaseit
  完
  量子位QbitAI头条号签约
  关注我们,第一时间获知前沿科技动态

彩虹色蔬果的秘密你还不知道?作者EvangelineMantzioris编译公子欣营养学家告诉我们要多吃水果和蔬菜,这不仅仅是因为五颜六色的蔬果看起来既好看又有食欲,更重要的是,每种颜色代表我们身体所需的不同每天到底吃多少盐最健康?Q养生君,您好。最近我老伴查出得了高血压,我劝他少吃点盐,但他是个重口味,怎么都不愿意。想请问您,高血压患者每天吃多少盐比较合适?像他这样的重口味该怎么控盐?血压控制得好不好,确实手脚冰凉除了虚还要警惕三种病冬季到了,有很多朋友都有手脚冰凉的问题,入冬后更是感觉雪上加霜。为什么有些人一年四季手脚冰凉?冰凉说明缺乏火力滋养,火力来自哪里?气血是原料,这个原料不够,火力自然不旺原料够了,仍鸡内金不止健脾消食,巧妙搭配,横扫尿频尿急结石息肉大家好,我是屈医生。提起鸡内金大家应该都不陌生,但很多人都直接把它丢弃了。其实它的价值堪比黄金,具有健脾消食的作用,用它来合理搭配,还能改善尿急,尿频,结石,息肉等病症,接下来我们世界杯最新战报差点成欧洲杯?梅西超C罗排第2巴西出局阿根廷险胜北京时间12月10日凌晨,2022卡塔尔世界杯8强赛开踢,今天先进行了上半区两场比赛的争夺。经过一番鏖战,两场比赛120分钟都未能决出胜负,克罗地亚加时赛11绝平巴西,荷兰22绝平上海男篮一天三练没白练,三外援表现出色,后卫线人满为患昨晚上海男篮出战联赛第二阶段的首场比赛,对阵四川男篮。球队113比90大胜对手,取得联赛3连胜。本场比赛到了第三节,其实就开始进入了垃圾时间。上海一直保持着20分左右的领先优势,王带了9名前锋,跨不过克罗地亚人筑起的三道城墙,这就是足球你知道巴西是夺冠大热门,你知道他们带了9名前锋,你还知道内马尔无人能挡!但你可能不知道,克罗地亚1991年才完成建国,他们是从战火和动乱里走出来的国家,每一个球员的血液里都流淌着一巴西淘汰后一些零散的回忆94年世界杯,看巴西比赛喜欢看独狼罗马里奥,却记住了塔法雷尔,还有悲情的巴乔。98年全部关注点都在大罗身上,巴西连克强队,尤其是面对荷兰这场成为经典,又是塔法雷尔拯救了巴西,决赛面美国记者卡塔尔神秘身亡,曾多次批评卡政府,家人称死于阴谋美国足球记者格兰特沃尔在卡塔尔报道世界杯时死亡,哥哥认为他是被杀的。当地时间周五,美国著名足球记者格兰特沃尔的哥哥宣布,格兰特沃尔在卡塔尔报道世界杯时去世,年仅49岁。据悉,在报道中国成为车联网关键技术最大专利产出国2022年12月10日,由中国通信学会联合四川省经济和信息化厅主办的第三届中国国际车联网技术大会开幕,会上发布车联网知识产权白皮书,数据显示,截至2022年五月,全球车联网领域专利天冷易发骨质疏松,老人怎样预防?想要骨骼健康,每天做好3件事近日,天气愈加寒冷,骨骼也变得较为脆弱。尤其是即将进入冬季,更会如此。根据相关报告显示,冬季中老年人的骨折发生率,要明显高于其他三个季节。为何冬季骨质疏松易发?冬季雨雪多,道路湿滑
只狼5折!PS年会员75折!港服PS4PS5平台黑五优惠正式开启今年优惠力度最大的黑五折扣终于是来啦!此次活动截止为11月28号。这次许多第一第三方游戏都迎来了新史低,不少今年新发售的游戏也有着不错的价格。另外最重要的,也是你们最想要的。今年新2022年全球无线通信网络技术发明专利排行榜(TOP100)本文仅代表作者观点,不代表IPRdaily立场入榜前100名企业主要来自11个国家组织或地区,有15家企业在该领域的发明专利申请量均超过1000件,其中Qualcomm以1023053岁王菲与谢霆锋感情生变?深夜聚餐后捂嘴哭泣,朋友在一旁搀扶11月21日,王菲的一段视频流传到网络,引发不少网友的围观。据悉,王菲在傍晚时与朋友一起聚餐,之后快速从饭店走出来,只见她穿着卡其色大衣,黑色长裤,用手捂着脸,表情痛苦,疑似在哭泣看汪小菲和他的评论区,读懂爹权社会汪小菲,人称KanyeEast,当正宗Kanye已经被疯得踢出福布斯之后,汪小菲不甘人后,今天忽然爆发了!距离他上一次发疯(汪小菲的爹权焦虑)仅仅过去了8个月!前情大S提离婚时汪小周朝时,有一种少见的职业叫追师,他竟为皇室做这项秘密工作在人类社会的发展过程中,阶级对立也开始逐渐出现,而标志性的代表就是出现各种官吏,正如礼记王制中记载官者,官也。到先秦时期,各种官职开始不断出现,其中还有一些令人疑惑的官职,比如周朝今天,A股盘中突然拉升,到底发生了什么?刚刚,市场传来3条重要消息!分别如下1消息一证监会主席今天指出,上市公司尤其是国有上市公司,要练好内功,也要进一步强化公众公司意识,主动加强投资者关系管理,让市场更好地认识企业内在河南4个最美古镇,免费又好玩,你去过几个?你知道河南有多牛吗?曾先后有20多个朝代在河南建都或迁都,包括我们的四大发明中的指南针,造纸术和火药这3个也都出自于河南。河南还藏着很多古镇,古朴典雅,尤其是这4个,免费好玩又长见经典剧情,金庸电视剧带你重温武侠经典回忆回忆一起重读金庸你心中最经典的金庸武侠剧金庸的武侠剧哪部最煽情金庸小说为何不停被翻拍一。天龙八部天龙八部是中国现代作家金庸创作的长篇武侠小说。背景这部小说以宋哲宗时代为背景,通59岁韦唯庆儿子获奖!素颜露面脸色蜡黄,韦紫明自曝因混血遭歧视饿了吗?戳右边关注我们,每天给您送上最新出炉的娱乐硬核大餐!11月22日,韦唯的大儿子韦紫明在斯巴达勇士赛中取得了好成绩,与妈妈弟弟聚餐庆祝,还发布长文表达自己的感慨,自称为身为三扑克同盟要来了吗?万代公布PB网限HG玫瑰高达高达G里面大概是机体登场数最多的一部高达动画。不过最终模型化的也只有主角,至于主角团的扑克同盟,其实也没有多受重视。这么多年来也没有新规商品推出。现在玫瑰高达HG化,很有可能剩下的魔域手游2人物刻画精美,各类职业等你来选很多游戏中都有各类职业的人物,不同职业分工不同,我们可以在游戏中选择适合自己的角色,在亚特大陆上所向披靡!玩家进入游戏后,都要选择一个职业,每个职业都会拥有特定的技能效果,成长路线
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网