趣科技AI居然可以写Rap,还有什么比这更酷嘛?
人们曾一度认为艺术是免受 AI 侵袭的最后一块净土,却没成想它很快就在说唱界"大显身手"。
还记得在《中国好声音》中清华博士宿涵改编了周杰伦的《止战之殇》和埃米纳姆的作品《Rap God》收获导师四转,重点是他用 AI 写词这事上一度上了热搜。当他给机器喂了"深渊、噩梦、绝望、战争"这些意象词后,AI 就重组了一首新词。
接下面的这段Rap,你能看出这是 AI 写的吗?
仔细品味,这段词中虽然也有美中不足之处,但这作词水平可以说是不错的。
同样的第一句,可以迅速生成完全不同的段落:
只需要给定一句输入,AI 就能生成整首歌词。从押韵、流畅度、节奏方面,基本不逊于人类 Rapper。
这究竟是如何实现的呢,我们一起来你究竟吧!
这项研究来自港科大、清华、复旦等机构,在这篇论文中,研究者提出了一个基于 Transformer 的 Rap 生成系统「DeepRapper」,该系统可以同时模拟 Rap 的韵律和节奏。
由于没有现成可用的节奏对齐的 Rap 数据集,为了构建这个系统,研究者设计了一个数据挖掘 pipeline,并收集了一个大规模的 Rap 数据集进行韵律建模。
一开始,研究者先从网上抓取了许多包含歌词和音频的说唱歌曲,并对每一首抓取的说唱歌曲进行一系列数据预处理步骤。为了更好地建模,研究者以自回归的方式从右到左生成每一句 Rap,这样就可以很容易地识别出一个句子的最后几个单词 (即反向句子的第一个单词) 来押韵。
此外,为了进一步提高 Rap 的押韵质量,研究者在语言模型中加入了一些押韵表征,并在推理过程中通过押韵约束来提高生成的 Rap 中的 N-gram 韵律。
研究者使用一个特殊的标记 [ BEAT ] 来表示有节奏的节拍,并将其插入到相应的词之前的歌词中。通过这种方式,可以在训练和生成方面按照歌词的顺序来模拟节拍。
受到预训练语言模型的成功启发,研究者将预训练纳入系统。为了获得大规模的预训练数据,研究者还使用了数据挖掘 pipeline 收集了另外两个数据集:
1)节拍对齐的非说唱歌曲,它可以比说唱数据集更大,因为非说唱歌曲比说唱歌曲更通用; 2)纯歌词,同样比非说唱歌曲数据集更大。
在预训练阶段,研究者基于上述两个数据集对 DeepRapper 模型进行了预训练,然后调整模型在说唱歌曲与调整节拍上的性能,微调模型即用于最终的说唱产生。客观评估和主观评估的实验结果都证实了 DeepRapper 在生成押韵和节奏的说唱歌词方面的优势。
Rap数据集
以前用于 rap 生成的作品(Potash 等人,2015 年;Liang 等人,2018 年;Nikolov 等人,2020 年)通常使用只有歌词的说唱数据集,而不考虑节奏节拍信息。为了在 rap 生成中建模节奏,说唱数据集应该包含具有对齐节奏节拍的歌词。然而,节拍对齐很难实现,因为它们的注释需要专业音乐家来识别说唱歌曲中的重读音节。
因此,为了解决这个问题,研究者设计了一个数据挖掘 pipeline 来自动提取 beatlyric 对齐。
数据挖掘pipeline
下图 1 展示了数据挖掘 pipeline 的整体框架,包含 5 个步骤:数据抓取、人声(vocal)与伴奏分离、人声与歌词对齐、节拍检测以及歌词与节拍对齐。
挖掘数据集
基于上图数据挖掘 pipeline,研究者得到了一个具有对齐节拍的说唱歌词(rap lyric)数据集,并命名为 D-RAP。该数据集满足了构建具有韵律和节奏的 rap 生成系统的要求。他们以 4:1 的比例将 D-RAP 数据集划分为训练和验证集。
与一般歌曲相比,说唱风格的歌曲数量往往较少,因此研究者挖掘了另外两个数据集,以使用相同的挖掘 pipeline 对 DeepRapper 模型进行预训练,它们分别是具有对齐节拍的非说唱歌曲数据集 D-SONG 和没有对齐节拍的纯歌词数据集 D-LYRIC。
研究者在下表 1 中对这三个数据集包含的歌曲数量和歌词句子数量进行了统计。
下图 2 展示了 D-RAP 数据集中具有对齐节拍的说唱歌曲示例。
Rap生成模型
如下图 3 所示,研究者展示了 rap 生成模型的整体架构以及韵律和节奏建模的细节。
具体地,研究者使用 Transformer 构建了一个用于 rap 生成的自回归语言模型,并引入了以下一些新的对齐:
1)为了更好地建模韵律,该模型从左到右生成歌词句子,这是因为押韵字通常位于句子结尾;
2)如前所述,节奏对于 rap 效果至关重要,因而插入了一个特殊的 token [BEAT]来进行显式节拍建模;
3)与仅有词嵌入和位置嵌入的原始 Transformer 不同,研究者添加了多个额外嵌入以更好地建模韵律和节奏。
实验评估
下表 2 展示了 DeepRapper 的客观与主观评估结果,并与两个 baseline 进行了比较。Baseline 模型是一个标准的自回归语言模型,与 DeepRapper 的模型配置相同,但没有本文提出的韵律模型(+PT 的意思是采用了预训练)。客观评估结果的维度包括 perplexity、韵律准确性和韵密度;主观评估维度包括主题、流畅度、押韵质量和押韵多样性。
为了突出 DeepRapper 在建模 N-gram 韵律中的优势,研究者使用 Combo-N 来度量 DeepRapper 中每个设计建模 N-gram 韵律的能力。结果如下表 4 所示:
为了更好地度量节拍质量,研究者分别使用 DeepRapper 和具有节拍频率控制的 DeepRapper 随机生成了大约 5000 个样本。他们提出了一阶分布(First Order Distribution, FOD)和二阶分布(Second Order Distribution, SOD),并度量了生成样本与 DRAP 数据集之间分布的距离。
研究者将当前 [BEAT] 的间隔定义为当前 [BEAT] 与下个 [BEAT] 之间的歌词数量。因此,FOD 被定义为当前 [BEAT]间隔的分布,SOD 被定义为当前 [BEAT]与下个 [BEAT]之间间隔差的分布。间隔的数值区间为[0, 1],具体结果如下表 5 所示:
下图 6 中,研究者展示了生成的 rap 歌曲示例,可以看出 DeepRapper 的生成效果还不错。
这一期的趣科技就介绍到这,「哈工创投」将持续为你带来更精彩、更有趣的科技小知识,一起探索科技的另一面吧!
不受制裁影响俄飞船今天将把美国宇航员载回地球海外网3月30日电据塔斯社报道,俄罗斯国家航天公司表示,载有2名俄罗斯宇航员和美国宇航员马克范德黑的联盟MS19飞船返回舱,计划于莫斯科时间30日下午在哈萨克斯坦着陆。按计划,联盟
已飞233。1亿公里的飞船,最后传回一张照片,让人类重新审视自己曾几何时,人类自认为地球为整个宇宙的中心,日月星辰无不绕着地球转动。但随着天文学的发展,人类逐渐认识到地球不过是宇宙中的一颗行星,地球与另外七大行星绕着太阳转动。太阳在地球上看来不
进化史上具有里程碑意义的一跃!科学家发现6。02亿年前生物长大中国小康网3月30日讯人们现在所见的大多数生物,由数以亿计的细胞组成,有着复杂的身体结构。然而,地球上的生物刚出现时,只有几微米长,肉眼无法看到。长大这一变化是何时发生的?近日,中
65!薄膜硅光伏电池光吸收率创新纪录科技日报北京3月29日电(记者刘霞)荷兰和英国科学家借助一种纳米纹理结构,使薄膜硅光伏电池变得不透明并因此增强了其吸收太阳光的效率。实验结果表明,采用新方法设计出来的薄膜电池能吸收
研究称冥王星上存在巨大冰火山或暗示生命可能性据美国有线电视新闻网(CNN)报道,近日,自然通讯杂志发表的一项研究,揭示了科学家对于冥王星的最新发现,美国国家航空航天局新视野号任务拍摄的照片分析显示,这颗矮行星上存在巨大冰火山
你知道地球的年龄和体重吗?地球的地质年龄,现在一般都是根据放射性元素的衰变规律来估算的。到目前为止,科学家们已经用放射性同位素方法测得了地球上许多古老岩石的年龄,各大洲都找到了30亿年以上的古老岩石。格陵兰
关于两国火箭的问题美国一枚火箭,最多搭载143颗卫星印度一枚火箭,最多搭载104颗卫星俄国一枚火箭,最多搭载37颗卫星中国一枚火箭,最多搭载20颗卫星看到这些是不是有疑惑怎么?我们现在的航天技术连印
俄罗斯联盟号MS19载人飞船返回地球3月30日,俄罗斯Roscosmos宇航员AntonShkaplerov和PyotrDubrov以及NASA宇航员MarkVandeHei搭乘联盟号MS19载人飞船返回地球。联盟号
现场不受制裁影响,俄美宇航员乘坐俄联盟飞船返回地球3月30日,载有美俄宇航员的飞船返回舱降落在哈萨克斯坦杰兹卡兹甘附近。新华社美联2022年3月31日发美国宇航员马克范德海与俄罗斯宇航员彼得杜布罗夫和安东什卡普列罗夫30日乘坐俄罗
研究称冥王星上存在巨大冰火山或暗示生命可能性中新网3月30日电据美国有线电视新闻网(CNN)报道,近日,自然通讯杂志发表的一项研究,揭示了科学家对于冥王星的最新发现,美国国家航空航天局新视野号任务拍摄的照片分析显示,这颗矮行
为什么紧挨太阳的水星表面温度非常寒冷?科技文明发展到今天,人类对地外行星的探索从未停止过,我们都知道太阳系有八大行星,每一颗行星都有自己的不同特点,今天让我们了解一下太阳系八大行星之一的水星,希望大家可以喜欢!水星水星