范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

抖音神曲那么多,字节跳动是如何玩转亿级曲库的?

  机器之心发布
  机器之心编辑部
  在今年的音乐科技顶会 ISMIR 2021(International Society for Music Information Retrieval)上,字节跳动海外技术团队有 7 篇论文入选,涵盖了音乐分类、音乐标签、音源分离、音乐结构分析等多个技术方向。
  如今抖音已经成为音乐宣发的一个重要渠道。一支支音乐先在抖音上以短视频 BGM 火起来,再扩散到各大音乐平台上。抖音神曲甚至成了很多音乐平台的一个重要分类。
  有人说神曲能火是因为歌词和旋律简单,听得多了就印在脑子里。但是对一个有着海量用户、复杂多样内容场景的短视频平台来说,如何让音乐更好地和短视频创作及互动融合在一起,绝不是一件简单的事。
  包括抖音在内,字节跳动旗下的众多短视频 / 音乐类应用已有存量亿级的曲库,音乐片段更高达数十亿量级。让海量音乐和海量用户更懂对方的,是一整套语音、音频和音乐的智能创作能力,即 SAMI (Speech, Audio and Music Intelligence)。
  就在今年的音乐科技顶会ISMIR 2021(International Society for Music Information Retrieval)上,字节跳动海外技术团队有 7 篇论文入选,涵盖了音乐分类、音乐标签、音源分离、音乐结构分析等多个技术方向。该团队成员分布在美国、英国等国家和地区,支持了字节系产品音乐的搜索、推荐、内容创作等场景,这些技术恰恰揭示了一首首神曲是如何炼成的。
  音乐与视觉联动技术,让创作更简单
  千万播放量的变装视频,原来人人都可以拍。音乐与视觉效果的联动,不断激发创作者发挥自己的无限想象。甚至只需上传照片,不需要任何的裁剪编辑,就可以变成属于自己的"视觉大片"。这个操作起来很简单的功能,逐渐成为了抖音素人用户的创作神器,极大程度上降低了视频拍摄门槛,让用户的创意充分展现出来。
  这些视频创作效果,是基于抖音音频算法技术对音频内容的深度分析,结合视觉等算法技术形成的。SpectTNT 就是一种新型的、专为音乐频谱提取设计的深度学习模型。这项技术可被用于视频编辑中的声乐旋律提取和音乐结构分析,达到更好的音频和画面匹配效果。随着技术的不断提升,该技术还将用在音乐标记、和弦识别和节拍跟踪中,不断衍生出多种多样的视频玩法。 ISMIR 2021 论文:SpecTNT: a Time-Frequency Transformer for Music Audio
  SpectTNT 模型的原理是将音频信号经过短时傅立叶变换,得到频谱图。然后,频谱图经过时间和频域的转换模型提取高层次特征。模型本身包含残差结构,使得底层信息能够充分流入到高层中。
  以算法理解音乐,让曲库不再"庞大"
  当我们面对着海量音乐库,哪首歌曲才能唤醒此刻的心情?算法技术,可以对音乐这一抽象的 "听觉艺术" 进行客观的分析及展示,大大提升用户发现音乐的效率。
  用户想给视频找个合适的配乐,往往通过标签分类进行查询,例如曲风就是最常见的分类。目前字节提出了一种半监督式的 Transformer音乐模型来实现音乐的标签化,实现海量音乐数据的曲风、相似性的归类。音乐标签化已广泛服务于Resso、抖音、剪映等产品的音乐推荐系统中。
  抖音音乐的标签搜索 ISMIR 2021 论文:< Semi-supervised Music Tagging Transformer >
  论文提出的半监督式 Transformer 音乐模型,能够突破传统卷积神经网络的一些表现,进一步提出了基于噪声学习和半监督学习的方法,充分利用有标记数据和无标注数据,大幅减少人工数据标注的工作量。该模型已经超越了现在大规模使用的深度残差网络表现。
  语种识别技术提升多地区、多语种用户体验
  除了曲风、相似度等标签之外,在全球化环境下的音乐类应用,语种类型的识别也非常重要。字节的音乐语种识别系统,可快速分别一首歌中的中文、英语、印地语等几十种类别组成及占比。这项技术正在为 Resso 的曲库提供语言识别服务。准确地向用户推送合适语种的音乐,已经被证实能有效提高多地区、多样化语种用户的留存率。 ISMIR 2021 论文:
  字节提出的音乐语种识别,支持多模态作为系统的输入。基于音频的对数梅尔谱图,经过 50 层的深度残差网络提取嵌入特征,并且支持使用音乐的一些结构化文本数据,例如专辑名等作为输入。经过一个语言识别模型输出嵌入特征。最后通过结合音频和元数据的多模态特征,经过全连接层输出预测的语言结果。
  自动和弦识别,帮 AI 成为创作能手
  除了最常见的 "标签化" 理解模式,字节的音乐理解算法,还注重对于音乐本身的内容结构分析,也是其音频算法的一大"法宝"。这一技术,让产品更懂音乐也更会用音乐。
  对海量音乐 MIDI 的和弦的分析,不断发现好音乐背后的编曲奥秘,进而输出快速、大规模、高质量的和弦片段。这一技术也为 AI 自动作曲系统提供了前置条件,帮助 AI 音乐创作出更符合大多数人喜爱的音乐片段。AI 创作的音乐已经在 TikTok、抖音等产品中被广泛运用。 ISMIR 2021 论文:< A deep learning method for enforcing coherence in Automatic Chord Recognition>
  该技术提出了一种能够识别音乐和弦的方法,可识别非常丰富的和弦种类,是一种基于神经网络的自回归蒸馏估计方法 NADE。经过详实的数据实测,该方案在一些经典的数据集上的和弦识别效果优于很多同类研究。
  音乐表征基本功:以对比学习降低数据成本
  除音乐和弦理解外,其他音乐结构分析的能力也必不可少。字节对音乐结构的理解更大程度上提高了音乐在 UGC 及 PUGC 视频场景中的使用效率,也促使着抖音成为"神曲创造机"。
  先理解音乐是如何 "表达" 的,才能对音乐进行更好地 "结构化" 分析,可以大幅降低音乐内容理解的门槛。字节提出的一种新型的音乐表征模型 CLMR,只需极少的数据标注,而且通用性很强。该模型已被应用到庞大的音乐数据集中,作为音乐标签、节奏提取等的重要前置,极大地降低了成本。 ISMIR 2021 论文:< Contrastive Learning of Musical Representations >
  CLMR 只需极少的数据标注,避免了监督学习中需要大量标签的情况,大幅降低了数据成本。通过对音频数据做出多种增强处理,并使用对比学习的方法,训练出音乐的通用表征。在多个音频分类的迁移学习任务上,CLMR 表征均取得了非常好的效果。
  音乐结构分析新办法,帮你发挥创作潜力
  人可以轻易地分辨出音乐中的高潮片段,并且可以自我发挥把一首 3 分钟的歌自然地哼到五六分钟,那么机器可以做到这么自然地过渡吗?
  西瓜的音频编辑场景中,已经用到了这项技术,通过使用音乐结构分析算法,批量识别音乐中的高光、循环片段,能使得智能延长的效果更加自然,帮助用户随意延长或缩短音乐的长度,方便创作者发挥。
  西瓜音乐智能延长 ISMIR 2021 论文:
  字节的音乐高光检测等技术利用一种较为前沿的音乐结构分析方法,音频经过深度神经网络提出特征,提取的特征会送到一个数据挖掘模块中继续分析。本文提出的方法已用在 HarmonixSet, SALAMI, RWC 等多个数据集上。
  除上述音乐理解技术外,技术团队还提供着音乐物料制作的能力支持,提升音乐在多样业务场景中的灵活性。
  例如音源分离技术,能够把一首乐曲分离成人声及伴奏。在音视频编辑场景中,支持创作者给人声换个更优质的背景乐,或是提取背景音乐,换成更优质的人声。音源分离是音乐信号处理里的关键技术,该新模型效果超越大多数声音分离系统,并已在 TikTok 等场景中使用。 ISMIR 2021 论文:< Decoupling Magnitude and Phase Estimation with Deep ResUNet for Music Source Separation>
  这项技术的创新之处在于,作者们提出了一种同时估计幅度谱和相位谱的方法,提升了理想掩模方法的上限,进一步提出了一个 143 层的深度残差网络。实验表明,该系统在人声分离中取得了 8.98 dB 的值。

300年熬成的郭城摔面,已经来到了大济南8月的济南迎来了郭城摔面。这摔面经过三百多年的熬制,不仅被列为烟台非物质文化遗产,还上过央视舌尖上的中国。可谓墙里开花里外香。郭城摔面始于清朝早期的康熙雍正年间,因出自海阳郭城村而于新生瑞年瑞年于新生(第十三届全国美术作品展)瑞年局部之一瑞年局部之二瑞年局部之三瑞年局部之四瑞年局部之五瑞年局部之六瑞年局部之七瑞年局部之八瑞年局部之九瑞年局部之十瑞年局部之十一瑞年局部之鸣条之战,太阳神陨落,看来民心才是真正的太阳神夏桀,又名癸履癸,商汤把他谥号桀(凶猛的意思)。桀是夏朝第16代君主发之子,在位52年(前1818前1766)。履癸文武双全,文可以写诗,赤手可以把铁钩拉直,徒手可以打死老虎,跑步光伏太阳花光伏座椅光伏温室大棚,你没见过的光伏智能光是大自然对人类最好的馈赠它取之不尽,用之不竭善用光能,探索世界克洛诺斯带你了解几种神奇的光之产物光伏座椅出去玩手机没电了,又不想借充电宝怎么办?如果遇到国家电投的这款光伏座椅,你克洛诺斯2021国际太阳能光伏与智慧能源展览会即将开幕2021年6月3日5日,第十五届(2021)国际太阳能光伏与智慧能源(上海)展览会暨论坛将在上海新国际博览中心开幕,深圳市克洛诺斯科技携带旗下多款高性能运动控制产品及直线传动领域解装上这块透明太阳能电池,你家窗户也能发电一块玻璃,既是玻璃,也是电池,透明的,可以让光通过,还可以发电,让大楼用电自给自足,什么样的材料这么神奇?外国有科研团队曾研发了一款钙钛矿太阳能电池窗户,它是个自主发电机,每平方米桐梓一瞥内地高原小城,居然有个海军学校这个季节来到桐梓县城,这个被群山环抱的高原小城,第一印象就是满城桂花香气弥漫,沁人心脾,仿佛桂花已经改变空气成分,无论在哪个角落呼吸,都可以闻到。桐籽与方竹对于桐梓这个名字,有些好新中国成立后,华罗庚立刻辞职回国不回来服务祖国是过河拆桥百件文物说党史(061)国家博物馆陈列的华罗庚在回国的航班上演算数学公式的扇子新中国成立前,有相当数量的知识分子留学海外或旅居海外。新中国成立,他们看到了希望,看到了光明,唤起对祖他祖上是清朝大官,183件文物无偿捐美,祖国想回购却被他拒绝万物有所生,而独知守其根。淮南子原道滴水之恩,当涌泉相报。生长在中国,我们从小就被人教育要上谢祖国庇佑之恩,下怀父母养育之敬。但是有这么一个人,流着华夏血,胳膊肘却向外拐。他祖上是84岁老太造出国产芯片,攻破美国技术垄断,为祖国节约上万亿从古至今中华大地上都有无数的老将渴望建功立业,辛弃疾老年无法上阵写出廉颇老矣,尚能饭否的名句,既是抒发心中不快,也是他内心抱负的展现。人不应将自己局限在年龄之中,人生充满着许多未知关于地铁失联人员情况分析7月21日郑州地铁浸水事件中,死者多为女性,失联多为男性。根据现场视频资料分析,下午6点多进水到8点多救援人员开始营救。车厢内水位最高达到成年男性的脖子处,男子高度预估1米75或以
土星木星和月亮将连续两天上演三英会助兴五一假期海报制作冯娟新华社天津5月2日电(记者周润健)天文科普专家介绍,5月4日和5日这两天凌晨,下弦月将来到土星和木星的附近停留,上演三英会,助兴五一假期。届时如果天气晴好,我国感兴趣公美国急着研制核动力火箭用于登月?不对,抢先登陆火星才是关键美国一直被认为是一个航天技术大国,但是最近几年就显露了一些问题,面对其他国家的进步,让美国相当的忧心,尤其嫦娥登月让美国受不了!如今美国为了维持自己在航天领域的领先地位,也不得不寻又打破世界纪录,中国科学家把光存储时间提高至1小时中国科学家把科幻变为现实,成功实现把光速变慢,实现光存储1小时,这到底是怎么回事呢,今天我就来跟大家简单聊聊这个话题。我们都知道,光速是世界上最快的速度,达到30万公里每小时,所以氢燃料电池的工作原理事实上,氢燃料电池的历史非常早。第一块燃料电池是1845年由英国科学家威廉格罗夫制造的,制造时间是道光二十五年。他证明了在一定条件下,氢和氧的结合会产生电流,就像产生水一样。当然,外媒飞船夜降墨西哥湾,4名国际空间站宇航员安全返航参考快讯外媒飞船夜降墨西哥湾,4名国际空间站宇航员安全返航4名国际空间站宇航员返回地球据美联社消息,美国太空探索技术公司在佛罗里达当地时间5月2日凌晨成功将4名宇航员从国际空间站接说说我理解的,日晕月晕成因地球被大气层包裹,大气层看似没有,其实,大气层相当于是透明的玻璃。当整个大气层湿度偏大的时候,太阳光照到大气层侧面,整个大气层侧面这一圈都反光。这个光圈被正对太阳的大气层,如同镜子天文学家说,太空垃圾正在让夜空变得更加明亮对于地球学家来说,绕地球运行的碎片不断增加正成为一个严重的问题。根据根据上个月发表在皇家天文学会月报通讯上的初步研究,当旧的卫星,火箭和其他杂物捕获阳光时,它们可以将其反射到地球和特拉华大学开发新工艺将一次性塑料废弃物变成燃料现在,每年都会产生数百万吨塑料垃圾,给人类的生存环境造成威胁。据外媒报道,特拉华大学(UniversityofDelaware)塑料创新中心(CPI)的研究人员开发出一种新工艺,可中国发现700万年前真板齿犀化石中国发现700万年前真板齿犀化石作为独角兽的真实原型动物,体型巨大具有一个最长可达2米额角的真板齿犀虽早已灭绝,但其起源问题长期悬而未决,备受学界关注。中国科学院古脊椎动物与古人类什么是石墨陨石要了解石墨陨石,首先要了解石墨的特点,正常说的太空碳肯定是石墨,不会又煤这种碳,石墨的特性是能耐3700度高温而不变形,咱们工业用石墨做成坩埚来熔炼矿石和各种金属。石墨在温度达到1外媒4名国际空间站宇航员乘龙飞船成功返回地球中新网5月2日电据法新社报道,当地时间5月2日凌晨,搭载4名宇航员的美国SpaceX公司龙飞船太空舱,在佛罗里达州附近海岸成功溅落。当地时间5月2日凌晨,美国SpaceX公司的龙飞