把AI科技融入音乐,他们做到了。

文 | 世昕

编 | 石灿

在古希腊神话中,音乐天才俄尔普斯有一把精美绝伦的七弦琴,能够弹奏出世间最令人陶醉的音乐。

后来,这把七弦琴被悬挂于天穹之上,谓之“天琴”。

“我们是做音乐科技的,所以想借这个名字传递这样一个理念,希望用科技让用户更好的享受音乐的美好。”

这里的“我们”指的就是“天琴实验室”。在前不久腾讯音乐娱乐集团(TME)打造的“ROCK N Code”TechME技术周上,天琴实验室——作为集团旗下首个音视频研究实验室正式亮相。

QQ音乐技术副总裁周文江向刺猬公社(ID:ciweigongshe)介绍,天琴实验室的前身是QQ音乐和全民K歌多媒体研发中心,实验室致力于通过AI科技提升旗下多个音乐平台的视听体验。

这到底是怎样一个团队,他们又研发出了哪些“音乐黑科技”,音乐技术未来的发展方向又会如何?带着诸多疑问,刺猬公社和天琴实验室的成员们聊了聊。

让音乐更具科技感

你是否经常会有这样的体验:一段熟悉的旋律在脑海里盘旋,却想不起来歌曲的名字;别人轻声哼唱的歌曲动听悦耳,又始终找不到原版;短视频背景BGM吸引了你的注意,评论里“求出处”却找不到答案。

如何解决这些“尴尬时刻”?你可能会想到现在各大音乐平台标配的功能:“听歌识曲”。

这一功能的最基础的核心技术在于把控音乐的“指纹”,也就是一首歌曲独一无二的声纹特质,并通过算法技术对音频指纹特征进行匹配。天琴实验室就是这一技术的先驱者之一,早在2013年就在QQ音乐平台上线了相关功能,并且长期在这一领域保持着领先优势,是世界音频识别技术赛道的“领跑员”。

“在音频识别这方面,我们处于国内外领先的地位。”天琴实验室音频团队负责人Ethan的自豪溢于言表。

能保持领先,天琴自然有“秘籍”,那就是不断推进技术革新。

自2019年起,天琴实验室便开始了“下一代听歌识曲技术”的研发工作,“秘籍”一练就是一年多,最终推出了以“翻唱识别”“哼唱识别”两大成果为核心的“听歌识曲2.0”。

新版本将“听歌识曲”的使用场景扩大到了生活中的各种时刻,无论是网络翻唱、现场live、视频背景BGM还是随意哼唱,用户都能找到想要的音乐。也是在这一年的世界音频检索评测大赛(MIREX)上,天琴实验室的听歌识曲技术凭借平均3秒识别一首歌曲的成绩一举拿下“音频指纹”项目的世界冠军。

之所以会进行这样的技术革新,根本原因还是为了解决用户新一轮的“查找难”痛点。“我们当时发现现在很多翻唱作品甚至比原唱火,但是通过以往的声纹匹配通用技术,用户却是找不出翻唱版本的音乐的,因为歌曲声纹已经改变。”

Ethan开始回忆公司决定研发“听歌识曲2.0”时的经历,“当时还有三个月就是春晚,业务判断上面出现的歌曲全是现场演绎版本,不仅用户使用听歌识曲的需求量更大了,新技术能否精准识别翻唱作品也成了新的关键点。”

天琴的演奏(一把天琴)(1)

音频识别,图源网络

技术难度高、用户需求大,顶着重重压力,在2020年春节前,Ethan团队终于获得了技术突破,翻唱识别率大大提升。春晚是最好的证明机会,当天晚上,Ethan带着团队进行了功能测试。

“还记得当时是刘欢在春晚演唱电影《流浪地球》的主题曲《带着地球去流浪》,我们的‘听歌识曲’技术直接识别到了电影版的歌曲。而在这之前技术是做不到的,直到现在仍然只有QQ音乐可以做到。最终的测试结果让我们都非常满意。” 已经过去了一年多,Ethan还是对那一刻记忆犹新。

同时,对于Ethan来说,“同行的认可”也带给了他极大的鼓舞。

他提到了两个平台:酷我和微信的“摇一摇”。

虽然同属于一个集团,但此前酷我音乐与QQ音乐的技术团队各自独立,旧版本的听歌识曲技术也并没有互通。“但是现在酷我也接入了我们的听歌识曲系统,相当于被兄弟产品认可了。”Ethan说道。

“摇一摇”的故事更让他振奋。作为全国最大的社交通讯App,微信平台对于技术的要求非常严格,而“成为摇一摇听歌识曲功能的技术支持”也一直是天琴实验室的目标之一。经过几年的努力,近期摇一摇终于接入了天琴实验室的听歌识曲,对于Ethan们来说,这是对于技术实力最好的认证。

“微信内部通过评测,发现我们的技术在业内确实是领先和有明显优势的。”Ethan声音兴奋,他再次强调:“我们被认可了!”

天琴的演奏(一把天琴)(2)

QQ音乐听歌识曲和全民K歌智能修音

除此之外,天琴还在歌声歌词识别、音频合成处理、音质提升、音频理解等方向上达成了突破。最佳案例是歌词时间戳,“以前的歌词显示的时间打点可能主要是依赖人工,对于我们上亿首的曲库来说工作量非常大。”天琴实验室负责人姜博士介绍。

除头部的几千首歌曲外,QQ音乐、全民K歌等平台里大量的“长尾”歌曲也同样需要“歌词时间戳”技术支持,提高效率成为当务之急。天琴实验室与中科大联合,将AI技术引入时间戳功能,效率提升了一个维度,用姜博士的话来说,实现了从0到1的突破。

基础的音频技术做到极致,天琴实验室还不断在“新领域”展开探索。

如今虚拟偶像产业飞速发展,虚拟歌姬、AI声音合成等也成为音频领域的重要议题,天琴实验室与高校联合合作,在tts(语音合成)技术上不断探索,在情感、韵律、速度等多个维度进行优化。

目前已经推出业界首款情感AI朗读产品,在QQ音乐的长音频业务板块中已经做到提供文字即可转化为有声小说,同时还深入探索直播领域,探索虚拟主播的更多可能性。这些都已经是天琴实验室的音频方向可见的“黑科技”进程。

对于天琴实验室音频团队来说,目标不止是通过技术支持平台、满足用户,更要不断突破创新,成为国内外顶尖的音频研究机构,成为行业标准的引领者。

视频化,音乐元宇宙的开端?

回顾近年来音乐产业的发展,短视频内容总量的爆发是重要的节点。作为短视频内容的核心组成部分,背景音乐一直备受关注,一条爆火的短视频有时能将一首连歌手都籍籍无名的歌曲带上网络热歌榜单。

这些变化都表明,视频将成为音乐产业拓张发展的重要形式

“音乐视频化”正是天琴实验室的重要战略之一。“视频化是未来音乐行业的大趋势,这是行业内的一个共识,我们要抓住这个机会。”天琴实验室视频团队负责人Lucky解释。从2011年加入腾讯后,Lucky已经在视频领域里浸润了整整十年,对于行业有着深刻的认识。

天琴的演奏(一把天琴)(3)

音乐“元宇宙”,图源网络

“2014年我加入QQ音乐做视频技术方面的工作,见证了整个QQ音乐视频技术团队从一块块小的业务到整个技术矩阵的发展。到目前视频化已经成为集团的核心战略之一。”他回忆。

“看见更美好的音乐”是天琴实验室视频团队的核心理念。近年来,团队遵循着音乐视频化、视频质量、视频理解三大方面不断进行着探索。

到底怎么将音乐“视频化”?并不是音乐配上视频那么简单。

首先是在歌曲播放页做文章,点开QQ音乐的歌曲播放页,不仅有实时滚动的歌词,背景还有竖屏静音视频播放,在听歌的同时给予用户视觉感知,通过画面加深用户的印象。

而为了让传统横屏MV能够融入这种音乐视频的新形式,更好地实现价值,天琴还通过明星识别、焦点跟踪、视觉显著性检测、镜头平滑追踪算法等技术对其进行处理,将横屏MV中的精彩片段剪辑成为竖屏MV,并且更流畅、更“丝滑”,完美贴合用户使用场景。

天琴的演奏(一把天琴)(4)

QQ音乐竖屏MV

数据是最诚实的讲述者。天琴实验室在不断推进技术进步的过程中,也通过实验验证了效果,视频化后的歌曲人均听歌时长、人均播放次数均显著增长,尤其对于首次使用的用户来说,效果更是出众。目前播放页视频的日均播放量级过亿,每天有千万级人次观看。

天琴的音乐视频化还将应用于更多场景下,如平台推荐页、视频歌单等。从整个音乐产业的角度来看,音乐视频化不仅关乎于视频本身,更是推动音乐内容宣发的重要一环,“音乐视频化能更好的为歌手为音乐人服务,让更多的用户直观的感受到他们的形象,也能更好地感受到音乐的视觉气质,这都是有利于作品推广的。”

“可能整个行业都在做,但对于天琴来说,我们的优势是技术沉淀的领先。其他平台做竖屏视频可能还要更多利用人力,但我们把AI算法融入其中,从效率到质量都是业界领先的。”

在视频质量提升方面,天琴实验室则主要针对直播场景进行了优化。目前音乐类直播已经成为直播领域的一大品类,QQ音乐、全民K歌等平台更是音乐主播们的“主战场”。为了让用户有更好的观看体验,天琴实验室视频团队研发出了业内前沿的“实时”算法处理技术。

天琴的演奏(一把天琴)(5)

音乐直播,图源网络

“差异在于实时技术,目前市面上的直播优化大多数在后台,进行批量处理。而我们则可以通过前台移动端实时地进行处理,而且效果更好。”肤色美白、清晰度提升、实时去噪、实时HDR效果,直播画面得以更加清晰、流畅。同时天琴背靠腾讯系大生态,还会将技术应用于更多的产品上,让移动端的实时技术推广开来。

同时在视频理解方面,天琴在歌手识别、唱跳识别、歌词检测等方面也取得了不错的成果,充分复用公司体系的视频理解能力,将其运用于音乐视频中,推动平台效果的发展,满足多元的用户体验。

Lucky还跟刺猬公社谈到了“音乐元宇宙”这个概念。“元宇宙这个概念目前业界都在提,作为视频方向的技术团队,这也是我们未来发展的方向之一,而音乐视频化技术以及我们天琴实验室视频团队,可能会为其提供底层的技术支持。”

翻开天琴实验室的“未来目录”,我们能看到很多充满科技感的词汇,从下一代互联网再到XR概念,“音乐视频化”代表的不仅是形式上的创新与改变,也可能是音乐产业维度提升的“敲门砖”。

给科技以温度

在和天琴实验室的交流中,一个字眼被经常提起,“温度”。

“让用户感受到科技的温度,这是我们很重要的出发点。”QQ音乐技术副总裁周文江向刺猬公社表示。对于天琴实验室来说,技术并不仅仅是技术本身,更重要的是与用户、行业紧密结合,这样的技术才是“好”的技术。

QQ音乐业务线市场公关副总裁陈菲菲向我们分享了最近的一个“科技 温度”的项目:“QQ音乐在99公益日推出了国内第一张低频音乐专辑《听见“听不见”的音乐》,这是是专门为中高频听力损失的孩子们打造的公益专辑。”

她表示,“国内现在有超过45万的中高频听力损失儿童。一次偶然的机会,我们跟这群孩子和他们的家长交流发现,这些孩子们从未听过一首完整的歌曲,他们对音乐有着美好的好奇与向往。”

“为了实现他们‘听到完整歌曲’的小小心愿,我们邀请了9组爱心艺人授权自己耳熟能详的代表歌曲,然后经由天琴实验室的‘声伴分离、音乐生成、伴奏改编、歌声合成’等智能化音频技术能力对歌曲进行了多重处理,团队还多次去往实地与孩子们的家长进行访谈,用沟通与诚意让他们理解低频音乐,并通过孩子们现场收听demo低频歌曲进行验证和优化,最终在所有人的努力下推出了这张低频专辑,让孩子们听到了完整的歌曲。”

“看到孩子们听到完整音乐时那惊喜、兴奋的表情和情不自禁地说出‘很好听’、‘想再听一遍’时,我们项目组所有人的眼眶都湿润了。”

天琴的演奏(一把天琴)(6)

深圳市厚朴特需儿童发展中心高频听力缺失小朋友听低频公益专辑

“其实这个技术本来是我们一位同事此前所研发的一个功能,但因为种种原因无法很快上线,这位同事当时还很沮丧,很低落。” 音频团队负责人Ethan对这件事颇多感慨。

“后来市场团队跟我们就99公益日项目进行头脑风暴时,大家讨论发现之前的这个技术就可以帮助中高频听力损失的儿童实现听完整歌的愿望。项目最终也证明了效果非常好,我们那位同事还亲身去跟这些小朋友们进行了交流沟通。”

孩子们的笑脸,是对他们最好的鼓舞,也是对QQ音乐坚持“有温度的科技”最好的回馈。

99公益低频专辑项目并不是个例,天琴实验室还有很多类似的“温暖”技术。“我们很重要的一个战略就是‘无障碍’,作为音乐技术的研发者,让无论是视觉障碍还是听觉障碍上的用户都能获得良好的体验。”周文江解释到。

刺猬公社注意到,在与几位成员的访谈中,他们多次提到了“科技向善”这个词眼,对于天琴实验室来说,通过技术让平台实现社会责任的担当,也是他们的目标之一。

除了给予用户“温度”外,天琴实验室还致力于推动音乐行业的发展。未来AI辅助创作工具的发展也将为大量缺乏编曲能力、创作知识的草根音乐人提供了机会,通过天琴实验室的AI技术,通过音频合成、乐器模拟、AI编曲等功能实现“一个人就是一个音乐团队”的畅想。

天琴的演奏(一把天琴)(7)

一个人的就是一个“录音室”,图源网络

而背靠内容生态庞大的数据库,天琴实验室在研发上具有天然的优势,在技术研发的下游阶段,QQ音乐等平台也能真正做到“技术落地”,让科技真正发挥效力,也为天琴实验室的研发提供驱动力。

“我觉得很重要的一点就是技术驱动,我们的创新科技可以真正应用到业务中去,让同行、用户了解到我们的技术。我们最兴奋的时刻,就是功能上线以后,数据得到了产品的认可。”每次新功能上线后,Lucky都会和团队成员一起看用户的评论。

也正是技术落地这一优势,让天琴实验室赢得了大量高校的亲睐。“对于高校的人才们来说,他们的研究需要实践的机会,而我们的平台就为他们提供了很好的机会。”

“高校合作”也是天琴实验室一个重要的研发方式,从2018年起,天琴的音频团队就和多家高校联合探索声音的可能性,对于成员们来说,参加高校专家讲座、与国内顶尖实验室合作交流已经成为“日常”。

天琴的演奏(一把天琴)(8)

QQ音乐技术副总裁周文江(右)为西北工业大学人工智能领域专家谢磊颁发聘任证书

“温度”还体现在整个团队上。

目前天琴实验室的成员有三十多人,由全国各大顶尖高校的硕士、博士生组成,集合海内外顶尖人才,超过60%的成员都是90后,是一个非常年轻化的科研团队,这也代表着团队更有活力。而天琴实验室作为集团的AI研发中心,不同于其他平台一般的研发团队,更加具有创新力。

天琴的演奏(一把天琴)(9)

天琴实验室姜博士在TechME技术周现场分享

“一般的团队可能是产品提需求,然后他们去解决,简单的需求与满足关系。我们则不一样,更讲求技术先行,带动整个平台的创新发展。”

在这样的发展策略下,团队迸发出空前的创造力。目前天琴实验室的专利数也达到了384件,并在诸多海内外相关领域顶尖论坛、会议上受到高度认可。

沉浸于这样“高质量”的环境下,“分享”也成为了聚合团队凝聚力的重要日常,在不断的互助交流中推动科技的发展。

“音视频团队出了名的离职率低,留得住人。”姜博士笑称,“团队还在不断扩大,欢迎看到这个报道的人才们也来加入我们。”

未来,与进取者

几个月前,集团内部多个技术团队被整合起来,天琴实验室正式成立。

“一方面是符合公司当前以及下一阶段的对AI技术的诉求,另一方面则是把我们中台的基础打牢,集中人力进行一些技术突破。” 姜博士给这一调整做了个总结——“分久必合”。

天琴实验室的出现代表着TME技术创新战略的进一步发展,“让我们的技术团队更加独立的思考,去做更多具有前瞻性的技术,让音视频领域更具想象。”谈及天琴实验室的规划时,周文江态度中表现出了极大的重视。

他还向刺猬公社提到了未来天琴实验室的发展规划:从音频、视频两大领域入手,让技术团队更加细分,一方面能够更精准地填补技术缺口,另一方面则能进一步推动技术精细化发展,从而实现从数量到质量的全方位提升。

“除了底层的一些AI技术外,我们还在推动PDM科技的发展。”周文江口中的PDM科技,其真正的功能在于“预测”。以前刺猬公社也曾报道,在一首音乐被创作出来、零播放量且并未流入市场之前,凭借PDM科技,平台就可以通过AI算法对其进行“价值预测”,判断一首歌的潜力与市场。

天琴的演奏(一把天琴)(10)

音乐的未来“黑科技”,图源网络

这将对整个音乐行业产生革命性的影响。“目前对于音乐作品的价值估算以及推荐都是基于投放后用户的反馈,而PDM则能在一首歌还是demo(小样)阶段的时候就对其进行评估。”他显然对这个技术很自豪,“这是一种更高维的算法。”

这一技术的应用可以说是充满了想象力,除了平台自己使用,TA甚至可以对外提供给整个产业链来使用,在音乐生产分发的上游部分就可以为歌曲的创作者、音乐版权公司、平台提供参考,大大提升内容挖掘、人才培养、歌曲分发等环节的效率。

目前这一技术已经在TME内外广泛应用和推广,并且还在不断“进化升级”,可以确信的是,它将成为天琴实验室“音乐黑科技”的最佳名片。

科技赋能音乐,而科技发展的根本还是在“人才”二字。在与天琴实验室成员们的交流中,刺猬公社感受到了这个团队独有的“气质”,具体将这种形象概括,大概可以描述为“具有温度的、不断进取的开拓者”。

与大众印象中的技术宅不同,他们侃侃而谈、幽默风趣,会为技术无法上线而沮丧,也会为用户的好评而雀跃。科技、AI、算法,这些冰冷理性的字眼被他们注入温度,他们痴迷于科技的不断突破,也更注重人文关怀。或许是音乐带来的影响,他们也非常有趣,正如实验室的名字“天琴”一样。

“我们做的是一些有意思的研究。”音乐是一个浪漫的、充满无限想象力的领域,音乐科技的先驱们同样拥有“有趣的灵魂”。

音乐的创作没有上限,音乐科技同样拥有无数种可能。现如今,从消费场景到消费方式,整个音乐产业都处在一个不断发展创新的阶段,而互联网音乐平台已经成为技术革新的主力。

我们期待,像天琴实验室这样自驱型的技术开拓者能够继续创新,探索出科技与音乐结合的无限可能。

,