AI 创作音乐越来越热门。

刚刚,OpenAI 发布了其 AI 音乐创作的深度神经网络—MuseNet,可以使用 10 种不同乐器、风格如乡村乐、莫扎特、披头士乐队等,生成出 4 分钟的音乐。

OpenAI 博客最新发布文章指出,MuseNet 不是依靠人类明确地对音乐进行编程,而是通过学习预测 token 来学习和声、节奏、风格的模式,他们从许多来源收集 MuseNet 的训练数据,像是 ClassicalArchives、BitMidi 网站上的文件、MAESTRO 数据集,还有爵士、流行、非洲、印度和阿拉伯风格的音乐,总共利用了数十万个 MIDI 文件。

OpenAI 也指出,MuseNet 使用与 GPT-2 相同的通用无监督技术,GPT-2 为先前 OpenAI 提出的一个大规模 Transformer 模型,训练 AI 可预测序列中的下一个 token,包括音频和文本,用在 MuseNet 上则是给定一组音符后,要求 AI 预测后面会出现的音符。另外,MuseNet 使用 Sparse Transformer 的重新计算和优化核来训练一个具有 24 个注意力头(attention head)的 72 层网络,其全部注意力都放在 4096 个 token 的语境中。

当 MuseNet 知道许多不同的风格之后,就能混合生成新的音乐,举例来说,提供机器肖邦夜曲(Chopin Nocturne)的前 6 个音符,但是,要求机器生成一段流行乐,并要有钢琴、鼓、bass 和吉他,而机器生成的音乐就完美融合了肖邦和 Bon Jovi 两种风格。

ai人工智能创作(OpenAI发布音乐生成神经网络)(1)

ai人工智能创作(OpenAI发布音乐生成神经网络)(2)

图| MuseNet 音乐生成神经网络(来源:OpenAI)

之前 OpenAI 提出的 GPT-2,使用近 40 GB 的网页文字训练而成,主要具备了生成文本、预测下一个文字的能力,例如只给机器一段文字,就会因应前后文的风格创造内容、编写故事,但因为它生成的内容有条有理,仿真技术高,反而让外界担心助长假新闻、网络假消息的泛滥,在考量该技术可能遭恶意使用后,OpenAI 决定不放出训练好的模型,只公开一小部分模型和范例。

现在用在音乐创作上,可能引起的争议相对小,倒是为 GPT-2 找到了不错的应用场景。

另外,OpenAI 刚刚还在 Twitch 上举办了 MuseNet 实验音乐会,并预计在 5 月中旬放出该音乐转换器的工具——MuseNet 共同作曲家(MuseNet-powered co-composer),让一般大众和音乐家用来创作。

MuseNet 共同作曲家有几种模式:简单模式下,用户会听到已经预先生成的随机样本,然后选择一个作曲家或风格,就可以开始生成音乐;高级模式,则可让用户有更多的选择,像是选风格、乐器等,打造全新的音乐作品。

ai人工智能创作(OpenAI发布音乐生成神经网络)(3)

图|MuseNet 在 Twitch 上举办一场音乐会(来源:Twitch)

OpenAI 研究人员 Christine Payne 指出,MuseNet 仍有局限性,因为它是通过计算所有可能的音符和乐器的概率来产生每个音符,所以偶尔会做出不和谐的选择,做出奇怪的配对,例如把肖邦风格配上 bass 和鼓。

今年 3 月,谷歌为庆祝知名音乐家巴赫的生日,在 Google Doodle 放了一个小游戏,用户在 Doodle 按下音符及节奏,就会以巴赫的风格演奏用户创作的作品。这是使用人工智能作曲的另一个案例。

不仅谷歌、OpenAI,唱片业、音乐人本身也都在探究 AI 的应用,在 MuseNet 于 Twitch 上举办音乐会之前,音乐技术专家 CJ Carr 和 Zack Zukowski 就在 YouTube 频道上播放重金属音乐,这些死亡金属串流音乐就是由他们开发的 AI 乐团 Dadabots 所生成的,而且 24 小时不间断。他们使用加拿大的死亡金属乐团 Archspire 的样本训练 SampleRNN 神经网络,进而可自动生成重金属音乐。

毫无疑问,人工智能将持续融入创意音乐领域。

ai人工智能创作(OpenAI发布音乐生成神经网络)(4)

图|重金属音乐不间断播放,背后其实是一个 AI 乐团(来源:YouTube)

,