日本语音合成技术最近再次有了突破:只要有时长2小时的某歌手唱歌的声音数据,通过深度学习技术,一款AI(人工智能)软件就可以合成出一段跟这个歌手几乎一模一样的歌声,我来为大家科普一下关于科技机器人之歌?下面希望有你要的答案,我们一起来看看吧!
科技机器人之歌
日本语音合成技术最近再次有了突破:只要有时长2小时的某歌手唱歌的声音数据,通过深度学习技术,一款AI(人工智能)软件就可以合成出一段跟这个歌手几乎一模一样的歌声。
较之以前出现的各位AI虚拟歌手,这次的技术在声音仿真程度上更进一步,“机器声”的感觉大幅下降,其训练速度也大为提升。利用这项新技术,我们不用请歌手去真实演唱,就可以随心所欲地欣赏到这位歌手的声音唱出的更多不同歌曲。比如让AI模仿林俊杰的声音,唱出周杰伦、五月天、孙燕姿等歌手的任何一首歌,你也完全听不出其中有电子合成的痕迹——前提只需要让AI“听”完林俊杰的三张专辑。
A
又一位日本AI歌姬的诞生
这款日本AI歌姬开发商Techno Speech是一家由日本名古屋工业大学投资的创业公司,该公司成立的目的就是开发并宣传名古屋工业大学开发的世界上最先进的音频相关技术,几位主要负责人都来自名古屋工业大学语音技术研究室。我们目前听到的这位AI歌姬所“唱”的歌曲版本有女声演唱的日文歌、英文歌,还有中文版的陈奕迅的《爱情转移》等。这些歌曲演唱的声音几乎与真人无异,仔细听才能听出几个音有少许拉长间隔等毛病,但也只是像一个有口音的人说普通话,基本上单凭你我的耳朵,根本辨别不出这究竟是机器发出的声音,还是真人演唱。
令这位AI歌姬成名的就是一款CeVIO语音合成软件,使用的技术则是一种我们并不陌生的深度神经网络技术(简称DNN,是令计算机模仿人脑的思考方式,对所提供数据库内的语音数据进行快速识别与记忆的技术,概念源于人工神经网络的研究)。德田惠一教授主导开发了这一项目。
眼下该技术开发公司还在与日本卡拉OK公司Joysound合作,打算让他们设计的AI歌姬将来不仅能学人类唱歌,还要教人类怎么唱歌。比如有一款Pepper机器人装上了这种应用程序后,就可以与人合唱,唱完歌后还会给出相应的评论,指点一二。这个功能在卡拉OK房里似乎也不是什么新鲜事。Techno Speech下一步则是要让这项技术走进养老院,为老人家们娱乐解闷。不过公司负责人表示,具体细节要明年3月才公布。
B
歌声合成器技术催红数位虚拟歌姬
之所以说这项技术本身并不新鲜,是因为数年前日本YAMAHA集团便已发行了一套歌声合成器技术以及基于此项技术的应用程序。
该技术当时由西班牙的庞培法布拉大学的一个小组负责开发,在YAMAHA集团帮助下最终实现商业化,成为一款名为“VOCALOID”的产品推出市场。该产品可以让用户只需通过输入歌词和音符的方式,就能让软件“唱歌”,配合加载伴奏数据,即可完成整首音乐的制作,在制作过程中无需任何新的歌手提供声音资料。接着,YAMAHA公司以及Crypton Future Media等以VOCALOID引擎为基础开发音源的公司便开始使用虚拟形象的方式进行营销,推出了诸如“初音未来”“洛天依”等虚拟歌手形象。
初音未来的音源数据资料采样于日本声优藤田咲。形象被设计成一个有着绿色双瞳和双马尾、身材娇小、声音娇嗲可爱的卡通小女孩模样。它最初于2007年推出的几个试听小样大获好评,令该款软件销售仅仅十天便占了日本音乐软件市场的三成江山,连附赠试用版的杂志都立刻卖光光,还被各种倒卖,炒到了三倍价格。于是初音未来在接连推出单曲、专辑后,还一直担任日本音乐团体Sound Horizon的演唱与合唱角色,并成为“世界上第一个使用全息投影技术举办演唱会的虚拟偶像”。早在2017年时,其代表曲的点击播放已过百万次。“初音未来”的成功,大大改变了电子音乐人对于音乐业的认知和整个行业的格局。它的一系列衍生产品,包括漫画形象等都成为各大厂商的“宠儿”,代言、授权产品种类无所不包,迅速走红全世界。
VOCALOID如今已推出第三代虚拟歌姬,取名IA,使用语言为日语和英语,原声声源提供者为Lia。它的特色则是高音域歌唱充满通透性,且口音清晰,在摇滚和节奏性舞曲方面尤其表现出速度上的优越性,它已使制造各式各样的声音都成为可能。
而Yamaha公司以VOCALOID3语音合成软件为基础制作的全世界第一款有中文声库的虚拟歌手洛天依,自2016年2月登上湖南卫视小年夜春晚后,如今也在中国拥有大量歌迷。
我国也有不少AI歌手,比如“微软小冰”。它自2016年时以歌手身份出道,现已发布了十几首接近人类出品质量的单曲。2017年9月底,第五代小冰还解锁了人工智能歌手深度学习模型,开始大规模演唱各种流行音乐。它只需听人类清唱一遍,就能学会其中的情感和演唱风格,五分钟内就可以来一首极相似的“翻唱”。眼下,微软小冰的微博粉丝也是数以万计。
c
DNN技术的应用前景
DNN技术针对歌声的合成,其实只是语音合成领域的一个分支。让AI唱歌当然比简单的朗读模式更为复杂,因为除了音调,还要产生旋律感。但只需要输入更大量的数据,AI自会进行“消化”训练,并如你所愿地达到目的。现在你或许能明白,某些卫星地图软件为何可以让林志玲如此不厌其烦地替我们指路了吧?
研究人员称,这项技术未来还可以运用到更多领域。比如复现歌星的歌声(包括死者的声音);音乐制作和游戏开发;由虚拟YouTubers主持的视频流/直播;虚拟演员后期录制系统;AI或语音对话系统的发声模块;生成灵活的参考语音,用于外语学习或歌唱教育;为ALS(渐冻人症)或喉癌患者制作语音设备;制作护理设施的数字标牌,等等。
,