对于有车一族来说,手机中导航软件必不可少。

不知道各位小伙伴们平时喜欢用哪款导航地图,反正小黑对高德地图还是情有独钟,因为内置的明星语音导航包确实不错。比如声音嗲嗲的林志玲,游戏玩家熟知的PDD,以及郭德纲、李佳琦等一众明星。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(1)

在众多语音包中,小黑比较喜欢使用林志玲语音包与小团团语音包,在开车过程中,动听的声音可以驱散倦意。“前方五百米下高速”“前方道路拥堵,预计通行时间 7分钟”,每次听到语音包发出的声音,小黑总在想,导航中的声音成千上万,应对不同城市道路环境,录制的语句怎么也得四五千句。林志玲、小团团等明星录制这些音频,恐怕也不容易。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(2)

直到小黑了解到 TTS 语音合成技术,才明白绝大多数声音都不是明星本人录制,而是依靠语音合成技术凭空“创造”出来的。

搞清楚了明星语音包的真相,小黑突然脑洞大开,普通人是否可以利用语音合成技术,打造属于自己的导航语音包呢?

高德导航“录制好声音”

说干就干,小黑拿起手机就在高德地图中研究起来。没想到,还真让小黑发现了高德地图暗藏的小功能“录制好声音”。

打开高德地图语音包选项,进入导航语音包界面,这里可以选择英雄联盟案例、朱广权、广东话等特色语音包。而在右上角,还有一个个小小的“录制好声音”按钮。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(3)

进入录制声音页面之后,会有八句提示语,如“准备上路喽,系上安全带”,“安全到达目的地,下车记得关上车窗”。

录制完成之后,打开“我的好声音”按钮,就可以将自己的声音插播在驾车导航中了。小黑录制完成之后,测试了一下,感觉效果并不好。大部分时间依然是林志玲导航语音,自己的声音根本就听不到。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(4)

在先后录制了四次声音之后,小黑总算明白。高德地图这个功能并不会使用语音合成功能定制个性化语音导航,它只是将我们的声音录制下来,放在固定场景播放。直白点说,高德地图目前根本做不到定制语音包,小黑想要使用自己语音包替代林志玲语音包,技术上根本做不到。

语音包背后的秘密

高德地图可以定制明星语音包,为何不能定制普通人语音包?

其实,关键在于语音合成技术。高德地图虽然提供各种明星语音包,但他们本身并不具备语音合成技术,他们的技术源自于科大讯飞。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(5)

科大讯飞这个名字,很多小伙伴都很熟悉。讯飞听见、讯飞语音识别,在很多场合都能看到他们的影子。作为中文语音识别领域的领头羊,讯飞在语音合成方面的技术同样数一数二。

在讯飞开放平台,提供在线语音合成功能,可以将文字转化为自然流畅的人生,并提供100 多种发音人供用户选择。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(6)

小黑试用了一下讯飞语音合成功能,确实可以看出技术非凡。男声洪亮、女声婉转动听,还有合肥男声、山东女声等个性化声音可供选择。

不过,这并不是小黑想要的,小黑想让科大讯飞利用小黑的声音,定制出一套独一无二的声音库。就像林志玲语音包、小团团语音包一样,全世界绝无仅有。

欢迎来到声音复刻站

科大讯飞真的提供这类服务吗?还真有。在科大讯飞产品库中,有一个名为“讯飞留声”的产品,可以快速、便捷、完美复制我们的声音。简单来说,讯飞音库定制解决方案是为企业量身定做的产品,而讯飞留声则是它的精简版,专门为普通用户打造。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(7)

根据科大讯飞的介绍,讯飞留声可以复刻我们的声音,为远在家乡的孩子讲故事;为留守老家的服务读书读报;还可以使用妻儿的声音作为车载导航系统语音包,为我们保驾护航。

具体到应用中,讯飞留声只需要自己录入10句话,5分钟左右就可以制造完整音库。

如此神奇的技术,讯飞是如何实现的呢?其实,语音合成有三大要素,分别为信息、音色与韵律。语音信息指的是我们说话的内容,比如与人闲聊、语音朗读、主持人播报新闻,所有讲述的内容都属于语音信息。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(8)

音色是指不同声音表现在波形方面总是有与众不同的特性,不同的物体振动都有不同的特点。生活中,每个人的声音音色都是独一无二的。平时人们常说的未见其人先闻其声,指的就是通过声音音色判断说话人是谁。

至于韵律,指的是每个人声音高低快慢特点。比如主持人播报新闻字正腔圆,嗓音中正平和,再比如评书表演艺术家往往“漂、俏、快、脆”,善于运用气息,说话抑扬顿挫富有韵律感。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(9)

针对信息、音色与韵律三个方面,数百年来科学家们做了无数努力。1779年,德国科学家开发了可以发出五个长元音[aː]、 [eː]、 [iː]、 [oː]、 [uː]声道模型,十二年后加入舌头与嘴唇模型,可以发出元音和辅音。

可惜,由于当年技术不发达模型建立之后并不能模拟人声。直到上世纪三十年代,著名的贝尔实验室发明了电子语音合成器The Voder。

在随后几十年里,人们围绕语音合成这一课题先后提出多种语音合成系统,在2014年以前,语音合成技术已经可以有效模仿人声,我们小时候听到的机器人声音,大多数都是由这些早期语音合成技术提供。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(10)

过去的声音最大的缺点就是苍白僵硬,轻易可以听出来人声与机器声音的区别。人声通常饱含情感,语气语速与韵律都各不相同。因此,现代化语音合成技术都用上神经网络技术,利用参数合成、情感TTS技术,增加情感线索,让语音合成出来的声音更加接近人声。

科大讯飞参数合成技术,需要走录音,标注,建模,优化这几个步骤。首先准备好几处语库,语库通常覆盖语言中的元音、辅音、音调,然后针对场景录制语料,接着针对语音语调标注,最后使用 TTS 模型训练,不断优化模型,合成独特的声音。

讯飞留声语音合成的过程,其实就是一个深度学习的过程,通过不断学习,语音合成速度也在加快。早期讯飞留声语音合成需要一两个小时,后来只需要5分钟。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(11)

只要5分钟,就可以复制自己的声音,讯飞留声这项黑科技听起来有些炫酷。那么它的效果如何呢?小黑发现,在论坛上有不少网友体验过该功能,表示跟本人的声音有七八成相似度。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(12)

▲ 讯飞留声小程序系统更新维护

然而,等到小黑准备亲身体验一番,却遇到了阻碍。讯飞留声官网打不开,讯飞留声小程序系统更新维护,暂时无法使用。小黑找遍了科大讯飞所有平台,也没能找到可以正常使用讯飞留声的方式。

个性语音定制,玩家真不少

或许是因为技术不成熟,或许是因为盈利前景不佳,讯飞目前并没有开放个性化语音定制。

除了讯飞留声,业内标准个性语音定制的企业可不少,比如微软与谷歌。微软Custom Voice项目启动时间稍晚于科大讯飞,目前已经可以实现中文、英文等多种语言语音合成。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(13)

为获得优质结果,微软Custom Voice 要求提供大量真人语句。不同训练方法需要不同的训练数据大小,若要使用“统计参数”方法来训练模型,则需要至少 2000 个不同的语句;“连续式”方法需要 6000 个语句;而“神经”方法需要的最小数据大小为 300 个语句。每一个语句时长不超过15秒,提供的语句越多,合成的语音就越接近真人发音。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(14)

与微软Custom Voice类似,谷歌Lyrebird(琴鸟)也推出了自己的定制语音合成系统,只需要30个英文声音,就可以推理并模仿声音中的情感、语调。

林志玲的声音如何录入导航的(如何用自己的声音来导航)(15)

琴鸟的神奇之处在于,它不仅能模仿多种其他鸟类的声音,它还能模仿大自然不存在的声音,比如说汽车鸣笛声、伐木用的电锯声、相机的快门声。

从讯飞留声到微软Custom Voice,再到谷歌琴鸟,可以看出随着人工智能技术的引入,语音合成技术日臻成熟。只要掌握足够多的原始音源,就能将用户声音模仿得八九不离十。现阶段讯飞留声无法体验,或许是在做技术升级。等它发展完善并提供给高德地图等公司,个性化语音定制可能不是梦。届时,我们真的不需要林志玲语音导航,用自己家人的语音包导航,岂不是更加温馨舒适!

图源:讯飞留声、微软Custom Voice

图源:谷歌琴鸟、pixabay

,