林志玲的声音如何录入导航的（如何用自己的声音来导航）

对于有车一族来说，手机中导航软件必不可少。

不知道各位小伙伴们平时喜欢用哪款导航地图，反正小黑对高德地图还是情有独钟，因为内置的明星语音导航包确实不错。比如声音嗲嗲的林志玲，游戏玩家熟知的PDD，以及郭德纲、李佳琦等一众明星。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(1)

在众多语音包中，小黑比较喜欢使用林志玲语音包与小团团语音包，在开车过程中，动听的声音可以驱散倦意。“前方五百米下高速”“前方道路拥堵，预计通行时间 7分钟”，每次听到语音包发出的声音，小黑总在想，导航中的声音成千上万，应对不同城市道路环境，录制的语句怎么也得四五千句。林志玲、小团团等明星录制这些音频，恐怕也不容易。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(2)

直到小黑了解到 TTS 语音合成技术，才明白绝大多数声音都不是明星本人录制，而是依靠语音合成技术凭空“创造”出来的。

搞清楚了明星语音包的真相，小黑突然脑洞大开，普通人是否可以利用语音合成技术，打造属于自己的导航语音包呢？

高德导航“录制好声音”

说干就干，小黑拿起手机就在高德地图中研究起来。没想到，还真让小黑发现了高德地图暗藏的小功能“录制好声音”。

打开高德地图语音包选项，进入导航语音包界面，这里可以选择英雄联盟案例、朱广权、广东话等特色语音包。而在右上角，还有一个个小小的“录制好声音”按钮。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(3)

进入录制声音页面之后，会有八句提示语，如“准备上路喽，系上安全带”，“安全到达目的地，下车记得关上车窗”。

录制完成之后，打开“我的好声音”按钮，就可以将自己的声音插播在驾车导航中了。小黑录制完成之后，测试了一下，感觉效果并不好。大部分时间依然是林志玲导航语音，自己的声音根本就听不到。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(4)

在先后录制了四次声音之后，小黑总算明白。高德地图这个功能并不会使用语音合成功能定制个性化语音导航，它只是将我们的声音录制下来，放在固定场景播放。直白点说，高德地图目前根本做不到定制语音包，小黑想要使用自己语音包替代林志玲语音包，技术上根本做不到。

语音包背后的秘密

高德地图可以定制明星语音包，为何不能定制普通人语音包？

其实，关键在于语音合成技术。高德地图虽然提供各种明星语音包，但他们本身并不具备语音合成技术，他们的技术源自于科大讯飞。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(5)

科大讯飞这个名字，很多小伙伴都很熟悉。讯飞听见、讯飞语音识别，在很多场合都能看到他们的影子。作为中文语音识别领域的领头羊，讯飞在语音合成方面的技术同样数一数二。

在讯飞开放平台，提供在线语音合成功能，可以将文字转化为自然流畅的人生，并提供100 多种发音人供用户选择。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(6)

小黑试用了一下讯飞语音合成功能，确实可以看出技术非凡。男声洪亮、女声婉转动听，还有合肥男声、山东女声等个性化声音可供选择。

不过，这并不是小黑想要的，小黑想让科大讯飞利用小黑的声音，定制出一套独一无二的声音库。就像林志玲语音包、小团团语音包一样，全世界绝无仅有。

欢迎来到声音复刻站

科大讯飞真的提供这类服务吗？还真有。在科大讯飞产品库中，有一个名为“讯飞留声”的产品，可以快速、便捷、完美复制我们的声音。简单来说，讯飞音库定制解决方案是为企业量身定做的产品，而讯飞留声则是它的精简版，专门为普通用户打造。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(7)

根据科大讯飞的介绍，讯飞留声可以复刻我们的声音，为远在家乡的孩子讲故事；为留守老家的服务读书读报；还可以使用妻儿的声音作为车载导航系统语音包，为我们保驾护航。

具体到应用中，讯飞留声只需要自己录入10句话，5分钟左右就可以制造完整音库。

如此神奇的技术，讯飞是如何实现的呢？其实，语音合成有三大要素，分别为信息、音色与韵律。语音信息指的是我们说话的内容，比如与人闲聊、语音朗读、主持人播报新闻，所有讲述的内容都属于语音信息。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(8)

音色是指不同声音表现在波形方面总是有与众不同的特性，不同的物体振动都有不同的特点。生活中，每个人的声音音色都是独一无二的。平时人们常说的未见其人先闻其声，指的就是通过声音音色判断说话人是谁。

至于韵律，指的是每个人声音高低快慢特点。比如主持人播报新闻字正腔圆，嗓音中正平和，再比如评书表演艺术家往往“漂、俏、快、脆”，善于运用气息，说话抑扬顿挫富有韵律感。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(9)

针对信息、音色与韵律三个方面，数百年来科学家们做了无数努力。1779年，德国科学家开发了可以发出五个长元音[aː]、 [eː]、 [iː]、 [oː]、 [uː]声道模型，十二年后加入舌头与嘴唇模型，可以发出元音和辅音。

可惜，由于当年技术不发达模型建立之后并不能模拟人声。直到上世纪三十年代，著名的贝尔实验室发明了电子语音合成器The Voder。

在随后几十年里，人们围绕语音合成这一课题先后提出多种语音合成系统，在2014年以前，语音合成技术已经可以有效模仿人声，我们小时候听到的机器人声音，大多数都是由这些早期语音合成技术提供。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(10)

过去的声音最大的缺点就是苍白僵硬，轻易可以听出来人声与机器声音的区别。人声通常饱含情感，语气语速与韵律都各不相同。因此，现代化语音合成技术都用上神经网络技术，利用参数合成、情感TTS技术，增加情感线索，让语音合成出来的声音更加接近人声。

科大讯飞参数合成技术，需要走录音，标注，建模，优化这几个步骤。首先准备好几处语库，语库通常覆盖语言中的元音、辅音、音调，然后针对场景录制语料，接着针对语音语调标注，最后使用 TTS 模型训练，不断优化模型，合成独特的声音。

讯飞留声语音合成的过程，其实就是一个深度学习的过程，通过不断学习，语音合成速度也在加快。早期讯飞留声语音合成需要一两个小时，后来只需要5分钟。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(11)

只要5分钟，就可以复制自己的声音，讯飞留声这项黑科技听起来有些炫酷。那么它的效果如何呢？小黑发现，在论坛上有不少网友体验过该功能，表示跟本人的声音有七八成相似度。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(12)

▲ 讯飞留声小程序系统更新维护

然而，等到小黑准备亲身体验一番，却遇到了阻碍。讯飞留声官网打不开，讯飞留声小程序系统更新维护，暂时无法使用。小黑找遍了科大讯飞所有平台，也没能找到可以正常使用讯飞留声的方式。

个性语音定制，玩家真不少

或许是因为技术不成熟，或许是因为盈利前景不佳，讯飞目前并没有开放个性化语音定制。

除了讯飞留声，业内标准个性语音定制的企业可不少，比如微软与谷歌。微软Custom Voice项目启动时间稍晚于科大讯飞，目前已经可以实现中文、英文等多种语言语音合成。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(13)

为获得优质结果，微软Custom Voice 要求提供大量真人语句。不同训练方法需要不同的训练数据大小，若要使用“统计参数”方法来训练模型，则需要至少 2000 个不同的语句；“连续式”方法需要 6000 个语句；而“神经”方法需要的最小数据大小为 300 个语句。每一个语句时长不超过15秒，提供的语句越多，合成的语音就越接近真人发音。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(14)

与微软Custom Voice类似，谷歌Lyrebird（琴鸟）也推出了自己的定制语音合成系统，只需要30个英文声音，就可以推理并模仿声音中的情感、语调。

林志玲的声音如何录入导航的（如何用自己的声音来导航）(15)

琴鸟的神奇之处在于，它不仅能模仿多种其他鸟类的声音，它还能模仿大自然不存在的声音，比如说汽车鸣笛声、伐木用的电锯声、相机的快门声。

从讯飞留声到微软Custom Voice，再到谷歌琴鸟，可以看出随着人工智能技术的引入，语音合成技术日臻成熟。只要掌握足够多的原始音源，就能将用户声音模仿得八九不离十。现阶段讯飞留声无法体验，或许是在做技术升级。等它发展完善并提供给高德地图等公司，个性化语音定制可能不是梦。届时，我们真的不需要林志玲语音导航，用自己家人的语音包导航，岂不是更加温馨舒适！

图源：讯飞留声、微软Custom Voice

图源：谷歌琴鸟、pixabay

林志玲的声音如何录入导航的（如何用自己的声音来导航）

最新推荐

热门推荐