文 | 阑夕
科幻小说里的情节走向现实并不是那么容易的事。1989年上映的科幻电影《回到未来 2》里,主人公马丁(Marty McFly)在布朗博士的帮助下,坐着时光机器穿越到未来的目的地——2015年10月21日。
只是到了电影里的未来真正到来的那一天,我们也没穿上自动绑好鞋带的鞋子,踩着磁悬浮滑板方便上下班也还是没平均分配的未来。
关于技术的种种浪漫想象,实现起来却需要反复的实验、科技不止一代的突破以及从科研到实用的漫长历程。
漫画家青山刚昌1984年在《名侦探柯南》里提出的变声器,看起来并不太难,却一直没能出现在寻常百姓的生活里:让一个人的音色实时变换成另一个人的音色,需要的是语音表征学习、语音合成等领域的技术突破。
搜狗输入法在最近一版更新中上线了「语音变声」功能,在微信聊天时切换到搜狗输入法,就可以换着花样的「变声」聊天了。这不仅是机器表征学习、风格迁移技术首次落地到消费级产品中,也是微信语音聊天场景中首次有真正可玩的「变声」玩法。
变声的应用市面上已经有了不少,制作短视频的时候我们也可以借助一些变声滤镜呈现不同于本人声音的效果。不过这些变声应用基本上只能完成「变声」中的「变」,没法在「声」上有太多花样,在日常最常用的语音沟通场景——微信,声音上的玩法还没有能打的。
「真正可玩」意味着:使用流畅、切换无感、还原度高。
△ 搜狗输入法「语音变声」功能体验
虽然解锁过程略有门槛,但是合成的语音逼真度相当高。当你不想用自己的声线和朋友聊天时,搜狗输入法提供的数种声线玩法还是相当有趣的——不同身份、不同年龄、不同性别甚至是不同「次元」的角色,你可以在这些角色中自由转化无缝对接。
首批上线的声音有五大类、19种音效,其中光明星声音有四种:仿林志玲、仿周星星、仿高晓松和仿马云,另外还有动漫、游戏、方言音效等可以选择。在游戏分类里还有王者荣耀中妲己的音色,一开口对方就知道是「老江湖」。
开启变声玩法需要一点学习过程:首先在输入框下方长按小地球图标,将输入法切换到搜狗,在最上方的功能栏选择麦克风图标,就可以进入「变声」操作。
选择「高晓松」之后,按下录制键录下你要说的话,就能获得一段从「高晓松」口中说出的语音。点击微信聊天窗口最左边的语音图标,按住说话按钮,等待播放完毕、放开手指发送,你的朋友就会问你怎么能让高晓松替你发语音了。
在分别尝试了短则几秒、长达一分钟的语音之后,除了系统生成语音的时间略有差别,整体使用体验还算是流畅,如果能刻意学习一下明星本人在平时说话时的停顿习惯,结果更能以假乱真。
当然,在其他可以发送语音消息的地方,比如 QQ、陌陌,这个新功能一样派得上用场。
输入法之所以能够在中国市场成为一门不小的生意,除了键盘直接输入无法满足非英文语种的表达之外,互联网公司层出不穷的玩法也是以小见大的重要因素。
时至今日,输入法产品早已不再局限于文本范畴,从快速分享搜索引擎的全网内容,到集成生活服务的无缝连接,从表情包的关联和自动化生成,到新奇而想象力丰富的语音定制,这些都让输入法的应用场景变得丰富多样。
或许是因为意识到这个细分市场的无穷潜力,近年以来,连Google都颇有耐心的耕耘起来,Gboard输入法从快速立项到资源扶持都相当显眼。
相比之下,包袱愈轻的产品,或许还是可以走得更远。
搜狗输入法作为「国民输入法」,多年来首创了不少输入新玩法,从输入法皮肤、花漾字再到斗图,围绕如何让沟通更有趣,搜狗已经做了不少努力,「语音变声」的上线则是首次将语音处理的前沿技术应用在了toC领域。
这个功能其实已经由搜狗CEO王小川在极客公园商业峰会现场展示过,他挑选了高晓松的声音,对着手机说了一段话,很快,高晓松的声音就出现在了会场里。
王小川在演讲中介绍,把任意用户的音色变成特定人音色是变声领域最难的技术,这一次是搜狗首次将变声能力落实到用户产品,可以看作语音表征学习、迁移学习方面的重大突破。
搜狗输入法的「变声」功能由搜狗知音团队提供技术支持,从用户层面上有趣好玩的声音模拟,背后其实是AI语音领域的深厚积累。到 2019 年 3 月底,搜狗手机输入法日均语音请求较一年前增长 69%,峰值达 6 亿次。
从技术上来说,这样的变声技术并不是简单的语音合成,而是把语音、语调、情感做整体迁移。在经过表征学习之后,算法不仅能模拟出音色,还能调动情感,让合成的声音更具真实性。
简单来说,在用户几乎没有感知的「秒变高晓松」过程中,技术会先学习说话者的音色、内容和韵律三大特征,再将音色特征替换成高晓松的银色,最后,再通过搜狗知音的端到端语音合成技术,使用内容(来自用户)、韵律(来自用户)、音色(目标声音)三类特征合成最终变声音频,达到各个方位的相似和自然。
△ 语音变声仿蜡笔小新
通过搜狗输入法这次更新,用户体验到的是微信聊天窗口的声音新鲜玩法。Google 也曾发布过相关技术的研究,但只停留在研究层面没有向消费级应用推进。拥有超过4.5亿活跃用户的搜狗将其应用到最多人使用输入法上,也是搜狗在 AI 语音上的先进性。
在丰富聊天内容、缓解聊天尴尬的应用之外,这项技术未来还有更广阔的商用空间。如王小川在演讲中所说:「通过变声技术,现在可以把任何一个人 5 毛钱的音色变成价值50元的音色,而且当他找不同的老师或者导游的时候,产品也能做到非常标准化,因为输出高度一致。今天在表达信息和获取信息上,语音方面已经可以做到非常的突破了。」
2018年年底,搜狗还联合新华社联合发布了首个AI合成男主播,这位主播「克隆」于真人主播邱浩,实际新闻播报中,系统基于两位真实主播的声音、表情等真实数据生成模型,工作人员仅需要输入新闻稿,就可以让 AI形象自动根据文字播报,AI主播可以自动识别语义并配上对应音调及表情,具备与真人主播一样的播报能力。
比起「变声」功能的核心技术,AI主播在语音合成的基础上,还调动了自然语言能力、多模态识别等多领域人工智能技术,以及成熟的云计算资源基础。
或许有朝一日,除了在微信里让高晓松帮你发语音,人们也能在搜狗输入法的助力之下,聊出更多花样。
曾有英国艺术家创建名为「见信如晤」的社交网站,把历史上精彩纷呈的信件和电报集结展示,一度吸引了大批的文艺爱好者参与朗读和互动,缔造了一个温度常在的情感收纳箱。
而在数字化的未来,这件工作的延续,恐怕就要交给输入法产品来完成了,当千百年以后的人类回顾过去,发现表达的形势可以如此脑洞大开,他们又会如何评价这类技术历史中的壁画呢?
真是让人期待。
,