ai智能变声器(让人人秒变百变声咖)(1)

看过柯南的朋友一定不会陌生,电影中有一个出镜率很高的神器—蝴蝶结变声器,当公布真相时刻,柯南躲到沙发后对着蝴蝶结模仿毛利小五郎的声音进行推理。

如今,随着科技的发展,这个酷炫的神器已从动画片中走入现实。

6 月 29 日,标贝科技推出一项可商业落地的声音转换解决方案,将任何一种声音的音色,精准迁移至目标声音的音色,实现声音的出色转换。

什么是声音转换呢?简单说,就是在保持说话内容不变情况下,用另一个人的音色说出你想说的话,你可以随意变声你想要的任何人物、角色的声音。比如电影桥段周星驰配音,游戏直播解说中的大叔变软妹萝莉、可爱的动画人物小猪佩奇等等,不需要复杂操作及漫长等待时间,人人秒变声音大咖,娱乐搞笑,趣味无尽。

可能有人会问,直接用变声器或调音器不也一样可以做到吗?据标贝科技语音技术相关负责人介绍,声音转换和变声器有显著不同,具体表现在 4 个方面:

ai智能变声器(让人人秒变百变声咖)(2)

1、声音转换效果

无论是变声器软件还是传统变声技术,合成的效果都存在机械味偏重问题,语调、语气还原度与原音存在一定偏差,整体听感不自然。

而标贝的声音转换方案,依托智能语音技术和深度学习技术,可以精准的进行目标音色迁移,高度还原原说话人的语气、韵律等特色。

2、交互体验

传统的变声软件需要通过人工调节语速、语调等参数,输出的声音音色转换较单调,玩法单一,缺乏个性化的声音表达,缺乏创意。

标贝的声音转换技术方案,能够很好的解决传统变声的问题,达到高辨识度、高自然度、高流畅度的变声效果,同时能够保留原发音人的语气、韵律节奏等特征,让变换后的声音更有层次,更有个性。

3、应用场景

为了适应不同场景需要,声音转换技术可以有针对性的进行输出声音的优化训练,进而更好的表达场景化语音的特点,满足用户差异化的需求,传统的变声器很难做到场景维度的差异化。

4、转换价值

传统变声器输出的效果很不稳定,需要大量人工的调节,整体音质质量只能满足部分娱乐场景的需求。

标贝的变声技术,提供一站式转换,无需人工参与,便可获得稳定的自然声音效果,也可扩展到更多的场景化应用。例如在媒体配音领域或在线教育领域,声音转换技术还可以大幅度提高内容制作的效率,节省视频内容的创作成本和时间成本。

因而,声音转换和传统变声器有显著区别。

据介绍,标贝科技本次推出声音转换解决方案,是基于深度神经网络学习,应用语音信号处理和语音识别技术,将原说话人的音色转换成目标人音色,而且声调、韵律、停顿等说话特点可被转换为目标人物声音。目前已达到商业场景落地要求,如有声阅读、儿童教育、媒体、泛娱乐等多场景均可使用。

下面通过一个案例,为大家展示一下标贝的声音转换技术效果。

ai智能变声器(让人人秒变百变声咖)(3)

— 普通话版 —

ai智能变声器(让人人秒变百变声咖)(4)

—方言版—

原声音分别为普通话版和方言版,目标对象声音是儿童慧读 App 产品恐龙贝克的声音。从视频中可以听到,原声转换到目标对象音色,转换后的声音效果几乎难以分辨。(以上视频仅用于声音转换技术示范)让我们再看一些声音转换的场景应用说明。

以儿童故事有声阅读举例,假如你拥有动漫人物的 IP 版权,结合声音转换技术就可以用小猪佩奇、喜洋洋的口吻讲述小朋友喜欢的故事啦~在游戏直播领域,主播可以通过声音转换技术,在保证语言风格特点同时,变声娱乐搞笑的解说声音,让游戏解说更有趣味性。变声本身就存在着一定趣味性,在泛娱乐方面也有很大的市场需求,据艾瑞咨询《后疫情时代中国线上泛娱乐市场展望》报告显示,疫情期间,中国泛娱乐市场用户活跃,网络视频、游戏直播、在线阅读等均有增长态势。

ai智能变声器(让人人秒变百变声咖)(5)

全民娱乐消费时代已经到来,短视频搞笑趣配音频上抖音热门、游戏直播变声整蛊被玩家广为乐道,用明星声音表达自己,也成为玩转饭圈标志之一。

由此可见,声音转换的应用前景空间巨大。事实上,在人工智能技术快速发展的今天,智能语音已给人们生活的很多方面带来很大影响。技术创新应用,让机器被赋予生命力,富有情感与温度的与人类进行智慧对话,让用户感受科技的美好。

与此同时,通过声音转换技术,让用户主动参与声音转换创作,给生活增添娱乐趣味性,也是科技创新价值所在。

声音价值探索充满无限可能,标贝科技已连续推出声音复刻、情感合成、声音转换等系列语音技术产品,未来将进一步加大技术创新投入,为行业带来更高质量语音交互解决方案。

欢迎对以上声音转换解决方案感兴趣的行业伙伴与我们联系

Business@data-baker

,