近年来随着AI技术的迅速发展,人机交互变得越来越频繁,“语音合成”就是人机交互中的重要一环。语音合成技术又被称为文语转换(TTS)技术,就是可以将文字信息转化为流畅标准的语音,其所合成的声音既可以是模仿某个人的声音,也可以是包含特定风格的声音,甚至能掺杂一定的情感成分。基于这样的特点,语音合成技术能够应用到许多领域,既可以改善人机交互困难的情景,使人类与计算机的交流更加方便快捷,也可以帮有身体障碍,只能通过语音来交流的特殊人群。

但是,在人机互动之外,语音合成的商业化一直是个隐藏在人工智能后面的神秘角色,但大体来讲,可以分为两种类型:一种是借着技术优势做赋能,代表为科大讯飞的讯飞开放平台;另一种是贴近需求做应用,代表为出门问问的魔音工坊。

科大讯飞智能语音基地(语音合成商业化)(1)

配图来自Canva可画

隐藏在人工智能背后的狭小市场

语音合成市场是个极为细分的狭小市场,与之并列的还有语音识别、语音分析等,说到底,语音合成不过是人工智能在应用过程中的副产品罢了。但也正是因此,语音合成技术就处在了一个“难者不会,会者不难”的尴尬区间,所以市面上的语音合成技术基本上都来自人工智能厂商,至少是对人工智能有所参与的厂商。

例如各大云服务厂商就都有语音合成的服务,包括腾讯云、阿里云、百度AI开放平台以及字节跳动的火山引擎。

“语音合成”用最简单的方式理解,归根结底不过是让机器将文本“说出来”。虽然语音合成总是与人工智能相关,但其实只要用户需要,就能成为一种应用场景,因此语音合成的应用范围十分广泛,同时遍布消费级和行业级——而且,在不同的应用场景中,消费级和行业级也显示出截然不同的特点来。

消费级应用场景中的语音合成,面向的对象往往就是消费者自身。近年来随着短视频的兴起,配音成为部分短视频创作者工作流中必不可少的环节,但是绝大部分的短视频创作者并没有接受过专业的配音训练,因此其配音要么效果不尽人意,要么效率极为低下——某些生手甚至需要30分钟来配1分钟的文案内容。

在这样的情况下,语音合成恰好弥补了消费级用户自身能力的不足。由于大部分消费级需求以配音为主,使得消费级语音合成可以通过标准化、通用化的方式来降低制作成本。也正是因此,在消费级领域耕耘,对语音合成厂商的技术要求没那么高。

行业级应用场景中的语音合成,面向的对象往往需要是“消费者的消费者”——与消费级用户很不同的是,行业级用户自身其实并不需要语音合成来满足什么需求,但它们的语音合成产品一般都要面向数以万计的用户,对使用频次和产品质量都有更高的要求。

因此行业级语音合成产品往往采用定制的方式,不仅制作周期长,制作难度高,而且产品单价高,替换成本高。这种时候对语音合成厂商的技术要求和制作水平就大大提高,一般都是由大型人工智能厂商,或者专精语音技术的厂商来完成。

讯飞:技术驱动行业级市场

科大讯飞是典型的技术驱动型企业,它的语音技术当属世界一流,它旗下的“讯飞开放平台”是以语音交互为核心的人工智能开放平台。因此,讯飞开放平台提供的语音合成服务实际上只占了它自身很小的一部分。

在这样的情况下,讯飞开放平台几乎和其他云厂商的开放平台一样,不能提供面面俱到的通用化和标准化产品,也正是如此使其无法提供通用型产品。对于讯飞开放平台来说,技术才是第一位的,因为只有技术力足够强,才能满足上门的行业级客户,尤其是这些客户的需求比消费级客户复杂得多。

对此,讯飞开放平台只能提供以通用的服务模型,即某种成熟的方法论,来实现行业级客户的复杂需求。为了便于区分行业级用户的需求,讯飞开放平台依旧将语音合成服务分成了三个板块:在线语音合成、离线语音合成以及发音人自训练平台。

其中在线语音合成能够将文字转化为自然流畅的人声,超过100个发音人可供选择,并且支持多语种、多方言和中英混合,同时能够灵活配置音频参数。这种模式广泛应用于新闻阅读、出行导航、智能硬件和通知播报等场景,这在海尔的电话客服、追书神器和央视新闻APP的“早啊!新闻来了”有声栏目都有应用。

离线语音合成引擎满足无网络环境下的转语音需求,SDK轻巧方便,能够做到实时响应,相当于APP内置的“朗读者”,在语音导航、新闻听书和提示播报等场景具有广泛应用。耳熟能详的KA有高德导航、滴滴打车、起点读书和智慧树考勤机等。

最后,发音人自训练平台则是基于科大讯飞最新语音合成深度学习技术,只需要提供少量的干净录音数据,机器就可以快速学习并生成可使用的语音合成音库,提供专属的合成声音。适用于智能客服和教育培训等领域。

结合以上数据不难发现,行业级客户对于语音合成的需求,更多的体现在人机交互方面,简单来说就是需要手机APP“会说话”,而不像消费级用户那样基本上只对配音后的音频有需求。

因此,在将语音合成模块嵌入应用的过程中,讯飞开放平台就完成了它的商业化。在行业级应用场景中,音库定制、服务量、装机量、发音人、并发数以及有效期都是可选的收费选项,而且价格相较于消费级服务来说,算是十分高昂了。

魔音工坊:应用驱动消费级市场

相较于母公司出门问问,魔音工坊可能更加出名,它是专门针对消费级市场进行特化的语音合成平台。正如前文所述,消费级语音合成市场的基本需求——同时也是最大需求——就是配音。所以魔音工坊几乎就是针对配音来设置不同板块和各种功能。

对于魔音工坊来说,技术并不是第一位的,如何利用现有技术与消费者需求进行匹配才是第一位的。以功能最为完整的网页端来说明,魔音工坊共设置5个板块:软件配音、真人配音、声音商店、效率工具以及声音克隆。

其中声音商店是声库,内置了魔音工坊自制的不同声源。共计367个配音师,和817种风格,因为主要受众是国内用户,因此基本覆盖了各地区方言,和少量不同音色的英语声源。魔音工坊通过标准化和通用化的声源,足以满足绝大部分用户的配音需求了。

而软件配音和声音克隆板块给予用户分别自定义文本和音源的权利。其中文本的自定义过程中,可调的参数细致到多音字读音、语速和停顿等真实场景中的;而音源的自定义则与讯飞开放平台类似,需要提供真人声源。

最后,效率工具和真人配音则为用户解决在配音过程中可能遇到的问题。效率工具提供了文案提取、自动打轴、背景音处理、人生处理、一键去水印和封面制作等工具,而且基本上都是免费试用;真人配音则进一步节省了用户花在配音调参的时间。

不难发现,从声库到自定义声源,从软件配音到真人配音,魔音工坊几乎将用户的每个痛点都抓住了,虽然技术可能不比科大讯飞,但在对消费级用户的友好度这一块,魔音工坊绝对不输。

同时,魔音工坊的商业模式可以很好地嵌套在从寻找声音到完成配音的过程中。从用户打开魔音工坊那一刻起,收费就已经开始了——首先是售价289元的年费会员,紧接着声库的声源基本上都是会员专享或者付费使用,价格从199-899/年不等,其次声音克隆和真人配音亦需要额外付费,具体数额视不同情况而定。

技术与应用的博弈与殊途同归

行业级语音合成厂商与消费级语音合成厂商“井水不犯河水”,几乎是泾渭分明地守着各自的一亩三分地。但实际上,在讯飞开放平台和魔音工坊决定服务不同的人群的时候,语音合成的技术面以及应用面的博弈就开始了。此时,技术已经不再是决定性因素了,如何与需求对接才是重中之重。

因此,我们可以将讯飞开放平台和魔音工坊之间的区别,看作是语音合成满足不同消费者需求的不同路径。行业级用户往往需要语音与应用相结合,其中重点在于“结合”,在于为它们自己的用户提供足够差异化的使用体验;而消费级用户往往需要的是语音合成出的音频,重点在于“结果”。这之间的微妙差异,正是技术力稍弱的语音合成厂商生存的空间。

但是,在这些差别的另一面,也能看到消费级与行业级用户需求是殊途同归的。说到底,无论是某个APP需要内置语音,还是某个短视频创作者需要配音,这都是以“语音合成”这项技术为基础的。像是许多将别家技术打包,拿过来就用的“二道贩子”,无论如何都不可能经营得长久。在这种时候,语音合成就变成了一个楔子,它就变成了这个市场的“入场券”。

总的来说,以讯飞开放平台和魔音工坊为代表的两类语音合成厂商将会继续共存下去。这也象征着语音合成技术驱动和应用驱动的统一,无论如何,满足消费者需求才是语音合成商业化的关键要素。

,