你知道吗?在我国患有言语障碍及伴有言语障碍的人数超过3000万人次,他们很少能说出一句完整的话,只能发出个别字词的音节,很难与人进行正常的交流。为此,小米做了什么呢?
小米AI实验室将自研的声音适配算法和超级拟人语音合成技术应用于无障碍领域,为一位言语障碍用户“阿卷”开发了独一无二的定制声音,取代了以往的普通电子机械音,让阿卷可以用“自己的声音”与外界交流。点击链接跳转观看:语音合成声音定制技术,为“爱”发声
这是小米AI实验室“声音配型捐赠”项目预研的一部分,体现了小米技术向善的承诺,用强大的技术能力推动“让世界上每个人都能享受科技带来的美好生活”的使命。声音捐赠志愿者招募中, 点击文末“声音捐赠”即可参与。
这个技术是如何实现的呢?请继续往下看~
01
Q:为什么想做针对言语障碍人群的声音定制?A:近年来,小米已经在手机上开发了多种无障碍功能,例如小米闻声、AI通话分别实现了面对面场景与远距离通话场景下的文字和语音互转,为听力及言语障碍人士提供了极大的便利。而我们的无障碍支持也已经从2010年的视力障碍者,扩展到了听说和部分肢体障碍者。
不过,我们发现,大部分的无障碍问题不是技术做不到,而是技术没想到,因为在技术快速迭代和进步的时候,总是先考虑生活中常见的或开发者熟悉的场景,而忽略了自己不熟悉的群体,比如老人、儿童、女性和少数群体的需求。所以在小米我们其实是希望用数字包容这个议题,能够帮我们的产品研发同学更好地理解“各种各样不同的需求和感受”,这样才能真正缩小因为差序格局带来的数字鸿沟。
说到“自己的声音”这个需求,其实是在与语障用户的交流中发现的。小米闻声和AI通话推出后,大家有时候在群里会讨论接电话的时候,对方一听是机器人的声音,就默认不是本人接听而是留言,就挂了。其实只是用户有言语障碍,打字慢,这就很耽误事。所以大家对“不机械的声音”有需求。
AI通话产品团队了解到以后,就接入了“自定义语音”,就是用户自己训练一个模型,用和自己声音相似度很高的人工智能语音去接电话。但这个只有言语功能健全的用户能做到。所以很多用户也都觉得如果声音能多一些选择就好了,可以挑一个自己喜欢的,但他们也会表达一些遗憾,“用的还是别人的声音”。其实用户更想要的是“别人一听就是我”的那种声音,是想要有辨识度的,可以和自己有关联绑定的声音。后来去找语音组的老师沟通,了解到现有的技术里面其实是有可能解决这个问题的,讨论完大致路线,技术团队的老师们觉得这事值得尝试。
02
Q:言语障碍者“阿卷”拥有自己的声音,技术层面包括哪些部分?A:项目团队采用超级拟人技术训练AI,让这个新的声音逐步拥有自然的节奏、语调等,真实地体现人的情绪与语气,以最终完成个性化声音的定制。
从基本上来说,这是一个语音合成的任务,也叫做文语转换(Text To Speech,TTS),是人机对话的一部分,让机器能够说话。如果希望用特定的音色来讲话,就涉及到声音定制,一般来说会需要在专业的录音棚采集十小时以上的录音数据才能获得较好的效果。
如果能够获取的用户数据量有限,这就涉及到多音色的模型预训练以及迁移学习任务。多音色的模型预训练可以使用大量其他人的录音来学习一个共享的神经网络,这样的模型“见多识广”。一方面是指见过很多不同的文本,使得将来在合成任意输入文本的时候都比较稳定,较少出错。另一方面则是指见过很多不同的音色,将来在迁移到目标音色的时候就比较容易学得很像。迁移学习则是小数据训练的法宝,当然我们后来为了进一步改进模型的质量还对采集的数据做了数据增广操作。
不仅如此,言语障碍者的声音定制还需要声纹技术的支持。因为他们的发音能力受限,不仅能够覆盖的音素(发音的基本单元)比较少,而且即使能采集到的音素,比如a和i,也往往不同于正常人。如果直接用来训练,则合成出来的声音很难听懂,韵律、语气也会不那么自然。所以我们需要通过言语障碍者有限的、不自然的录音从正常的捐献人音色库中匹配最接近的音色,用这个音色的录音来作为补充。这个匹配的算法,就需要声纹提取技术,然后计算相似度。除了这些主要的技术框架,面对一些挑战我们还灵活运用了很多其他相关技术,会在后面涉及的地方提到。
03
Q:超级拟人语音合成技术是什么?A:简单来讲,超级拟人技术就是让人工合成的声音在语调、断句、语速变化等方面都和真人无异,从而摆脱电子机械音的生硬感,让声音更加自然。目前,很多搭载小爱同学的智能设备都已经应用了这项技术,而此次声音捐赠项目的成功,让人们看到了超级拟人技术在无障碍领域也可以有更广泛的应用,带来更好的用户体验。
04
Q:什么是声音适配算法?它能够解决什么?A:这里的声音适配算法指的是计算两端音频中音色相似度的算法。它需要先从音频提取声纹信息,然后对不同声纹衡量它们的相似度,为言语障碍人群提供定制语音合成服务。
而这相较于为普通人提供语音服务难度会更高,因为他们通常不能提供足够的数量的录音和覆盖模型训练所需的全部基础发音和各种发音组合。所以我们需要声音适配算法从捐献者中挑选最接近的作为训练数据的补充。具体实施时,我们先尽力收集言语障碍人群能够发出的有限类型语音,并对收集的录音样本进行声纹特征提取,然后从捐献者的音色库中寻找与该用户最为相似的音色。找到之后,通过人工确认就可以将匹配到的捐献者音频用于后续的语音合成模型训练,从而得到稳定自然流畅的合成语音。
05
Q:构成语音合成算法的重要部分?A:语音合成装置可以包括:获取模块,用于获取语障用户输入的文本数据;合成模块,用于将所述文本数据输入至语音合成模型,得到合成语音数据。
选择模块是用于从多个候选语音数据中选择一个作为所述目标语音数据。将所述语障用户的语音数据和所述多个候选语音数据输入声纹识别模型,得到所述多个候选语音数据与所述语障用户的语音数据的音色相似度。根据所述音色相似度,从所述多个候选语音数据中确定一个所述目标语音数据,对语障用户的语音数据进行分析,得到第一语音特征。对所述多个候选语音数据进行分析,得到第二语音特征;从所述多个候选语音数据中选择所述第二语音特征与所述第一语音特征输入所述声纹识别模型,从所述语障用户的语音数据和所述多个候选语音数据输入声纹识别模型,得到所述多个候选语音数据与所述语障用户的语音数据的音色相似度。
接着进行语音合成,合成模型包括:文本分析模块,文本编码模块、音素过滤模块、音素分类模块、时长预测模块、注意力机制模块以及声学解码模块组成的声学模型,和声码器模型。各个模块均是不同模型结构的神经网络,具有不同的作用。
- 电子设备将获取到的语障用户的文本数据,通过文本分析模块进行处理,将该输入数据转换成适用于语音合成模型的音素序列,处理过程包括:分词、词性预测、韵律词预测、韵律短语预测、语调短语预测、文字转音素等语言学的信息。即为第一输入数据。
- 文本编码模块利用神经网络对经上述文本分析模块处理后的语障用户的输入数据获得的音素序列进行处理,例如音素序列、声调和停顿。从音素序列中提取语言学的信息。
- 音素过滤模块用于将提取出语言学信息的音素序列中的音调和韵律标记过滤,只剩下由声母和韵母组成的音素。
- 获取到过滤后的音素后,分别通过音素分类模块对音素进行分类以及时长预测模块分析每一音素对应的时长。其中,音素分类模块用于将从音素过滤模块获得的只包含声母和韵母组成的音素,按总的音素的类别进行分类,将相同的音素聚类不同的音素分类,起到信息强化的作用。
- 时长预测模块时长预测模块是指预测每一个音素对应的时间长度,与音素分类模块针对音素的处理可以是同步进行的。
- 注意力机制模块用于预测每一个音素对应的哪几帧从音频中提取的声学参数。
- 声学解码模块将从全面获取到的信息解码成后续转换成音频所需的声学参数。例如梅尔倒谱参数。
- 声码器模型将上述梅尔倒谱参数转换成音频。至此完成了整个文本到语音的转换过程。
同时,我们通过个性化自动迭代系统,提供1v1定制调音服务:用户模型训练好后,通过定期问卷的形式,根据用户的反馈迭代模型,反馈问卷选项会传给定制调音系统,根据选项自动调整模型,更新音色,使其更贴近用户想要的音色。
06
Q:我们的技术优势有哪些?A:首先,为言语障碍人士去匹配合适的声音捐献人就很有挑战性。我们可以搜集到的录音不仅有限,语障人士能提供的音节类型也常常只有几个单音,而且发音还不太准确。我们在声纹提取算法基础上需要做一些映射才能将他们的发音转换到正常的声学空间,与正常的捐献人进行匹配。同时,为了避免侵犯捐献人的隐私,还需要对每位捐献人的声纹做一定的变声处理。
其次,在定制语音合成模型的流程里,我们对捐献人提供的录音数据做了切分、拼接、语速调整等操作进行数据增广,已解决训练数据量不足的问题;同时,我们使用大量不同发音人的数据进行预训练得到一个大规模参数的基础模型,充分覆盖各种文本各种风格的语音表达。在此基础上用目标数据进行迁移学习就能既逼近目标音色又能在任意文本上都保持很高的自然度;另外,我们还对音色迁移后的模型进行了蒸馏,压缩参数量以保证引擎实时推理的效率。
整体上,我们将很多语音技术的基础能力串联起来,并对大部分环节都做出了创新性的改造,才最终能为语障人士定制出他们满意的语音合成效果。
07
Q:目前技术的应用场景有哪些?A:有很多应用场景,比如AI电话助理:当设备接收到用户B的语音信息后,AI电话助理对用户B的语音进行语音识别,并将识别结果转化成语音文字呈现;言语障碍用户A看到用户B的语音文本后,将自己想要表达的内容的文本数据,输入到文本输入区之后点击发送。该文本数据可以是AI电话助理预先根据用户B的语音文本智能生成的文本答复语,也可以是用户A自己通过输入键盘编辑的文本数据。AI电话助理将输入文本数据送入到用户预先定制的语音合成模型中,由语音合成模型将文字数据转成合成语音数据。从而使得言语障碍用户A能将所表达的内容用自己定制的音色传达给对方(用户B),进行无障碍的沟通。
另外,有声博主可以通过这项技术制作有声素材,只需要输入台词文本就可以自动快速生成大量的音频,经过剪辑后期处理后就可以发布。
08
Q:在研发过程中有遇到过什么样的困难?是怎么解决的?A:在与捐献人的音色库匹配成功后,如果直接用于模型训练,合成出来的音色可能会侵犯捐献人的隐私。发现这一风险后,我们积极思考解决办法,不仅对捐献人的声纹做了一定的变声处理,而且通过声纹验证模型来检查合成音频与原始捐献人的录音之间是否存在足够大的差异。当这个差异大到我们的声纹验证模型认为是来自不同人时,我们的变成处理就达到了要求。最终该方案既保证了效果让用户满意,又从技术的角度规避了风险让捐献人满意。
训练数据的采集一般是用户自己完成,采音设备和环境都达不到录音棚的专业水平,所以刚开始合成出来的音频会有较多的噪音,用户反馈不够干净。为了提高合成音频的清晰度,一方面我们对原始数据先做降噪处理,然后在声学模型网络中设计了环境噪音的嵌入编码去吸收训练数据中的噪音,同时我们也采用了最新的基于神经网络的通用声码器。因为通用声码器不依赖于说话人的音色,所以可以用大量音质更高的其他人的音频来进行训练。三管齐下,最后交付的模型质量终于获得用户好评。
09
Q:技术在科技向善领域的展望A:现在的“小米闻声”技术,是为了配合小米的无障碍体系,小米利用语音技术,可以让小米设备“看到”其他人说话,也可以帮他们“看见”周围环境中的声音,例如警报声,敲门声等,它赋予听障用户同样的声音感知权利。未来,我们要给“小米闻声”加上说话人身份和方向区分:设备可以感知周围不同说话人的切换,以及周围说话人的方向。这样听障人群盯着屏幕看语音转写的同事,就不会困惑一句话是谁说的。这里面用的两个技术,分别是说话人分离(Speaker Diarization)和远场拾音。我们也可以用远场拾音技术,按照助听辅听设备指定的注意力方向,定向拾取声音,提升听障人群在嘈杂环境中的语音感知可懂度。
除了“小米闻声” 技术,我们使用“聆听”技术为构音困难用户提供了个性化的语音识别,让他们也可以通过自己的声音和设备沟通;使用“读屏”技术为视障人群“看到”屏幕上的内容;未来,我们将利用声音定制技术,除了为已经失去言语能力的群体捐献声音,还可以为即将失去言语能力的用户保留声音,比如说请用户在即将进行发声相关器官手术前录制声音,用作以后声音重现。用口语评测技术,可以辅助言语康复者自行评测自己每个声韵母、词、短语和句子的发音是否准确,并给出建议。从而节约言语训练师的资源。利用相对测听技术,可以提前筛查听力问题,为用户链接助听辅听设备的验配。
声音配型捐赠项目将多种顶尖算法与小米先进的语音技术相结合,保证了合成声音的专属性、安全性和高自然度,为言语障碍者的声音定制合成开创了新思路,让世界“听见”每个人的声音!未来,小米将继续坚持创新,通过顶尖技术为无障碍赋能,努力帮助每一名残障用户获得更加自由、更加平等、更加有尊严的生活,实现个人的更好发展。
声音捐赠
,