语音合成,即是把文字变成声音的技术,声音是文字内容的信息载体。语音交互是日常生活中最常见、最被人熟悉并乐于接受的展现形式,语音交互体验效果的好坏,会对用户的感知造成很大影响。

好数据的特征(数据堂平均音色语音库)(1)

如果语音合成质量较好,说话效果更接近真人且情感表达丰富,那么用户的交互意愿自然也会更强,用户会觉得这不是一个冷冰冰的机器,会有愿意与这类智能机器人进一步交互。

为了让合成语音具有更进一步的声音表现力,传递出文本文字之外的更多信息,做到声情并茂,以更动听的声音,更富有情感地表达内容,就需要通过庞大的语音数据进行训练。

作为全球领先的人工智能的数据服务商,数据堂可以为客户提供丰富的合成语音数据,通过这些数据训练的人工智能,合成声音变得更有感情,进而能够呈现更为真实的电脑语音,让人工智能语音助手在声音互动中更有亲和力。

合成语音数据集

中文女声情感合成库

由中文母语发音人录制,六种情感文本,语料音素覆盖均衡,专业语音学家参与标注,字准确率不低于99.9%,句准确率不低于99%,句准确率不低于98%,精准匹配语音合成的研发需求

中文三风格平均音色合成库

由中文母语发音人录制,每人录制客服类、播音类、故事类三种风格的数据,语料音素覆盖均衡,专业语音学家参与标注,句准确率不低于99%,精准匹配语音合成的研发需求。

美国英语女声合成库

美国母语发音人参与录制,发音纯正,音色甜美,语料音素覆盖均衡,专业语音学家参与标注,精准匹配语音合成的研发需求。

中文通用平均音色合成库

由中文母语发音人录制。涵盖新闻、日常口语、有声读物、诗词、广告、消息播送、娱乐等类别,语料音素覆盖均衡,专业语音学家参与标注,精准匹配语音合成的研发需求。

数据堂具有丰富的语音数据资源、突出的技术优势和数据处理经验,支持按场景、语种、年龄、性别定制采集语音数据,同时拥有专业语音级录音棚、人声电容麦克风和监听设备,符合NR15声学标准,混响时间小于0.1秒,背景噪声小于20dB,并获得了清华大学建筑物理实验室认证,还拥有男声、女声、童声等多种音色不同类型发音人,全面满足多样化语音合成需求。

好数据的特征(数据堂平均音色语音库)(2)

未来,随着语音技术不断发展,技术与场景的关系变得紧密,而用户需求也将更加个性化。数据堂将加大技术创新投入,将持续提供更多高质量的语音合成数据,让语音交互效果更“声入人心”。

,