下面谈一谈如何对单个汉字进行录音。

在第四节中我们谈到,汉字有近10万个,其中多数为异体字和罕用字。GB18030是中华人民共和国现时最新的内码字集,共收录了汉字20912个,这2万多个汉字已经足够应用了,我们就以GB18030汉字集为基础进行音频制作。如果对2万多个汉字进行逐一录音又感觉实在太多,也确实没有必要。

我们知道很多汉字可以共用同一个发音,称为同音字,这些同单字具有完全相同的声母、韵母及声调。如“眼”字的同音字有:掩、沇、兖、奄、演、俨、衍、酓、鼴、䄋、窴、鼹、礹、嬐、扊、愝、硽,等等。这也可以看出,有很多的汉字我们是不认识的。我对“眼”字制作音频,其他同音字只要拷贝一下就行了。

中文拼音情况如下:

1、单声母6个:a、o、e、i、u、ü,也都是单韵母。2、声母共有23个。它们是b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s、y和w。

3、复韵母18个:ai、ei、ui、ao、ou、iu、ie、ve、er、an、en、in、un、vn、ang、eng、ing、ong等。

4、整体认读音节共16个:zhi、chi、shi、ri、zi、ci、si、yi、wu、yu、ye、yue、yin、yun、yuan、ying。通过对声母、韵母排列组合,并去除不存在的情况,共整理出419个拼音组合。如下表:

ba

bai

bo

zhuai

a

ai

an

ang

ao

ban

bang

bao

bei

ben

beng

bi

bia

bian

...

...

...

...

...

...

zhui

zhun

zhuo

zi

zong

zou

zu

zuan

zui

zun

zuo

每个拼音有4种声调,包括平声、上声、去声和入声,分别用1至4表示。这样共制作拼音音频文件1676个,如:ba-1.wav、ba-2.wav、ba-3.wav、ba-4.wav。

下一节我会介绍如何制作拼音音频文件,并对音频文件进行编辑,裁剪出合适的大小。

ai智能转换成语言的方法(文本转语音-我的AI开发历程)(1)

大秦帝国片断

,