1.背景知识回顾1.1特征提取1.2混合高斯模型GMM1.3隐马尔科夫模型2.GMM-HMM语音识别框架与概念

终极目的:让机器听懂

首先要出三个概念:

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(1)

3.内容提要3.1基于孤立词的GMM-HMM语音识别系统3.2基于单音素的GMM-HMM语音识别系统3.3基于三音素的GMM-HMM语音识别系统3.4基于GMM-HMM语音识别系统流程4.基于孤立词的GMM-HMM语音识别系统

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(2)

4.1目标

X_{test}测试特征,P_w(X)是词w的概率模型,vocab是词表(在该实例中为0~9 10个数字)

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(3)

但是对于该语音任务具有的特性,序列性、不定长性,又该如何建模?

4.2建模

词(语音)是一个序列,P_w(X)可以用HMM的概率问题来进行描述,并且语音经过MFCC特征提取后也会变成连续概率密度分布

回想一下GMM-HMM

这时候对于这十个词,我们可以为每个词建立一个GMM-HMM模型

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(4)

语音识别中的GMM与之前学习的GMM有何区别?

语音识别中的HMM

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(5)

如何结合起来

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(6)

每个状态都有一个对应的GMM,每个词又有对应的HMM,给出一段未知序列的时侯,就会在HMM上计算一下观测概率、转移概率,也就是做一个Viterbi算法,计算一个序列在HMM-GMM上的概率

4.3训练

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(7)

count(hard)这部分的话count只能是0或者1,确定值

count(soft)这部分只能说count是一定的概率,不确定

4.3.1Viterbi训练

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(8)

拿到每个状态对应的所有特征之后更新GMM参数

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(9)

4.3.2前向后向训练(Baum-Welch训练)

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(10)

Viterbi训练和Baum-Welch训练的区别在于如何计算t时刻处于状态i的概率

4.4解码

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(11)

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(12)

只需要加一条从E->S的线就可以识别one-two字符串

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(13)

5.基于单因素的GMM-HMM语音识别系统5.1音素

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(14)

5.2词典

词到音素序列的映射(文件),比如0~9 10个数字的词典如下:

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(15)

5.3单因素的HMM拓扑结构

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(16)

5.4训练

现在假设一句话里面包含一个单词,例如one(W AA N)

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(17)

就是将孤立词里面的词3状态,转变为每个因素3状态,做一个HMM的平滑连接,相当于一个9状态的HMM,再去使用Viterbi训练或者前向后向训练

单音素GMM-HMM语音识别系统流程

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(18)

词 --> 音素序列,3状态变成拼接的多状态

5.5解码

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(19)

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(20)

6.基于三音素的GMM-HMM语音识别系统6.1三音素6.2绑定6.3决策树

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(21)

6.4问题集

刚刚说每个非叶子节点都是一个问题,这些问题都是些什么?

6.5基于状态的绑定

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(22)

这是基于状态的绑定,而不是整个三音素的绑定

6.6决策树的构建(最优问题)

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(23)

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(24)

语音识别的准确率与语音模型(基于GMM-HMM的语音识别系统)(25)

,