Page 43 - 电力与能源2021年第一期
P. 43

王素宁, 等: 基于 DTW 算法的电力调度语音识别研究和应用                                  3
                                                                                                       7
                                                               包络 的 峰 谷 个 数 也 是 确 定 的, 因 此 在 进 行 语 音
                                                              DTW 计算时不是与所有样本匹配, 同时由于发
                                                               音会有长短变化, 所以也不能只用时长、 峰谷个数
                                                               来限定匹配范围, 对于“ 图”、“ 站” 是指令中经常出
                                                               现的语音单元, 通过对包络切片, 识别最后一个包
                                                               络如图 5 和图 6 所示。







                                                                               图 5  “ 图” 波形
                             图 3  最优路径示意图
              2.2 GMM-HMM 算法原理
                  GMM-Model算法是基于高斯分布, 主要通
              过 加 权 的 方 式 组 合 得 到。 隐 马 尔 可 夫 模 型
              ( HMM ) 由 Markov ( 状态转移序列)链和每次状
              态转移时转移状态和记录的时间之间组成的信号
              和状态序列两个随机过程组成                [ 21 ] 。 HMM 模型

              在数学模型上的符号描述为λ= ( π , A , B ), 如图 4
              所示。

                                                                               图 6  “ 站” 波形
                                                              2.3.2  路径权重优化
                              图 4 HMM 示意图
                                                                   根据式( 1 ) 计算出“ 测试指令” 与“ 指令 1 ” 和
                   在语音识别系统中, 根据采集到的语音信号
                                                               “ 指令 2 ” 的距离, 如图 7 和图 8 所示。
              通过相应的算法去建立相对应的高斯混合模型,
              结合 GMM 算法拟合说话者的语音产生。
                                      M
                            p x i =  ∑  a i p i        ( 2 )
                              ( )
                                     i =1
                                                     )———
                                               p i
              式中  x i  ——— D 维 语 音 特 征 矢 量; ( x i
              GMM 模 型 片 段 概 率; a i    ———相 应 片 段 概 率 p i
              ( x i 的权重; M ——— GMM 算法中的片段数目。
                 )
              2.3 DTW 算法的优化
                   在语音识别中使用 DTW 算法进行语音相似
              度比较, 将实时语音指令与指令语音样本序列号
              成向量进行相似度比较, 选取相似度最大的指令
              语音样本所对应的指令来判断是否是实时语音所                                       图 7  测试指令和指令 1 的距离
              输入的指令。通过相似度比较, 简单判断可以取                               从图 7 和图 8 可以看出,“ 测试指令” 与“ 指令

              最近距离的结果来进行判断, 但为了提高准确率,                         1 ” 相似。“ 测试指令” 与“ 指令 1 ” 和“ 指令 2 ” 的距
              需要进一步对算法进行优化。                                    离分别是d q 1 和d q 2  。其中, d q 1=1.802776 ; d q 2
              2.3.1  对语音分片和分组                                  =1.723369 。 d q 2 更小, 这个结果与实际不符合。
                   本次研究的输入指令格式是固定的, 每个指                        因此, 对路径计算引入权重, 设权重系数为α 。这

              令有多少“ 3U0 图”、“ 电网精灵”、“ 通道监视图”                    个α 和 原 算 法 的 距 离 d p 相 乘, 得 到 更 新 后 的
                                                                                                 [][], 改
              等。每个指令的元音辅音个数是确定的, 即语音                          d p *  。基于原算法距离, 可以求出 d p i j
   38   39   40   41   42   43   44   45   46   47   48