Page 43 - 电力与能源2021年第一期
P. 43
王素宁, 等: 基于 DTW 算法的电力调度语音识别研究和应用 3
7
包络 的 峰 谷 个 数 也 是 确 定 的, 因 此 在 进 行 语 音
DTW 计算时不是与所有样本匹配, 同时由于发
音会有长短变化, 所以也不能只用时长、 峰谷个数
来限定匹配范围, 对于“ 图”、“ 站” 是指令中经常出
现的语音单元, 通过对包络切片, 识别最后一个包
络如图 5 和图 6 所示。
图 5 “ 图” 波形
图 3 最优路径示意图
2.2 GMM-HMM 算法原理
GMM-Model算法是基于高斯分布, 主要通
过 加 权 的 方 式 组 合 得 到。 隐 马 尔 可 夫 模 型
( HMM ) 由 Markov ( 状态转移序列)链和每次状
态转移时转移状态和记录的时间之间组成的信号
和状态序列两个随机过程组成 [ 21 ] 。 HMM 模型
在数学模型上的符号描述为λ= ( π , A , B ), 如图 4
所示。
图 6 “ 站” 波形
2.3.2 路径权重优化
图 4 HMM 示意图
根据式( 1 ) 计算出“ 测试指令” 与“ 指令 1 ” 和
在语音识别系统中, 根据采集到的语音信号
“ 指令 2 ” 的距离, 如图 7 和图 8 所示。
通过相应的算法去建立相对应的高斯混合模型,
结合 GMM 算法拟合说话者的语音产生。
M
p x i = ∑ a i p i ( 2 )
( )
i =1
)———
p i
式中 x i ——— D 维 语 音 特 征 矢 量; ( x i
GMM 模 型 片 段 概 率; a i ———相 应 片 段 概 率 p i
( x i 的权重; M ——— GMM 算法中的片段数目。
)
2.3 DTW 算法的优化
在语音识别中使用 DTW 算法进行语音相似
度比较, 将实时语音指令与指令语音样本序列号
成向量进行相似度比较, 选取相似度最大的指令
语音样本所对应的指令来判断是否是实时语音所 图 7 测试指令和指令 1 的距离
输入的指令。通过相似度比较, 简单判断可以取 从图 7 和图 8 可以看出,“ 测试指令” 与“ 指令
最近距离的结果来进行判断, 但为了提高准确率, 1 ” 相似。“ 测试指令” 与“ 指令 1 ” 和“ 指令 2 ” 的距
需要进一步对算法进行优化。 离分别是d q 1 和d q 2 。其中, d q 1=1.802776 ; d q 2
2.3.1 对语音分片和分组 =1.723369 。 d q 2 更小, 这个结果与实际不符合。
本次研究的输入指令格式是固定的, 每个指 因此, 对路径计算引入权重, 设权重系数为α 。这
令有多少“ 3U0 图”、“ 电网精灵”、“ 通道监视图” 个α 和 原 算 法 的 距 离 d p 相 乘, 得 到 更 新 后 的
[][], 改
等。每个指令的元音辅音个数是确定的, 即语音 d p * 。基于原算法距离, 可以求出 d p i j