Page 42 - 电力与能源2021年第一期

P. 42

3 6 王素宁, 等: 基于 DTW 算法的电力调度语音识别研究和应用

( Si g nalAnal y sis )、声学模型 ( Acoustic Model )、最优的与输入语音匹配的模板。然后根据此模板
词典( Lexicon )、语言模型( Lan g ua g e Model )、搜的定义, 通过查表就可以给出计算机的识别结果。
索 / 解码( Search / Decodin g 具体如图 1 所示。具体流程如图 2 所示。
),

图 2 语音识别流程图
图 1 语音识别系统框架
图 2 的左半部分可作为前端, 用于处理音频
( 1 ) 声学分析, 也称特征提取, 用于提取有用
流, 从而分隔可能发声的声音片段, 并将它们转换
信息, 将一段语音帧解析为一个固定维数的特征
成一系列数值。声学模型就是识别这些数值, 给
向量。常用方法有梅尔频率倒谱系数 ( Mel-fre-
出识别结果。图 2 的右半边作为后端, 是一个专
q uenc yce p stralCoefficient , 简称 MFCC ) 和感知用的搜索引擎, 它获取前端产生的输出, 在一个发
线性预测系数 ( Perce p tualLinearPrediction , 简
音模型、一个语言模型、一个词典这三个数据库进
称 PLP )。
行搜索 [ 18-20 ] 。显然, 计算机查表取得最优的结果
( 2 ) 声学模型: 解析声学信号, 比如将特征向
与特征的选择、语音模型的好坏、模板是否准确都
量解析到一个特征的建模单元上, 并获得相应的
有直接的关系。
得分, 常用算法有动态时间规整 ( D y namicTime
War p in g 简称 DTW )、人工神经网络 - 隐马尔可 2 改进的 DTW 算法
,
夫模型 ( Artificial Neural Network-Hidden
2.1 DTW 算法原理
MarkovModel , 简称 ANN-HMM )、深度神经网
同一个人在不同时间段对相同组词发音都可
络 - 隐马尔可夫模型( Dee pNeuralNetwork-Hid-
能存在差异。这种差异导致音强的大小、频谱的
denMarkovModel , 简称 DNN-HMM ) 等。
偏移和音节长短每次都不完全相同 [ 21 ] 。 DTW 算
( 3 ) 词典: 给单词和发音提供 HMM 模型( 亚
法用于比较两个序列的相似程度, 或者说两个序
词) 和语言模型间关联。通常基于音素, 由专家手
列的距离。基于动态规划构建序列和序列的距离
工完成。
矩阵, 具体公式如下:
( 4 ) 语言模型: 提供这部分的先验概率, 可以
d p ( i )[ j ] =
区分相同发音时的识别结果。
ì ï ( a [ 0 ] -b [ 0 ]) 2 i=0 , j=0
( 5 ) 搜索 / 解码: 根据状态系列, 在时间状态序 ï ( a [ 0 ] -b [ j ]) 2 +d p [ 0 ][ j-1 ] i=0
í
列( Time-stateTrellis ) 中找到一个最优路径, 或 ï ( a [ i ] -b [ 0 ]) 2 +d p [ i-1 ][ 0 ] j=0
ï
者说根据声学模型输出的结果, 结合辞典、语言模 î ( a [ i ] -b [ j ]) 2 +min ( d p [ i-1 ][ j ], d p [ i ][ j-1 ], d p [ i-1 ][ j-1 ]) i , j>0
( 1 )
型信息, 找出最有可能的识别结果。
[][]———序列 a [ 0 ,] 和b [ 0 ,] 之间
1.2 语音识别流程式中 d pi j j j
语音识别原理: ① 首先对声音进行预处理( 预的相似距离的平方, d pi j 就是两个时间序
[][]
加重、分帧、加窗和端点检测); ② 再根据人的语列的相似距离。
音特点建立语音模型, 对输入的语音信号进行分 DTW 算法最后的输出结果就是要找到一
析, 并抽取所需的 MFCC 特征参数和基音周期, 条累积距离最小的扭曲曲线, 也就是损失矩阵
在此基础上建立语音识别所需的模板 [ 16-17 ] 。计的最后一行最后一列的值, 即给定了距离矩阵,
算机在识别过程中要根据语音识别的模型, 将计如何找到一条从左上角到右下角的路径, 使得
算机中存放的语音模板与输入语音信号的特征进路径经过的元素值之和最小。最优路径示意图
行比较, 根据一定的搜索和匹配策略, 找出一系列见图 3 。

37 38 39 40 41 42 43 44 45 46 47