Page 42 - 电力与能源2021年第一期
P. 42

3 6                   王素宁, 等: 基于 DTW 算法的电力调度语音识别研究和应用

              ( Si g nalAnal y sis )、 声学模型 ( Acoustic Model )、  最优的与输入语音匹配的模板。然后根据此模板
              词典( Lexicon )、 语言模型( Lan g ua g e Model )、 搜     的定义, 通过查表就可以给出计算机的识别结果。
              索 / 解码( Search / Decodin g 具体如图 1 所示。            具体流程如图 2 所示。
                                      ),












                                                                             图 2  语音识别流程图
                            图 1  语音识别系统框架
                                                                   图 2 的左半部分可作为前端, 用于处理音频
                   ( 1 ) 声学分析, 也称特征提取, 用于提取有用
                                                               流, 从而分隔可能发声的声音片段, 并将它们转换
              信息, 将一段语音帧解析为一个固定维数的特征
                                                               成一系列数值。声学模型就是识别这些数值, 给
              向量。常用 方法有梅尔频率倒谱 系 数 ( Mel-fre-
                                                               出识别结果。图 2 的右半边作为后端, 是一个专
              q uenc yce p stralCoefficient , 简称 MFCC ) 和感知    用的搜索引擎, 它获取前端产生的输出, 在一个发
              线性 预 测 系 数 ( Perce p tualLinearPrediction , 简
                                                               音模型、 一个语言模型、 一个词典这三个数据库进
              称 PLP )。
                                                               行搜索   [ 18-20 ] 。显然, 计算机查表取得最优的结果
                   ( 2 ) 声学模型: 解析声学信号, 比如将特征向
                                                               与特征的选择、 语音模型的好坏、 模板是否准确都
              量解析到一个特征的建模单元上, 并获得相应的
                                                               有直接的关系。
              得分, 常用算法有动态时间规整 ( D y namicTime
               War p in g 简称 DTW )、 人工 神经网络 - 隐 马 尔 可         2  改进的 DTW 算法
                      ,
              夫 模 型 ( Artificial Neural Network-Hidden
                                                              2.1 DTW 算法原理
              MarkovModel , 简称 ANN-HMM )、 深度神经网
                                                                   同一个人在不同时间段对相同组词发音都可
              络 - 隐马尔可夫模型( Dee pNeuralNetwork-Hid-
                                                               能存在差异。这种差异导致音强的大小、 频谱的
              denMarkovModel , 简称 DNN-HMM ) 等。
                                                               偏移和音节长短每次都不完全相同                [ 21 ] 。 DTW 算
                   ( 3 ) 词典: 给单词和发音提供 HMM 模型( 亚
                                                               法用于比较两个序列的相似程度, 或者说两个序
              词) 和语言模型间关联。通常基于音素, 由专家手
                                                               列的距离。基于动态规划构建序列和序列的距离
              工完成。
                                                               矩阵, 具体公式如下:
                   ( 4 ) 语言模型: 提供这部分的先验概率, 可以
                                                              d p ( i )[ j ] =
              区分相同发音时的识别结果。
                                                               ì ï ( a [ 0 ] -b [ 0 ]) 2            i=0 , j=0
                   ( 5 ) 搜索 / 解码: 根据状态系列, 在时间状态序               ï ( a [ 0 ] -b [ j ]) 2 +d p [ 0 ][ j-1 ]  i=0
                                                               í
              列( Time-stateTrellis ) 中找到一个最优路径, 或              ï ( a [ i ] -b [ 0 ]) 2 +d p [ i-1 ][ 0 ]  j=0
                                                               ï
              者说根据声学模型输出的结果, 结合辞典、 语言模                         î ( a [ i ] -b [ j ]) 2 +min ( d p [ i-1 ][ j ], d p [ i ][ j-1 ], d p [ i-1 ][ j-1 ]) i , j>0
                                                                                                        ( 1 )
              型信息, 找出最有可能的识别结果。
                                                                       [][]———序列 a [ 0 ,] 和b [ 0 ,] 之间
              1.2  语音识别流程                                      式中  d pi j                 j         j
                   语音识别原理: ① 首先对声音进行预处理( 预                     的相似距离的平方, d pi j 就是两个时间序
                                                                                      [][]
              加重、 分帧、 加窗和端点检测); ② 再根据人的语                       列的相似距离。
              音特点建立语音模型, 对输入的语音信号进行分                               DTW 算 法 最 后 的 输 出 结 果 就 是 要 找 到 一
              析, 并抽取所需的 MFCC 特征参数和基音周期,                        条累积距 离 最 小 的 扭 曲 曲 线, 也 就 是 损 失 矩 阵
              在此基础上建立 语 音 识 别 所 需 的 模 板           [ 16-17 ] 。计  的最后一行最后一列的值, 即给定了距离矩阵,
              算机在识别过程中要根据语音识别的模型, 将计                           如何找到 一 条 从 左 上 角 到 右 下 角 的 路 径, 使 得
              算机中存放的语音模板与输入语音信号的特征进                            路径经过的元素值之和最小。最优路径示意图
              行比较, 根据一定的搜索和匹配策略, 找出一系列                         见图 3 。
   37   38   39   40   41   42   43   44   45   46   47