Page 42 - 电力与能源2021年第一期
P. 42
3 6 王素宁, 等: 基于 DTW 算法的电力调度语音识别研究和应用
( Si g nalAnal y sis )、 声学模型 ( Acoustic Model )、 最优的与输入语音匹配的模板。然后根据此模板
词典( Lexicon )、 语言模型( Lan g ua g e Model )、 搜 的定义, 通过查表就可以给出计算机的识别结果。
索 / 解码( Search / Decodin g 具体如图 1 所示。 具体流程如图 2 所示。
),
图 2 语音识别流程图
图 1 语音识别系统框架
图 2 的左半部分可作为前端, 用于处理音频
( 1 ) 声学分析, 也称特征提取, 用于提取有用
流, 从而分隔可能发声的声音片段, 并将它们转换
信息, 将一段语音帧解析为一个固定维数的特征
成一系列数值。声学模型就是识别这些数值, 给
向量。常用 方法有梅尔频率倒谱 系 数 ( Mel-fre-
出识别结果。图 2 的右半边作为后端, 是一个专
q uenc yce p stralCoefficient , 简称 MFCC ) 和感知 用的搜索引擎, 它获取前端产生的输出, 在一个发
线性 预 测 系 数 ( Perce p tualLinearPrediction , 简
音模型、 一个语言模型、 一个词典这三个数据库进
称 PLP )。
行搜索 [ 18-20 ] 。显然, 计算机查表取得最优的结果
( 2 ) 声学模型: 解析声学信号, 比如将特征向
与特征的选择、 语音模型的好坏、 模板是否准确都
量解析到一个特征的建模单元上, 并获得相应的
有直接的关系。
得分, 常用算法有动态时间规整 ( D y namicTime
War p in g 简称 DTW )、 人工 神经网络 - 隐 马 尔 可 2 改进的 DTW 算法
,
夫 模 型 ( Artificial Neural Network-Hidden
2.1 DTW 算法原理
MarkovModel , 简称 ANN-HMM )、 深度神经网
同一个人在不同时间段对相同组词发音都可
络 - 隐马尔可夫模型( Dee pNeuralNetwork-Hid-
能存在差异。这种差异导致音强的大小、 频谱的
denMarkovModel , 简称 DNN-HMM ) 等。
偏移和音节长短每次都不完全相同 [ 21 ] 。 DTW 算
( 3 ) 词典: 给单词和发音提供 HMM 模型( 亚
法用于比较两个序列的相似程度, 或者说两个序
词) 和语言模型间关联。通常基于音素, 由专家手
列的距离。基于动态规划构建序列和序列的距离
工完成。
矩阵, 具体公式如下:
( 4 ) 语言模型: 提供这部分的先验概率, 可以
d p ( i )[ j ] =
区分相同发音时的识别结果。
ì ï ( a [ 0 ] -b [ 0 ]) 2 i=0 , j=0
( 5 ) 搜索 / 解码: 根据状态系列, 在时间状态序 ï ( a [ 0 ] -b [ j ]) 2 +d p [ 0 ][ j-1 ] i=0
í
列( Time-stateTrellis ) 中找到一个最优路径, 或 ï ( a [ i ] -b [ 0 ]) 2 +d p [ i-1 ][ 0 ] j=0
ï
者说根据声学模型输出的结果, 结合辞典、 语言模 î ( a [ i ] -b [ j ]) 2 +min ( d p [ i-1 ][ j ], d p [ i ][ j-1 ], d p [ i-1 ][ j-1 ]) i , j>0
( 1 )
型信息, 找出最有可能的识别结果。
[][]———序列 a [ 0 ,] 和b [ 0 ,] 之间
1.2 语音识别流程 式中 d pi j j j
语音识别原理: ① 首先对声音进行预处理( 预 的相似距离的平方, d pi j 就是两个时间序
[][]
加重、 分帧、 加窗和端点检测); ② 再根据人的语 列的相似距离。
音特点建立语音模型, 对输入的语音信号进行分 DTW 算 法 最 后 的 输 出 结 果 就 是 要 找 到 一
析, 并抽取所需的 MFCC 特征参数和基音周期, 条累积距 离 最 小 的 扭 曲 曲 线, 也 就 是 损 失 矩 阵
在此基础上建立 语 音 识 别 所 需 的 模 板 [ 16-17 ] 。计 的最后一行最后一列的值, 即给定了距离矩阵,
算机在识别过程中要根据语音识别的模型, 将计 如何找到 一 条 从 左 上 角 到 右 下 角 的 路 径, 使 得
算机中存放的语音模板与输入语音信号的特征进 路径经过的元素值之和最小。最优路径示意图
行比较, 根据一定的搜索和匹配策略, 找出一系列 见图 3 。