Page 108 - 电力与能源2024年第二期
P. 108

248              陆增洁,等:基于机器学习的电力系统操作票语音指令识别的应用研究

                知识,以便更好地识别、理解和传输。这种技术的                           用 MFCC 来提高识别的准确性,这种方法已经在
                核心在于模型识别,它能够根据预先存储的信息与                           实际应用中获得了良好的效果。
                实际测量的数据进行比较,从而得到最佳的识别结                               通过声学模拟,可以将 P(X|W)转换为可以
                果。语音识别技术因应应用场景的不同而有所不                            描述语言的 p 值,从而构造出一种新的、更加准确
                同,可以根据对说话者的需求将其分为特定人和非                           的语言表达方法。这种方法可以将语言的 p 值转

                特定人两类;识别技术可以分为多种类型,包括孤                           换为可以描述的 p 值,并且可以根据这些 p 值来构
                立词和连续语音识别、命令和小词汇量识别、大词                           造出更加准确的语言表达。GMM-HMM 作为一
                汇量识别、规范语言识别和口语识别等;还可以将                           种高效的声学模型,其优势在于它具备良好的识
                识别分为听写和自然语言速度识别等不同类型。                            别特征,它通过 HMM 的时空变换,将语音的变化
                    一般来讲,语音识别的步骤可以划分成两个                          趋势转换成更加精确的信息,并且它的隐藏状态
                部分。                                              与实际的观察值之比也很高,这样就可以解决语

                    第 1 步,从语音中抽取具有代表性的声学特                        音识别中的输入与输出的差异,使其在识别效果
                性,并将其转换成“学习”,也就是“训练”,以构建                         上 更 加 准 确 。 GMM-HMM 是 一 种 高 斯 混 合 模
                一个可以识别的基础单位的声学模型,并运用语                            型,它包含了 3 个关键参数:初始状态、状态转换
                义理论来解释其中的含义。                                     以及观察概率。这些概率取决于特征向量的大
                    第 2 步,从不同的识别系统中挑选符合需求                        小 ,并 使 用 高 斯 混 合 模 型 来 模 拟 语 音 识 别 。
                的识别算子,并利用语义理论来确定其中的各项                            GMM-HMM 模型具有优秀的语音识别性能,它

                参数,以实现最终的语音识别结果。                                 的模型架构简洁,能够高效地完成语音识别任务。
                    语音识别预处理技术涉及多个步骤,如过滤、                         尽管高斯混合模型(GMM)可能会在某些情况下
                数据转换、加载、窗口分割和端口校验等。分帧方                           忽视时序信息,但它仍能够有效地捕捉到复杂的
                法则把数据分割成若干个独立的帧,并使它们能                            上 下 文 关 系 ,从 而 提 高 其 准 确 度 。 此 外 ,由 于
                够被读取。由于数据的频率和振幅都很快,分帧                            GMM 所涉及的参数越多,其计算复杂度就越高,
                方法能够更好地捕捉数据的频率和振幅。使用加                            从而使其无法有效地处理复杂的非线性特征。

                权有限状态转换器(WFST),能够有效地将传统                              伴随深度学习的发展,新一代人工智能方法
                的语音识别和解码技术应用到音频处理中,这种                            也在持续进步,特别是在语音识别领域。研究人
                技术能够结合隐马尔科夫模型(HMM)状态、词                           员使用深层神经网络(DNN)来代替常规的 DNN-
                典和语法,从而使音频信号的识别和编码变得更                            HMM ,以更准确地预测语音识别系统的性能。
                加精确。当前,束搜索(Beam Search)算法是目前                     DNN-HMM 利用无监督学习算法,以有限波尔兹
                端到端领域最受欢迎的搜索算法之一。                                曼机(RBM)作为基础,对噪声和振动进行评价,

                    一般来说,为了实现语音识别必须从语音信                          从而估算其在满足指定的声学特性的情况下对
                号中提炼出有用的声学特性。特征提取的准确性                            RBM 的最终结果的后验概率。该算法的训练步
                是语音识别系统的关键,因此语音特征提取系统                            骤主要包括两个部分:第 1 步,对受限波尔兹曼机
                必须具备良好的稳健性和可识别性。目前语音识                            进行无监督学习,将其训练到一个具有多个参数
                别 系 统 常 用 的 声 学 特 征 有 梅 尔 频 率 倒 谱 系 数            的深度置信网络中,以便更好地评价其最终结果;
               (MFCC)、感知线性预测系数(PLP)、线性预测倒                        第 2 步 ,为 了 更 好 地 识 别 和 优 化 深 度 置 信 网 络

                谱系数(LPCC)等。MFCC 具有模拟人耳听觉系                       (DBN)的特征,我们需要在 DBN 的底层添加一层
                统的优势,它的计算简单易行,而且在低频部分具                           Softmax 层,以便对 DNN 模型进行预处理,并且通
                有出色的频率分辨率,即使在噪声环境下也能保                            过对具有特定特征的数据进行标记,采用传统的
                持良好的稳定性。目前,许多语音识别系统都使                            神经网络学习方式(如 BP)来优化 DNN 的特征。
   103   104   105   106   107   108   109   110   111   112   113