Page 117 - 电力与能源2023年第六期
P. 117

彭   昕,等:基于供电服务信息的数据挖掘方法                                     663

                BERT 将文本表示的地址字符初始化,将文本信
                息映射到实数向量空间,将地址离散信息转化为
                用词向量表示。BERT 模型将文本中的每个字符
                输入到双向的 Transformer 编码器中,根据其内部
                的自注意力机制(Self-attention)获得融合上下文
                信息的地址字符向量。计算公式如下:
                                                QK  T
                     attention ( Q,K,V )= softmax(   )V (1)
                                                  d k
                式中  Q——查询向量;K——键向量;V——值
                向量; d k——输入向量维度。                                              图 2 BIGRU 网络结构
                    为捕捉多个维度的信息,BERT 采用多头注
                                                                 词的位置记为 j,各标记序列记为 L,则标记序列
                意力机制,在多个投影空间提取不同的交互信息,
                                                                 在句子中的得分:
                然后将其拼接在一起:                                                          m  n
                                                                                               j
                                                                                                 l
                                                                                                   l
                 MultiHead(Q,K,V) = Concat(head 1,⋯,head h)           score( L| S) = ∑∑  λ i f i( S,, j, j - 1 ) (8)
                                                                                   i = 1 j = 1
                                                        (2)      式中  score( L| S)——各标记序列在每个句子中
                                               K
                                         Q
                                                     V
                     head = attention ( QW i ,KW i ,VW i ) (3)
                                                                 的得分; l j——当前词的标记;l j - 1——上一词的标
                式 中  head i—— 第 i 个 空 间 提 取 的 交 互 信 息 ;
                                                                 记; m——句子长度;n——各标记序列对应的特
                MultiHead——多头交互信息。
                                                                 征数。
                2.2 表示层
                                                                     将各标记序列在每个句子中的得分值归一化
                    该层由 BIGRU 网络构成,将 BERT 输出的词
                                                                 转化为概率,归一化公式:
                向量按正向顺序输入前向 GRU 层,同时按反向顺
                                                                                    exp[ score( L| S  ] )
                序输入后向 GRU 层,然后将前向和后向编码进行
                                                                        P ( L| S) =                      (9)
                                                                                    n
                拼接,得到输入地址词向量的特征表示,BIGRU                                            ∑ exp[ score( L| S  ] )
                网络结构如图 2 所示,其计算方式如下:                                    n          j = 1
                                                                                        ] )
                             z t = σ (W z ⋅[h t - 1,x t])  (4)   式中    ∑  exp[ score( L| S ——所有标注序列之
                                                                       j = 1
                             r t = σ (W r ⋅[h t - 1,x t])  (5)   和; P ( L| S)——归一化后的概率。
                           h t = tanh(W ⋅[h t - 1,x t])  (6)
                            ͂
                                                                     输出的概率值最大的 L 为最终的标记序列。
                                                  ͂
                                                                 2.4 地址单元符号
                         h t =(1 - z t) × h t - 1 + z t × h t  (7)
                式 中  σ——Sig mod 函 数 ; [, ]—— 两 个 向 量 拼               本 文 基 于 BERT-BIGRU-CRF 地 址 解 析 模
                接; x t——时刻 t 的输入向量; h t - 1——时刻 t - 1            型的输出地址单元均由一个或多个单字组成。
                            ͂
                的隐藏状态;h t——时刻 t 的临时隐藏状态;h t——                    2.5 具体过程
                时刻 t 的隐藏状态; z t——更新门,用于控制隐藏                         (1)输入故障地址数据,通过 BERT 编码器得
                            ͂
                状态 h t - 1 和 h t 流入 h t 的比例;r t——重置门,用于          到地址数据的向量表示 A。
                控 制 隐 藏 状 态 h t - 1 流 入 h t 的 数 量 ;W z,W r 和 W      (2)将地址向量 A 输入到具有 2 个相反方向
                                       ͂
                ——计算 z t、 r t 和 h t 时的权重阵。                       的 GRU 构成的 BIGRU 网络中,提取地址字符间
                2.3 标签解码层                                        潜在的语义关联特征。
                    本层由 CRF 模型构成,输入为 BIGRU 层训                       (3)CRF 模块综合输出的上下文特征向量,
                练后的特征向量,将第 i 个向量的特征记为 f i,将 f i                  进行全局归一化处理,计算地址解析结果中每一
                的特征权重值记为 λ i,将每个句子记为 S,句子中                       个字符的类别概率值,并以概率最大为指标对地
   112   113   114   115   116   117   118   119   120   121   122