Page 117 - 电力与能源2023年第六期
P. 117
彭 昕,等:基于供电服务信息的数据挖掘方法 663
BERT 将文本表示的地址字符初始化,将文本信
息映射到实数向量空间,将地址离散信息转化为
用词向量表示。BERT 模型将文本中的每个字符
输入到双向的 Transformer 编码器中,根据其内部
的自注意力机制(Self-attention)获得融合上下文
信息的地址字符向量。计算公式如下:
QK T
attention ( Q,K,V )= softmax( )V (1)
d k
式中 Q——查询向量;K——键向量;V——值
向量; d k——输入向量维度。 图 2 BIGRU 网络结构
为捕捉多个维度的信息,BERT 采用多头注
词的位置记为 j,各标记序列记为 L,则标记序列
意力机制,在多个投影空间提取不同的交互信息,
在句子中的得分:
然后将其拼接在一起: m n
j
l
l
MultiHead(Q,K,V) = Concat(head 1,⋯,head h) score( L| S) = ∑∑ λ i f i( S,, j, j - 1 ) (8)
i = 1 j = 1
(2) 式中 score( L| S)——各标记序列在每个句子中
K
Q
V
head = attention ( QW i ,KW i ,VW i ) (3)
的得分; l j——当前词的标记;l j - 1——上一词的标
式 中 head i—— 第 i 个 空 间 提 取 的 交 互 信 息 ;
记; m——句子长度;n——各标记序列对应的特
MultiHead——多头交互信息。
征数。
2.2 表示层
将各标记序列在每个句子中的得分值归一化
该层由 BIGRU 网络构成,将 BERT 输出的词
转化为概率,归一化公式:
向量按正向顺序输入前向 GRU 层,同时按反向顺
exp[ score( L| S ] )
序输入后向 GRU 层,然后将前向和后向编码进行
P ( L| S) = (9)
n
拼接,得到输入地址词向量的特征表示,BIGRU ∑ exp[ score( L| S ] )
网络结构如图 2 所示,其计算方式如下: n j = 1
] )
z t = σ (W z ⋅[h t - 1,x t]) (4) 式中 ∑ exp[ score( L| S ——所有标注序列之
j = 1
r t = σ (W r ⋅[h t - 1,x t]) (5) 和; P ( L| S)——归一化后的概率。
h t = tanh(W ⋅[h t - 1,x t]) (6)
͂
输出的概率值最大的 L 为最终的标记序列。
͂
2.4 地址单元符号
h t =(1 - z t) × h t - 1 + z t × h t (7)
式 中 σ——Sig mod 函 数 ; [, ]—— 两 个 向 量 拼 本 文 基 于 BERT-BIGRU-CRF 地 址 解 析 模
接; x t——时刻 t 的输入向量; h t - 1——时刻 t - 1 型的输出地址单元均由一个或多个单字组成。
͂
的隐藏状态;h t——时刻 t 的临时隐藏状态;h t—— 2.5 具体过程
时刻 t 的隐藏状态; z t——更新门,用于控制隐藏 (1)输入故障地址数据,通过 BERT 编码器得
͂
状态 h t - 1 和 h t 流入 h t 的比例;r t——重置门,用于 到地址数据的向量表示 A。
控 制 隐 藏 状 态 h t - 1 流 入 h t 的 数 量 ;W z,W r 和 W (2)将地址向量 A 输入到具有 2 个相反方向
͂
——计算 z t、 r t 和 h t 时的权重阵。 的 GRU 构成的 BIGRU 网络中,提取地址字符间
2.3 标签解码层 潜在的语义关联特征。
本层由 CRF 模型构成,输入为 BIGRU 层训 (3)CRF 模块综合输出的上下文特征向量,
练后的特征向量,将第 i 个向量的特征记为 f i,将 f i 进行全局归一化处理,计算地址解析结果中每一
的特征权重值记为 λ i,将每个句子记为 S,句子中 个字符的类别概率值,并以概率最大为指标对地

