Page 118 - 电力与能源2023年第六期
P. 118
664 彭 昕,等:基于供电服务信息的数据挖掘方法
址进行标注。 (4)对地址语义信息的余弦相似度与地址要
素字符距离加权相似度进行相加,并归一化,得出
3 供电数据特征识别模块
最终的地址相似度值 ASim ( s,t):
3.1 地址向量特征提取 Sim1 + Sim2
t
ASim ( s,) = (12)
供电数据特征识别模块利用 BIGRU 层对地 2
址向量进行特征提取,经过以下步骤将静态地址 (5)设定地址相似度阈值,将地址相似度大于
向量序列转换为可以体现上下文关系的动态地址 阈值的地址序列划分为同一类。
向量序列。 4 基于供电服务信息的数据挖掘方法
(1)按 照 正 向 顺 序 将 字 向 量 序 列 送 入 前 向
本文设计了一种基于供电服务信息的数据挖
GRU 层,将输出的隐藏状态作为每个单字的前向
掘方法,包含供电数据提取模块、供电数据处理模
GRU 编码;同时,按照反向顺序将字向量序列送
块和供电数据特征识别模块。供电数据提取模块
入后向 GRU 层,将输出的隐藏状态作为每个单字
基于电网的供电服务信息提取出电网历史故障处
的后向 GRU 编码。
理 工 单 中 的 关 键 信 息 ;供 电 数 据 处 理 模 块 建 立
(2)将 每 个 单 字 的 前 向 GRU 编 码 和 后 向
BERT-BIGRU-CRF 模 型 对 故 障 地 址 信 息 进 行
GRU 编 码 拼 接 在 一 起 ,获 取 每 个 单 字 的 双 向
处理;供电数据特征识别模块对高频信息进行聚
GRU 编码。
类分析和可视化表征。3 个模块的具体运行步骤
(3)将每个单字的双向 GRU 编码按序排列,
如下。
得到输入文本的动态字向量序列。
(1)供电数据提取模块提取历史故障抢修工
3.2 地址要素相似度聚类模型
单中的故障地址、故障类型、用户抄表段等信息,
供电数据特征识别模块建立地址要素相似度
形成信息挖掘数据集。
聚类模型,对标注后的地址信息进行相似度计算,
(2)根据故障类型将信息挖掘数据集中的用
聚类出发生故障的高频小区,具体特征识别过程
户误报信息进行筛选,排除非电力故障数据对信
如下。
息挖掘工作的干扰,形成关键信息数据集。
(1)首先需要输入两个解析后的地址要素字
(3)供电数据处理模块提取关键信息数据集
符串 s =[ P 1,P 2,⋯,P m ]和 t =[ P 1,P 2,⋯,P m ]。
中的故障地址,建立基于 BERT-BIGRU-CRF 的
(2)计算两个地址中相似层级地址要素的相
地址解析模型。
似度数值:
(4)将故障地址作为输入序列输入 BERT 层
4 k
t
Sim1( s,) = ∑ W i∑ P ijW ij (10) 进行预训练获得地址字词上下文相关的信息,将
i = 1 j = 1
地址离散信息转变为用词向量表示。
式中 W i——地址一级矩阵; P ij——地址要素二
(5)将 BERT 层 获 取 的 地 址 词 向 量 输 入
级 矩 阵 ; W ij—— 地 址 要 素 之 间 计 算 的 字 符 相
BIGRU 层进行特征提取,随机初始化该网络的参
似度。
数,然后对地址信息进行序列特征提取。
(3)计算两个地址语义信息的余弦相似度:
(6)将 入 BIGRU 层 训 练 后 的 特 征 向 量 输 入
n
∑( v i × w i ) CRF 层,对特征向量进行条件约束,获得输出的
t
Sim2( s,) = cos(v,w) = i = 1
n n 地址标签序列。
2 2
∑( ) × ∑( ) (7)供电数据特征识别模块建立地址要素相
w i
v i
i = 1 i = 1
(11) 似度聚类模型,对标注后的地址信息进行相似度
式中 v i,w i——s 和 t 通过 BERT 模型获得的地 计算,聚类出发生故障的高频小区。
址语义矩阵。 (8)利用关键信息数据集对故障高频小区发

