Page 118 - 电力与能源2023年第六期
P. 118

664                       彭   昕,等:基于供电服务信息的数据挖掘方法

                址进行标注。                                              (4)对地址语义信息的余弦相似度与地址要
                                                                 素字符距离加权相似度进行相加,并归一化,得出
                3 供电数据特征识别模块
                                                                 最终的地址相似度值 ASim ( s,t):
                3.1 地址向量特征提取                                                           Sim1 + Sim2
                                                                                  t
                                                                          ASim ( s,) =                  (12)
                    供电数据特征识别模块利用 BIGRU 层对地                                                  2
                址向量进行特征提取,经过以下步骤将静态地址                               (5)设定地址相似度阈值,将地址相似度大于
                向量序列转换为可以体现上下文关系的动态地址                            阈值的地址序列划分为同一类。
                向量序列。                                            4 基于供电服务信息的数据挖掘方法

                    (1)按 照 正 向 顺 序 将 字 向 量 序 列 送 入 前 向
                                                                     本文设计了一种基于供电服务信息的数据挖
                GRU 层,将输出的隐藏状态作为每个单字的前向
                                                                 掘方法,包含供电数据提取模块、供电数据处理模
                GRU 编码;同时,按照反向顺序将字向量序列送
                                                                 块和供电数据特征识别模块。供电数据提取模块
                入后向 GRU 层,将输出的隐藏状态作为每个单字
                                                                 基于电网的供电服务信息提取出电网历史故障处
                的后向 GRU 编码。
                                                                 理 工 单 中 的 关 键 信 息 ;供 电 数 据 处 理 模 块 建 立
                    (2)将 每 个 单 字 的 前 向 GRU 编 码 和 后 向
                                                                 BERT-BIGRU-CRF 模 型 对 故 障 地 址 信 息 进 行
                GRU 编 码 拼 接 在 一 起 ,获 取 每 个 单 字 的 双 向
                                                                 处理;供电数据特征识别模块对高频信息进行聚
                GRU 编码。
                                                                 类分析和可视化表征。3 个模块的具体运行步骤
                    (3)将每个单字的双向 GRU 编码按序排列,
                                                                 如下。
                得到输入文本的动态字向量序列。
                                                                    (1)供电数据提取模块提取历史故障抢修工
                3.2 地址要素相似度聚类模型
                                                                 单中的故障地址、故障类型、用户抄表段等信息,
                    供电数据特征识别模块建立地址要素相似度
                                                                 形成信息挖掘数据集。
                聚类模型,对标注后的地址信息进行相似度计算,
                                                                    (2)根据故障类型将信息挖掘数据集中的用
                聚类出发生故障的高频小区,具体特征识别过程
                                                                 户误报信息进行筛选,排除非电力故障数据对信
                如下。
                                                                 息挖掘工作的干扰,形成关键信息数据集。
                    (1)首先需要输入两个解析后的地址要素字
                                                                    (3)供电数据处理模块提取关键信息数据集
                符串 s =[ P 1,P 2,⋯,P m ]和 t =[ P 1,P 2,⋯,P m ]。
                                                                 中的故障地址,建立基于 BERT-BIGRU-CRF 的
                    (2)计算两个地址中相似层级地址要素的相
                                                                 地址解析模型。
                似度数值:
                                                                    (4)将故障地址作为输入序列输入 BERT 层
                                      4     k
                                 t
                          Sim1( s,) = ∑ W i∑  P ijW ij  (10)     进行预训练获得地址字词上下文相关的信息,将
                                      i = 1  j = 1
                                                                 地址离散信息转变为用词向量表示。
                式中  W i——地址一级矩阵; P ij——地址要素二
                                                                    (5)将 BERT 层 获 取 的 地 址 词 向 量 输 入
                级 矩 阵 ; W ij—— 地 址 要 素 之 间 计 算 的 字 符 相
                                                                 BIGRU 层进行特征提取,随机初始化该网络的参
                似度。
                                                                 数,然后对地址信息进行序列特征提取。
                    (3)计算两个地址语义信息的余弦相似度:
                                                                    (6)将 入 BIGRU 层 训 练 后 的 特 征 向 量 输 入
                                             n
                                            ∑( v i × w i )       CRF 层,对特征向量进行条件约束,获得输出的
                        t
                Sim2( s,) = cos(v,w) =      i = 1
                                          n          n           地址标签序列。
                                               2           2
                                         ∑( ) ×     ∑( )            (7)供电数据特征识别模块建立地址要素相
                                                        w i
                                            v i
                                         i = 1      i = 1
                                                       (11)      似度聚类模型,对标注后的地址信息进行相似度
                式中  v i,w i——s 和 t 通过 BERT 模型获得的地                计算,聚类出发生故障的高频小区。
                址语义矩阵。                                              (8)利用关键信息数据集对故障高频小区发
   113   114   115   116   117   118   119   120   121   122   123