Page 116 - 电力与能源2023年第六期
P. 116

662                       彭   昕,等:基于供电服务信息的数据挖掘方法

                词方法效果不好;基于决策树的城市地址集分词,                           力故障数据对信息挖掘工作的干扰,形成关键信
                该方法通过统计城市地址集的分布特征,构建决                            息数据集   [11-13] 。
                策树进行地址元素提取。然而,这些分词算法均                            1.1 建立信息挖掘数据集
                没有考虑地址元素之间的约束关系,没有充分利                                供电服务信息包含的数据众多,以故障抢修
                用地址上下文信息,分词后无法解决地址中存在                            信息为例,主要有通知抢修时间、恢复送电时间、

                的约束关系错乱,以及从非标准地址提取标准地                            故障地址、故障原因、报修内容、故障类型、用户联
                址等问题。                                            系方式、用户抄表段等信息,为提取高频故障发生
                    机器学习技术的发展给地址解析问题提供了                          地址与高频故障类型,供电数据提取模块主要提
                新 的 解 决 方 法 ,基 于 机 器 学 习 的 条 件 随 机 场             取历史故障抢修工单中的故障地址、故障类型、用
               (CRF)、双向门递归单元(BIGRU)、双向长短时                        户抄表段等重要信息,构成信息挖掘数据集。

                记 忆 网 络(BILSTM)等 被 用 于 对 地 址 元 素 的 识             1.2 建立关键信息数据集
                别,但这些方法都没有考虑地址元素的所属类型,                               由于历史供电服务信息中包含因欠费或电杆
                                                                 故障等外部因素造成的非电力故障数据,给电力
                解析的地址单元大多局限在省、市、县、乡 4 个等
                级,没有提取规模更小的地址要素,缺乏对地址文                           故障数据挖掘工作增加了额外因素和噪声数据,
                                                                 因此需要根据故障类型将信息挖掘数据集中的用
                本细节信息的深入挖掘与分析,无法满足电网供
                                                                 户误报信息进行筛选,排除非电力故障数据对信
                电服务所需的精细化地址解析              [8-10] 。
                                                                 息挖掘工作的干扰,形成关键信息数据集,其主要
                    本文设计一种基于供电服务信息的数据挖掘
                                                                 包含发生电力故障的地址、故障类型、抢修班组、
                方法,包含供电数据提取模块、供电数据处理模块
                                                                 用户抄表段等信息。
                和供电数据特征识别模块。首先,供电数据提取
                模块基于电网的供电服务信息提取出电网历史故                            2 供电数据处理模块
                障处理工单中的关键信息并进行筛选,排除非电
                                                                     为实现高频故障地址的聚类,首先需要对故
                力故障数据对信息挖掘工作的干扰,形成关键信
                                                                 障地址进行解析,准确识别地址文本中的各关键
                息 数 据 集 。 其 次 ,在 供 电 数 据 处 理 模 块 建 立
                                                                 地址要素    [14-15] 。供电数据处理模块提取关键信息
                BERT-BIGRU-CRF 模 型 对 故 障 地 址 信 息 进 行
                                                                 数据集中的故障地址,建立基于 BERT-BIGRU-
                处理并对特征向量进行条件约束,获得输出的地
                                                                 CRF 的地址解析模型,如图 1 所示。
                址标签序列。再次,供电数据特征识别模块对高
                频信息进行聚类分析和可视化表征,建立地址要
                素相似度聚类模型,对标注后的地址信息进行相

                似度计算,聚类出发生故障的高频小区,并利用关
                键信息数据集对故障高频小区发生故障的主要类
                型和故障频次进行统计,建立热力图生成单元。
                最 后 ,对 高 频 故 障 地 址 和 故 障 频 次 进 行 可 视 化
                展示。

                1 供电数据提取模块
                                                                      图 1 基于 BERT-BIGRU-CRF 的地址解析模型
                    供电数据提取模块主要负责提取历史故障抢                              该模型输入地址文本,输出地址单元标注序
                修工单中的故障地址、故障类型、用户抄表段等信                           列,该地址解析模型包含 3 层。
                息,构成信息挖掘数据集;根据故障类型将信息挖                           2.1 输入层
                掘数据集中的用户误报信息进行筛选,排除非电                                该 层 由 预 训 练 语 言 模 型 BERT 构 成 ,通 过
   111   112   113   114   115   116   117   118   119   120   121