Page 116 - 电力与能源2023年第六期
P. 116
662 彭 昕,等:基于供电服务信息的数据挖掘方法
词方法效果不好;基于决策树的城市地址集分词, 力故障数据对信息挖掘工作的干扰,形成关键信
该方法通过统计城市地址集的分布特征,构建决 息数据集 [11-13] 。
策树进行地址元素提取。然而,这些分词算法均 1.1 建立信息挖掘数据集
没有考虑地址元素之间的约束关系,没有充分利 供电服务信息包含的数据众多,以故障抢修
用地址上下文信息,分词后无法解决地址中存在 信息为例,主要有通知抢修时间、恢复送电时间、
的约束关系错乱,以及从非标准地址提取标准地 故障地址、故障原因、报修内容、故障类型、用户联
址等问题。 系方式、用户抄表段等信息,为提取高频故障发生
机器学习技术的发展给地址解析问题提供了 地址与高频故障类型,供电数据提取模块主要提
新 的 解 决 方 法 ,基 于 机 器 学 习 的 条 件 随 机 场 取历史故障抢修工单中的故障地址、故障类型、用
(CRF)、双向门递归单元(BIGRU)、双向长短时 户抄表段等重要信息,构成信息挖掘数据集。
记 忆 网 络(BILSTM)等 被 用 于 对 地 址 元 素 的 识 1.2 建立关键信息数据集
别,但这些方法都没有考虑地址元素的所属类型, 由于历史供电服务信息中包含因欠费或电杆
故障等外部因素造成的非电力故障数据,给电力
解析的地址单元大多局限在省、市、县、乡 4 个等
级,没有提取规模更小的地址要素,缺乏对地址文 故障数据挖掘工作增加了额外因素和噪声数据,
因此需要根据故障类型将信息挖掘数据集中的用
本细节信息的深入挖掘与分析,无法满足电网供
户误报信息进行筛选,排除非电力故障数据对信
电服务所需的精细化地址解析 [8-10] 。
息挖掘工作的干扰,形成关键信息数据集,其主要
本文设计一种基于供电服务信息的数据挖掘
包含发生电力故障的地址、故障类型、抢修班组、
方法,包含供电数据提取模块、供电数据处理模块
用户抄表段等信息。
和供电数据特征识别模块。首先,供电数据提取
模块基于电网的供电服务信息提取出电网历史故 2 供电数据处理模块
障处理工单中的关键信息并进行筛选,排除非电
为实现高频故障地址的聚类,首先需要对故
力故障数据对信息挖掘工作的干扰,形成关键信
障地址进行解析,准确识别地址文本中的各关键
息 数 据 集 。 其 次 ,在 供 电 数 据 处 理 模 块 建 立
地址要素 [14-15] 。供电数据处理模块提取关键信息
BERT-BIGRU-CRF 模 型 对 故 障 地 址 信 息 进 行
数据集中的故障地址,建立基于 BERT-BIGRU-
处理并对特征向量进行条件约束,获得输出的地
CRF 的地址解析模型,如图 1 所示。
址标签序列。再次,供电数据特征识别模块对高
频信息进行聚类分析和可视化表征,建立地址要
素相似度聚类模型,对标注后的地址信息进行相
似度计算,聚类出发生故障的高频小区,并利用关
键信息数据集对故障高频小区发生故障的主要类
型和故障频次进行统计,建立热力图生成单元。
最 后 ,对 高 频 故 障 地 址 和 故 障 频 次 进 行 可 视 化
展示。
1 供电数据提取模块
图 1 基于 BERT-BIGRU-CRF 的地址解析模型
供电数据提取模块主要负责提取历史故障抢 该模型输入地址文本,输出地址单元标注序
修工单中的故障地址、故障类型、用户抄表段等信 列,该地址解析模型包含 3 层。
息,构成信息挖掘数据集;根据故障类型将信息挖 2.1 输入层
掘数据集中的用户误报信息进行筛选,排除非电 该 层 由 预 训 练 语 言 模 型 BERT 构 成 ,通 过

