Page 36 - 电力与能源2023年第三期
P. 36
230 黄 根,等:基于 STM32 的异常用电行为检测算法研究
试验使用 STM32 数据采集装置对上海某区
域实际 500 名电力用户进行用电数据采集,并建
立一个用电异常数据集。该数据集中的数据存在
大量的缺失现象,需要提前进行数据的预处理,提
取特征数据,依据电力负荷数据结构,筛选其中能
够被使用的数据,并对其进行编号处理。数据集
的原始样本共有 63 541 条,经过重新整理后的可
用数据则只剩下 10 356 条。将预处理后的数据随
机选择其中约 20% 作为测试集,将剩余约 80% 作
为验证集。为了保证不平衡数据集的完整性,可 图 2 不同模型预测绝对误差曲线对比
以将其对模型的影响加入到随机欠采样处理中, 电数据的模型预测绝对误差。通过对比可以明显
并与其他几种常用的检测方法进行对比测试。经 地看出,本文提出的基于 STM32 检测方法,其绝
过前期处理后,获取几个带有标签的训练集,各公 对误差基本没有超出 0.2 kWh,而其他 3 种方法的
共数据集的详细情况如表 2 所示。 绝对误差均大于本文方法的相应值。因此,相较
表 2 公共数据集样本情况 于另外 3 种常用的检测方法,基于 STM32 的检测
样本数量/ 正常样本 异常样本数 算法得到的用电量预测曲线波动较小,并且误差
数据集 不平衡率
条 数量/条 量/条
也是同等数据点下的最低值。这表明本文算法在
A 5 263 10.34 4 415 848
B 4 156 11.25 3 984 172 几种方法中在检测精度上更具优越性。
C 325 9.37 259 66 2.3 异常用电检测算法对比测试
D 1 963 25.44 1 827 136
使用经过预处理的数据进行聚类处理,在分
E 135 39.38 103 32
层最近邻欠采样的运算中,可以通过部分数据直
如表 2 所示,通过以上训练集中的数据随机
接运算。测试中,设置决策树的数量为 10,在数据
生成 A,B,C,D,E 5 个数据集,其中均含有正常样
集中随机采样 30 次,然后获取训练集在决策树中
本与异常样本。
的训练结果,得到算法模型。通过接受者操作特
2.2 模型预测绝对误差对比
征(ROC)曲线评价异常检测结果,该曲线的量化
绝对误差可以以相对简单的数据评估一个模
方法如下:
型的检测能力。在电力企业异常用电行为检测过 n - n +
+
-
pr
程中,可以先使用绝对误差,对几种电力企业异常 ∑∑ [ f ( ) > f ( ) ]
d i
d i
i = 1 j = 1 (10)
用电行为检测方法的精度进行测试。 D ROC ( AUC )= 2
绝对误差的计算公式如下: 式中 D ROC ( AUC )——不同分类器中ROC曲线下
f ae =| f '- f m | (9) 与坐标轴围成的面积, D ROC ( AUC )值越接近 1,表示
m
-
+
式中 f ae——模型内数据的绝对误差; f '——预测 算法的检测结果越好; n 和 n ——样本在少数类和
m
+
-
的 电 力 企 业 用 电 量 ; f m—— 电 力 企 业 的 实 际 用 多数类中的数量,一般情况下, n 的数量均大于n ,即
]
-
+
电量。 可以在算法中任意实现公式pr[ f ( ) > f ( ) 。
d i
d i
使用式(9),可得到本文方法、相似性检索方 分别使用不同的聚类簇数作为正常样本下的
法、相关性与聚类自适应融合技术、概率预测方法 聚类参数,在不同的样本点下,获取电力数据在异
这 4 种检测方法的绝对误差曲线,如图 2 所示。 常检测中的 ROC 曲线下与坐标轴围成的面积,对
在图 2 中有 4 条曲线,分别代表 0~100 数据 比 4 种不同的算法,得到的结果如图 3 所示。
点内 4 种不同的异常用电检测算法对电力企业用 使用表 2 中的数据集作为检测算法的数据来

