Page 36 - 电力与能源2023年第三期
P. 36

230                    黄   根,等:基于 STM32 的异常用电行为检测算法研究

                    试验使用 STM32 数据采集装置对上海某区
                域实际 500 名电力用户进行用电数据采集,并建
                立一个用电异常数据集。该数据集中的数据存在
                大量的缺失现象,需要提前进行数据的预处理,提
                取特征数据,依据电力负荷数据结构,筛选其中能

                够被使用的数据,并对其进行编号处理。数据集
                的原始样本共有 63 541 条,经过重新整理后的可
                用数据则只剩下 10 356 条。将预处理后的数据随
                机选择其中约 20% 作为测试集,将剩余约 80% 作
                为验证集。为了保证不平衡数据集的完整性,可                                    图 2 不同模型预测绝对误差曲线对比

                以将其对模型的影响加入到随机欠采样处理中,                            电数据的模型预测绝对误差。通过对比可以明显
                并与其他几种常用的检测方法进行对比测试。经                            地看出,本文提出的基于 STM32 检测方法,其绝
                过前期处理后,获取几个带有标签的训练集,各公                           对误差基本没有超出 0.2 kWh,而其他 3 种方法的
                共数据集的详细情况如表 2 所示。                                绝对误差均大于本文方法的相应值。因此,相较
                           表 2 公共数据集样本情况                         于另外 3 种常用的检测方法,基于 STM32 的检测

                          样本数量/            正常样本    异常样本数         算法得到的用电量预测曲线波动较小,并且误差
                  数据集              不平衡率
                             条              数量/条     量/条
                                                                 也是同等数据点下的最低值。这表明本文算法在
                    A       5 263   10.34    4 415    848
                    B       4 156   11.25    3 984    172        几种方法中在检测精度上更具优越性。
                    C       325      9.37    259       66        2.3 异常用电检测算法对比测试
                    D       1 963   25.44    1 827    136
                                                                     使用经过预处理的数据进行聚类处理,在分
                    E       135     39.38    103       32
                                                                 层最近邻欠采样的运算中,可以通过部分数据直
                    如表 2 所示,通过以上训练集中的数据随机
                                                                 接运算。测试中,设置决策树的数量为 10,在数据
                生成 A,B,C,D,E 5 个数据集,其中均含有正常样
                                                                 集中随机采样 30 次,然后获取训练集在决策树中
                本与异常样本。
                                                                 的训练结果,得到算法模型。通过接受者操作特
                2.2 模型预测绝对误差对比
                                                                 征(ROC)曲线评价异常检测结果,该曲线的量化
                    绝对误差可以以相对简单的数据评估一个模
                                                                 方法如下:
                型的检测能力。在电力企业异常用电行为检测过                                           n -  n +
                                                                                             +
                                                                                                     -
                                                                                     pr
                程中,可以先使用绝对误差,对几种电力企业异常                                          ∑∑ [ f ( ) > f ( )     ]
                                                                                           d i
                                                                                                    d i
                                                                                i = 1 j = 1             (10)
                用电行为检测方法的精度进行测试。                                  D ROC ( AUC )=           2
                    绝对误差的计算公式如下:                                 式中 D ROC ( AUC )——不同分类器中ROC曲线下
                                f ae =| f '- f m |      (9)      与坐标轴围成的面积, D ROC ( AUC )值越接近 1,表示
                                      m
                                                                                     -
                                                                                         +
                式中 f ae——模型内数据的绝对误差; f '——预测                     算法的检测结果越好; n 和 n ——样本在少数类和
                                                   m
                                                                                           +
                                                                                                         -
                的 电 力 企 业 用 电 量 ; f m—— 电 力 企 业 的 实 际 用          多数类中的数量,一般情况下, n 的数量均大于n ,即
                                                                                                          ]
                                                                                                        -
                                                                                                +
                电量。                                              可以在算法中任意实现公式pr[ f ( ) > f ( ) 。
                                                                                                      d i
                                                                                              d i
                    使用式(9),可得到本文方法、相似性检索方                            分别使用不同的聚类簇数作为正常样本下的
                法、相关性与聚类自适应融合技术、概率预测方法                           聚类参数,在不同的样本点下,获取电力数据在异
                这 4 种检测方法的绝对误差曲线,如图 2 所示。                        常检测中的 ROC 曲线下与坐标轴围成的面积,对
                    在图 2 中有 4 条曲线,分别代表 0~100 数据                  比 4 种不同的算法,得到的结果如图 3 所示。
                点内 4 种不同的异常用电检测算法对电力企业用                              使用表 2 中的数据集作为检测算法的数据来
   31   32   33   34   35   36   37   38   39   40   41