Page 144 - 电力与能源2021年第一期
P. 144
1 3 8 杨 悦, 等: 用于电费结算的用户电量数据清洗与拟合方法
备故障, 还是地理位置偏远或极端气候导致远程 等规律性因素后, 呈现的用电量应保持相对平稳。
模块接收到的 4G 信号发生衰减, 均可能造成远 因此, 若用户的电能量曲线上出现疑似离群值的
程自动抄表失败。因此, 为提高用户电量计算的 数据, 可以使用格拉布斯准则( 置信区间为 95% )
准确性, 每月 25 日至月末期间, 对因现场缺陷导 对用户日常用电数据进行判别。在计算标准偏差
致采集失败的用户( 特别是高压用户及发电企业 时, 若样本数量较多, 可使用贝塞尔公式法; 若样
客户), 应立即展开故障消缺, 并在消缺现场利用 本数量较少, 应使用极差法进行计算。
移动作业终端进行数据补抄, 再通过运维闭环模 若日电量曲线上任意数据远大于额定电压 ×
块将数据回传至采集系统。若确有客观因素导致 最大电流 ×24× 系数( 三相三线为 3 , 三相四线
缺陷无法及时消除, 应确保月末五日内( 发电厂企 为 3 , 单相为 1 ) 所得值时, 可以直接判定该数据为
业客户应确保月末三日内) 至少准确采集一天的 无效数据, 并将其剔除。
用电数据, 尽可能缩小电量估算的时间间隔, 从而 实际运用过程中, 其他典型的无效值包括: 连
降低估算偏差。但是, 即便使用主站召测、 人工补 续恒定的电能示值、 连续恒定的用电量、 24 点负
抄等方式对远程自动抄表失败的用户进行统计, 荷曲线上缺失超过 2 个点的曲线数据、 计划停电
也仍然存在售电量统计的时间维度( 频率、 时间点 时常超过 12h 的负荷曲线数据等。剔除无效数
等) 与远程自动抄表不一致的问题 [ 2 ] 。因此, 本文 据所产生的空值应参照缺失值处理, 经过拟合后,
将对原始数据进行分析和筛选, 并对缺失值进行 用拟合数据来替代原始数据。
拟合, 以进一步提高估算结果的可靠性。
3 数据拟合
2 数据分析与清洗
3.1 缺失值( 含异常值被剔除后形成的缺失值)
2.1 缺失值 拟合
在日常生活中, 电能信息采集系统可能由于 为提高数据模型的可靠性, 采取删除缺失值
信号不稳定、 停电、 终端故障、 表计故障、 模块故障 和异常值的方法进行初步过滤, 此过程在提高数
以及参数设置错误等各类原因无法实现自动远程 据准确度的同时, 会使得样本量发生减少。经过
抄表 [ 3 ] 。 对福州地区 164 个小样本用户( 样本量 <30 ) 的数
在该种情况 下, 用 户 用 电 量 的 数 据 为 空 值。 据分析, 可认为简单地删除缺失值会导致标准偏
在对数据进行分析前, 需剔除全部缺失值, 待筛选 差较大, 严重影响了模型的可靠性。因此, 决定对
出有效数据后, 再对缺失值进行拟合。 缺失值和异常值进行拟合处理。
2.2 无效值 3.2 高压用户用电量拟合方法
通过电能信息采集系统收集到的数据, 有可 首先, 简单地选用样本的均值来替换缺失值
能因为档案错误、 接线错误、 设备故障以及设备更 和异常值。在用电量稳定、 空值较少且样本量大
换等原因产生无效值 [ 4 ] 。因此, 在对缺失值进行 的数据中, 该方法可以有效地测算年度及月度售
拟合前, 要先对采集到的数据进行分析, 剔除无效 电量, 但对于用电数据波动较大、 季节性明显或样
值, 以免影响拟合结果。例如, 采集系统显示某大 本数据较少的用户而言, 该方法并不适用。因此,
工业用户电能示值由9 月1 日的2000kWh 减少 为进一步优化模型, 使用条件平均值填充法, 即使
到 9 月 30 日的 120kWh 时, 应首先确认在此期 用相似样本的均值或同类特征的均值来填补缺失
间该用户是否更换过电表, 若该用户确有换表流 值。但是, 简单的选用行业平均值无法体现该用
程, 则 用 电 量 = 旧 表 底 度 -2000kWh+120 户的个体特征, 因此还需要根据该用户以往的用
kWh ; 若在此期间该用户不曾换表, 并且现场示 电数 据 与 行 业 平 均 值 的 对 比 情 况, 对 数 值 进 行
值与采集系统一致, 应结合现场接线情况分析表 调整。
计倒走原因, 并计算实际用电量; 若经核实确认数 以电压等级为 10kV 的某酒店用户 A 为例,
据有误, 但无法判断数据是否准确, 应将该数值进 该用户在 2018 年 10 月 29 日 24 时用电数据采集
行剔除, 参照缺失值处理。 失败, 因此可参照同电压等级且业务类型、 评级均
此外, 由于单一用户在剔除季节性、 工作时段 相似的酒店用户 B , C , D 的日平均电量对该用户

