Page 144 - 电力与能源2021年第一期
P. 144

1 3 8                  杨   悦, 等: 用于电费结算的用户电量数据清洗与拟合方法

              备故障, 还是地理位置偏远或极端气候导致远程                           等规律性因素后, 呈现的用电量应保持相对平稳。
              模块接收到的 4G 信号发生衰减, 均可能造成远                         因此, 若用户的电能量曲线上出现疑似离群值的
              程自动抄表失败。因此, 为提高用户电量计算的                           数据, 可以使用格拉布斯准则( 置信区间为 95% )
              准确性, 每月 25 日至月末期间, 对因现场缺陷导                       对用户日常用电数据进行判别。在计算标准偏差
              致采集失败的用户( 特别是高压用户及发电企业                           时, 若样本数量较多, 可使用贝塞尔公式法; 若样
              客户), 应立即展开故障消缺, 并在消缺现场利用                         本数量较少, 应使用极差法进行计算。
              移动作业终端进行数据补抄, 再通过运维闭环模                               若日电量曲线上任意数据远大于额定电压 ×
              块将数据回传至采集系统。若确有客观因素导致                            最大电流 ×24× 系数( 三相三线为 3 , 三相四线
              缺陷无法及时消除, 应确保月末五日内( 发电厂企                         为 3 , 单相为 1 ) 所得值时, 可以直接判定该数据为
              业客户应确保月末三日内) 至少准确采集一天的                           无效数据, 并将其剔除。
              用电数据, 尽可能缩小电量估算的时间间隔, 从而                             实际运用过程中, 其他典型的无效值包括: 连
              降低估算偏差。但是, 即便使用主站召测、 人工补                         续恒定的电能示值、 连续恒定的用电量、 24 点负

              抄等方式对远程自动抄表失败的用户进行统计,                            荷曲线上缺失超过 2 个点的曲线数据、 计划停电
              也仍然存在售电量统计的时间维度( 频率、 时间点                         时常超过 12h 的负荷曲线数据等。剔除无效数
              等) 与远程自动抄表不一致的问题               [ 2 ] 。因此, 本文     据所产生的空值应参照缺失值处理, 经过拟合后,
              将对原始数据进行分析和筛选, 并对缺失值进行                           用拟合数据来替代原始数据。
              拟合, 以进一步提高估算结果的可靠性。
                                                              3  数据拟合
              2  数据分析与清洗
                                                              3.1  缺失值( 含异常值被剔除后形成的缺失值)
              2.1  缺失值                                         拟合
                   在日常生活中, 电能信息采集系统可能由于                            为提高数据模型的可靠性, 采取删除缺失值
              信号不稳定、 停电、 终端故障、 表计故障、 模块故障                      和异常值的方法进行初步过滤, 此过程在提高数
              以及参数设置错误等各类原因无法实现自动远程                            据准确度的同时, 会使得样本量发生减少。经过
              抄表   [ 3 ] 。                                     对福州地区 164 个小样本用户( 样本量 <30 ) 的数
                   在该种情况 下, 用 户 用 电 量 的 数 据 为 空 值。             据分析, 可认为简单地删除缺失值会导致标准偏
              在对数据进行分析前, 需剔除全部缺失值, 待筛选                         差较大, 严重影响了模型的可靠性。因此, 决定对
              出有效数据后, 再对缺失值进行拟合。                               缺失值和异常值进行拟合处理。
              2.2  无效值                                        3.2  高压用户用电量拟合方法
                   通过电能信息采集系统收集到的数据, 有可                            首先, 简单地选用样本的均值来替换缺失值
              能因为档案错误、 接线错误、 设备故障以及设备更                         和异常值。在用电量稳定、 空值较少且样本量大
              换等原因产生无效值           [ 4 ] 。因此, 在对缺失值进行           的数据中, 该方法可以有效地测算年度及月度售
              拟合前, 要先对采集到的数据进行分析, 剔除无效                         电量, 但对于用电数据波动较大、 季节性明显或样
              值, 以免影响拟合结果。例如, 采集系统显示某大                         本数据较少的用户而言, 该方法并不适用。因此,
              工业用户电能示值由9 月1 日的2000kWh 减少                       为进一步优化模型, 使用条件平均值填充法, 即使
              到 9 月 30 日的 120kWh 时, 应首先确认在此期                   用相似样本的均值或同类特征的均值来填补缺失
              间该用户是否更换过电表, 若该用户确有换表流                           值。但是, 简单的选用行业平均值无法体现该用
              程, 则 用 电 量 = 旧 表 底 度 -2000kWh+120                户的个体特征, 因此还需要根据该用户以往的用
              kWh ; 若在此期间该用户不曾换表, 并且现场示                        电数 据 与 行 业 平 均 值 的 对 比 情 况, 对 数 值 进 行
              值与采集系统一致, 应结合现场接线情况分析表                           调整。
              计倒走原因, 并计算实际用电量; 若经核实确认数                             以电压等级为 10kV 的某酒店用户 A 为例,
              据有误, 但无法判断数据是否准确, 应将该数值进                         该用户在 2018 年 10 月 29 日 24 时用电数据采集

              行剔除, 参照缺失值处理。                                    失败, 因此可参照同电压等级且业务类型、 评级均
                   此外, 由于单一用户在剔除季节性、 工作时段                      相似的酒店用户 B , C , D 的日平均电量对该用户
   139   140   141   142   143   144   145   146   147   148   149