Page 135 - 电力与能源2024年第六期
P. 135
薛陶蓓,等:公共资源数据治理在电力能源行业的应用研究 771
剔除。
1 数据治理过程
但是并不是所有从正态分布中抽取的小样本
典型的数据管理系统架构通常包含以下几个 都满足正态分布。这种情况下可以使用四分位距
关键组成部分:数据源、数据处理层、数据存储层 法(IQR)进行一定程度上的异常值剔除,见图 3。
和数据服务层,如图 1 所示。 (1)
Q IR= Q 3 − Q 1
在式(1)中,Q 1 为第 1 四分位数,Q 3 为第 3 四
分 位 数 。 下 限 = Q 1 − 1.5 × Q IR,上 限 = Q 3
+1.5 × Q IR。 低 于 Q 1 − 1.5×Q IR 或 者 高 于 Q 3+
1.5×Q IR 的数据点被视为异常值。
图 1 数据管理系统架构
在数据流转的全过程中,数据治理发挥着重
图 3 四分位距法示意
要的作用,它涵盖了从数据采集、处理、存储到使
四分位距法不仅能有效反映异常值,还能反
用的整个生命周期。数据治理不仅包括数据精
映中间 50% 数据的离散程度。Q IR 值越小,说明
简、转换、传输等预处理过程,也包括数据规范规
中间的数据越集中;反之,则说明中间的数据越
则的制定、数据质量监控与评估、数据资产管理等
分散。
过程。
公共资源数据治理远不止于上述异常值、错
在电力行业数据采集中,通常采用 3σ 法则来
误值的判断和清洗,还涉及根据数据标准和规范
判断数据是否为异常值。3σ 准则是指先假设一组
进行的一系列数据核验、分析、修正和验证等大量
检测数据只含有随机误差,对其进行计算处理得
工作。
到标准偏差,然后按一定概率确定一个区间,认为
凡是超过这个区间的误差,就不属于随机误差而 2 数据治理在电力能源行业的应用
是粗大误差,含有该误差的数据应予以剔除。数
(1)数据治理能够显著提升电网运行的安全
值分布概率如图 2 所示。
性和可靠性。电网系统错综复杂,涉及众多数据
和设备,通过数据整合、管理和治理,可以实时监
控电网状态,及时发现并处理潜在的安全隐患,从
而降低电网故障的风险。
(2)数据治理可优化电力资源配置,对电力能
图 2 数值分布概率 源行业的可持续发展产生积极影响。通过对电力
3σ 法则为:数值分布在(μ−σ,μ+σ)中的概率 生成、输送、使用等各阶段数据进行实时监控和分
为 0.682 7,数值分布在(μ−2σ,μ+2σ)中的概率 析,能够及时发现并处理电能使用过程中的异常
为 0.954 5,数值分布在(μ−3σ,μ+3σ)中的概率为 情况,制定出合理的电能管理方案,从而实现资源
0.997 3。因此,数值超出(μ−3σ,μ+3σ)范围的数 的优化配置和高效利用。
据,其出现的概率仅为 0.27%,为异常值并予以 (3)数据治理可有力促进电力交易的公平、公

