Page 135 - 电力与能源2024年第六期
P. 135

薛陶蓓,等:公共资源数据治理在电力能源行业的应用研究                                      771

                                                                 剔除。
                1 数据治理过程
                                                                     但是并不是所有从正态分布中抽取的小样本
                    典型的数据管理系统架构通常包含以下几个                          都满足正态分布。这种情况下可以使用四分位距
                关键组成部分:数据源、数据处理层、数据存储层                           法(IQR)进行一定程度上的异常值剔除,见图 3。
                和数据服务层,如图 1 所示。                                                                          (1)
                                                                                Q IR= Q 3 − Q 1
                                                                     在式(1)中,Q 1 为第 1 四分位数,Q 3 为第 3 四
                                                                 分 位 数 。 下 限 = Q 1 − 1.5 × Q IR,上 限 = Q 3
                                                                 +1.5 × Q IR。 低 于 Q 1 − 1.5×Q IR 或 者 高 于 Q 3+
                                                                 1.5×Q IR 的数据点被视为异常值。











                             图 1 数据管理系统架构

                    在数据流转的全过程中,数据治理发挥着重
                                                                               图 3 四分位距法示意
                要的作用,它涵盖了从数据采集、处理、存储到使
                                                                     四分位距法不仅能有效反映异常值,还能反
                用的整个生命周期。数据治理不仅包括数据精
                                                                 映中间 50% 数据的离散程度。Q IR 值越小,说明
                简、转换、传输等预处理过程,也包括数据规范规
                                                                 中间的数据越集中;反之,则说明中间的数据越
                则的制定、数据质量监控与评估、数据资产管理等
                                                                 分散。
                过程。
                                                                     公共资源数据治理远不止于上述异常值、错
                    在电力行业数据采集中,通常采用 3σ 法则来
                                                                 误值的判断和清洗,还涉及根据数据标准和规范
                判断数据是否为异常值。3σ 准则是指先假设一组
                                                                 进行的一系列数据核验、分析、修正和验证等大量
                检测数据只含有随机误差,对其进行计算处理得
                                                                 工作。
                到标准偏差,然后按一定概率确定一个区间,认为
                凡是超过这个区间的误差,就不属于随机误差而                            2 数据治理在电力能源行业的应用

                是粗大误差,含有该误差的数据应予以剔除。数
                                                                    (1)数据治理能够显著提升电网运行的安全
                值分布概率如图 2 所示。
                                                                 性和可靠性。电网系统错综复杂,涉及众多数据
                                                                 和设备,通过数据整合、管理和治理,可以实时监

                                                                 控电网状态,及时发现并处理潜在的安全隐患,从
                                                                 而降低电网故障的风险。
                                                                    (2)数据治理可优化电力资源配置,对电力能
                               图 2 数值分布概率                        源行业的可持续发展产生积极影响。通过对电力
                    3σ 法则为:数值分布在(μ−σ,μ+σ)中的概率                    生成、输送、使用等各阶段数据进行实时监控和分

                为 0.682 7,数值分布在(μ−2σ,μ+2σ)中的概率                   析,能够及时发现并处理电能使用过程中的异常
                为 0.954 5,数值分布在(μ−3σ,μ+3σ)中的概率为                  情况,制定出合理的电能管理方案,从而实现资源
                0.997 3。因此,数值超出(μ−3σ,μ+3σ)范围的数                   的优化配置和高效利用。
                据,其出现的概率仅为 0.27%,为异常值并予以                            (3)数据治理可有力促进电力交易的公平、公
   130   131   132   133   134   135   136   137   138   139   140