Page 46 - 电力与能源2022年第五期
P. 46

4 0 8            彭   昕, 等: 基于密度的聚类算法与改进拉依达准则的 95598 工单处理方法

              常点, 基本技术路线如图 2 所示。计算抄表段中
              心坐标不易受离群异常点影响, 剔除异常点后也
              有利于提升下一步先计算抄表段中心再识别异常
              点的改进拉依达准则算法的鲁棒性。











                                                                          图 4 K-Means算法聚类示意图
                                                              4  改进拉依达准则

                                                                   DBSCAN 无法识别出处于聚集区域的异常
                                                               点, 可进一步利用工单信息中的抄表段属性。由
                                                               于同一抄表段下地理位置相近, 若某一故障地址
                                                               过度偏离该抄表段中心地址, 此故障地址往往记
                                                               录错误, 可利用改进拉依达准则计算偏离阈值。
                          图 2 DBSCAN 算法技术路线                    拉依达准则能识别出样本数据值异常的情况, 即
                   为进一步说明 DBSCAN 的优势, 采用经典的                    使该错误地址仍位于聚集区, 但经纬度坐标为真
              笑脸散点图进行说明, 不同的类别利用不同的颜                           实地理位置, 不能直接认为较大或较小的坐标值
              色表示, 其中 DBSCAN 算法聚类示意图如图3 所                      即为异常点, 对拉依达准则进行改进筛选过度偏
              示, K-Means算法聚类示意图如图 4 所示。                        离抄表段中心的地址:
                                                                          j
                                                                  ì X j =  x di - μ di
                                                                  ï
                                                                  ï
                                                                  í        σ d                          ( 4 )
                                                                  ï ï
                                                                  î x di =  ( x ln g -x c _ ln g )  + x lat-x c _ lat )
                                                                                   j
                                                                             j
                                                                    j
                                                                                                  j
                                                                                            j
                                                                                       2
                                                                                                     2
                                                                                          (
                                                                   由式( 4 ) 可知, 待检测值并不是经纬度坐标,
                                                               而是其与抄表段中心的距离, 从而避免了将经纬
                                                               度坐标值较大( 或较小) 的正常地址误判。其中:
                                                                  为第 j 个坐标的判别值; x di 为待检测坐标值与
                                                                                        j
                                                              X j
                                                                                           j
                                                               抄表段中心距离的差值; 为x di 的平均值; σ d 为
                                                                                    μ di
                                                                                                     j
                                                                j          j  为第 j 个坐标的经度值; x lat 为第
                                                              x di 的标准差; x ln g
                                                                                 j   为第 j 个坐标的抄表段
                         图 3 DBSCAN 算法聚类示意图                   j 个坐标的纬度值; x c _ ln g
                   由图 3 和图 4 可知, 对于相对而言较容易聚                    中心坐标的经度; x c _ lat 为第 j 个坐标的抄表段中
                                                                                j
              类的笑脸的眼睛与嘴巴部分, 两种算法都能有较                           心坐标的纬度。
              好的分辨能力。在实际情况中, 用户聚集区的形                               若当前待检测坐标为异常坐标, 则利用抄表
              状往往并非明显呈一个可被 K-Means 算法聚类                        段中心替换, 技术路线如图 5 所示。
              中心的近圆形, 且各聚集区往往也不会有较大的                               为进一步说明改进拉依达准则的优势, 采用
              间隔, 这使得 K-Means的鲁棒性非常差, 多次聚                      标准正态分布示意图表示, 如图 6 所示。
              类结果往往不一致, 对于复杂形状甚至无法聚类,                              由图 6 可知, 偏离数据均值越大的数据出现
              例如笑脸中包围中心的外围圆形。 DBSCAN 则                         的概率越小, 当偏离均值过大时, 往往可将其视为
              很好地解决了此类问题, 仍能将笑脸外围的圆形                           异常值, 一般取置信度为 0.95 。本文中的判别对
              聚为一类。                                            象为经纬度, 是实际地理位置的坐标值, 不能认为
   41   42   43   44   45   46   47   48   49   50   51