Page 45 - 电力与能源2022年第五期
P. 45

彭   昕, 等: 基于密度的聚类算法与改进拉依达准则的 95598 工单处理方法                            4 7
                                                                                                      0
              ( DBSCAN ) 识别出脱离用户聚集区的异常点, 利                     点较实际地址相差过大。
              用改进拉依达准则识 别位于用户聚集区的异常                                在计算抄表段中心坐标时, 应不能包括待判
              点, 对于识别出的异常点均利用抄表段中心坐标                           断坐标值, 公式如下:
              替换。为方便工作人员进行分析, 将所有故障信                                               1
                                                                            C i =      ∑ x i            ( 1 )
              息在地图上进行可视化处理, 输出故障热力图。                                              n-1 i ∈A i
                                                                        ———第 i 个 坐 标 的 抄 表 段 中 心 坐 标;
                                                               式中  C i
              1  故障地址纠正
                                                              A i ———不包 含 待 判 断 坐 标 值 的 集 合; x i   ———第i
                  95598 客服人员在接听用户来电时, 可能由                      个坐标值。
              于多种因素导致部分地址不准确, 大幅偏离实际                               由式( 1 ) 可知, 由于计算抄表段中心坐标排除
              地址, 海量数据下逐个回访确认耗时耗力, 效率低                         自身, 因此即使抄表段相同, 计算出的抄表段中心
              下。为不影响抢修人员前往现场抢修, 可将错误                           也可能不同。
              地址修正为实际地址周边区域, 而同抄表段往往                          3 DBSCAN 异常检测算法
              代表着地理位置相近, 因此可利用抄表段中心地
                                                                   故障地址常为居民聚集区或工业聚集区, 转
              址替换错误地址。
                   为增强中文地址的可处理性, 将其转化为经                        换为经纬度坐标同样具备此类特性, 脱离聚集区
              纬度坐标进行分析, 若无法转换, 说明待转换地址                         域的离群点往往为记录错误的地址, 且由于用户
              缺失部分信息或有较多不规范的俗称, 可将无法                           聚集区域的复杂性, 某个地区聚集区域的形状、 数
              转换的地址记录下来 并利用抄表段中心坐标替                            量是难以获取的, 因此异常检测算法必须能适应
              换, 其基本技术路线如图 1 所示。                               各种不同的聚集区域形状, 根据数据情况自适应
                                                               不同数量的聚集区域, DBSCAN 能有效检测离群
                                                               点  [ 2-3 ] , 并且 DBSCAN 划分具有足够密度的数据
                                                               区域为簇, 与 K-Means等算法比较, DBSCAN 能
                                                               处理 各 种 形 状 的 数 据 区 域, 也 不 需 要 指 定 聚 类
                                                               个数。
                                                                   与 K-Means 算 法 相 比, DBSCAN 更 适 合 用
                                                               于异常检测, DBSCAN 具体计算流程如下。
                                                                   ( 1 ) 定义邻域半径ε 、 邻域半径中点的最小数
                                                               目 min _ sam p les 。
                                                                   ( 2 ) 随机初始化一个点 x i 若该点为核心点,
                                                                                         ,
                                                               则该点邻 域 半 径 内 应 包 含 至 少 min _ sam p les 个
                                                               点, 即:
                                                                            ( )
                                                                          N ε x i ≥ min _ sam p les     ( 2 )
                                                                   若该点不满足式( 2 ), 则该点为边界点, 重新
                                                               初始化一个点, 边界点邻域内:
                                                                            ( )
                                                                          N ε x i ≤ min _ sam p les     ( 3 )
                            图 1  地理编码技术路线
                                                                   ( 3 ) 初始化第一点后, 逐个判断其邻域内的点
              2  抄表段中心坐标                                       是否为核心点, 若为核心点, 仍逐个判断其邻域内
                                                               的点是否为核心点, 直到处理完所有的点。
                   通常情况下, 同抄表段下有多个故障地址, 而
                                                                   其中, 异常点为既不是核心点也不是边界点
              同一抄表段往往代表着地理位置相近, 可以利用
                                                               的坐标点。
              抄表段中心地址来替换掉错误地址, 并且即使算
                                                                   由 DBSCAN 原理可知, 其仅能识别出脱离聚
              法将正常坐标点误判为异常坐标点。由于采用地
                                                               集区的离群异常点, 并且由于 DBSCAN 是先确定
              址相近的抄表段坐标中心, 也不会使得误判坐标
                                                               异常点再利用排除异常点后的抄表段中心替换异
   40   41   42   43   44   45   46   47   48   49   50