Page 48 - 电力与能源2022年第五期
P. 48

4 1 0            彭   昕, 等: 基于密度的聚类算法与改进拉依达准则的 95598 工单处理方法

              模型进行分析。
              6.1  无法转换地址分析
                   提取工单数据中的故障地址利用 P y thon 内
              Re q uests库对地理编码工具进行请求, 判断返回
              状态值是否显示转换成功: 若成功, 则提取返回值
              中的经纬度坐标值; 若失败, 则记录失败信息在工

              单信息中的位置以及地址。
                   利用地理 编 码 工 具 记 录 的 错 误 信 息 如 表 1
              所示。                                                          图 9 DBSCAN 算法处理后
                           表 1  地理编码错误信息                       集区域, 经 DBSCAN 处理后, 未被识别为异常的
                  错误位置                  错误地址                   坐标点组成的形状与嘉定区形状基本一致, 说明
                   2782     ×× 镇 ×× 公路 714 号( 商业用房) 686 号 -5  DBSCAN 算法能有效处理离群点。由于并非所
                   12753            ×× 街 152 号 204 室           有异常点均具备抄表段信息, 部分异常坐标点不
                   12867        上海市 ×× 农民自然宅 E 区 1 号
                                                               能利用抄表段中心坐标替代, 因此图 9 中仍然存
                   由表 1 可知, 地理编码工具返回值为 0 即无
                                                               在部分离群点, 存在抄表段信息的异常坐标点已
              法定位的地址数量不多, 且均是缺乏部分信息或
                                                               被抄表段中心坐标替换, 因此图 8 中的离群点少
              是不规范的俗称导致编码工具无法识别其经纬度
                                                               于图 9 中的离群点。
              坐标, 因此地理编码工具仅能初步筛选存在较明
                                                              6.3  改进拉依达准则分析
              显问题的地址。
                                                                   由于抄表段相同往往代表地理位置相近, 若某
              6.2 DBSCAN 算法分析
                                                               地址过度偏离其抄表段中心坐标, 则说明其地址记
                   由表 1 可知, 故障地址经地理编码工具分析
                                                               录存在问题, 过度偏离的阈值由改进拉依达准则确
              后仅能筛选出有较明 显问题导致无法定位的地
                                                               定, 即先计算抄表段中心坐标再计算识别阈值。
              址, 无法识别记录错误但无明显问题的地址, 即地
                                                                   改进拉依达准则处理前聚类散点图如图 10
              理编码成功后仍存在大幅偏离实际地址的错误地
                                                               所示, 将异常坐标点利用抄表段中心坐标替换后
              址, 为识别出脱离聚集区域的离群异常点, 采用
                                                               生成的散点图如图 11 所示。
              DBSCAN 算法。
                                                                   图 10 和图 11 中, 横坐标ln g 为经度, 纵坐标
                  DBSCAN 分析聚类散点图如图 8 所示, 利用
              抄表段中心替换异常坐标后重新生成的散点图如                           lat为纬度, 图 10 的红色标记点即为利用改进拉
                                                               依达准则识别出的异常点。较 DBSCAN 算法识
              图 9 所示。
                                                               别出的异常点, 改进拉依达准则识别出的异常点
                                                               基本位于聚集区域内。












                           图 8 DBSCAN 算法处理前
                   图8 和图9 中, 横坐标ln g 为经度, 纵坐标lat
                                                                          图 10  改进拉依达准则处理前
              为纬度, 图 8 的红色标记即为识别出的离群点。
                                                              6.4  热力图可视化
              由于本文采集的数据为嘉定区 95598 工单服务信
                                                                   利用上述方法处理经纬度以及工单信息后,
              息, 故障坐标点组成的形状应与嘉定区行政区域
                                                               生成的热力图如图 12 如所示。
              在地图上形状基本一致。然而由图 8 可知, 由于
                                                                                            ( 下转第 464 页)
              地址记录错误等原因, 实际有较多坐标点脱离聚
   43   44   45   46   47   48   49   50   51   52   53