Page 48 - 电力与能源2022年第五期
P. 48
4 1 0 彭 昕, 等: 基于密度的聚类算法与改进拉依达准则的 95598 工单处理方法
模型进行分析。
6.1 无法转换地址分析
提取工单数据中的故障地址利用 P y thon 内
Re q uests库对地理编码工具进行请求, 判断返回
状态值是否显示转换成功: 若成功, 则提取返回值
中的经纬度坐标值; 若失败, 则记录失败信息在工
单信息中的位置以及地址。
利用地理 编 码 工 具 记 录 的 错 误 信 息 如 表 1
所示。 图 9 DBSCAN 算法处理后
表 1 地理编码错误信息 集区域, 经 DBSCAN 处理后, 未被识别为异常的
错误位置 错误地址 坐标点组成的形状与嘉定区形状基本一致, 说明
2782 ×× 镇 ×× 公路 714 号( 商业用房) 686 号 -5 DBSCAN 算法能有效处理离群点。由于并非所
12753 ×× 街 152 号 204 室 有异常点均具备抄表段信息, 部分异常坐标点不
12867 上海市 ×× 农民自然宅 E 区 1 号
能利用抄表段中心坐标替代, 因此图 9 中仍然存
由表 1 可知, 地理编码工具返回值为 0 即无
在部分离群点, 存在抄表段信息的异常坐标点已
法定位的地址数量不多, 且均是缺乏部分信息或
被抄表段中心坐标替换, 因此图 8 中的离群点少
是不规范的俗称导致编码工具无法识别其经纬度
于图 9 中的离群点。
坐标, 因此地理编码工具仅能初步筛选存在较明
6.3 改进拉依达准则分析
显问题的地址。
由于抄表段相同往往代表地理位置相近, 若某
6.2 DBSCAN 算法分析
地址过度偏离其抄表段中心坐标, 则说明其地址记
由表 1 可知, 故障地址经地理编码工具分析
录存在问题, 过度偏离的阈值由改进拉依达准则确
后仅能筛选出有较明 显问题导致无法定位的地
定, 即先计算抄表段中心坐标再计算识别阈值。
址, 无法识别记录错误但无明显问题的地址, 即地
改进拉依达准则处理前聚类散点图如图 10
理编码成功后仍存在大幅偏离实际地址的错误地
所示, 将异常坐标点利用抄表段中心坐标替换后
址, 为识别出脱离聚集区域的离群异常点, 采用
生成的散点图如图 11 所示。
DBSCAN 算法。
图 10 和图 11 中, 横坐标ln g 为经度, 纵坐标
DBSCAN 分析聚类散点图如图 8 所示, 利用
抄表段中心替换异常坐标后重新生成的散点图如 lat为纬度, 图 10 的红色标记点即为利用改进拉
依达准则识别出的异常点。较 DBSCAN 算法识
图 9 所示。
别出的异常点, 改进拉依达准则识别出的异常点
基本位于聚集区域内。
图 8 DBSCAN 算法处理前
图8 和图9 中, 横坐标ln g 为经度, 纵坐标lat
图 10 改进拉依达准则处理前
为纬度, 图 8 的红色标记即为识别出的离群点。
6.4 热力图可视化
由于本文采集的数据为嘉定区 95598 工单服务信
利用上述方法处理经纬度以及工单信息后,
息, 故障坐标点组成的形状应与嘉定区行政区域
生成的热力图如图 12 如所示。
在地图上形状基本一致。然而由图 8 可知, 由于
( 下转第 464 页)
地址记录错误等原因, 实际有较多坐标点脱离聚

