Page 45 - 电力与能源2022年第五期
P. 45
彭 昕, 等: 基于密度的聚类算法与改进拉依达准则的 95598 工单处理方法 4 7
0
( DBSCAN ) 识别出脱离用户聚集区的异常点, 利 点较实际地址相差过大。
用改进拉依达准则识 别位于用户聚集区的异常 在计算抄表段中心坐标时, 应不能包括待判
点, 对于识别出的异常点均利用抄表段中心坐标 断坐标值, 公式如下:
替换。为方便工作人员进行分析, 将所有故障信 1
C i = ∑ x i ( 1 )
息在地图上进行可视化处理, 输出故障热力图。 n-1 i ∈A i
———第 i 个 坐 标 的 抄 表 段 中 心 坐 标;
式中 C i
1 故障地址纠正
A i ———不包 含 待 判 断 坐 标 值 的 集 合; x i ———第i
95598 客服人员在接听用户来电时, 可能由 个坐标值。
于多种因素导致部分地址不准确, 大幅偏离实际 由式( 1 ) 可知, 由于计算抄表段中心坐标排除
地址, 海量数据下逐个回访确认耗时耗力, 效率低 自身, 因此即使抄表段相同, 计算出的抄表段中心
下。为不影响抢修人员前往现场抢修, 可将错误 也可能不同。
地址修正为实际地址周边区域, 而同抄表段往往 3 DBSCAN 异常检测算法
代表着地理位置相近, 因此可利用抄表段中心地
故障地址常为居民聚集区或工业聚集区, 转
址替换错误地址。
为增强中文地址的可处理性, 将其转化为经 换为经纬度坐标同样具备此类特性, 脱离聚集区
纬度坐标进行分析, 若无法转换, 说明待转换地址 域的离群点往往为记录错误的地址, 且由于用户
缺失部分信息或有较多不规范的俗称, 可将无法 聚集区域的复杂性, 某个地区聚集区域的形状、 数
转换的地址记录下来 并利用抄表段中心坐标替 量是难以获取的, 因此异常检测算法必须能适应
换, 其基本技术路线如图 1 所示。 各种不同的聚集区域形状, 根据数据情况自适应
不同数量的聚集区域, DBSCAN 能有效检测离群
点 [ 2-3 ] , 并且 DBSCAN 划分具有足够密度的数据
区域为簇, 与 K-Means等算法比较, DBSCAN 能
处理 各 种 形 状 的 数 据 区 域, 也 不 需 要 指 定 聚 类
个数。
与 K-Means 算 法 相 比, DBSCAN 更 适 合 用
于异常检测, DBSCAN 具体计算流程如下。
( 1 ) 定义邻域半径ε 、 邻域半径中点的最小数
目 min _ sam p les 。
( 2 ) 随机初始化一个点 x i 若该点为核心点,
,
则该点邻 域 半 径 内 应 包 含 至 少 min _ sam p les 个
点, 即:
( )
N ε x i ≥ min _ sam p les ( 2 )
若该点不满足式( 2 ), 则该点为边界点, 重新
初始化一个点, 边界点邻域内:
( )
N ε x i ≤ min _ sam p les ( 3 )
图 1 地理编码技术路线
( 3 ) 初始化第一点后, 逐个判断其邻域内的点
2 抄表段中心坐标 是否为核心点, 若为核心点, 仍逐个判断其邻域内
的点是否为核心点, 直到处理完所有的点。
通常情况下, 同抄表段下有多个故障地址, 而
其中, 异常点为既不是核心点也不是边界点
同一抄表段往往代表着地理位置相近, 可以利用
的坐标点。
抄表段中心地址来替换掉错误地址, 并且即使算
由 DBSCAN 原理可知, 其仅能识别出脱离聚
法将正常坐标点误判为异常坐标点。由于采用地
集区的离群异常点, 并且由于 DBSCAN 是先确定
址相近的抄表段坐标中心, 也不会使得误判坐标
异常点再利用排除异常点后的抄表段中心替换异

