Page 12 - 电力与能源2021年第二期
P. 12
1 6 0 卢士达, 等: 基于贝叶斯和大数据分析的业务连续性风险管理
方法。 事情。
( 1 ) 控制型风险管理方法。降低风险发生的 因此, 为了保证灾备中心灾备恢复业务的运
概率, 也就是从根本上解决问题, 控制造成风险发 行维护质量, 建议以 ITIL 为基础建立管理体系
生的因素, 减少风险因素的存在。在遇到风险时, 和 设 定 管 理 流 程, 并 且 引 入 ISO 20000 、 ISO
将风险的来源、 产生原因分析出来, 然后根据风险 9001 、 BS25999 、 ISO27001 等国际标准管理体系
分析的结果, 制定对策, 解决风险并寻找从源头消 的理念, 从日常运行操作管理、 问题管理、 变更管
灭风险的办法。在风险发生前, 减小风险发生的 理、 应急响应、 恢复管理等方面入手, 搭建符合自
概率 [ 6-9 ] 。 身运行的灾备中心灾备管理体系。
( 2 ) 财务型风险管理方法。虽然不是所有的 2.3 业务连续性风险评估模型的构建方法选用
风险都是可控的, 但是许多风险都具有不确定性, 数学知识和结果评估, 在最开始是由模型发
例如自然条件下造成的风险。由于人们并不能有 展而来的, 因此使用其建立模型可以很好地反映
效预防风险的发生, 在风险必然发生的情况下, 可 实际的问题, 而且将风险数据化会对分析风险起
以假设风险随时到来, 做好一切准备措施, 使风险 到很大的帮助。针对云数据中心风险评估模型的
来临后造成的伤害最小化, 并且做好灾后恢复准 搭建, 从用数学知识进行分析的角度切入, 选择将
备工作, 可在最短的时间内恢复过来。 贝叶斯网络法当作主要工具, 然后用云日志大数
风险管理主要可以分为风险识别、 风险评估 据分析的方式解析风险。
和对策制定三个部分。简单来说, 就是先识别出 贝叶斯网络擅长于分析不确定性和概率性的
风险的类型, 然后评估风险的大小、 来源, 最后根 事件, 可以从不完整、 不准确的信息中进行推理,
据分析结果制定对策, 应对风险。 得到结论。同时, 该网络与风险的不确定性十分
2.2 灾备体系的构建 契合, 因此使用贝叶斯网络来搭建风险评估模型。
一般来说, 灾备系统的运维对象为: ① 基础设
3 基于贝叶斯网络构建风险评估模型
施; ②IT 系统。灾备系统的运维过程设置为: ①
日常运行维护; ② 应急和恢复; ③ 接替生产运行 3.1 贝叶斯网络与模糊集理论
维护。 贝叶斯公式是贝叶斯网络的基础。贝叶斯网
灾备恢复业务和其他的业务不同, 平时不会 络的定义为在某事件发生时, 另一事件的发生概
发生, 但是如果风险来临, 灾备恢复业务就会变得 率。贝叶斯网络通常由两部分构成: 贝叶斯网络
尤其重要, 因此对灾备中心的运营管理提出了特 结构, 就是将代表随机事件的节点使用有向边连
殊的要求, 具体如下。 接起来, 构成有向无环图; 贝叶斯网络参数, 它是
( 1 )“ 7×24×365 ” 的要求。由于不是所有的 对 BN 的定量分析, 用来表示网络节点之间的连
灾难都是可以预测的, 没有准备地遭遇灾难会让 接强度。
灾难破坏力达到最大, 灾备恢复应该做到时时刻 在具有动态故障信息的混合故障特性下, 其
刻不间断待命, 以备不时之需。 诊断性能将受到限制。基于此, 针对混合故障信
( 2 )“ 小概率, 高风险” 的管理要求。虽然许多 息下的多故障分类问题, 本研究提出了一种基于
风险都可以被抑制, 但是没有被发现、 没法根治的 动静态信息协同分析的分布式贝叶斯网络在线故
灾难才是最关键的, 不能因为发生概率小而放松 障诊断方法。通过动静态信息的有效结合, 深入
警惕。 挖掘故障特性, 多方面提取故障特性; 然后基于故
( 3 ) 工作重复性强。由于需要反复演练以及 障特性进行合理化分组, 建立分布式的诊断子网,
反复检查设备, 因此工作的重复性很强。 对混合故障信息进行解耦, 进一步完成对多故障
( 4 )“ 演练为主, 实操为辅” 的日常管理要求。 分类识别中故障类型的精细化诊断。
同理, 因为使用到的概率小, 所以灾备管理需要经 模糊数可以有多种形式, 在风险评估中经常
常演练, 保持对灾备业务的熟练度。 使用的有三角模糊数、 LR 型模糊数、 梯形模糊数
( 5 ) 质量控制难度较大。因为平时工作主要 等。在研究中为了降低整体的复杂程度, 选用较
为演练, 所以想要控制好质量是一件比较困难的 为方便、 简洁的三角模糊数作为事件的隶属函数。

