Page 14 - 电力与能源2021年第二期
P. 14
1 6 2 卢士达, 等: 基于贝叶斯和大数据分析的业务连续性风险管理
志, 能够自动并快速生成其模板。日志会被分成 神经网络模型, 将系统日志建模为自然语言序列。
多个组, 在 每 个 组 内, 采 用 日 志 对 比 树 提 取 其 LSTM 是长短期记忆网络, 一般用于解决循环神
模板。 经网络存在的长期依赖问题。基于 LSTM 的学
4.1.2 云日志解析 习模型自动地从 正常执行的日志中学习日志模
聚类算法的基本思想具体如下。 式, 利用反馈机制动态调整权重使其之适应新的
( 1 )基于日志长度将日志划分为不同的组。 执行状态。
( 2 )利用日志字符串将每个组再进行细致划 基于深度学习的云日志异常检测模型运行流
分, 使第二步划分后组内的日志之间具有更高的 程设计为训练阶段和预测阶段, 而该模型的内容
相似性。 主要设计为两个部分。
( 3 )基于前缀树的思想构建日志匹配树, 完 ( 1 )日志模板异常检测模型。该模型的基本
成日志模板的提取。 思想是把日志模板序列异常检测问题转化为一个
对于日志解析, 仅仅需要对日志内容部分进 多分类问题, 即输入一个固定窗口大小的日志模
行处理。由于消息头所包含的信息非常直观, 因 板序列, 输出下一个日志模板的概率分布。
此可以利用简单的正则表达式将其识别并保留。 ( 2 )日志变量异常检测模型。在有些系统异
( 1 ) 基 于日志长度将日志划分为不同的组。 常发生时, 它的日志不会偏离正常的执行路径, 但
首先, 对每一条新进的原始日志进行划分, 将日志 是日志内的参数会与正常情况下的参数有较大差
划分成单词的集合, 以提高程序的准确性。最后, 异。该模型将每一个 Lo gke y 对应的参数保存下
将日志分成许多组, 每个组包含长度相同的日志 来, 作为异常检测的数据源。
对应的集合。而实际上长度相同的日志组中也存 5 保 障 电 网 云 数 据 中 心 业 务 连 续 性 的
在模板不同的日志。为解决这一问题, 提出了新
风险管理机制
的概念, 称之为日志字符串, 这是对日志更具有代
表性的描述。 根据风险管理理念, 制定具体的风险管理防
( 2 ) 获得日志字符串。为避免日志字符串种 范方法。
类数量爆炸, 当遇到数字、 标识或者两者混合的时 5.1 云数据中心风险管理机制
候, 用“ * ” 将其替代。最后, 将所有字符和“ * ” 按 云数据中心业务连续性风险管理机制的构建
所属字符的位置组成一个字符串, 称之为该原始 基于以下 4 个原则: 全面性原则; 时效性原则; 经
日志信息的日志字符串。 济性原则; 安全性原则。风险管理机制具体由风
( 3 ) 基于日志字符串聚类。为了降低时间复 险识别机制、 风险评估机制、 风险处置机制构成。
杂度, 在日志模板提取之前利用日志字符串进行 ( 1 ) 风险识别机制。风险识别是指在风险事
一个简单的聚类。通过对比日志字符串, 将具有 故发生之前, 通过风险的大小、 风险的形态、 历史
相同日志字符串的日志归为一类, 不区分大小写。 记录等信息识别风险的类型以及风险的来源, 从
在每个类下进行日志模板的提取, 日志数量大大 而制订相应的对策。
减少, 从而大大降低了算法的时间复杂度。 ( 2 ) 风险评估机制。云数据中心风险评估机
( 4 ) 基于 Trie树思想构建日志匹配树。基于 制的基础评估内容是由控制域、 控制措施、 控制要
Trie树的思想构建日志匹配树, 可以有效提高从 求三级架构组成。风险评估实施流程可以分为准
日志中抽取模板的效率和准确性。动态地构建日 备阶段、 实施阶段和分析阶段, 方便评估工作的
志匹配树, 将新进的日志作为查询项与树中日志 进行。
匹配相同的节点。 ( 3 ) 风险管理机制。将风险识别机制、 风险评
4.2 基于深度学习的大数据云日志分析系统异 估机制、 风险处置机制, 与风险评估模型、 异常检
常检测框架与模型 测模型相搭配, 再结合实际情况, 构建云数据中心
完成对云日志的解析后, 将非结构化的数据 的风险管理机制, 则整个风险管理架构就形成了
解析为结构化的表示。将得到的日志模板转换为 一个实时监测 - 实时反馈的风险管理机制。
。可以通过一种利用 LSTM 的深度 风险评估模型与风险预警模型形成一个整体
数字 Lo gke y