Page 101 - 电力与能源2024年第二期

P. 101

李洪涛：基于 MI-CEEMDAN-RF-LGBM 的风功率预测分析 241

调信号，则迭代停止，CEEMDAN 算法结束。分解得到的模态分量进行时域特征提取。为此提
取了 6 种特征变量，包括均值、方差、标准差、峭
度、峰值因子和波形因子，从而获得了总共 66 个
特征。

4 随机森林特征选择

为了避免模型输入数据的冗余，运用随机森

林算法对上述 66 个特征变量进行选择。该算法
通过随机选择样本和特征集，增加了模型的多样
性，有效降低了过拟合风险。
随机森林算法在处理缺失值和高噪声序列方
面表现出一定的优势，并且其特征选择速度相对

较快。具体流程如下。
首先，使用带外数据（OOB）计算每棵树的袋
外数据误差，并记为 a erro1。
其次，对 OOB 样本中的特征随机添加噪声，
再次计算袋外数据误差，并记为 a erro2。
图 2 CEEMDAN 算法流程
最后，假设森林中一共有 l 棵树，可以通过下
式计算得出其重要性大小：
K = SUM (a erro2 - a erro1) /L （7）

通过随机森林算法特征选择的结果如图 4
所示。

图 4 随机森林算法结果
本文选择重要性大于 0.3 的特征变量作为建
模输入的一部分。由图 4 可知，可选择均值和标

准差作为建模输入的一部分。

图 3 风功率序列分解结果 5 基于 LGBM 的风功率预测建模

本研究运用轻量级梯度提升机算法构建风功
3 时域特征提取
率预测模型。相较于 XGBoost 算法，LGBM 算法
为了充分挖掘风功率数据的有用信息，将对采用 Leaf-wise 的增长策略，其优势在于相同的分

96 97 98 99 100 101 102 103 104 105 106