Page 101 - 电力与能源2024年第二期
P. 101
李洪涛:基于 MI-CEEMDAN-RF-LGBM 的风功率预测分析 241
调信号,则迭代停止,CEEMDAN 算法结束。 分解得到的模态分量进行时域特征提取。为此提
取了 6 种特征变量,包括均值、方差、标准差、峭
度、峰值因子和波形因子,从而获得了总共 66 个
特征。
4 随机森林特征选择
为了避免模型输入数据的冗余,运用随机森
林算法对上述 66 个特征变量进行选择。该算法
通过随机选择样本和特征集,增加了模型的多样
性,有效降低了过拟合风险。
随机森林算法在处理缺失值和高噪声序列方
面表现出一定的优势,并且其特征选择速度相对
较快。具体流程如下。
首先,使用带外数据(OOB)计算每棵树的袋
外数据误差,并记为 a erro1。
其次,对 OOB 样本中的特征随机添加噪声,
再次计算袋外数据误差,并记为 a erro2。
图 2 CEEMDAN 算法流程
最后,假设森林中一共有 l 棵树,可以通过下
式计算得出其重要性大小:
K = SUM (a erro2 - a erro1) /L (7)
通 过 随 机 森 林 算 法 特 征 选 择 的 结 果 如 图 4
所示。
图 4 随机森林算法结果
本文选择重要性大于 0.3 的特征变量作为建
模输入的一部分。由图 4 可知,可选择均值和标
准差作为建模输入的一部分。
图 3 风功率序列分解结果 5 基于 LGBM 的风功率预测建模
本研究运用轻量级梯度提升机算法构建风功
3 时域特征提取
率预测模型。相较于 XGBoost 算法,LGBM 算法
为了充分挖掘风功率数据的有用信息,将对 采用 Leaf-wise 的增长策略,其优势在于相同的分

