Page 89 - 电力与能源2023年第二期

P. 89

林君豪，等：基于蒙特卡罗树搜索和 ε 约束算法的配电网源网荷储协同运行优化方法 183

节点 UCT 指标的计算过程为：策节点的 UCT 值决定是否从继承自 h 时段的策
2lnn 略进行后续展开。这样一来，就可以避免人为定
ˉ （19）
S U = F + 2C p
N F 义状态距离函数来手动划分重构时段，避免了划
ˉ
式中 S U——节点的 UCT 指标；F——从该节点分方法的主观性。
展开后模拟操作的平均收益，可通过目标函数的除了 MCTS 基本的操作，在构建搜索树的过
平均值来衡量；C p——超参数，一般设置为 2；n，程中，为节约计算资源和提高模型求解效率，可通

N F——该决策节点被访问的次数和该节点的父节过剪枝的方式避免展开一些非优决策节点，本文
点被访问的次数。在 MCTS 的施行过程中也采用了复合剪枝的
ˉ
在计算 F 时，可通过 F 1 和 F 2 的加权和来计算策略。
一个连续的分数，也可通过该模拟路径最终得到首先，在本文模型的求解过程中，当决策子节

的 F 1 和 F 2 结果是否被先前已完成模拟的路径所点已达到某一跨时段约束条件的临界值时，即无
支配来计算一个 0 或 1 的二元分数，后者类似博弈论如何展开都会违背约束条件，就可将该分枝剪
游戏中的胜利与否的判定。此时 MCTS 的寻优去，避免计算资源的浪费。
目标可近似视为寻找原问题的帕累托（Pareto）此外，本文也采用有限展开的策略改进搜索
前沿。树的拓展过程。根据 MCTS 的理论，当进行扩展
根据以上分析，基于 MCTS 的多时段配电网操作时，可将子节点的所有备选策略加入。考虑

运行优化模型求解过程如图 1 所示。到这样做会导致策略空间过大，同时不方便直接
处理连续变量，并且也并无必要遍历所有策略，
故对每一个时段先求取优化目标 F 1 和 F 2 的近似
Pareto 解集。
相对于传统智能优化算法 MCTS 在诸如实

时调度这种序贯决策问题时更具有优势。由于在
实际中，负荷、DG 出力、用户 DR 行为等预测偏差
往往会随着预测时段的临近而减小。因此，对于
配电网的短期或实时运行优化而言，关键的结论
应是获得临近时段的调度策略。传统智能算法需
要对全部决策变量进行变换计算，并且持续一定
的迭代次数才能接近最优解，而 MCTS 并不会一

下子展开所有节点，而是有选择地先展开部分最
可能接近最优解的节点，同时通过每次的模拟操
作可以直观地看出各展开节点是最终最优路径上
图 1 基于 MCTS 的多时段配电网运行优化模型求解过程
节点的可能性大小，故 MCTS 可以随时返回当前
通过 MCTS 进行优化时，由于搜索树是从初分析结论中最应在下一时段执行的策略。因此，
始时段逐渐展开的，因此在展开下一时段的策略 MCTS 具有很好的在线和多进程计算的能力，适
集合时可以考虑上一时段优化后的系统状态，可用于工程实际。

以利用这种特性进行配电网动态重构。此时，可 3.2 基于 ε 约束算法的单时段多目标优化模型
以将 h 时段的网络状态直接加入 h+1 时段的备选近似寻优方法
策略中，再依据 MCTS 的选择和展开方法向后面本文考虑通过搜索各时段分布在 Pareto 前沿
时段进行推演，则 MCTS 将会根据模拟结果和决附近的解集作为该阶段的可行动作集，以此起到

84 85 86 87 88 89 90 91 92 93 94