Page 89 - 电力与能源2023年第二期
P. 89

林君豪,等:基于蒙特卡罗树搜索和 ε 约束算法的配电网源网荷储协同运行优化方法                                   183

                    节点 UCT 指标的计算过程为:                             策节点的 UCT 值决定是否从继承自 h 时段的策
                                           2lnn                  略进行后续展开。这样一来,就可以避免人为定
                                  ˉ                    (19)
                             S U = F + 2C p
                                            N F                  义状态距离函数来手动划分重构时段,避免了划
                                              ˉ
                式中 S U——节点的 UCT 指标;F——从该节点                       分方法的主观性。
                展开后模拟操作的平均收益,可通过目标函数的                                除了 MCTS 基本的操作,在构建搜索树的过
                平均值来衡量;C p——超参数,一般设置为 2;n,                       程中,为节约计算资源和提高模型求解效率,可通

                N F——该决策节点被访问的次数和该节点的父节                          过剪枝的方式避免展开一些非优决策节点,本文
                点被访问的次数。                                         在 MCTS 的 施 行 过 程 中 也 采 用 了 复 合 剪 枝 的
                            ˉ
                    在计算 F 时,可通过 F 1 和 F 2 的加权和来计算                策略。
                一个连续的分数,也可通过该模拟路径最终得到                                首先,在本文模型的求解过程中,当决策子节

                的 F 1 和 F 2 结果是否被先前已完成模拟的路径所                     点已达到某一跨时段约束条件的临界值时,即无
                支配来计算一个 0 或 1 的二元分数,后者类似博弈                       论如何展开都会违背约束条件,就可将该分枝剪
                游戏中的胜利与否的判定。此时 MCTS 的寻优                          去,避免计算资源的浪费。
                目 标 可 近 似 视 为 寻 找 原 问 题 的 帕 累 托(Pareto)              此外,本文也采用有限展开的策略改进搜索
                前沿。                                              树的拓展过程。根据 MCTS 的理论,当进行扩展
                    根据以上分析,基于 MCTS 的多时段配电网                       操作时,可将子节点的所有备选策略加入。考虑

                运行优化模型求解过程如图 1 所示。                               到这样做会导致策略空间过大,同时不方便直接
                                                                 处理连续变量,并且也并无必要遍历所有策略,
                                                                 故对每一个时段先求取优化目标 F 1 和 F 2 的近似
                                                                 Pareto 解集。
                                                                     相对于传统智能优化算法 MCTS 在诸如实

                                                                 时调度这种序贯决策问题时更具有优势。由于在
                                                                 实际中,负荷、DG 出力、用户 DR 行为等预测偏差
                                                                 往往会随着预测时段的临近而减小。因此,对于
                                                                 配电网的短期或实时运行优化而言,关键的结论
                                                                 应是获得临近时段的调度策略。传统智能算法需
                                                                 要对全部决策变量进行变换计算,并且持续一定
                                                                 的迭代次数才能接近最优解,而 MCTS 并不会一

                                                                 下子展开所有节点,而是有选择地先展开部分最
                                                                 可能接近最优解的节点,同时通过每次的模拟操
                                                                 作可以直观地看出各展开节点是最终最优路径上
                  图 1 基于 MCTS 的多时段配电网运行优化模型求解过程
                                                                 节点的可能性大小,故 MCTS 可以随时返回当前
                    通过 MCTS 进行优化时,由于搜索树是从初                       分析结论中最应在下一时段执行的策略。因此,
                始时段逐渐展开的,因此在展开下一时段的策略                            MCTS 具有很好的在线和多进程计算的能力,适
                集合时可以考虑上一时段优化后的系统状态,可                            用于工程实际。

                以利用这种特性进行配电网动态重构。此时,可                            3.2 基于 ε 约束算法的单时段多目标优化模型
                以将 h 时段的网络状态直接加入 h+1 时段的备选                           近似寻优方法
                策略中,再依据 MCTS 的选择和展开方法向后面                             本文考虑通过搜索各时段分布在 Pareto 前沿
                时段进行推演,则 MCTS 将会根据模拟结果和决                         附近的解集作为该阶段的可行动作集,以此起到
   84   85   86   87   88   89   90   91   92   93   94