跳转至

BEAVER: Building Environments with Assessable Variation for Evaluating Multi-Objective Reinforcement Learning

会议: ICML 2025
arXiv: 2507.07769
代码: https://github.com/chennnnnyize/BEAVER
领域: 强化学习
关键词: 多目标RL, 建筑能源管理, MOC-MDP, 泛化评估, 上下文MDP, Pareto前沿

一句话总结

提出 BEAVER 基准——首个面向建筑能源管理的多目标上下文强化学习评估框架,通过参数化热动力学和气候区域构建可控环境变化,系统评估现有 MORL 算法的跨环境泛化能力。

研究背景与动机

领域现状:基于强化学习的建筑 HVAC 控制在单一仿真环境中取得了成功,能够有效优化温控和能耗。然而,现实中建筑运维面临一个核心难题:不同建筑在材料、结构、地理位置上差异巨大,导致控制器在一栋楼训练的策略难以直接迁移到另一栋楼。

现有痛点:(1) 现有 MORL 研究假设单一静态环境,忽略了底层动力学的变化;(2) 建筑 RL 基准缺乏对多目标(舒适度 vs 能耗 vs 碳排放)和跨环境泛化的标准化评估支持;(3) 实践中部署控制器的管理人员需要面对不同建筑和不同用户偏好,现有基准无法评估这种多维变化下的鲁棒性。

核心矛盾:建筑的热动力学参数(热阻、热容)因材料和气候而异,但现有方法将这些差异简单忽略,导致"在实验室有效、在现场失效"的困境。

本文目标:构建一个标准化、自动化的基准框架,系统评估 MORL 算法在建筑控制场景中的多目标权衡能力和跨环境泛化能力。

切入角度:将建筑 RL 问题形式化为多目标上下文 MDP(MOC-MDP),其中"上下文"包含两类可控变量——热对流参数(影响状态转移)和气候区域(影响外部输入),并基于物理原理(RC 热网络模型 + EnergyPlus 仿真)自动化构建变化的环境集。

核心 idea:MOC-MDP = MOMDP + 上下文参数化,将"环境变化"和"目标偏好"解耦为独立维度,实现系统化评估。

方法详解

整体框架

BEAVER 基准由三部分组成:(1) 基于物理原理的 RC 网络建筑热动力学环境;(2) 参数化上下文变量(\(U_{\text{wall}}\) 热动力学 + 气候区域);(3) 多目标奖励设计与标准化评估指标。框架支持自动化环境构建、MORL 算法集成和定量/可视化分析。

关键设计

  1. MOC-MDP 形式化:在标准 MOMDP \(\langle \mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}_{1:n}, \Omega, f, \gamma \rangle\) 基础上引入上下文空间 \(\mathcal{C}\),定义映射 \(\boldsymbol{M}(c)\) 将上下文 \(c \in \mathcal{C}\) 映射到具体的 MOMDP。上下文 \(c\) 包括气候条件和建筑热动力学参数,不同 \(c\) 值改变状态转移函数 \(\mathcal{P}^c\)。关键假设是上下文对 agent 不可观测——如果可观测就退化为增广状态空间的 MOMDP。目标偏好 \(\omega \in \Omega\) 通过线性标量化 \(f_\omega(\mathbf{r}) = \omega^\top \mathbf{r}\) 映射为标量效用。

  2. 参数化建筑热动力学:采用经典 RC 网络模型描述区域温度动态:\(C_i \frac{dT_i}{dt} = \sum_{j \in \mathcal{N}(i)} \frac{T_j - T_i}{R_{i,j}} + Q_i^h + Q_i^a + Q_i^s\),其中 \(C_i\) 为热容、\(R_{i,j}\) 为热阻。通过采样 EnergyPlus 参考建筑的墙壁 U-factor(\(U_{\text{wall}}\),单位 W/m²·°C),将其转换为每面墙的 \(R_i, C_i\),实现热动力学参数的系统化变化。低 U-factor 意味着更好的隔热性能。

  3. 多目标奖励设计与评估指标:定义两类奖励——热舒适度 \(\mathcal{R}_{\text{thermal}} = M - 0.05 \sum_i |T_i[t] - T_i^s[t]|\)(偏离设定温度的惩罚)和能源成本 \(\mathcal{R}_{\text{cost}} = M - 0.05 \sum_i c[t] |P_i[t]|\)(电力消耗惩罚),并额外支持功率爬坡率奖励。评估采用三个互补指标:Hypervolume(HV,Pareto 前沿近似质量)、Expected Utility(EU,平均偏好效用)和 Sparsity(SP,解集密度)。

损失函数 / 训练策略

  • 支持两种训练模式:Static-Train(单一固定环境训练)和 Dynamic-Train(每个 episode 从分布中采样 \(U_{\text{wall}}\)
  • 兼容 MORL-Generalization 框架,支持 C-MORL 等约束多目标优化算法
  • 5 次独立运行取平均值

实验关键数据

主实验:热动力学变化下的泛化

指标 训练模式 Dynamics 1 Dynamics 2 Dynamics 3 Dynamics 4 Dynamics 5
HV(\(10^7\))↑ Static-Train 9.35±0.04 9.38±0.06 8.49±0.05 9.76±0.05 9.27±0.05
HV(\(10^7\))↑ Dynamic-Train 9.38±0.06 9.37±0.07 8.59±0.09 9.67±0.14 9.32±0.09
EU(\(10^3\))↑ Static-Train 9.34±0.01 9.33±0.02 9.14±0.02 9.47±0.02 9.32±0.01
SP(\(10^5\))↓ Static-Train 0.36±0.18 0.41±0.14 1.27±1.26 0.31±0.07 0.65±0.42

气候变化下的泛化(训练环境:Warm Marine)

指标 Mixed Marine Cool Marine Warm Humid Warm Dry Hot Humid Warm Marine*
HV(\(10^7\))↑ 8.78±0.11 8.74±0.10 8.59±0.09 9.59±0.05 10.00±0.02 10.13±0.14
EU(\(10^3\))↑ 8.80±0.06 8.78±0.06 8.71±0.05 9.25±0.04 9.58±0.02 9.67±0.02
SP(\(10^5\))↓ 0.79±0.37 0.80±0.30 7.24±0.38 0.31±0.09 0.19±0.08 0.19±0.09

消融实验

对比维度 观察
Dynamics 3 退化 HV从9.35降至8.49(-9.2%),特定热动力学配置对MORL很有挑战
Warm Humid退化 SP从0.19飙升到7.24(38倍),Pareto前沿解集极度稀疏
Dynamic-Train vs Static-Train HV仅微升0.03-0.10,采样混合训练不足以增强鲁棒性

关键发现

  • Dynamics 3 是最具挑战性的环境变化,导致 HV 和 EU 显著下降——说明某些热动力学配置对现有 MORL 构成严峻挑战
  • Dynamic-Train 相比 Static-Train 改进微弱,表明当前的采样混合训练策略不足以增强鲁棒性
  • 气候变化跨区域泛化非常不稳定,仅 Hot Humid 接近训练环境性能,Warm Humid 严重退化
  • Pareto 前沿可视化显示两种训练模式在用户舒适度目标上表现较差

亮点与洞察

  • 填补了建筑 MORL 基准的空白,MOC-MDP 形式化清晰地分离了"环境变化"和"目标偏好"两个泛化维度
  • 上下文不可观测的设定更贴近实际部署场景(部署时不会完全知道建筑的热参数)
  • 实验结果看似"负面"(现有方法泛化差),但这恰恰是好基准的核心价值——暴露问题、指明方向

局限与展望

  • 目前仅支持单区域建筑,多区域复杂建筑布局有待扩展
  • MORL 基线方法有限(仅 C-MORL),未覆盖 GPI-PD、PGMORL 等更多算法
  • 气候变化和热动力学变化各自独立评估,联合泛化未探讨
  • Dynamic-Train 采样策略过于简单,课程学习或自适应采样可能更有效

相关工作与启发

  • 与 MORL-Generalization (Teoh et al. ICLR 2025) 互补:后者提供通用 MORL 基准,BEAVER 专注建筑控制的实际场景
  • C-MORL (Liu et al. ICLR 2025) 的约束偏好优化在大量目标时表现良好,但跨环境泛化仍是瓶颈
  • 启发:MORL + domain adaptation/meta-learning 可能是突破方向

评分

⭐⭐⭐⭐ — 在建筑控制这一实际应用领域提供了规范的 MORL 基准,MOC-MDP 形式化优雅且实验揭示了有价值的负面结论,但方法创新主要在"benchmark设计"而非"算法突破",基线方法覆盖有限。

title: >- [论文解读] BEAVER: Building Environments with Assessable Variation for Evaluating Multi-Objective Reinforcement Learning description: >- [ICML 2025][多目标RL] 提出 BEAVER 基准——一个支持多目标和泛化评估的建筑能源管理 RL 环境,将问题形式化为多目标上下文 MDP(MOC-MDP),评估现有 MORL 方法在热对流差异和气候变化下的泛化能力。 tags: - ICML 2025 - 多目标RL - 建筑能源管理 - 泛化评估 - 上下文MDP - 基准环境


BEAVER: Building Environments with Assessable Variation for Evaluating Multi-Objective Reinforcement Learning

会议: ICML 2025
arXiv: 2507.07769
代码: https://github.com/chennnnnyize/BEAVER
领域: 强化学习
关键词: 多目标RL, 建筑能源管理, MOC-MDP, 泛化评估, 上下文MDP, Pareto前沿

一句话总结

提出 BEAVER 基准——首个面向建筑能源管理的多目标上下文强化学习评估框架,通过参数化热动力学和气候区域构建可控环境变化,系统评估现有 MORL 算法的跨环境泛化能力。

研究背景与动机

领域现状:基于强化学习的建筑 HVAC 控制在单一仿真环境中取得了成功,能够有效优化温控和能耗。然而,现实中建筑运维面临一个核心难题:不同建筑在材料、结构、地理位置上差异巨大,导致控制器在一栋楼训练的策略难以直接迁移到另一栋楼。

现有痛点:(1) 现有 MORL 研究假设单一静态环境,忽略了底层动力学的变化;(2) 建筑 RL 基准缺乏对多目标(舒适度 vs 能耗 vs 碳排放)和跨环境泛化的标准化评估支持;(3) 实践中部署控制器的管理人员需要面对不同建筑和不同用户偏好,现有基准无法评估这种多维变化下的鲁棒性。

核心矛盾:建筑的热动力学参数(热阻、热容)因材料和气候而异,但现有方法将这些差异简单忽略,导致"在实验室有效、在现场失效"的困境。

本文目标:构建一个标准化、自动化的基准框架,系统评估 MORL 算法在建筑控制场景中的多目标权衡能力和跨环境泛化能力。

切入角度:将建筑 RL 问题形式化为多目标上下文 MDP(MOC-MDP),其中"上下文"包含两类可控变量——热对流参数(影响状态转移)和气候区域(影响外部输入),并基于物理原理(RC 热网络模型 + EnergyPlus 仿真)自动化构建变化的环境集。

核心 idea:MOC-MDP = MOMDP + 上下文参数化,将"环境变化"和"目标偏好"解耦为独立维度,实现系统化评估。

方法详解

整体框架

BEAVER 基准由三部分组成:(1) 基于物理原理的 RC 网络建筑热动力学环境;(2) 参数化上下文变量(\(U_{\text{wall}}\) 热动力学 + 气候区域);(3) 多目标奖励设计与标准化评估指标。框架支持自动化环境构建、MORL 算法集成和定量/可视化分析。

关键设计

  1. MOC-MDP 形式化:在标准 MOMDP \(\langle \mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}_{1:n}, \Omega, f, \gamma \rangle\) 基础上引入上下文空间 \(\mathcal{C}\),定义映射 \(\boldsymbol{M}(c)\) 将上下文 \(c \in \mathcal{C}\) 映射到具体的 MOMDP。上下文 \(c\) 包括气候条件和建筑热动力学参数,不同 \(c\) 值改变状态转移函数 \(\mathcal{P}^c\)。关键假设是上下文对 agent 不可观测——如果可观测就退化为增广状态空间的 MOMDP。目标偏好 \(\omega \in \Omega\) 通过线性标量化 \(f_\omega(\mathbf{r}) = \omega^\top \mathbf{r}\) 映射为标量效用。

  2. 参数化建筑热动力学:采用经典 RC 网络模型描述区域温度动态:\(C_i \frac{dT_i}{dt} = \sum_{j \in \mathcal{N}(i)} \frac{T_j - T_i}{R_{i,j}} + Q_i^h + Q_i^a + Q_i^s\),其中 \(C_i\) 为热容、\(R_{i,j}\) 为热阻。通过采样 EnergyPlus 参考建筑的墙壁 U-factor(\(U_{\text{wall}}\),单位 W/m²·°C),将其转换为每面墙的 \(R_i, C_i\),实现热动力学参数的系统化变化。低 U-factor 意味着更好的隔热性能。

  3. 多目标奖励设计与评估指标:定义两类奖励——热舒适度 \(\mathcal{R}_{\text{thermal}} = M - 0.05 \sum_i |T_i[t] - T_i^s[t]|\)(偏离设定温度的惩罚)和能源成本 \(\mathcal{R}_{\text{cost}} = M - 0.05 \sum_i c[t] |P_i[t]|\)(电力消耗惩罚),并额外支持功率爬坡率奖励。评估采用三个互补指标:Hypervolume(HV,Pareto 前沿近似质量)、Expected Utility(EU,平均偏好效用)和 Sparsity(SP,解集密度)。

损失函数 / 训练策略

  • 支持两种训练模式:Static-Train(单一固定环境训练)和 Dynamic-Train(每个 episode 从分布中采样 \(U_{\text{wall}}\)
  • 兼容 MORL-Generalization 框架,支持 C-MORL 等约束多目标优化算法
  • 5 次独立运行取平均值

实验关键数据

主实验:热动力学变化下的泛化

指标 训练模式 Dynamics 1 Dynamics 2 Dynamics 3 Dynamics 4 Dynamics 5
HV(\(10^7\))↑ Static-Train 9.35±0.04 9.38±0.06 8.49±0.05 9.76±0.05 9.27±0.05
HV(\(10^7\))↑ Dynamic-Train 9.38±0.06 9.37±0.07 8.59±0.09 9.67±0.14 9.32±0.09
EU(\(10^3\))↑ Static-Train 9.34±0.01 9.33±0.02 9.14±0.02 9.47±0.02 9.32±0.01
SP(\(10^5\))↓ Static-Train 0.36±0.18 0.41±0.14 1.27±1.26 0.31±0.07 0.65±0.42

气候变化下的泛化(训练环境:Warm Marine)

指标 Mixed Marine Cool Marine Warm Humid Warm Dry Hot Humid Warm Marine*
HV(\(10^7\))↑ 8.78±0.11 8.74±0.10 8.59±0.09 9.59±0.05 10.00±0.02 10.13±0.14
EU(\(10^3\))↑ 8.80±0.06 8.78±0.06 8.71±0.05 9.25±0.04 9.58±0.02 9.67±0.02
SP(\(10^5\))↓ 0.79±0.37 0.80±0.30 7.24±0.38 0.31±0.09 0.19±0.08 0.19±0.09

消融实验

对比维度 动态影响 气候影响
Dynamics 3 退化 HV降至8.49 (vs 9.35基线, -9.2%)
Warm Humid退化 SP从0.19飙升到7.24 (38x)
Dynamic-Train vs Static-Train HV仅微升0.03-0.10

关键发现

  • Dynamics 3 是最具挑战性的环境变化,导致 HV 和 EU 显著下降——说明某些热动力学配置对现有 MORL 构成严峻挑战
  • Dynamic-Train 相比 Static-Train 改进微弱,表明当前的采样混合训练策略不足以增强鲁棒性
  • 气候变化跨区域泛化非常不稳定,仅 Hot Humid 接近训练环境性能,其余均退化
  • Pareto 前沿可视化显示两种训练模式在用户舒适度目标上表现较差

亮点与洞察

  • 填补空白:首个将 MOC-MDP 形式化应用于建筑 HVAC 控制的标准化基准,系统化地解耦了"环境变化"和"目标偏好"两个维度
  • 物理驱动:基于 EnergyPlus 参考建筑提取真实的 \(U_{\text{wall}}\) 值,提高了评估的实际意义
  • 暴露关键不足:实验清晰揭示现有 MORL 方法缺乏跨环境鲁棒性,为后续算法设计提供明确方向

局限与展望

  • 目前仅支持单区域建筑,多区域复杂建筑布局有待扩展
  • MORL 基线方法仅 C-MORL,未覆盖 GPI-PD、PGMORL 等更多算法
  • Dynamic-Train 的采样策略过于简单(均匀采样),课程学习或自适应采样可能更有效
  • 未来可加入初始值分布、不同占用率等更多上下文维度

相关工作与启发

  • 与 MORL-Generalization (Teoh et al. 2025) 互补:后者提供通用 MORL 基准,BEAVER 专注建筑控制的实际场景
  • C-MORL (Liu et al. 2025) 在大量目标时表现良好,但跨环境泛化仍是瓶颈
  • MPC 方法 (Ma et al. 2012) 的 RC 网络建模为 BEAVER 提供了物理基础

评分

⭐⭐⭐⭐ — 在建筑控制这一实际应用领域提供了规范的 MORL 基准,MOC-MDP 形式化优雅且实验揭示了有价值的负面结论。方法创新主要在 benchmark 设计而非算法突破,基线方法覆盖有限。