ICLR 2026 强化学习多目标 RL 动态偏好变分推断偏好条件策略非平稳环境 Envelope 算子

Learning What Matters Now: Dynamic Preference Inference under Contextual Shifts¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=qRbCkTk9ZR
代码: https://github.com/XianweiC/DPI
领域: 多目标强化学习 / 偏好推断 / 认知启发决策
关键词: 多目标 RL、动态偏好、变分推断、偏好条件策略、非平稳环境、Envelope 算子

一句话总结¶

把多目标 RL 中常被当作"已知常量"的偏好权重，建模成会随情境漂移的隐变量，用变分推断在线维护一个"现在什么最重要"的后验信念，并与偏好条件 actor–critic 联合训练，让智能体在事件驱动的分布漂移后快速重排目标优先级。

研究背景与动机¶

领域现状：多目标强化学习（MORL）面对的是向量值奖励（如效率 vs. 安全、能量 vs. 道德）。主流做法分两类：标量化（scalarization）用一个固定偏好向量把向量奖励压成标量；Pareto 类方法（如 Envelope Q-learning、PD-MORL）逼近 Pareto 前沿、事后再挑偏好。这些方法的共同前提是——偏好向量是外部给定的。

现有痛点：现实里偏好几乎从不被直接观测。人在排队时一开始看重公平、耐心，但随着饥饿加剧、时间耗尽，会逐渐把权重转向"能量/生存"，最终给自己找理由插队。也就是说，目标的相对重要性会随资源、时间、风险等情境因素动态漂移，某些目标会变得不可达、暂时无关或异常重要。固定权重的智能体要么追逐不可达目标，要么忽视突然冒头的优先级，在自动驾驶、医疗等安全攸关场景里可能酿成灾难。

核心矛盾：认知科学有丰富的"人如何随情境重排偏好"的描述性理论（自我调节、多目标追求、建构式偏好），但它们不是能部署到高维、部分可观测、非平稳控制问题里的算法；而 RL 算法擅长策略优化，却把"什么值得优化"这件事外包给了固定奖励函数。两边缺一座桥。

本文目标：只给向量奖励和部分观测、且环境非平稳的条件下，让智能体在线推断并适配自己当前的目标权衡，同时做到有效且可解释。

核心 idea：【偏好即隐状态】把编码多目标相对重要性的偏好向量 $\omega_t$ 当成必须在线推断的隐变量，而非先验固定的输入。智能体维护一个后验 $q_\phi(\omega_t \mid s_{t-H+1:t})$，从中采样以捕获认知不确定性、并在行动前探索几种价值配置；再用一个偏好条件 actor–critic 把策略 condition 在推断出的 $\omega_t$ 上。整套框架被刻意拆成认知科学里的双过程——价值评估（value appraisal）负责"现在什么最重要"，动作选择（action selection）负责"据此怎么做"。

方法详解¶

整体框架¶

DPI（Dynamic Preference Inference）是一个两模块的认知启发智能体。价值评估模块把最近 $H$ 步的状态历史 $s_{t-H+1:t}$（含观测与能量、剩余时间等自身状态）喂给一个循环编码器，输出隐偏好向量在单纯形 $\Delta^{d-1}$ 上的一个分布，采样得到 $\hat\omega_t$。动作选择模块是一个同时 condition 在状态与偏好上的 actor–critic，决策时用一个 on-policy 的 envelope 算子在 $K$ 个偏好候选里挑出标量化价值最高的那个。整个流程由变分 ELBO、方向对齐和自一致性三项正则稳定训练。注意：环境真实转移 $p_{env}(s_{t+1}\mid s_t,a_t)$ 与 $\omega_t$ 无关、仍是标准 MDP；偏好的生成式分解只是智能体内部用来推断偏好的感知模型。

flowchart LR
    H["状态历史<br/>s_{t-H+1:t}"] --> E[循环历史编码器]
    E --> Q["偏好后验<br/>q_φ(z_t|·)=N(μ,σ²)<br/>ω=softmax(z)"]
    Q -->|"采样 K 个候选 ω⁽ⁱ⁾"| ENV["Envelope 算子<br/>ω̂=argmax ⟨ω⁽ⁱ⁾, V(s,ω⁽ⁱ⁾)⟩"]
    S["当前状态 s_t"] --> AC
    ENV -->|"ω̂_t"| AC["偏好条件 actor–critic<br/>π(a|s,ω̂), V⃗(s,ω̂)∈R^d"]
    AC --> ACT[环境执行 / 向量奖励 r⃗_t]
    ACT -.向量回报作为证据.-> E

关键设计¶

1. 价值评估 = 对动态偏好做变分推断：让模糊情境自动放大不确定性。 偏好不被当成固定输入，而是建模为带不确定性的分布式隐状态。具体引入无约束隐向量 $z_t\in\mathbb{R}^d$，后验 $q_\phi(z_t\mid e_t)=\mathcal{N}(\mu_t,\mathrm{diag}(\sigma_t^2))$，再用 $\omega_t=\mathrm{softmax}(z_t)$ 映射到单纯形。这样设计有两个直接好处：情境越模糊后验越宽，显式表达了"我也拿不准现在该看重什么"；并且智能体是从后验里采样 $z_t$ 而非死守单一权衡，相当于在行动前先在偏好空间里做轻度探索。证据如何支持不同偏好配置，靠一个 Boltzmann-理性似然来定义——把某偏好下的标量化回报当成证据的对数似然 $p(e_t\mid z_t)\propto\exp(\beta\,U_t(\omega_t;e_t))$，其中 $U_t(\omega_t;e_t)=\langle\omega_t,\vec{G}_t(e_t)\rangle$，$\vec{G}_t$ 是 actor–critic 从历史估出的向量回报。配上各向同性高斯先验 $p_0(z)=\mathcal{N}(0,I)$，贝叶斯给出目标后验 $p^*(z_t\mid e_t)\propto p_0(z_t)\exp(\beta U_t)$，用 $q_\phi$ 去逼近它、最小化 KL 等价于最大化 ELBO： $$\mathcal{L}_{\text{ELBO}}=\beta\,\mathbb{E}_{z_t\sim q_\phi}\big[U_t(\omega_t;e_t)\big]-\mathrm{KL}\big(q_\phi(z_t\mid e_t)\,\|\,\mathcal{N}(0,I)\big).$$ 前一项让信念贴合当前证据，后一项靠先验把偏好"锚住"——除非最近的回报提供了足够强的证据，否则不轻易改变"什么最重要"。

2. 动作选择用 on-policy Envelope 算子：在几个候选权衡里现场挑最有希望的那个。 人很少锁死一种目标权重，而是同时盘算几种合理配置、再按当下最有戏的那个行动。对应地，策略与价值都 condition 在偏好上：$\pi_\theta(a_t\mid s_t,\omega_t)$、$\vec{V}_\theta(s_t,\omega_t)\in\mathbb{R}^d$，标量化价值 $V^{\text{scalar}}(s_t,\omega_t)=\langle\omega_t,\vec{V}_\theta\rangle$。每一步从评估后验采 $K$ 个候选，取标量化价值最高者作为 $\hat\omega_t=\arg\max_i\langle\omega_t^{(i)},\vec{V}_\theta(s_t,\omega_t^{(i)})\rangle$。这正是 Yang 等人的 envelope 算子，但区别在于它被搬到了决策时在线、单一偏好条件 actor–critic 上 on-policy 执行，而非离线在 Q 网络上做。后续优化全程复用这个 $\hat\omega_t$：向量奖励逐维算 TD $\delta_t=\vec{r}_t+\gamma\vec{V}_\theta(s_{t+1},\hat\omega_t)-\vec{V}_\theta(s_t,\hat\omega_t)$、按标准 GAE 递推得到向量优势 $\vec{A}_t$，再投影成标量 $A_t=\langle\hat\omega_t,\vec{A}_t\rangle$ 喂给 PPO 的 clipped surrogate，保证动作空间与偏好空间的 on-policy 一致性。critic 用向量级与标量级双重监督 $\mathcal{L}_{\text{critic}}=\xi\|\vec{V}_\theta-\vec{G}\|_2^2+(1-\xi)(V^{\text{scalar}}_\theta-\langle\hat\omega,\vec{G}\rangle)^2$ 稳定学习。

3. 方向对齐 + 自一致性：防止偏好乱抖和"钻空子"。 单纯最大化 $U_t=\langle\omega_t,\vec{G}_t\rangle$ 会诱发退化解——偏好剧烈震荡，或投机性地利用奖励的瞬时波动"刷分"。人之所以不会这样，是因为偏好调整平滑且只朝可行的机会方向走。为此 DPI 加两个认知启发正则。方向对齐损失把预测偏好和向量回报的方向拉齐： $$\mathcal{L}_{\text{dir}}=\mathbb{E}\Big[1-\tfrac{\langle\omega_t^{\text{pred}},\vec{G}_t\rangle}{\|\omega_t^{\text{pred}}\|_2\,\|\vec{G}_t\|_2}\Big],$$ 仅在 $\|\vec{G}_t\|>0$ 时生效，作用是劝阻智能体去在意当下根本拿不到的目标。自一致性损失 $\mathcal{L}_{\text{stab}}=\|\omega_t^{\text{pred}}-\hat\omega_t\|_2^2$ 则把编码器预测锚到 envelope 选中的偏好上——如果 envelope 一直挑某个模式，编码器就该直接预测它，减少"策略想做的"和"偏好推断出的"之间的错位。整体目标合成为 $$\mathcal{L}=\mathcal{L}_{\text{PPO}}+\mathcal{L}_{\text{critic}}-\mathcal{L}_{\text{ELBO}}+\lambda\mathcal{L}_{\text{dir}}+\gamma\mathcal{L}_{\text{stab}}.$$

实验关键数据¶

主实验表格¶

在 Queue（排队取食，能量 vs. 道德）与 Maze（像素空间 2D 导航，含到达目标/赶截止/避险/省能多目标，带随机灾害风暴）两个非平稳环境上，对比 6 类基线（MER=平均回合回报，SR=成功率）：

方法	Queue MER	Queue SR(%)	Maze MER	Maze SR(%)
RANDOM	−24.24	17.25	−223.55	0.00
FIXED（固定偏好）	−4.19	10.05	16.15	1.12
RS（随机切换）	−4.29	11.43	−23.66	0.01
HEURISTIC（规则调度）	−1.60	10.05	−3.65	0.00
ENVELOPE（外部给偏好）	−3.54	25.10	10.36	0.01
DPI (w/ Q-learning)	3.74	29.09	27.35	42.94
DPI (w/ PPO)	10.34	39.95	30.16	59.04

Queue 上 DPI 比最强基线 ENVELOPE 的 SR 高 14.85 个百分点；Maze 上 MER 比 ENVELOPE 高 +191.1%，SR 达 59.0%（FIXED/HEURISTIC/ENVELOPE 均近乎 0% 成功率——即便 FIXED 拿到不错的 MER 也无法可靠完成任务）。

消融实验表格¶

用 Post-Shift Performance（PS@K，事件后前 K 步平均回报）评估短期恢复力，逐组件消融：

变体	说明	效果
完整 DPI	三正则全开 + PPO	恢复最快、PS@K 最高
w/o KL	去掉 ELBO 的 KL 先验项	明显下降
w/o dir	去掉方向对齐	明显下降
w/o sta	去掉自一致性锚定	明显下降
w/ Q-learning	偏好条件 actor–critic 换成纯 Q-learning	恢复能力显著退化

History 窗口 $H$ 的消融：$H=1$ 时性能显著恶化（缺时间上下文无法推断偏好），$H\geq9$ 后趋于平台，最终取 $H=3$ 作为性能与算力的折中。

关键发现¶

PS@K 曲线：HEURISTIC 和 ENVELOPE 事件后持续低迷；FIXED 靠贪心刷标量奖励能拿到中等 PS@K，但 SR 极低，证明没有单一固定偏好能应付所有事件配置；DPI 在每个变点后快速回升并显著领先。
偏好—奖励对齐：用 $\mathrm{Align}(t)=\frac{\langle\hat\omega_t,\vec{r}_t\rangle}{\|\hat\omega_t\|\|\vec{r}_t\|}$ 度量，DPI 始终保持正余弦相似度且在事件触发后陡升，其余基线徘徊在 0 附近或为负——说明只有 DPI 学到了能追踪任务语义的价值表示。
可解释的 event→preference→behavior 链：截止时间骤紧时走捷径、灾害激增时加强规避、能量枯竭时倾向等待与低成本路线，三类事件下偏好与行为都做出情境一致的切换，表明 DPI 是在重估"现在什么最重要"而非回放固定计划。

亮点与洞察¶

把"奖励/偏好已知"这个 RL 的隐含假设拆开来打：DPI 的真正贡献不在某个网络结构，而在重新框定问题——偏好是隐状态，价值评估本身就是一个需要被学习的子问题。这把认知科学里"建构式偏好/自我调节"的描述性理论翻译成了可部署的变分推断算法。
Envelope 算子的 on-policy 重用很巧：原本 envelope 是离线在 Q 网络上算 Pareto 前沿的，这里把它搬到决策时、在同一个偏好条件 actor–critic 上做候选采样选择，再把选中的 $\hat\omega_t$ 一路贯穿 GAE/PPO/critic，保证了动作与偏好两个空间的 on-policy 自洽。
两个正则项直击 MORL 的退化模式：方向对齐压住"在意拿不到的目标"，自一致性压住"策略与推断偏好打架"，二者都是从"人不会乱抖偏好/不会钻瞬时波动空子"的直觉里抽象出来的，且消融证明缺一不可。
不确定性建模顺带做了探索：用高斯后验 + softmax 既表达了偏好的认知不确定性，又天然提供了偏好空间里的探索机制，一举两得。

局限与展望¶

环境仍是受控仿真：Queue/Maze/改造版 MuJoCo 都是封闭、可控的玩具或半玩具环境，离开放世界、真实场景还有距离，作者自己点明这是核心局限。
偏好动态相对简单：当前事件驱动的漂移较为离散、单智能体，未涉及长时程、社会耦合（多智能体相互影响）下的偏好演化。作者展望要扩展到 3D 具身和多智能体设定，并设计更具表达力的推断机制。
Boltzmann-理性似然的强假设：把标量化回报直接当对数似然、且环境转移与偏好独立，这些建模假设在更复杂的部分可观测任务里是否成立有待检验。
超参与 $\beta$ 的敏感性：虽然附录称对主超参鲁棒，但 ELBO 里的温度 $\beta$、正则系数 $\lambda,\gamma$ 在更难任务上的调参代价未充分展示。

评分¶

新颖性: ⭐⭐⭐⭐ — 把偏好从"已知常量"重新框定为"需在线推断的漂移隐状态"，并用变分推断 + on-policy envelope 给出干净的实例化，问题设定本身的转变是真正的亮点；扣分在单个技术组件（ELBO、envelope、PPO）多为已有工具的组合。
实验充分度: ⭐⭐⭐ — 三类环境 + 6 类基线 + 逐组件消融 + 窗口/对齐分析较系统，10 seed×200 episode 统计也规范；但环境偏玩具、缺真实/大规模/多智能体验证，主表里 MuJoCo 结果被压到附录。
写作质量: ⭐⭐⭐⭐ — 认知动机—问题设定—方法—可解释性分析的叙事线清晰，排队插队的贯穿例子直观，公式与符号交代完整。
价值: ⭐⭐⭐⭐ — 为非平稳多目标决策提供了一个可解释、可在线适配的偏好推断范式，对 MORL、认知启发 RL、以及多目标对齐都有借鉴价值，开源代码进一步增强可用性。