跳转至

Conflict-Aware Additive Guidance for Flow Models under Compositional Rewards

会议: ICML2026
arXiv: 2605.20758
代码: https://github.com/yuxuehui/CAR-guidance
领域: 图像生成
关键词: 推理时引导, 流匹配, 组合奖励, 梯度冲突, 偏离流形

一句话总结

针对流模型在多目标组合奖励下推理时引导易产生 off-manifold drift 的问题,提出 Conflict-Aware Additive Guidance (CAR),通过检测梯度冲突并动态切换可学习的值梯度修正,以极低额外计算代价将身份保留提升 25.4%、规划成功率提升 38.75%。

研究背景与动机

领域现状:连续时间流模型(Rectified Flow、Flow Matching)已成为强大的生成范式,推理时引导(inference-time guidance)通过在基础向量场上叠加梯度项 \(g_t(x_t,t)\) 来满足外部约束,无需微调即可实现可控生成。

现有痛点:近似引导方法(如 \(g^{\text{cov-G}}\))计算高效但在组合多个奖励函数时极易产生 off-manifold drift——生成样本偏离数据流形进入低密度区域,导致图像失真或规划轨迹出现幻觉跳跃。精确引导方法(Guidance Matching、GLASS-FKS)虽能避免漂移,但前者需要满足所有约束的真值样本,后者计算量高出 \(3\times\) 以上。

核心矛盾:多奖励函数的梯度方向相互冲突时,近似引导的误差会随梯度错位 \((1 - \cos\phi)\) 和奖励函数数量 \(G\) 急剧放大,形成"能量陷阱"将轨迹捕获到流形外。

本文目标:在近似引导的计算量级上,消除组合奖励场景下的 off-manifold drift。

切入角度:从测度传输理论出发,将近似误差分解为耦合偏移、梯度错位、局部近似三个可归因的项,发现梯度错位是组合场景下误差主因。

核心 idea:用冲突感知门控动态检测梯度冲突区域,仅在高冲突区激活轻量可学习引导进行修正。

方法详解

整体框架

给定预训练流模型 \(v_t(x_t,t)\) 和组合奖励 \(r(x_1) = \sum_{j=1}^G r_j(x_1)\),CAR 在推理时将基础速度场修改为 \(v'_t = v_t + g^{\text{car}}\)。引导项 \(g^{\text{car}}\) 是近似引导 \(g^{\text{approx}}\) 和可学习引导 \(g_\psi\) 的动态混合:\(g^{\text{car}} = (1 - w_t) g^{\text{approx}} + w_t g_\psi\),其中 \(w_t\) 由梯度冲突程度自动决定——冲突大时切换到学习修正,冲突小时保留廉价近似。

关键设计

  1. 近似误差三项分解(理论基础):

    • 功能:揭示组合引导误差的来源并指导方法设计
    • 核心思路:将精确目标分布与近似实现之间的 \(W_2^2\) 误差分解为三项——(A) 耦合偏移误差(假设 \(\mathcal{P}(z) \approx 1\))、(B) 梯度错位误差(\(\propto G(G-1) \mu^2 (1-\cos\phi)\))、(C) 局部近似误差。其中项 (B) 随奖励数 \(G\) 二次增长并与梯度角度偏差成正比
    • 设计动机:理论证明了在单奖励时近似引导足够好,而组合场景下梯度错位是误差主因,为有针对性地修正提供了理论依据
  2. 冲突感知门控机制:

    • 功能:在每个采样步自动判断是否需要启用学习修正
    • 核心思路:计算所有奖励梯度对之间的平均余弦相似度得到原始冲突分数 \(w_{\text{raw}} = 1 - \frac{2}{G(G-1)} \sum_{j<k} \frac{\langle g_j, g_k \rangle}{\|g_j\|\|g_k\| + \varepsilon}\),映射到 \((0,1)\) 后作为混合权重。梯度方向一致时 \(w_t \approx 0\),使用廉价近似;梯度冲突时 \(w_t \approx 1\),切换到学习引导
    • 设计动机:相比 PCGrad 等投影式去冲突方法(仅提供边际改善),门控机制实现了"按需修正"——仅在真正需要的时空区域投入额外计算
  3. 终端值回归(Terminal Value Regression):

    • 功能:稳定训练可学习引导 \(g_\psi\)
    • 核心思路:参数化标量值函数 \(V_\psi(x_t, t)\) 并定义 \(g_\psi = \nabla_{x_t} V_\psi\)。利用流模型 ODE 动力学的确定性,直接回归终端奖励 \(r(x_1)\) 而非 bootstrap,损失为 \(\mathcal{L}(\psi) = \mathbb{E}[\mathbb{I}_t \cdot (r(x_1) - V_\psi(x_t,t))^2]\),其中掩码 \(\mathbb{I}_t = \mathbf{1}(w(x_t) > \tau)\) 限制训练仅在高冲突区域进行
    • 设计动机:Fitted Value Evaluation 存在"致命三角"(函数近似 + 离策略 + 自举),TVR 通过消除自举保证稳定收敛;掩码训练进一步节省计算

实验关键数据

主实验——合成数据集(2D 混合高斯)

方法 后验覆盖 (PC) ↑ 约束满足 (CS) ↑ 推理时间 (ms) ↓ 训练数据量
\(g^{\text{cov-G}}\) 71.70% 89.56% 0.38
PCGrad 75.20% 92.45% 0.42
GM 84.50% 99.99% 2.81 10,240k
GLASS-FKS 90.80% 99.71% 296
CAR (ours) 93.80% 100.00% 4.20 1,574k

冲突约束 [1,0] 下,\(g^{\text{cov-G}}\) 近 30% 样本偏离流形;CAR 将漂移率降至 6.2%,计算量仅为 GLASS-FKS 的 1/70。

消融与扩展实验

任务 方法 违反数 ↓ 成功率 ↑ 关键改善
ManiSkill2 StackCube (静态障碍) \(g^{\text{cov-G}}\) 1.2 12%
ManiSkill2 StackCube (静态障碍) CAR 0.1 72% 成功率 +60%
ManiSkill2 StackCube (混合约束) \(g^{\text{cov-G}}\) 1.8 9%
ManiSkill2 StackCube (混合约束) CAR 0.4 61% 违反率 -78%
Maze2D (动态障碍) \(g^{\text{cov-G}}\) 0.9 42%
Maze2D (动态障碍) CAR 0.2 61% 成功率 +19%
CelebA-HQ 图像编辑 \(g^{\text{cov-G}}\) ID=0.543
CelebA-HQ 图像编辑 CAR ID=0.681 身份保留 +25.4%

亮点与洞察

  • 理论贡献扎实:三项误差分解清晰定位了组合引导失败的根因,\(G(G-1)(1-\cos\phi)\) 的二次增长解释了为什么多约束场景比单约束难得多
  • "按需修正"设计非常务实:冲突感知门控使得无冲突时零额外开销,冲突区域才投入计算,在合成数据上平均推理时间仅 1.65ms 远低于精确方法
  • TVR 用终端奖励直接回归消除自举,在流模型确定性 ODE 特性下理论上保证收敛
  • 跨领域验证充分:从 2D 合成到像素空间图像编辑到 3D 点云机械臂操控,一致有效

局限性 / 可改进方向

  • CLIP 奖励信号不平滑,高维图像编辑中 \(g_\psi\) 训练不够稳定,可能产生对抗性伪影
  • 仍需在线 rollout 收集训练数据(Maze2D 约 10 分钟),非完全即插即用
  • 冲突阈值 \(\tau\) 需要手动设定(实验中取 0.20 或 0.50),对不同任务需调参

相关工作与启发

  • Guidance Matching (Feng et al., 2025):精确引导但需真值样本,CAR 以极低数据量逼近其性能
  • GLASS-FKS (Holderrieth et al., 2026):基于采样的精确方法,高方差且计算量大
  • PCGrad (Yu et al., 2020):多任务梯度投影式去冲突,在推理时引导场景下改善有限

评分

  • 新颖性: ⭐⭐⭐⭐ (梯度冲突检测 + 值梯度修正的组合在引导采样中是新的)
  • 实验充分度: ⭐⭐⭐⭐⭐ (4 个领域 + 理论 + 消融 + 可视化,非常全面)
  • 写作质量: ⭐⭐⭐⭐ (理论推导清晰,实验组织系统化)
  • 价值: ⭐⭐⭐⭐ (组合约束是实际部署的真实痛点,方法实用性强)