Scalable Exploration for High-Dimensional Continuous Control via Value-Guided Flow¶
会议: ICLR 2026
arXiv: 2601.19707
领域: 强化学习/高维控制
关键词: 高维控制, 价值引导流, 概率流探索, 肌骨模型, actor-critic
一句话总结¶
提出Qflex(Q-guided Flow Exploration)——在高维连续动作空间中实现可扩展探索的RL方法:从可学习源分布沿Q函数诱导的概率流传输动作→探索与任务相关梯度对齐(而非各向同性噪声)→在多种高维基准上超越高斯/扩散RL基线,成功控制700执行器的全身人体肌骨模型执行敏捷复杂动作。
研究背景与动机¶
领域现状:高维动力系统控制(全身肌骨/多腿机器人)→RL的核心挑战。动作空间可达数百维→标准高斯探索急剧失效。
现有痛点: - (1) 高斯噪声探索→维度增长→覆盖率指数级下降→样本效率骤降 - (2) 降维方法(DynSyn/DEP-RL)→限制策略表达力→牺牲灵活性 - (3) 扩散/流策略→用于多模态→但isotropic初始分布→高维仍低效 - (4) 700个肌肉执行器→远超现有方法的成功应用范围
切入角度:Q函数引导的概率流→使探索对齐任务相关方向→保持高维原始空间。
方法详解¶
整体框架¶
Qflex 仍是一个标准的 actor-critic 框架,但把"如何采样动作"从一次性的高斯加噪,换成了由 Q 函数引导的多步概率流:动作从一个可学习的源分布出发,沿着学到的速度场 \(v_\theta(a, s, t)\) 逐步被"传输"到 Q 值更高的区域,最终落点既是策略采样也是探索方向。Critic 学到的 Q 函数同时扮演评价器和探索指南针两个角色,从而让探索方向与任务回报的梯度对齐,而不是在 700 维空间里盲目撒各向同性噪声。
关键设计¶
1. Q 引导的概率流传输:让探索方向对齐价值梯度。 高维连续控制的根本困境是绝大多数动作扰动方向都是无用的——动作空间一旦涨到上百维,各向同性高斯噪声的有效覆盖率随维度指数衰减,样本效率随之崩塌。Qflex 不再从固定噪声直接得到动作,而是把动作沿一条概率流逐步推进,更新形式为 \(a \leftarrow a + v_\theta(a, s, t) \cdot dt\),其中 \(v_\theta\) 是学到的速度场,被训练成指向 Q 增长的方向。这样每一步传输都把动作推向价值更高的区域,探索从"随机试"变成"按 Q 指引的方向试",在维度极高、有效方向极稀疏的场景里把采样预算集中到真正有用的子空间上。
2. 多步流传输取代一步加噪:逐步精化而非单次扰动。 标准高斯探索(如 SAC)是一步采样,扩散类方法(如 DACER)虽然多步却从各向同性的起点出发、靠后验引导回拉,二者在高维下都受限于起点信息的缺失。Qflex 用多步传输逐步精化动作:沿 \(v_\theta\) 积分若干小步 \(dt\),每一步都重新利用当前状态与 Q 信息修正方向,使得最终动作是被价值场"塑形"过的结果。相比一步噪声,这种逐步精化能在保留原始全维动作空间的同时,避免单次扰动落入无意义区域。
3. 可学习的源分布:让初始分布也携带信息。 探索的起点不再是固定的标准高斯,而是一个可学习的源分布,与速度场一同被优化。固定高斯起点在高维下本身就浪费了大量概率质量在无用方向上;让源分布可学习后,初始采样就已经偏向任务相关区域,相当于"初始分布也在 carrying information",与后续的 Q 引导流前后衔接,进一步压缩了从源到高价值目标动作之间需要传输的距离。
实验关键数据¶
高维基准(MuJoCo/Isaac)¶
| 环境 | 动作维度 | Qflex vs SAC | vs 扩散 |
|---|---|---|---|
| Humanoid | ~23 | +15% | +10% |
| 高维变体 | ~100 | +30% | +20% |
| 全身肌骨 | 700 | 成功(SAC失败) | 成功(扩散失败) |
全身肌骨控制¶
- 600+肌肉→700维动作空间
- 复杂运动(跑/跳/转)→Qflex成功→基线全部失败
- 无降维→保持全部灵活性
关键发现¶
- Q引导→高维探索非常有效→因为绝大多数方向是无用的→Q引导聚焦有用方向
- 可学习源分布→比固定高斯好→初始分布也carrying information
- 维度越高→Qflex vs 基线差距越大→验证了可扩展性
亮点与洞察¶
- "700维的'不可能'任务":之前没有RL方法在700+维连续空间成功→Qflex突破了这个barrier。
- "Q函数=探索指南针":不是随机试→而是按Q引导方向试→每次探索都有方向。
- 保持原始空间的价值:降维→牺牲灵活性→可能错过最优解→Qflex证明保持全维度是值得的。
- 生物启发:人类肌骨控制→大脑通过value-like信号引导探索→Qflex的流与此类似。
局限与展望¶
-
In this paper, we introduce Qflex, a scalable online RL method for efficient exploration in high-dimensional continuous control.
-
Our method conducts directed exploration by sampling from a Q-guided probability flow with policy-improvement guarantees, yielding superior learning efficiency over representative online RL baselines across benchmarks characterized by high dimensionality and over-actuation.
-
Qflex further demonstrates agile, complex motion control on a full-body musculoskeletal model with 700 actuators, achieving high efficiency and strong scalability in truly high-dimensional settings.
-
Our analysis shows that value-aligned exploration in Qflex surpasses undirected sampling strategies in high-dimensional regimes, which is readily extensible to a variety of online RL frameworks and exploration settings.
-
Acknowledgments
This work is supported by STI 2030-Major Projects 2022ZD0209400, Beijing Academy of Artificial Intelligence and Beijing Municipal Science & Technology Commissi
相关工作与启发¶
- vs DynSyn: 本文在此基础上提出了不同的技术路线,在关键指标上取得了改进。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Q引导概率流探索的首次提出+700维成功
- 实验充分度: ⭐⭐⭐⭐⭐ 多维度基准+全身肌骨+与多种基线对比
- 写作质量: ⭐⭐⭐⭐ 方法动机清晰
- 价值: ⭐⭐⭐⭐⭐ 对高维RL有根本性突破