ICLR 2026 机器人扩散模型 long-horizon planning mode averaging guided search TAMP inference-time scaling

Compositional Diffusion with Guided Search for Long-Horizon Planning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=b8avf4F2hn
项目主页: https://cdgsearch.github.io/
领域: 机器人长程规划 / 组合式扩散 / 推理时搜索
关键词: compositional diffusion, long-horizon planning, mode averaging, guided search, TAMP, inference-time scaling

一句话总结¶

把"种群式搜索"直接嵌进扩散去噪过程，用迭代重采样做局部到全局的消息传递、用 DDIM 反演的似然做剪枝，从而让短程扩散模型组合出既局部可行又全局连贯的长程计划，在机器人规划、全景图、长视频上一套方法通吃。

研究背景与动机¶

领域现状: 用生成模型（尤其扩散模型）做规划很火，而"组合式生成"——把多个局部、模块化的短程生成模型拼成长程分布——是绕开"长程数据昂贵、单体模型无法外推超出训练 horizon"这一痛点的主流路线，覆盖多步操作规划、全景图合成、长视频生成等。
现有痛点: 当局部分布是多模态时，把短程局部计划拼成全局计划会继承"组合式多模态"——全局计划的每个模式对应一串不同的局部模式序列。现有方法（如 GSC）靠 score-averaging 组合局部模式，无法处理这种组合爆炸，会把互不兼容的局部模式平均到一起（mode averaging），产出既不局部可行也不全局连贯的无效计划。
核心矛盾: 高似然的局部片段单独看都合理，但拼起来的模式序列可能彼此冲突；要解决就必须联合推理局部模式间的兼容性，并在指数级大的搜索空间里高效导航——而纯采样方法只会塌缩成不连贯的平均。
本文目标: 找出一串相互兼容、能组合成全局连贯计划的局部模式，且全程在标准扩散去噪流程内完成、不需要长程训练数据、可即插即用跨域。
核心 idea: 把经典搜索思想搬进扩散去噪——在每个去噪步上对一批候选全局计划做种群式搜索：(i) 迭代重采样增强局部-全局信息传递以提出全局可信的候选，(ii) 基于似然的剪枝把因 mode-averaging 落入低似然区的不连贯候选删掉。

方法详解¶

整体框架¶

长程计划 \(\tau=(x_1,\dots,x_N)\) 被表示成重叠局部分布构成的因子图，用 Bethe 近似把联合分布写成 \(p(\tau)=\frac{\prod_j p(y_j)}{\prod_i p(x_i)^{d_i-1}}\)，从而只用短程数据训练的局部分布 \(p(y)\) 就能采样长程 \(p(\tau)\)；组合分数 \(\nabla\log p(\tau)\) 按因子分数与变量分数加和得到（重叠变量取两侧条件分数的平均）。CDGS 在此之上把整个去噪过程改造成一次受引导的种群搜索：每个去噪步维护 \(B\) 个候选全局计划，先用迭代重采样算组合分数、再用似然指标排序并保留 elite-\(K\)、重新填充种群后继续去噪。

flowchart TB
    A["初始化 B 个噪声全局计划 τ(T)"] --> B["ComposedScore: U 次迭代重采样<br/>(重叠处平均分数 + 起止 inpaint)"]
    B --> C["Tweedie 估计清洁计划 τ̂₀"]
    C --> D["DDIM 反演算局部似然 → 排序指标 J(·)"]
    D --> E["保留 elite-K，重新填充 B 个候选"]
    E --> F["去噪一步 τ(t-1)"]
    F -->|t = T...1| B
    F --> G["输出全局连贯计划 τ(0)"]

直观理解（Fig.3 的 1D running example）：起点 \(x_1\) 到目标 \(x_7\) 有"走上"和"走下"两条可行路；朴素组合会出现"上面起、下面终"的混搭，中间因子被迫平均两端模式而产出红色的不可行转移；加迭代重采样降低 mode-averaging 频率，再加剪枝则彻底剔除带不可行转移的计划。

关键设计¶

1. 把搜索嵌进去噪的种群式采样：用修正过的转移分布做交叉熵搜索。 CDGS 的骨架是在每个去噪步 \(t\) 不再单纯从扩散转移 \(p(\tau^{(t-1)}|\tau^{(t)})\) 采样，而是从一个被排序指标重塑过的分布 \(p_J(\tau^{(t-1)}|\tau^{(t)})\propto p(\tau^{(t-1)}|\tau^{(t)})\exp\!\big(-J(\hat\tau_0^{(t-1)})/\beta_t\big)\) 采样，其中 \(\hat\tau_0\) 是清洁计划的 Tweedie 估计，\(\beta_t\) 控制探索-利用权衡。它用一个类似交叉熵方法（cross-entropy method）的蒙特卡洛过程近似：抽一批 \(B\) 个候选、用 \(J\) 排序、保留使 \(J\) 最小的 elite-\(K\) 个，再重新填充。elite 数 \(K\) 是可调旋钮，问题越大越难就并行探索越多可能，天然带来"难任务多算"的自适应推理时计算特性。

2. 用 DDIM 反演近似局部似然作为剪枝排序指标。 关键洞察是"全局计划可行 ⟺ 它的所有局部转移都可行"，而局部模型 \(p(y)\) 本就被训练去建模可行的短程行为，所以高似然的局部片段就是局部可行的强信号。但扩散模型精确似然不可解，作者改用 DDIM 反演来近似：把每个局部片段 \(y\) 经学到的分数网络做前向加噪，高似然样本走低曲率轨迹、低似然样本则需高曲率才能把噪声拉回分布内。据此定义曲率平滑度 \(g(y^{(0)})=\sum_{i=1}^{T}\big\|\tfrac{\partial \epsilon_\theta(y^{(i-1)},i)}{\partial i}\big\|^2\)，并聚合所有局部片段得到全局排序指标 \(J(\tau^{(0)})=\sum_{m=1}^{M}\exp(-g(y_m^{(0)}))\)；\(g\) 越大说明离 \(p(y)\) 的最近模式越远、似然越低，对应 \(J\) 越高的低质量计划在去噪过程中更容易被剪掉。

3. 迭代重采样实现局部-全局消息传递。 仅靠排序不够，还得让候选本身就全局连贯——但标准组合采样无法把长程依赖传过重叠的局部片段（一步去噪后 \(y_1\) 对 \(y_6\) 一无所知）。CDGS 借鉴 RePaint 式重采样：在算组合分数时反复交替"前向加噪 \(\tau^{(t)}\sim p(\tau^{(t)}|\tau^{(t-1)})\) + 去噪"，并在每轮把起点/终点加噪后 inpaint 回去。数学上这等价于因子链上的置信传播：每个局部计划 \(y_m\) 的置信通过与邻居的重叠被更新 \(p(y_m|y_{m-1},y_{m+1})\propto p(y_m)\,p(y_m|y_m\cap y_{m-1})\,p(y_m|y_m\cap y_{m+1})\)，\(U\) 轮后信息就传遍整条长程序列，产出更全局连贯的候选。重采样步数 \(U\) 与批大小 \(B\) 都可随 horizon/搜索空间放大，构成可扩展的推理时算力。

实验关键数据¶

主实验：机器人规划（OGBench）¶

在 OGBench 的 Maze / Scene 上从 stitch / play 数据学习并 receding-horizon 控制，成功率（100 trials × 3 seeds）：

环境	Size	HIQL	GSC	CompDiffuser	Ours w/o PR	Ours
PointMaze (Stitch)	Medium	74	100	100	100	100
PointMaze (Stitch)	Giant	0	29	68	78	87
AntMaze (Stitch)	Large	67	66	86	86	88
AntMaze (Stitch)	Giant	21	20	65	82	85
HumanoidMaze (Stitch)	Large	31	70	72	70	74
Scene (Play)	-	38	8	13	36	51

要点：CDGS 以训练-free方式把朴素组合采样（GSC）拔高到超过需要重叠监督训练的 CompDiffuser，尤其在最难的 Giant 规模上优势明显。AntSoccer（17D 高维 stitch）上 CDGS 同样达到/超过基线（Arena 69 / Medium 18）。

主实验：TAMP 任务套件（成功率，50 trials）¶

方法	任务信息	Hook Reach T1/T2	Rearr. Push T1/T2	Rearr. Memory T1/T2
STAP CEM	PDDL 特权	0.66 / 0.70	0.76 / 0.70	0.00 / 0.00
LLM-T2M (n=11)	LLM prompting	0.0 / 0.48	0.72 / 0.06	0.0 / 0.0
GSC (no task plan)	仅 skill 级数据	0.18 / 0.04	0.00 / 0.00	0.07 / 0.00
CDGS (ours)	仅 skill 级数据	0.64 / 0.58	0.84 / 0.48	0.42 / 0.18

CDGS 不依赖符号搜索或 LLM/VLM 监督，却在 Rearrangement Memory 这类需要长程记忆的任务上大幅超过特权方法（特权 STAP CEM 直接 0.00）。

消融与跨域¶

消融（Ours w/o PR vs Ours）: 去掉剪枝（pruning）+ 重采样后，TAMP 各任务普遍腰斩（如 Hook Reach T1 从 0.64→0.24）；缩放分析显示单独加大 batch B 或单独加大重采样 U 都不够，两者必须协同才能让长程运动规划成功。
全景图（SD2.0，512×4608）: CDGS 在无显式感知损失下匹配 Sync-Diffusion，Intra-Style-L 1.38（vs Multi-Diffusion 2.96），CLIP-S 32.51 为最高，兼顾局部一致与全局上下文。
长视频（CogVideoX-2B → 350 帧 720p，7× 外推）: 主体一致性 91.67、prompt 对齐 26.13 均优于 GSC，仅有轻微美学下降。

关键发现¶

朴素组合采样会"幻觉"出分布外转移（如 place(hook) 前置条件 inhand 从未满足、cube 为凑近目标而钻到 rack 下），CDGS 的剪枝目标保证去噪全程只留与短程转移模型同分布的可行计划。同时缩放分析（Fig.5c/d）显示：任务规划成功率随批大小单调上升、且重采样步数带来更大增益，而运动规划成功率只有在批量足够大时增加重采样才生效——印证两机制的协同性。

亮点与洞察¶

把"组合式生成的 mode-averaging"明确为一类一等公民问题，并指出它源自全局分布继承的组合多模态，而非简单的采样噪声。
训练-free 即插即用：不改训练、不需长程数据、不需重叠/任务骨架监督，仅在推理时改采样流程，就跨机器人规划/全景/长视频三域通用。
DDIM 反演曲率 ≈ 局部似然这一代理巧妙绕开扩散似然不可解的难题，把"可行性判定"变成可批量算的排序信号。
自适应推理时算力：难任务通过加大 \(B\)、\(U\) 换取更高成功率，且实验证明两者必须协同——给"inference-time scaling 用于组合分布"提供了干净的范例。

局限与展望¶

推理成本随 \(B\times U\) 上升：种群搜索 + 多轮重采样 + 每片段 DDIM 反演带来显著推理开销，论文未给出与基线对齐的 wall-clock / FLOPs 对比。
依赖低维状态表示：机器人实验用末端执行器与物体位姿的低维状态空间，真实部署需外部感知提供位姿，端到端从像素规划未验证。
似然代理的近似性：DDIM 反演曲率只是似然的启发式近似，在局部模型本身欠拟合或分布尾部时排序可能失真。
长视频有美学-一致性权衡：主体一致性提升以轻微美学下降为代价，是长视频组合生成的通病，未根治。

评分¶

新颖性: ⭐⭐⭐⭐ 把 mode-averaging 提为核心问题并用"去噪内嵌种群搜索 + DDIM 反演似然剪枝 + 重采样消息传递"组合解法，视角清晰、机制新颖。
实验充分度: ⭐⭐⭐⭐ 覆盖 OGBench 多套件 + TAMP 三套件 + 全景 + 长视频，含强基线、消融与缩放分析；但缺推理算力/时延对比、缺像素端到端验证。
写作质量: ⭐⭐⭐⭐ 问题动机与 running example（Fig.3）讲得直观，算法伪代码与公式完整；少数排版符号（DDIM 反演式）阅读门槛偏高。
价值: ⭐⭐⭐⭐ 提供一个训练-free、跨域通用的长程规划/生成推理范式，对组合式生成与具身规划社区有较强可迁移性。

资源：项目主页含交互演示与全景/长视频定性结果 https://cdgsearch.github.io/。