From Scale to Speed: Adaptive Test-Time Scaling for Image Editing¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 扩散模型 / 图像生成
关键词: 图像编辑, 测试时扩展, Image-CoT, 自适应采样, 早停剪枝

一句话总结¶

针对"把面向文生图的 Image-CoT 直接搬到图像编辑会浪费算力"的问题，本文提出 ADE-CoT：用编辑难度动态分配采样预算、用"编辑区域+指令一致性"专用验证器替代笼统的 MLLM 打分做早期剪枝、再用深度优先的"够用即停"机制砍掉冗余采样，在三个 SOTA 编辑模型上相比 Best-of-N 拿到更好画质的同时提速 2× 以上。

研究背景与动机¶

领域现状：Image Chain-of-Thought（Image-CoT）是一类训练无关、即插即用的"测试时扩展"（test-time scaling）策略——通过在推理时多采样若干候选、再用验证器挑最好的来提升生成质量。它最初主要服务于文生图（T2I）：标准做法是扰动初始噪声采样 N 个候选，再用 Best-of-N（BoN）选最优；进阶方法用 MLLM 当验证器，在去噪中途给中间态打分、提前剪掉低潜力轨迹以省算力。

现有痛点：图像编辑和文生图有本质区别——T2I 是开放式任务，大规模采样能源源不断产出多样的合理结果；而编辑是目标导向的，解空间被原图和指令死死约束住，再怎么换噪声、改写提示，能对的答案就那么几种。把 T2I 那套 Image-CoT 硬搬过来，作者实测暴露三个问题：(1) 资源分配低效——所有编辑都用固定预算（如 32 个样本），但简单编辑（初始分高）从 Image-CoT 里几乎拿不到提升，固定预算把算力浪费在了简单样本上；(2) 早期验证不可靠——编辑往往只改局部、细微的区域，在去噪早期很难分辨，笼统的 MLLM 分会误判：有 40% 早期低分的样本最终其实能拿高分，却被错误剪掉；(3) 结果冗余——大规模采样会产出一堆分数相同的正确结果（best score 落在 [7,9) 的编辑大多有 15+ 个候选共享最高分），但编辑任务只要一个对齐意图的结果就够了，多余的都是白烧算力。

核心矛盾：现有 Image-CoT 的整套机制（固定预算、通用打分、广度优先并行采全部候选再选优）都是为"开放式、越多越好"的 T2I 设计的，与编辑"目标导向、一个够用"的本质错配。

本文目标 / 核心 idea：把重心从"scale（采得多）"转向"speed（够用即停）"。提出 on-demand 的 ADE-CoT，用三招对症下药：按难度动态给预算、用编辑专用指标做准早期剪枝、用深度优先的机会式停止砍冗余——在保住编辑正确性的前提下大幅提效。

方法详解¶

整体框架¶

ADE-CoT 接收一张原图 \(I_{src}\) 和一条编辑指令 \(c\)，目标是产出语义对齐 \(c\) 的编辑图 \(I\)，整条流水线把传统 BoN 的"固定预算 + 广度优先采全部 + 通用打分选优"改造成三段自适应流程。

先用单个候选的初始分估计编辑难度，据此动态决定要采多少样本（难度感知预算）；随后在去噪早期做广度优先搜索，但用编辑专用验证器（区域定位 + 指令-caption 一致性）替代通用分来剪枝，并丢掉视觉上高度相似的冗余候选，把活下来的候选按分排序；最后在去噪后期切换成深度优先，按早期分逐个生成候选，用实例专属验证器逐个核验，一旦攒够 \(N_{high}\) 个真正对齐意图的结果就立刻停止。三段分别对应"省在简单样本上""剪得更准""砍掉冗余"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原图 + 编辑指令"] --> B["难度感知预算分配<br/>单候选初始分估难度<br/>定动态预算 Na"]
    B --> C["早期专用验证剪枝<br/>一步预览 + 区域/caption 打分<br/>过滤相似候选 + 按分排序"]
    C --> D["深度优先机会式停止<br/>后期逐个生成<br/>实例专属验证器逐个核验"]
    D -->|"攒够 Nhigh 个对齐结果"| E["输出最优编辑图"]

关键设计¶

1. 难度感知的资源分配：让简单编辑少采、难编辑多采

直击"固定预算浪费算力"的痛点。作者先只生成单个候选并用验证器 \(\text{Vrf}\) 打一个初始分 \(S\)，把它当作编辑难度的代理——分高说明这条编辑本就简单、再多采也提升有限，分低说明难、值得多搜。自适应预算 \(N_a\) 按下式分配：

\[N_a = N_{\min} + \lceil (N - N_{\min}) \times (1 - S/S_{\max})^{\gamma} \rceil\]

其中 \(N_{\min}\)、\(N\) 是最小/原始预算，\(S_{\max}\) 是满分，\(\gamma\) 控制敏感度。当 \(S \to S_{\max}\)（易），\(N_a\) 收敛到 \(N_{\min}\)；当 \(S \to 0\)（难），\(N_a\) 趋近 \(N\)。这样算力被精准地导向难编辑。实验里 \(\gamma\) 从 0（等价 BoN）增大到 0.15 之前，NFE 稳步下降而画质几乎不变，作者据此把默认 \(\gamma\) 设为 0.15。

2. 编辑专用验证 + 相似过滤：把早期剪枝从"笼统打分"换成"看对没改对地方"

针对"通用 MLLM 分在去噪早期误判 40% 高潜力样本"的痛点。这一步有三个零件。其一是一步预览：早期时刻 \(t_e\) 的噪声 latent \(x_{t_e}\) 直接打分很难，由于近代编辑模型多用 flow matching 训练，作者一步外推出近似干净 latent \(x_{0|t_e} = x_{t_e} - \sigma_{t_e}\epsilon_\theta(x_{t_e}, T_{t_e})\)，解码成预览图——无需额外去噪步就能拿到能反映最终结果好坏的预览。

其二是两个编辑专用验证器补足通用分 \(S_{gen}\)。编辑区域正确性：先用提示 \(P_{reg}\) 让 MLLM 说出该改/该保留的物体，喂给 Grounded SAM2 生成期望编辑区域的二值掩码 \(M\)；再算编辑图与原图逐像素 RGB 绝对差的均值变化图 \(\Delta = \frac{1}{C}\sum_{c=1}^{C}|I^{(c)} - I_{src}^{(c)}|\)，对 \(\Delta\) 做像素级 softmax 加权后在掩码内聚合得 \(S_{reg} = \sum_{H,W} M \odot \text{softmax}_{H,W}(\Delta)\)——\(S_{reg}\) 越高说明改动越集中在该改的区域。指令-caption 一致性：测试时没有真值 caption，作者用提示 \(P_{cap}\) 让 MLLM 基于原图和指令生成一个目标 caption \(c_{cap}\)，再用 CLIP 算 \(S_{cap} = \text{CLIPScore}(I, c_{cap})\)。三者合成统一分 \(S = S_{gen} + \lambda_{reg}S_{reg} + \lambda_{cap}S_{cap}\)，低于拒绝阈值 \(S_{rj}\) 的候选被剪掉。妙在 \(S_{reg}\) 和 \(S_{cap}\) 每个编辑只需一次 MLLM 查询，几乎不增开销。实测把高分区 [6,9) 的误判从 235 降到 86（降 63%），而误剪的低分样本几乎不变（357→329）。

其三是视觉相似过滤：用 DINOv2 抽预览图的视觉嵌入算两两相似度，超过阈值 \(\tau_{sim}\) 就丢掉评分较低的那个，从源头去冗余。最后把存活候选按统一分 \(S\) 降序排——因为早期高分的候选往往最终也高分，这给下一阶段"早停"提供了排序依据。

3. 深度优先机会式停止：够用就停，不把所有候选采完

针对"大规模采样产出一堆相同正确结果"的冗余痛点。不同于 BoN/PRM/PARM 的广度优先（先并行采完全部候选再 best-of-N 选优），这里改成深度优先：按早期分逐个生成候选。它含两个零件。后期保留：在更晚的时刻 \(t_l\)（\(t_e < t_l < T\)）再给每个候选生成一次预览并算统一分，用自适应阈值（保留与当前最高分相当的候选）而非固定阈值动态剪掉次优样本。实例专属验证器：通用分 \(S_{gen}\) 常给一堆候选打相同高分、连有错的也照样高分，导致最终选择不可靠；作者发现"两段式问答"能引导 MLLM 注意关键细节——先用提示 \(P_q\) 针对当前编辑生成一组 yes/no 问题（覆盖指令遵循、美学等），再用提示 \(P_a\) 逐题作答，数 yes 的个数得实例专属分 \(S_{spec}\)（每个 yes 表示某一方面改对了）。把 \(S_{spec}\) 并入统一分来惩罚错误候选，当攒够 \(N_{high}\) 个被判为对齐意图的结果即停止，再从中选最高分输出。\(N_{high}\) 默认设 4：实验显示性能在 \(N_{high} \ge 4\) 后饱和而 NFE 随之线性上涨，攒 4 个比"首个对齐就停"更鲁棒。

损失函数 / 训练策略¶

ADE-CoT 是训练无关、即插即用的测试时方法，不引入任何训练。关键超参在三个 SOTA 模型上的默认配置：去噪总步数 \(T=28/28/50\)（Kontext/BAGEL/Step1X-Edit），早期步 \(t_e=8/8/16\)、后期保留步 \(t_l=16/16/36\)；MLLM 查询用 Qwen-VL-MAX，通用分用 VIE-Score，每个编辑生成 5 个实例专属 yes/no 问题，所有结果取三次运行均值。

实验关键数据¶

主实验¶

在 GEdit-Bench（真实用户编辑）、AnyEdit-Test（局部/全局/隐式编辑）、Reason-Edit（复杂理解推理）三个 benchmark 上，挂载到 FLUX.1 Kontext、BAGEL、Step1X-Edit 三个 SOTA 编辑模型上评测。效率用 NFE（总去噪步数）衡量，并自定义两个指标：推理效率 \(\eta = \frac{1}{M}\sum_i \sigma_i \cdot \frac{S(i)}{S_{\max}} \cdot \frac{NT}{NFE(i)}\)（\(\sigma_i=1\) 当结果不劣于 BoN，衡量画质-算力权衡），结果效率 \(\xi = \frac{1}{M}\sum_i \sigma_i \frac{NFE(i)}{NFE^{min}(i)}\)（衡量冗余，越高冗余越少）。固定预算 \(N=32\) 下的 GEdit-Bench 主结果：

模型	方法	G_O ↑	η ↑	ξ ↑
FLUX.1 Kontext	BoN	6.641	0.66	0.12
FLUX.1 Kontext	TTS-EF	6.376	0.98	0.57
FLUX.1 Kontext	ADE-CoT	6.695	1.47	0.66
BAGEL	BoN	6.908	0.69	0.14
BAGEL	ADE-CoT	6.972	1.27	0.62
Step1X-Edit	BoN	7.157	0.72	0.13
Step1X-Edit	ADE-CoT	7.196	1.45	0.62

相对 BoN，ADE-CoT 把推理效率 \(\eta\) 提升 2× 以上，结果效率 \(\xi\) 在三 benchmark 上平均提升 4.9×/2.7×/2.9×（对应 GEdit/AnyEdit/Reason-Edit 的整体 speedup 也在 2× 量级）。两个对照基线的失败方式很说明问题：PRM/PARM 因通用分误判早期预览、误剪高潜力样本，性能反不如 BoN；TTS-EF 效率高但只从早期预览选单个最优、采样一多就不可靠，性能差。

消融实验（逐策略叠加，GEdit-Bench，G_O / NFE）¶

配置	Kontext	BAGEL	Step1X-Edit
Baseline (BoN)	6.641 / 896	6.908 / 1600	7.157 / 896
+难度感知预算	6.641 / 797	6.909 / 1391	7.157 / 778
+早期剪枝(通用分 S_gen)	6.642 / 719	6.912 / 1351	7.157 / 719
+早期剪枝(统一分 S)	6.647 / 673	6.916 / 1290	7.161 / 638
+相似样本过滤	6.651 / 508	6.915 / 1087	7.162 / 522
+后期保留	6.652 / 464	6.935 / 972	7.163 / 462
+实例专属验证器	6.702 / 464	6.984 / 972	7.206 / 462
+机会式停止(完整)	6.695 / 418	6.972 / 882	7.196 / 434

关键发现¶

NFE 的大头来自"相似过滤 + 机会式停止"：Kontext 上 NFE 从 896 一路降到 418（≈2.1× 加速），其中相似过滤（673→508）和后期保留/早停贡献最大；而难度感知预算和早期剪枝主要"几乎不掉分地省算力"。
实例专属验证器是涨点主力：加它之前 G_O 一直在 6.65 附近徘徊，加上后 Kontext 6.652→6.702、Step1X 7.163→7.206——它能抓到通用分抓不到的细节错误（如"头侧着没朝前"），把最终选择做准。
统一分 S 比通用分 S_gen 既准又省：同样维持不劣于 BoN，用 S 能开更高的拒绝阈值，NFE 降得更多（Step1X 719→638）；早期预览的获取方式消融也显示"一步预览"优于"加额外去噪步"和"直接用噪声 latent"（NFE 显著更低且画质相当）。
\(N_{high}=4\)、\(\gamma=0.15\) 是性能-效率拐点：\(N_{high}\ge4\) 后性能饱和而 NFE 线性上涨；\(\gamma\) 超过 0.15 后性能才开始下滑。

亮点与洞察¶

"任务性质决定 scaling 策略"是个很干净的洞察：T2I 开放式→越采越好，编辑目标导向→一个够用。从这个二分法出发，"把 scale 换成 speed"的整套设计就顺理成章，而不是堆 trick。
一步预览 + flow-matching 外推很巧：不额外去噪就能拿到能反映最终好坏的预览图，是后面所有早期验证的便宜地基，把"早期验证"的成本压到了近乎免费。
实例专属的"两段式 yes/no 问答"把笼统的"打个分"变成"针对这次编辑列检查清单逐项核验"，本质是给验证器加了 task-specific 的注意力，这个思路可迁移到任何"通用打分分不开候选"的选择场景（视频生成、3D 编辑的 best-of-N）。
\(S_{reg}\) 用 Grounded SAM2 掩码 + softmax 加权变化图，把"改没改对地方"量化成一个无需真值的可计算分，是编辑任务里少见的、不依赖 ground-truth 的区域级验证。

局限与展望¶

整套流程重度依赖外部 MLLM/分割模型（Qwen-VL-MAX、Grounded SAM2、CLIP、VIE-Score），\(S_{reg}\)/\(S_{cap}\) 的可靠性受这些组件能力上限制约；论文用"每编辑仅一次 MLLM 查询"压成本，但 MLLM 本身的误差会传导到剪枝与早停。⚠️ 论文未充分讨论 MLLM 失效时整链的鲁棒性。
难度代理 = 单候选初始分，是个相当粗的估计；单次采样的随机性可能让简单编辑被误判为难（或反之），从而预算分配失准——这部分作者未给出方差分析。
多个阈值/权重（\(\gamma\)、\(\tau_{sim}\)、\(\lambda_{reg}\)、\(\lambda_{cap}\)、\(S_{rj}\)、\(t_e\)、\(t_l\)）需按模型调，默认值在三个模型上验证过，但跨模型/跨数据的泛化超参敏感性展示有限。
方法是测试时框架，性能上限仍受底层编辑模型限制：它优化的是"在固定模型下更快更准地选对结果"，而非提升模型本身的编辑能力。

评分¶

新颖性: ⭐⭐⭐⭐ 把"任务是开放式还是目标导向"作为 test-time scaling 的设计原点，三招都对症且自洽，但每一招（难度预算/专用验证/早停）单看都不算颠覆。
实验充分度: ⭐⭐⭐⭐⭐ 三模型 × 三 benchmark，逐策略叠加消融 + 预览方式/搜索方式/超参敏感性多组分析，自定义 \(\eta/\xi\) 把"效率"量化得很到位。
写作质量: ⭐⭐⭐⭐ 问题分析（Fig.2 三连）清晰，方法与动机一一对应；少量公式 OCR 略糙需对原文核。
价值: ⭐⭐⭐⭐ 训练无关、即插即用、可挂在任意编辑模型上提速 2×，对实际部署 Image-CoT 编辑很实用。