MILR: Improving Multimodal Image Generation via Test-Time Latent Reasoning¶

会议: ICLR 2026
代码: https://github.com/spatigen/milr
领域: 图像生成 / 多模态推理
关键词: 多模态图像生成, 测试时推理, 潜在空间推理, 策略梯度, 统一理解与生成

一句话总结¶

MILR 把"推理增强图像生成"搬进文本与图像共享的统一潜在向量空间，在测试时用策略梯度（REINFORCE）+ 图像质量 critic 联合优化文/图 token 的中间表征，不动任何模型参数就在 GenEval/T2I-CompBench/WISE 上全部刷到 SOTA，尤其在知识密集的 WISE 上把基座提升 80%。

研究背景与动机¶

领域现状：文生图从 GAN 走到自回归与扩散后，又被"推理增强"思路点燃——借鉴 o1/DeepSeek-R1 的反思能力，让生成模型先想后画。现有做法分两条线：语言推理（改写、扩写 prompt 让模型更好理解）和图像推理（用质量指标迭代修图）。
现有痛点：早期方法只在语言或图像单一空间里推理，缺乏跨模态协同；后来借助统一理解与生成框架（MUG）实现"先语言推理再画图"，但这类方法需要精心构造的推理数据并依赖微调，开发复杂且昂贵。
核心矛盾：跨模态协同推理的好处人人想要，但要么被锁死在单模态，要么被训练成本和数据质量卡住——能不能既跨模态、又免训练？
本文目标：提出一种纯测试时、不改参数、且天然跨模态的推理方法。
核心 idea：【统一潜在空间推理】 不在离散的原始图像/文本上推理，而在两者共享的连续潜在向量空间（Transformer 中间输出）里搜索；因为该空间是模态无关的，提供了视觉与文本推理的统一视角，缩小模态鸿沟。【测试时策略梯度】 用 REINFORCE 把质量奖励的梯度只回传到这些中间潜在表征上，参数全程冻结。

方法详解¶

整体框架¶

MILR 构建在基于 Transformer 的 MUG 模型（实例化为 Janus-Pro）之上。一次前向得到文本 token 与图像 token 的潜在表征 \(z=[z^{(t)};z^{(v)}]\)（取自最后一层、即送进各模态解码头之前的向量），它们落在同一个 \(d\) 维空间。MILR 在测试时反复迭代这组潜在向量：解码出图像 → reward 模型按指令打分 → 把奖励梯度只回传给 \(z\) → 更新 \(z\) → 再解码，循环至多 \(T\) 步。整个过程不触碰任何模型权重。

flowchart LR
    C[指令 c] --> MUG[统一 MUG 模型<br/>Janus-Pro]
    MUG --> Z["统一潜在空间<br/>z = [z_t ; z_v]"]
    Z --> DEC[解码 → 文本/图像]
    DEC --> IMG[最终图像 Vf]
    IMG --> R[奖励模型 R Vf,c]
    R -->|策略梯度回传到 z<br/>参数冻结| Z
    Z -. 收敛后 .-> OUT[输出最优图像]

关键设计¶

1. 多模态潜在推理：把搜索从离散 token 挪到共享向量空间。 MUG 把多模态生成定义为自回归过程 \(p(t,v|c)=\prod_n p(v_n|v_{1:n},t,c)\prod_m p(t_m|t_{1:m},c)\)，图像的生成依赖于由指令产生的语言推理 token。测试时推理的目标是找一对 \((t^*,v^*)\) 最大化期望奖励 \(\mathbb{E}_{V_f\sim p(\cdot|t,v,c)}[R(V_f,c)]\)，但在离散 token 上搜索空间无限、不可解。MILR 改为在连续潜在表征上搜索：\(z^*=\arg\max_z \mathbb{E}_{V_f\sim p(\cdot|z,c)}[R(V_f,c)]\)，其中 \(z=[z^{(t)};z^{(v)}]\) 同时编码文与图，天然提供统一的跨模态视角，把"修指令"和"修图"统一成一件事。拿到最优 \(z^*\) 后，继续走完剩余前向 \(p(V_f|z^*,c)=p(V_f|t,v,c)\,p(t,v|z^*)\) 解出最终图像。

2. 基于 REINFORCE 的测试时梯度优化：奖励只推潜变量、不动参数。 上述目标无闭式解，MILR 用策略梯度 REINFORCE 迭代更新：\(z_{k+1}\leftarrow z_k+\eta\cdot \mathcal{J}(z_k)\)，其中 \(\mathcal{J}(z_k)=\mathbb{E}_{V_f\sim p(\cdot|z_k,c)}[R(V_f,c)\,\nabla_z\log p(t,v|z_k)]\)。作者用单次采样 \((t,v)\) 近似该期望梯度，且梯度只回传到模型输出 \(z\)、不改任何参数——这正是它"测试时"的来源。该文首次把原本用于纯文本推理的 REINFORCE 扩展到统一多模态潜在推理上做图像生成。

3. 前缀部分优化：只优化前 \(\lambda\) 比例的 token 以平衡效率与探索。 若把全部 \(M+N\) 个潜变量都优化，仅靠 reward 引导容易有偏、也浪费了 MUG 自身的生成能力。MILR 只优化文本的前 \(\lambda_t M\) 个潜变量（解码成离散 token 后，剩余用标准自回归补全），图像同理只优化前 \(\lambda_v N\) 个。这一选择有依据：已有观察表明图像前几个 token 主导全局结构、后面的 token 影响高频细节。实验定出 \(\lambda_t=0.2\)、\(\lambda_v=0.02\)（图像只需极少前缀），学习率 0.03，最多 16 步即收敛，单张 A100 80GB 即可跑。

实验关键数据¶

主实验¶

基座为 Janus-Pro-7B，每个 benchmark 用其自带评测工具作为 reward 模型。

方法	GenEval Overall ↑	T2I-CompBench Overall ↑	WISE Avg ↑
Janus-Pro-7B（基座）	0.78	0.3921	0.35
GoT-R1（训练式推理）	—	0.5241	—
T2I-R1（训练式推理）	0.79	0.5281	0.54
Flow-GRPO（训练式推理）	0.95	—	—
ReflectionFlow（测试时推理）	0.91	—	—
Janus-Pro-7B+PARM（测试时）	0.91	—	—
Janus-Pro-7B+MILR	0.95	0.5325	0.63

GenEval 比基座 +0.17，最大增益来自 Counting(+0.34)、Position(+0.21)、Attribute Binding(+0.27)；超过最强测试时方法 +4.5%。
WISE（知识密集）从 0.35 → 0.63，提升 80%，比第二名 T2I-R1 高 16.7%。
1B 基座上同样有效：GenEval 0.73→0.89，WISE 0.26→0.40。

消融实验¶

设置	GenEval Overall	T2I-CompBench	WISE Avg
完整 MILR（文+图）	0.95	0.5325	0.63
w/o Image（仅文本优化）	0.94	0.5210	0.61
w/o Text（仅图像优化）	0.93	0.5043	0.56
w/o MILR（基座）	0.78	0.3921	0.35

关键发现¶

文、图任一单独优化都能大幅超过基座（WISE 上 >0.21），二者联合最优 —— 印证统一潜在空间里的联合推理是性能关键。
仅文本优化略好于仅图像优化、且逼近完整模型，说明 MUG 的语言理解组件仍有较大提升空间。
优化步数从 1 扩到 16 持续涨分、之后饱和，体现了测试时计算的可扩展性。
图像侧只需优化极少前缀 token（\(\lambda_v=0.02\)）就够，文本侧 \(\lambda_t=0.2\)，前缀优化优于随机子集优化，与"前几个 token 决定全局结构"的观察一致。
定性上 MILR 展现出非平凡的几何/时间/文化推理：能从"洛杉矶 3PM 时的长城"推断出"黎明的长城"，能推出莲花在中国文化中象征纯洁。
在 GenEval 上 MILR（0.95）已追平最佳训练式模型 Flow-GRPO，但无需任何参数微调，体现测试时方法的竞争力。

亮点与洞察¶

范式新意：把"推理"从原始 token 层面下沉到模态无关的潜在向量层面，让"改 prompt"和"修图"在同一空间里被同一套梯度统一驱动，是对跨模态推理的一个干净抽象。
免训练、即插即用：纯测试时优化，不动参数，任何具备多模态理解能力的现成模型都能当 reward，部署门槛低。
知识密集场景的大幅增益很有说服力——80% 的 WISE 提升说明潜在推理真的在帮模型"想清楚"知识性指令，而非只是美化画质。
把训练时 RL 转为测试时 RL 的视角值得借鉴：同样是 REINFORCE，作用对象从模型参数换成中间潜变量，既保留了奖励驱动的探索能力，又彻底回避了训练成本与灾难性遗忘。

局限与展望¶

测试时计算开销：每张图需多步前向+反传（最多 16 步），相比单次生成更慢，吞吐受限。
依赖 reward 模型质量：用 benchmark 自带评测器作 reward 有"对着评测优化"的嫌疑，泛化到开放指令时 reward 的可靠性存疑。
基座绑定：方法依托 MUG/Janus-Pro 这类原生支持先语言后图像的统一框架，对纯扩散等不具备该结构的模型迁移性未知。
前缀启发式：\(\lambda_v=0.02\) 这类超参靠网格搜索得到，是否对所有数据/任务稳健仍需更多验证。

评分¶

新颖性: ⭐⭐⭐⭐ 把跨模态推理统一进共享潜在空间、并用测试时策略梯度免训练驱动，是一个清晰且有辨识度的新框架。
实验充分度: ⭐⭐⭐⭐ 覆盖 GenEval/T2I-CompBench/WISE 三大基准，含 1B/7B 两种规模、文/图消融、步数与超参分析，证据较完整；用各 benchmark 自带评测器作 reward 略有"对评测优化"之嫌。
写作质量: ⭐⭐⭐⭐ 动机—公式—策略链条清晰，图 1/图 2 把潜在推理讲得直观。
价值: ⭐⭐⭐⭐ 免训练即插即用，WISE +80% 的增益对知识密集生成很有吸引力，且为"测试时潜在推理"提供了可复用范式。