Synergizing Understanding and Generation with Interleaved Analyzing-Drafting Thinking¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=GtqmPJf00A
代码: 项目页 AD-Loop.io
领域: 多模态VLM / LLM推理
关键词: 统一视觉语言模型, 理解与生成协同, 交错思考, 潜在视觉思维, 强化学习

一句话总结¶

针对统一视觉语言模型（UVLM）把"理解"和"生成"当成两个并行技能、解题时彼此不互动的问题，本文提出 AD-Loop——让模型在思考过程中交错产出"文本思维（分析）"和"潜在视觉思维（起草）"，并用 SFT + 自适应 RL 两阶段训练，使模型学会按需在两种能力间来回切换，理解平均 +2.3%、GenEval 总分达 86%。

研究背景与动机¶

领域现状：统一视觉语言模型（Unified Vision-Language Models, UVLM）希望用一个框架同时支持多模态理解（看图回答）和生成（按指令出图）。主流路线有三类：把两者都当成自回归的 next-token 预测、用解耦编码器加多头输出减少表示冲突、以及混合 AR-扩散架构兼顾效率与保真。

现有痛点：这些工作几乎全在"架构层面"做文章——怎么把两个能力塞进一个网络。但它们忽略了一个关键事实：在真正解题的推理过程中，理解模块和生成模块之间几乎没有显式互动。模型把理解和生成当成两个可以独立调用的技能并排放着，谁也帮不上谁。

核心矛盾：理解和生成本应是互补的——稳健的理解为忠实的生成提供语义基础，而成功的生成结果反过来又是"看懂了"的有力证据。可现有模型只做到了"共处一框"（co-locate），没做到"相互强化"（mutual reinforcement）。例如指令有歧义时，理解模块本可以先提几个候选答案，再调用生成模块画草图来"验证"这些候选；反过来生成出初稿后，又可以反问理解模块要属性、空间布局等高层指引来逐步精修。这种来回互动，现有模型做不到。

本文目标：不再把理解与生成当成"共存的技能"，而是把它们编织进一个解题循环里，让模型在分析和起草之间动态交替。

切入角度：作者借鉴认知科学里"内部表象是示意性的、而非像素级精确的"（Shepard & Metzler）观察——人脑推理时脑补的画面是粗糙轮廓，不是高清图。于是思考阶段不需要渲染完整图像，只需一组紧凑的"潜在视觉思维"来承载推理所需的视觉线索。

核心 idea：用交错的 Analyzing（分析，产出文本思维 T-T）-Drafting（起草，产出潜在视觉思维 V-T）解题循环（AD-Loop）替代"理解、生成各管各"的并行调用，让模型在一段 <think> 思维链里反复在两种模式间切换、迭代精炼，从而把理解与生成真正拧成协同。

方法详解¶

整体框架¶

给定输入 \(x=(q, I)\)（\(q\) 是文本，\(I=\{I_m\}_{m=1}^{M}\) 是可选的图像集合，\(M\geq 1\)），模型经视觉编码器与 LLM 主干处理后，输出一段被 <think></think> 包裹的思维轨迹，再给出最终答案：

\[\texttt{<think>}\ [\text{T-T}]\ [\text{V-T}]\ [\text{T-T}]\ [\text{V-T}]\ \dots\ \texttt{</think>}\ [\text{Answer}]\]

其中 [T-T] 是文本思维（语义抽象、推理），[V-T] 是视觉思维（草图、空间布局），用两个特殊 token 标记起止；[Answer] 是最终文本或图像。关键在于：思考阶段的视觉思维不是渲染整张图，而是一组紧凑的潜在视觉思维 token \(\{v_j\}_{j=1}^{K}\)，\(K\) 远小于渲染一张图所需的 token 数（实现里 \(K\leq 16\)）。

整个方法是"一个推理范式 + 两阶段训练"。推理时模型在 AD-Loop 里交替分析与起草；训练上先用 SFT 让模型学会交错思考的格式，再用自适应 RL 让模型学会判断何时该启用 AD-Loop、何时纯文本思考就够了。该框架与具体 UVLM 架构无关（architecture-agnostic），既能套在连续 embedding 路线（BAGEL）上，也能套在离散 token 路线（Janus-Pro）上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：文本 q + 可选图像 I"] --> B["UVLM 主干"]
    B --> C["AD-Loop 交错思考<br/>分析 T-T ↔ 起草 V-T 交替"]
    C --> D["隐式潜在视觉思维<br/>聚类压成 K≤16 个 latent token"]
    D --> E["最终答案：文本 / 图像"]
    F["Stage-1 监督模仿交错思考"] -.训练初始化.-> B
    G["Stage-2 自适应 RL 调控"] -.强化训练.-> B

关键设计¶

1. AD-Loop：把理解与生成编织成交错解题循环

这针对的痛点是现有 UVLM 解题时理解、生成两个模块零互动。AD-Loop 的做法是把一次解题展开成一段 <think> 思维链，让模型在两种"思维"间动态交替：文本思维 T-T 负责分析（语义抽象、逻辑推理、提候选假设），视觉思维 V-T 负责起草（脑补草图、空间布局、可视化假设）。比如"识别水壶、炉子、杯子的功能关系"这种题，模型先文本分析列出两种候选关系，再用视觉思维分别可视化 Draft A / Draft B，再回到文本验证哪个更符合常识——分析和起草来回多轮，最后给答案。这种交替不是简单地"先理解后生成"，而是把生成结果当成可被理解模块继续审视的中间证据，从而让两种能力在同一条推理链上相互校正、迭代收敛。

2. 隐式潜在视觉思维：用聚类把整图压成少量 latent token

如果思考阶段每次"起草"都要吐出完整图像（离散 codebook 几百个 image token，或扩散几十步），延迟极高，还会把推理和与决策无关的像素细节纠缠在一起。本文据此把思考期的视觉思维换成一小撮潜在 token \(\{v_j\}_{j=1}^{K}\)（\(K\ll N\)，\(N\) 是整图 latent grid 数）。构造方式是：复用生成侧的编码器把图像编成 latent grid \(\{z_i\}_{i=1}^{N}\)，再用密度峰值聚类（density peaks clustering）把这些 token 按语义邻近度聚成 \(K\) 个簇，每个簇取成员均值作为代表 token \(v_j=\frac{1}{|C_j|}\sum_{i\in C_j} z_i\)，并按簇中心坐标（左上到右下）排成确定序列。相比朴素的空间池化，聚类得到的目标更稳定、按语义聚合，既保留了粗略轮廓又过滤了像素噪声。一个有意思的现象（RQ-2）是：视觉思维必须来自生成编码器而非理解编码器——生成编码器预训练充分、同时承载语义和像素信息，模型收敛更快、效果更好。

3. Stage-1 监督模仿：先把"会交错思考"教进去

直接上冷启动 RL 训推理很不稳，所以第一阶段先做 SFT 给个强初始化。难点在于现成数据（多模态 CoT、GoT 生成数据等，理解侧 20K、生成侧 22K 条交错样本）提供的是显式的像素图作为视觉思维，而本文的格式要的是潜在视觉思维。解决办法就是用设计 2 的冻结生成编码器 + 聚类把每张显式视觉思维图转成 gold 潜在 token 序列 \(V^\star\)。训练目标三项相加：

\[\mathcal{L}_{S1}=\mathcal{L}_{CE}(\hat{T}, T^\star)+\alpha\,\mathcal{L}_{vis}(\hat{V}, V^\star)+\mathcal{L}_{out}(\hat{o}, o^\star)\]

其中文本思维用交叉熵 \(\mathcal{L}_{CE}\) 监督，潜在视觉思维 \(\mathcal{L}_{vis}\) 用均方误差（MSE）监督，\(\mathcal{L}_{out}\) 是原任务损失，\(\alpha\) 是权重系数。这样模型在引导下学会"该插文本思维就插文本、该插视觉思维就插一组 latent token"的交错节奏。

4. Stage-2 自适应 RL：让模型学会"何时才需要 AD-Loop"

SFT 后模型会交错思考了，但有些题用单一能力（只理解或只生成）就能自信解出，强行 AD-Loop 反而冗余。第二阶段用基于组相对偏好优化（GRPO 风格）的 RL 让策略对每个输入自适应：对每个 query \(q\) 同时采两组轨迹——启用 AD-Loop 的 \(\{o_i^{+}\}\) 和不启用的 \(\{o_i^{-}\}\)，共 \(G\) 条。奖励由格式项 + 内容项构成 \(r_{base}(o)=r_{format}+r_{content}\)（生成任务用对齐/质量打分，理解任务用规则判对错）。为了只在真有用时才鼓励 AD-Loop，给 \(V^{+}\) 加一个 margin 加成：仅当它答对、确实用了 AD-Loop、且超过最强 \(V^{-}\) 候选至少 \(\delta\) 时才给奖励：

\[r(o_i^{+})=r_{base}(o_i^{+})+\lambda\,\mathbb{1}(\text{AD-Loop}\mid a)\max\big(0,\ r_{base}(o_i^{+})-\max_j r_{base}-\delta\big)\]

\(\delta\) 这个 margin 过滤掉偶然性的"虚假胜出"，没有实质收益时就偏向更简单的纯文本模式。优化时把组内优势 \(A_{intra}\)（按本组奖励归一化）和指示哪种模式最优的组间优势 \(A_{inter}\) 加权合并 \(A_i=A_{intra}+\gamma A_{inter}\)，再配 KL 正则和 clipping 更新策略。最终模型学到一个"节俭"策略：空间/机械推理这类题主动调 AD-Loop，表格/序列/符号推理这类纯文本链就够的题则不调。

一个完整示例¶

以"识别水壶、炉子、杯子三者的功能关系"为例走一遍 AD-Loop：① 文本思维（T-T）做初始分析——"水壶是金属的，杯子是陶瓷的且空着，存在两种可能关系"；② 文本思维提出候选——关系 A：水壶放在炉子上烧水；关系 B：杯子直接放炉子上加热液体；③ 视觉思维（V-T）分别可视化 Draft A、Draft B 两个假设；④ 文本思维做验证分析——"Draft A 符合常识用法，Draft B 不合理因为陶瓷杯很少直接放炉灶上"；⑤ 给最终答案——"水壶在炉子上加热，随后把热水倒进杯子"。整个过程分析与起草交替进行，生成出的草图成了理解模块判断的"证据"，这正是协同的体现。

实验关键数据¶

骨干为 BAGEL-7B（理解侧用 SigLIP2-so400m/14 编码，生成侧用 FLUX 预训练 VAE）。Stage-1 全局 batch 256、初始学习率 \(1\times10^{-5}\)、潜在视觉思维上限 \(K=16\)；Stage-2 用 VERL 框架做 RL，AdamW、学习率 \(2\times10^{-6}\)、每 prompt 8 次 rollout、KL 权重 0.01。

主实验¶

理解（多模态理解 benchmark）：

模型	#Params	POPE↑	MME-P↑	MMB↑	SEED↑	GQA↑	MMMU↑	MM-Vet↑
Janus-Pro	7B	87.4	1567.1	79.2	72.1	62.0	41.0	50.0
BAGEL	7B	–	1687.0	85.0	–	–	55.3	67.2
AD-Loop（本文）	7B	90.1	1696.0	87.6	74.4	63.8	57.3	69.7

生成（GenEval）：

模型	Single↑	Two↑	Counting↑	Colors↑	Position↑	Attri.↑	Overall↑
Janus-Pro	0.99	0.89	0.59	0.90	0.79	0.66	0.80
BAGEL	0.99	0.94	0.81	0.88	0.64	0.63	0.82
MindOmni（仅文本思考）	0.99	0.94	0.71	0.90	0.71	0.71	0.83
AD-Loop（本文）	0.98	0.94	0.83	0.90	0.80	0.74	0.86

理解平均 +2.3%，GenEval 总分 86%，且在位置（Position）、属性（Attri.）这类细粒度项上提升最明显——正是需要"推理"的维度。相比只用文本思考的 MindOmni，加入视觉思维带来稳定增益。

消融实验¶

不同思考策略对比（T：仅分析思考；T+I：显式交错；T+eI：隐式交错；T / T+eI：自适应）：

思考策略	MathVista↑	LogicVista↑	SAT↑	WISE-Cultural↑	WISE-Space↑	WISE-Biology↑
Isolated（孤立思考）	61.5	40.2	0.63	0.44	0.68	0.44
T（仅文本思考）	68.3	44.1	0.74	0.67	0.69	0.56
T + I（显式交错）	72.9	46.6	0.81	0.73	0.74	0.64
T + eI（隐式交错）	73.6	47.2	0.84	0.75	0.77	0.65
T / T + eI（自适应）	75.8	49.5	0.89	0.79	0.78	0.68

视觉思维来源对比（RQ-2）：

视觉思维来源	MMStar	MathVista	LogicVista	GenEval	WISE-Cultural	WISE-Biology
生成编码器	54.9	75.8	47.5	0.86	0.79	0.68
理解编码器	51.6	70.9	44.3	0.84	0.71	0.61

关键发现¶

从"无思考→文本思考→交错思考→自适应"逐级递增：加文本思考已大幅超过孤立思考，再加视觉思维进一步涨，自适应策略最好——证明视觉线索补充了文本说不清的细粒度信息，且按需调用比一刀切更优。
显式 vs 隐式视觉思维差距很小，但隐式（潜在 token）更省、且过滤了像素噪声；两者混合互补效果最佳。
视觉思维该来自生成编码器：生成编码器预训练充分、同时含语义与像素信息，模型收敛更快、各项指标全面更高。
架构无关可迁移（RQ-1）：同时套在 Janus-Pro（离散 token）和 BAGEL（连续 embedding）上都涨点，如 MM-Vet 上 Janus-Pro +9.4、BAGEL +1.5。
视觉思维按需激活（RQ-4）：旋转、复杂 OCR、3D 感知等空间/机械推理任务激活率高、增益大；表格、序列、符号推理则倾向纯文本链。

亮点与洞察¶

把"生成"当成推理的中间证据：最"啊哈"的点是让模型生成草图来验证自己提出的候选假设，再回头用理解去判断——生成不再只是终点产物，而成了推理链上可被审视的一步，这才是真正意义上的理解↔生成协同。
潜在视觉思维这招很巧：借"人脑表象是示意性而非像素级"的认知直觉，把昂贵的整图渲染换成 \(K\leq16\) 个聚类 latent token，既保留推理够用的视觉线索，又把延迟和像素噪声砍掉，可迁移到任何需要"脑补但不需要出图"的多模态推理场景。
margin-based 奖励是个可复用的 RL trick：只有当带某能力的轨迹显著超过不带的最强基线时才给加成，能有效防止策略为了拿奖励而滥用昂贵能力，适用于任何"可选但有成本的推理动作"的自适应调控。

局限与展望¶

视觉思维被设计成"示意性"的紧凑 latent（\(K\leq16\)），对需要精确像素级证据的任务（如细密 OCR、精确计数）可能不够，论文也观察到表格等任务更依赖文本链。
强依赖一个高质量的奖励模型来打内容分（生成侧用偏好/对齐打分），奖励噪声会直接影响 Stage-2 自适应策略的学习，文中未深入分析奖励鲁棒性。
交错思考引入额外的视觉思维 token 与多轮分析-起草，虽比渲染整图省，但相对纯文本思考仍有推理开销，论文未给出系统的推理成本/延迟对比。
可探索把"何时插视觉思维、插几个"也做成可学习的动态预算，而非固定 \(K=16\)。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把理解-生成协同从"架构统一"重新定义为"交错解题循环"，并用潜在视觉思维 + 自适应 RL 落地，视角新颖。
实验充分度: ⭐⭐⭐⭐ 理解/生成多 benchmark + 思考策略消融 + 跨架构迁移 + 5 个 RQ 分析较全，但缺推理成本对比与奖励鲁棒性分析。
写作质量: ⭐⭐⭐⭐ 动机清晰、图示直观（AD-Loop 示例、潜在视觉思维可视化），公式记号稍密。
价值: ⭐⭐⭐⭐⭐ 架构无关、即插即用，为统一多模态模型提供了通用的"理解↔生成协同"机制，迁移性强。