Synergizing Understanding and Generation with Interleaved Analyzing-Drafting Thinking¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=GtqmPJf00A
代码: 项目页 AD-Loop.io
领域: 多模态VLM / LLM推理
关键词: 统一视觉语言模型, 理解与生成协同, 交错思考, 潜在视觉思维, 强化学习
一句话总结¶
针对统一视觉语言模型(UVLM)把"理解"和"生成"当成两个并行技能、解题时彼此不互动的问题,本文提出 AD-Loop——让模型在思考过程中交错产出"文本思维(分析)"和"潜在视觉思维(起草)",并用 SFT + 自适应 RL 两阶段训练,使模型学会按需在两种能力间来回切换,理解平均 +2.3%、GenEval 总分达 86%。
研究背景与动机¶
领域现状:统一视觉语言模型(Unified Vision-Language Models, UVLM)希望用一个框架同时支持多模态理解(看图回答)和生成(按指令出图)。主流路线有三类:把两者都当成自回归的 next-token 预测、用解耦编码器加多头输出减少表示冲突、以及混合 AR-扩散架构兼顾效率与保真。
现有痛点:这些工作几乎全在"架构层面"做文章——怎么把两个能力塞进一个网络。但它们忽略了一个关键事实:在真正解题的推理过程中,理解模块和生成模块之间几乎没有显式互动。模型把理解和生成当成两个可以独立调用的技能并排放着,谁也帮不上谁。
核心矛盾:理解和生成本应是互补的——稳健的理解为忠实的生成提供语义基础,而成功的生成结果反过来又是"看懂了"的有力证据。可现有模型只做到了"共处一框"(co-locate),没做到"相互强化"(mutual reinforcement)。例如指令有歧义时,理解模块本可以先提几个候选答案,再调用生成模块画草图来"验证"这些候选;反过来生成出初稿后,又可以反问理解模块要属性、空间布局等高层指引来逐步精修。这种来回互动,现有模型做不到。
本文目标:不再把理解与生成当成"共存的技能",而是把它们编织进一个解题循环里,让模型在分析和起草之间动态交替。
切入角度:作者借鉴认知科学里"内部表象是示意性的、而非像素级精确的"(Shepard & Metzler)观察——人脑推理时脑补的画面是粗糙轮廓,不是高清图。于是思考阶段不需要渲染完整图像,只需一组紧凑的"潜在视觉思维"来承载推理所需的视觉线索。
核心 idea:用交错的 Analyzing(分析,产出文本思维 T-T)-Drafting(起草,产出潜在视觉思维 V-T)解题循环(AD-Loop)替代"理解、生成各管各"的并行调用,让模型在一段 <think> 思维链里反复在两种模式间切换、迭代精炼,从而把理解与生成真正拧成协同。
方法详解¶
整体框架¶
给定输入 \(x=(q, I)\)(\(q\) 是文本,\(I=\{I_m\}_{m=1}^{M}\) 是可选的图像集合,\(M\geq 1\)),模型经视觉编码器与 LLM 主干处理后,输出一段被 <think></think> 包裹的思维轨迹,再给出最终答案:
其中 [T-T] 是文本思维(语义抽象、推理),[V-T] 是视觉思维(草图、空间布局),用两个特殊 token 标记起止;[Answer] 是最终文本或图像。关键在于:思考阶段的视觉思维不是渲染整张图,而是一组紧凑的潜在视觉思维 token \(\{v_j\}_{j=1}^{K}\),\(K\) 远小于渲染一张图所需的 token 数(实现里 \(K\leq 16\))。
整个方法是"一个推理范式 + 两阶段训练"。推理时模型在 AD-Loop 里交替分析与起草;训练上先用 SFT 让模型学会交错思考的格式,再用自适应 RL 让模型学会判断何时该启用 AD-Loop、何时纯文本思考就够了。该框架与具体 UVLM 架构无关(architecture-agnostic),既能套在连续 embedding 路线(BAGEL)上,也能套在离散 token 路线(Janus-Pro)上。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:文本 q + 可选图像 I"] --> B["UVLM 主干"]
B --> C["AD-Loop 交错思考<br/>分析 T-T ↔ 起草 V-T 交替"]
C --> D["隐式潜在视觉思维<br/>聚类压成 K≤16 个 latent token"]
D --> E["最终答案:文本 / 图像"]
F["Stage-1 监督模仿交错思考"] -.训练初始化.-> B
G["Stage-2 自适应 RL 调控"] -.强化训练.-> B
关键设计¶
1. AD-Loop:把理解与生成编织成交错解题循环
这针对的痛点是现有 UVLM 解题时理解、生成两个模块零互动。AD-Loop 的做法是把一次解题展开成一段 <think> 思维链,让模型在两种"思维"间动态交替:文本思维 T-T 负责分析(语义抽象、逻辑推理、提候选假设),视觉思维 V-T 负责起草(脑补草图、空间布局、可视化假设)。比如"识别水壶、炉子、杯子的功能关系"这种题,模型先文本分析列出两种候选关系,再用视觉思维分别可视化 Draft A / Draft B,再回到文本验证哪个更符合常识——分析和起草来回多轮,最后给答案。这种交替不是简单地"先理解后生成",而是把生成结果当成可被理解模块继续审视的中间证据,从而让两种能力在同一条推理链上相互校正、迭代收敛。
2. 隐式潜在视觉思维:用聚类把整图压成少量 latent token
如果思考阶段每次"起草"都要吐出完整图像(离散 codebook 几百个 image token,或扩散几十步),延迟极高,还会把推理和与决策无关的像素细节纠缠在一起。本文据此把思考期的视觉思维换成一小撮潜在 token \(\{v_j\}_{j=1}^{K}\)(\(K\ll N\),\(N\) 是整图 latent grid 数)。构造方式是:复用生成侧的编码器把图像编成 latent grid \(\{z_i\}_{i=1}^{N}\),再用密度峰值聚类(density peaks clustering)把这些 token 按语义邻近度聚成 \(K\) 个簇,每个簇取成员均值作为代表 token \(v_j=\frac{1}{|C_j|}\sum_{i\in C_j} z_i\),并按簇中心坐标(左上到右下)排成确定序列。相比朴素的空间池化,聚类得到的目标更稳定、按语义聚合,既保留了粗略轮廓又过滤了像素噪声。一个有意思的现象(RQ-2)是:视觉思维必须来自生成编码器而非理解编码器——生成编码器预训练充分、同时承载语义和像素信息,模型收敛更快、效果更好。
3. Stage-1 监督模仿:先把"会交错思考"教进去
直接上冷启动 RL 训推理很不稳,所以第一阶段先做 SFT 给个强初始化。难点在于现成数据(多模态 CoT、GoT 生成数据等,理解侧 20K、生成侧 22K 条交错样本)提供的是显式的像素图作为视觉思维,而本文的格式要的是潜在视觉思维。解决办法就是用设计 2 的冻结生成编码器 + 聚类把每张显式视觉思维图转成 gold 潜在 token 序列 \(V^\star\)。训练目标三项相加:
其中文本思维用交叉熵 \(\mathcal{L}_{CE}\) 监督,潜在视觉思维 \(\mathcal{L}_{vis}\) 用均方误差(MSE)监督,\(\mathcal{L}_{out}\) 是原任务损失,\(\alpha\) 是权重系数。这样模型在引导下学会"该插文本思维就插文本、该插视觉思维就插一组 latent token"的交错节奏。
4. Stage-2 自适应 RL:让模型学会"何时才需要 AD-Loop"
SFT 后模型会交错思考了,但有些题用单一能力(只理解或只生成)就能自信解出,强行 AD-Loop 反而冗余。第二阶段用基于组相对偏好优化(GRPO 风格)的 RL 让策略对每个输入自适应:对每个 query \(q\) 同时采两组轨迹——启用 AD-Loop 的 \(\{o_i^{+}\}\) 和不启用的 \(\{o_i^{-}\}\),共 \(G\) 条。奖励由格式项 + 内容项构成 \(r_{base}(o)=r_{format}+r_{content}\)(生成任务用对齐/质量打分,理解任务用规则判对错)。为了只在真有用时才鼓励 AD-Loop,给 \(V^{+}\) 加一个 margin 加成:仅当它答对、确实用了 AD-Loop、且超过最强 \(V^{-}\) 候选至少 \(\delta\) 时才给奖励:
\(\delta\) 这个 margin 过滤掉偶然性的"虚假胜出",没有实质收益时就偏向更简单的纯文本模式。优化时把组内优势 \(A_{intra}\)(按本组奖励归一化)和指示哪种模式最优的组间优势 \(A_{inter}\) 加权合并 \(A_i=A_{intra}+\gamma A_{inter}\),再配 KL 正则和 clipping 更新策略。最终模型学到一个"节俭"策略:空间/机械推理这类题主动调 AD-Loop,表格/序列/符号推理这类纯文本链就够的题则不调。
一个完整示例¶
以"识别水壶、炉子、杯子三者的功能关系"为例走一遍 AD-Loop:① 文本思维(T-T)做初始分析——"水壶是金属的,杯子是陶瓷的且空着,存在两种可能关系";② 文本思维提出候选——关系 A:水壶放在炉子上烧水;关系 B:杯子直接放炉子上加热液体;③ 视觉思维(V-T)分别可视化 Draft A、Draft B 两个假设;④ 文本思维做验证分析——"Draft A 符合常识用法,Draft B 不合理因为陶瓷杯很少直接放炉灶上";⑤ 给最终答案——"水壶在炉子上加热,随后把热水倒进杯子"。整个过程分析与起草交替进行,生成出的草图成了理解模块判断的"证据",这正是协同的体现。
实验关键数据¶
骨干为 BAGEL-7B(理解侧用 SigLIP2-so400m/14 编码,生成侧用 FLUX 预训练 VAE)。Stage-1 全局 batch 256、初始学习率 \(1\times10^{-5}\)、潜在视觉思维上限 \(K=16\);Stage-2 用 VERL 框架做 RL,AdamW、学习率 \(2\times10^{-6}\)、每 prompt 8 次 rollout、KL 权重 0.01。
主实验¶
理解(多模态理解 benchmark):
| 模型 | #Params | POPE↑ | MME-P↑ | MMB↑ | SEED↑ | GQA↑ | MMMU↑ | MM-Vet↑ |
|---|---|---|---|---|---|---|---|---|
| Janus-Pro | 7B | 87.4 | 1567.1 | 79.2 | 72.1 | 62.0 | 41.0 | 50.0 |
| BAGEL | 7B | – | 1687.0 | 85.0 | – | – | 55.3 | 67.2 |
| AD-Loop(本文) | 7B | 90.1 | 1696.0 | 87.6 | 74.4 | 63.8 | 57.3 | 69.7 |
生成(GenEval):
| 模型 | Single↑ | Two↑ | Counting↑ | Colors↑ | Position↑ | Attri.↑ | Overall↑ |
|---|---|---|---|---|---|---|---|
| Janus-Pro | 0.99 | 0.89 | 0.59 | 0.90 | 0.79 | 0.66 | 0.80 |
| BAGEL | 0.99 | 0.94 | 0.81 | 0.88 | 0.64 | 0.63 | 0.82 |
| MindOmni(仅文本思考) | 0.99 | 0.94 | 0.71 | 0.90 | 0.71 | 0.71 | 0.83 |
| AD-Loop(本文) | 0.98 | 0.94 | 0.83 | 0.90 | 0.80 | 0.74 | 0.86 |
理解平均 +2.3%,GenEval 总分 86%,且在位置(Position)、属性(Attri.)这类细粒度项上提升最明显——正是需要"推理"的维度。相比只用文本思考的 MindOmni,加入视觉思维带来稳定增益。
消融实验¶
不同思考策略对比(T:仅分析思考;T+I:显式交错;T+eI:隐式交错;T / T+eI:自适应):
| 思考策略 | MathVista↑ | LogicVista↑ | SAT↑ | WISE-Cultural↑ | WISE-Space↑ | WISE-Biology↑ |
|---|---|---|---|---|---|---|
| Isolated(孤立思考) | 61.5 | 40.2 | 0.63 | 0.44 | 0.68 | 0.44 |
| T(仅文本思考) | 68.3 | 44.1 | 0.74 | 0.67 | 0.69 | 0.56 |
| T + I(显式交错) | 72.9 | 46.6 | 0.81 | 0.73 | 0.74 | 0.64 |
| T + eI(隐式交错) | 73.6 | 47.2 | 0.84 | 0.75 | 0.77 | 0.65 |
| T / T + eI(自适应) | 75.8 | 49.5 | 0.89 | 0.79 | 0.78 | 0.68 |
视觉思维来源对比(RQ-2):
| 视觉思维来源 | MMStar | MathVista | LogicVista | GenEval | WISE-Cultural | WISE-Biology |
|---|---|---|---|---|---|---|
| 生成编码器 | 54.9 | 75.8 | 47.5 | 0.86 | 0.79 | 0.68 |
| 理解编码器 | 51.6 | 70.9 | 44.3 | 0.84 | 0.71 | 0.61 |
关键发现¶
- 从"无思考→文本思考→交错思考→自适应"逐级递增:加文本思考已大幅超过孤立思考,再加视觉思维进一步涨,自适应策略最好——证明视觉线索补充了文本说不清的细粒度信息,且按需调用比一刀切更优。
- 显式 vs 隐式视觉思维差距很小,但隐式(潜在 token)更省、且过滤了像素噪声;两者混合互补效果最佳。
- 视觉思维该来自生成编码器:生成编码器预训练充分、同时含语义与像素信息,模型收敛更快、各项指标全面更高。
- 架构无关可迁移(RQ-1):同时套在 Janus-Pro(离散 token)和 BAGEL(连续 embedding)上都涨点,如 MM-Vet 上 Janus-Pro +9.4、BAGEL +1.5。
- 视觉思维按需激活(RQ-4):旋转、复杂 OCR、3D 感知等空间/机械推理任务激活率高、增益大;表格、序列、符号推理则倾向纯文本链。
亮点与洞察¶
- 把"生成"当成推理的中间证据:最"啊哈"的点是让模型生成草图来验证自己提出的候选假设,再回头用理解去判断——生成不再只是终点产物,而成了推理链上可被审视的一步,这才是真正意义上的理解↔生成协同。
- 潜在视觉思维这招很巧:借"人脑表象是示意性而非像素级"的认知直觉,把昂贵的整图渲染换成 \(K\leq16\) 个聚类 latent token,既保留推理够用的视觉线索,又把延迟和像素噪声砍掉,可迁移到任何需要"脑补但不需要出图"的多模态推理场景。
- margin-based 奖励是个可复用的 RL trick:只有当带某能力的轨迹显著超过不带的最强基线时才给加成,能有效防止策略为了拿奖励而滥用昂贵能力,适用于任何"可选但有成本的推理动作"的自适应调控。
局限与展望¶
- 视觉思维被设计成"示意性"的紧凑 latent(\(K\leq16\)),对需要精确像素级证据的任务(如细密 OCR、精确计数)可能不够,论文也观察到表格等任务更依赖文本链。
- 强依赖一个高质量的奖励模型来打内容分(生成侧用偏好/对齐打分),奖励噪声会直接影响 Stage-2 自适应策略的学习,文中未深入分析奖励鲁棒性。
- 交错思考引入额外的视觉思维 token 与多轮分析-起草,虽比渲染整图省,但相对纯文本思考仍有推理开销,论文未给出系统的推理成本/延迟对比。
- 可探索把"何时插视觉思维、插几个"也做成可学习的动态预算,而非固定 \(K=16\)。
相关工作与启发¶
- vs 自回归统一 / AR-扩散混合架构(Janus-Pro、BAGEL、Show-o 等):它们在架构层面统一理解与生成,但解题时两模块仍是并行独立调用;本文不改架构、改"思考范式",让两者在一条
<think>链里交错互动,且 architecture-agnostic 可直接套在它们上面涨点。 - vs 仅文本思考的多模态推理(MindOmni、纯 CoT 类):它们只用文本 rationale 推理;本文交错进潜在视觉思维,在细粒度属性、空间/机械推理上更强,证明视觉思维提供了文本说不清的线索。
- vs 工具增强 / 显式生成视觉轨迹的交错推理:相比调外部工具或渲染显式图像,本文用聚类得到的隐式 latent 视觉思维,更省、更稳定,避免像素噪声纠缠推理。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把理解-生成协同从"架构统一"重新定义为"交错解题循环",并用潜在视觉思维 + 自适应 RL 落地,视角新颖。
- 实验充分度: ⭐⭐⭐⭐ 理解/生成多 benchmark + 思考策略消融 + 跨架构迁移 + 5 个 RQ 分析较全,但缺推理成本对比与奖励鲁棒性分析。
- 写作质量: ⭐⭐⭐⭐ 动机清晰、图示直观(AD-Loop 示例、潜在视觉思维可视化),公式记号稍密。
- 价值: ⭐⭐⭐⭐⭐ 架构无关、即插即用,为统一多模态模型提供了通用的"理解↔生成协同"机制,迁移性强。