Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning¶

会议: ACL 2026
arXiv: 2601.14750
代码: TencentBAC/RoT
领域: LLM推理
关键词: 链式思维压缩, 视觉潜空间推理, 文本渲染为图像, CoT token压缩, 自蒸馏

一句话总结¶

提出 Render-of-Thought（RoT），首次将文本 CoT 推理步骤渲染为图像，利用预训练视觉编码器作为语义锚点将 LLM 隐状态对齐到视觉嵌入空间，实现 3-4 倍 token 压缩和显著推理加速，同时保持推理链的可分析性。

研究背景与动机¶

领域现状：Chain-of-Thought 提示已成为解锁 LLM 复杂推理能力的基础范式，但 CoT 的冗长特性导致严重的推理延迟和内存消耗问题。现有压缩方法主要分为两条路线：显式压缩（token 筛选、RL 激励短路径）和隐式推理（在潜空间中编码推理过程）。

现有痛点：显式压缩仍受限于稀疏 token 表示。隐式推理方法（如 Coconut、CODI、CoLaR）将思维压缩到不透明的连续向量中，但通常只关注结果对齐而缺乏对中间推理过程的监督，导致推理链的可分析性丧失——难以追踪模型的推理逻辑或诊断逻辑错误。此外许多方法采用复杂架构，影响训练稳定性。

核心矛盾：压缩效率与可解释性之间的矛盾——高压缩率的潜空间推理牺牲了推理过程的可追踪性，而保持可解释性的显式 CoT 又太冗长。

本文目标：找到一种既能大幅压缩 CoT 又能保持推理过程可观测的表示方式。

切入角度：视觉模态天然具有高信息密度——一张图像可以编码大量文本信息。如果将 CoT 文本渲染成图像，就能用视觉编码器的少量 token 表示完整的推理过程，而且渲染后的图像本身是可视化的，保留了可分析性。

核心 idea：将文本 CoT 渲染为单行图像，用预训练视觉编码器提取嵌入作为监督目标，训练 LLM 在视觉潜空间中自回归生成推理轨迹，推理时无需实际渲染和编码，仅需 LLM 前向传播。

方法详解¶

整体框架¶

RoT 想同时拿到两样平时鱼与熊掌的东西：把冗长 CoT 大幅压短，又不丢掉推理过程的可观测性。它的思路是借视觉模态的高信息密度——一张图能塞下大段文字。训练时它把文本 CoT 渲染成一张单行图像，过预训练视觉编码器得到一串嵌入，再让 LLM 通过一个投影头把自己的隐状态对齐到这串视觉嵌入上，从而学会在"视觉潜空间"里自回归地生成推理轨迹。整个训练分两步走：先冻住 LLM 和视觉编码器、只练投影头把两边对齐，再冻住投影头和视觉编码器、用 LoRA 微调 LLM 学会自主生成轨迹。关键是推理时根本不需要真的去渲染图像和跑视觉编码器，只靠 LLM + 投影头前向一遍就行，省下的就是被压掉的那几倍 token。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    Q["问题 + 文本 CoT 推理步骤"] --> RENDER["CoT 渲染模块<br/>渲成 32px 单行图像（黑底白字、动态宽度）"]
    RENDER --> VENC["预训练视觉编码器（冻结）<br/>输出视觉嵌入 v_t 作监督目标"]
    VENC --> S1["Stage I 视觉对齐<br/>冻 LLM，只训投影头：MSE 把隐状态对齐到 v_t"]
    S1 --> S2["Stage II 潜监督微调<br/>冻投影头，LoRA 微调 LLM 自回归生成潜视觉轨迹"]
    S2 --> INFER["推理：仅 LLM + 投影头前向一遍<br/>无需渲染/编码，输出终止符 + 答案"]

关键设计¶

1. CoT 渲染模块：把推理文本压成单行图像，而不是方块图

要用视觉编码器的少量 token 表示整段推理，先得把文本变成一张"好编码"的图。RoT 选择单行渲染：高度固定 32px、宽度随文本长度动态伸缩，黑底白字、20px 字号、4px 填充。之所以不用更直觉的方形图，是因为方形会带来两个麻烦——文本排不满留下大片空白区域（产生无意义嵌入）、长文本又得换行（多行之间引入空间歧义）。单行动态宽度把这两个问题一并消掉：图像 patch 严格从左到右一字排开，天然和文本顺序对齐，编码器读到的每个 patch 都对应实打实的推理内容。

2. Stage I 视觉对齐：先把 LLM 的隐状态搬到视觉编码器现成的语义空间里

潜空间推理最怕从零学一套表示空间、训练不稳。RoT 的取巧之处是不让 LLM 自己造空间，而是借预训练视觉编码器已经组织好的结构化表示当"语义锚点"。这一阶段冻住 LLM 和视觉编码器，只训一个轻量投影头（两层 MLP + SwiGLU）：在问题后面接一个 <img_begin> token 触发视觉推理，投影头把 LLM 的隐状态映到视觉嵌入空间，用 MSE 损失逼近视觉编码器的输出

\[\mathcal{L}_{align} = \frac{1}{K}\sum_{t=1}^{K}\|\hat{v}_t - v_t\|_2^2,\]

同时用交叉熵训练 <img_end> 终止 token 和最终答案的预测。注意这和典型 MLLM 的"视觉→LLM"方向正好相反，做的是"LLM→视觉"的投影，等于让 LLM 学着把思考结果写进视觉编码器看得懂的坐标系。

3. Stage II 潜监督微调：在对齐好的空间里教 LLM 自己走完推理

光对齐还不够，LLM 得学会主动生成一串能落在视觉空间里的推理轨迹、最后吐出答案。这一阶段反过来冻住视觉编码器和已对齐的投影头，只用 LoRA 微调 LLM：模型自回归生成潜视觉 token 序列，再输出终止符和文本答案。妙在投影头被冻住后形成一个隐式约束——LLM 只能生成那些"能被投影头映成有意义视觉表示"的隐状态，等于被逼着待在 Stage I 建好的空间里走。此阶段不再加显式视觉回归损失，只用答案预测的交叉熵训练。把对齐和推理拆成两步、而不是一锅端，正是为了避开"边建空间边学导航"带来的不稳定。

损失函数 / 训练策略¶

Stage I：\(\mathcal{L}_I = \mathcal{L}_{pred} + \lambda \mathcal{L}_{align}\)，同时优化对齐和预测。Stage II：仅 \(\mathcal{L}_{pred}\)，纯答案准确率目标。训练使用 AdamW 优化器，lr=2e-5，Stage I 训练 1 epoch，Stage II 训练 2 epoch。推理使用固定 token 预算的静态终止策略（而非动态终止），因为动态终止在连续潜表示上不稳定。

实验关键数据¶

主实验¶

模型/方法	GSM8k-Aug Pass@1	# L (tokens)	MultiArith Pass@1	平均效率比
Qwen3-VL-4B SFT-CoT	81.2%	127.3	98.3%	0.73
Qwen3-VL-4B RoT	37.8%	32.0	97.2%	1.73
CoLaR-2 (LLM-based)	40.0%	39.6	82.2%	-
Coconut	16.9%	6.0	60.3%	-

消融实验¶

配置	GSM8k-Aug	MATH	说明
Full RoT	37.8%	33.2%	完整模型
w/o Stage I	24.8%	22.2%	去掉视觉对齐后大幅下降
w/o Stage II	29.9%	26.2%	去掉潜 SFT 也显著下降

关键发现¶

视觉对齐（Stage I）贡献最大：去掉后 GSM8k-Aug 从 37.8% 降至 24.8%，说明没有视觉锚点的潜空间容易表示坍塌
在简单任务（MultiArith）上 RoT 接近 CoT 性能（97.2% vs 98.3%），但 token 用量仅 32 vs 59，效率比从 0.73 提升到 1.73
推理速度显著提升：GSM-Hard 上从 8.55s 降至 1.84s（4.6 倍加速）
单行渲染远优于方形渲染：消除空白区域和空间歧义是关键
RoT 在 OOD 泛化（SVAMP、MultiArith）上优于 LLM-based 方法 CoLaR-2，归因于预训练视觉编码器提供了更丰富的语义监督

亮点与洞察¶

视觉编码器作为语义锚点：这是一个极其巧妙的设计——不是让视觉编码器学习新东西，而是利用它已有的结构化表示空间作为 LLM 推理的"坐标系"。这避免了从头学习潜空间的不稳定性，实现真正的即插即用
推理过程的可视化可分析性：区别于其他潜空间推理方法，RoT 的潜 token 可以通过反向映射到视觉空间进行可视化分析，使"黑盒推理"重新变得可追踪
文本→图像→嵌入的信息瓶颈：渲染过程本身作为一种天然的信息瓶颈，强制 LLM 学习推理的核心结构而非表面token，这个思路可迁移到其他压缩场景

局限与展望¶

准确率与 CoT 仍有明显差距（GSM8k-Aug: 37.8% vs 81.2%），说明视觉潜空间在高难度推理任务上的表达能力受限
固定 token 预算（32/64）不灵活，不同难度问题需要不同长度的推理链
依赖预训练视觉编码器的质量，不同编码器可能导致不同的对齐效果
可探索：动态 token 预算分配、多分辨率渲染、与 RL 结合优化推理链质量

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将 CoT 推理渲染为图像并在视觉潜空间中推理，范式级创新
实验充分度: ⭐⭐⭐⭐ 多模型多数据集评测，消融和分析充分，但高难度任务差距较大
写作质量: ⭐⭐⭐⭐ 图示直观，方法清晰，两阶段框架逻辑自洽
价值: ⭐⭐⭐⭐ 开辟了视觉潜空间推理的新方向，但实用性受限于准确率差距