Reading Images Like Texts: Sequential Image Understanding in Vision-Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=qYcZVezPW7
代码: https://github.com/Siriuslala/vlm_interp
领域: 多模态VLM / 可解释性
关键词: VLM 可解释性, logit lens, 2D RoPE, 空间感知, token 压缩

一句话总结¶

本文借鉴人脑视觉的"双流假说"，把 VLM 的视觉处理拆成"识物（what）"和"定位（where）"两条线分别解剖：用 logit lens 把图像 patch 翻译成文本 token，发现视觉编码器是"先认属性、再消歧成物体"的两阶段格式塔式过程；又从理论上推导出 2D RoPE 编码空间关系的几何结构；并据此提出一个指令无关的 token 压缩算法（提速）和一个 RoPE scaling 技巧（增强空间推理）。

研究背景与动机¶

领域现状：当前主流 VLM 都是 Transformer 架构——视觉编码器（ViT）把图片切成 patch、按光栅扫描（raster scan）拍平成一维序列，连接器投影到文本语义空间，再和指令拼起来喂给 LLM 生成文本。这套流程在大量真实任务上效果很强。

现有痛点：第一，VLM 幻觉严重，经常认错物体、判错空间关系（"A 在 B 左边还是右边"都会搞混）；第二，模型内部机制是黑箱，既妨碍理解也妨碍架构创新；第三，已有的多模态可解释性研究很零散，多停留在"找某个神经元/注意力头对应某概念"，缺乏对视觉信息逐层动态演化的系统刻画。

核心矛盾：ViT 用的是为"天然有序的文本"设计的 Transformer，把二维图像硬拍成一维序列后，同一物体的相邻 patch 会被打散到序列里不连续的位置。而人脑视觉是格式塔式的——主动把离散信号组织成整体。这就引出根本疑问：VLM 究竟怎么用一维序列理解二维概念？这种"机器 vs 人"的认知鸿沟会不会损害性能？

本文目标：顺着双流假说拆成两个子问题——(1) VLM 如何把序列里位置不连续、却属于同一物体的 token 关联起来、预测出物体类别？(2) VLM 如何从一维序列里推断物体间的二维空间关系？

切入角度：作者不去训新模型，而是把"读图"当成"读文本"来解剖——既然视觉 token 最终要映射到文本空间，那就直接用语言模型的 unembedding 矩阵把每个图像 patch "翻译"成文本 token（logit lens），从而把抽象的视觉表征变成可读、可逐层观察的自然语言。

核心 idea：把图像表征"翻译成文本 token 地图"来看 what 通路的两阶段格式塔演化；从数学上拆解 2D RoPE 系数来看 where 通路的空间几何；再把这两个发现各自落成一个实用算法（token 压缩 + RoPE scaling），用工程效果反过来验证分析的正确性。

方法详解¶

整体框架¶

本文是一篇"分析 + 应用"双线论文，整体按"双流假说"分成两条独立又对称的研究线，每条都是"先观察机制、再据此造一个算法验证"。

第一条是 what 通路（识物）：对视觉编码器逐层施加 logit lens，把每层每个 patch 解码成文本 token，画出 token map / segmentation map，定量统计"属性词"和"代表词（物体标签）"随层数的此消彼长，得出"浅层认属性、深层做语义消歧"的两阶段结论；据此造出基于 token map 的指令无关 token 压缩算法（用游程编码合并连续重复 token）。

第二条是 where 通路（定位）：先分析可学习 1D 绝对位置编码的几何（t-SNE 可见明显行列结构），再聚焦更通用的 2D RoPE，从注意力内积里把空间关系系数拆出来做理论推导（"左右"共线、"左右 vs 前后"正交），用 PCA 与干预实验验证；并发现"携带相对距离的关键项幅值偏小、易被淹没"，据此造出 RoPE scaling 来放大低频维度的位置信息、增强空间推理。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["图像 + 指令<br/>切 patch 拍平成序列"] --> B["视觉编码器逐层表征"]
    B -->|what 通路| C["Logit Lens 视觉 token 翻译<br/>逐层解码成文本 token map"]
    C --> D["两阶段格式塔识物<br/>浅层认属性→深层语义消歧"]
    D --> E["基于 token map 的 token 压缩<br/>游程编码合并连续重复 token"]
    B -->|where 通路| F["2D RoPE 空间几何分析<br/>拆注意力系数:左右共线/前后正交"]
    F --> G["RoPE scaling<br/>自适应放大低频维度位置信息"]
    E --> H["更快推理 + 更强空间推理"]
    G --> H

关键设计¶

1. Logit Lens 视觉 token 翻译：把"读图"变成"读文本"来逐层观察

最大的痛点是视觉表征不可读、且深层 token 语义高度纠缠（自注意力让单个 token 混入大量其他 token 信息），靠余弦相似度等线性度量根本看不出语义。作者借用 logit lens：对第 \(l'\) 层 LLM 输出的视觉部分 \(H^{l'}=(v^{l'}_1,...,v^{l'}_{N_V})\) 直接乘语言模型的 unembedding 矩阵 \(W_U\)，取 argmax 得到每个 patch 对应的文本 token：\(W^V=\arg\max_{w\in V}\mathrm{Softmax}(W_U[(v^{l'}_1,...,v^{l'}_{N_V})])\)。为逐层观察 ViT，作者构造一族函数 \(F=\{f_l\}_{l=1}^{L_V}\)：删掉第 \(l\) 层之后的 ViT 层、再对 LLM 第 \(l'\) 层输出施加 logit lens（LLaVA-1.5-7B 取 \(l'=25\)、Qwen2.5-VL-7B 取 \(l'=32\)，因为有意义 token 在这些层涌现最明显）。在此之上提出两个可视化概念：token map（每个网格填入对应文本 token）和 segmentation map（为每个主物体建关键词集，命中就涂上该物体的颜色）。这样视觉信息处理就变成一连串可读的"文本地图"，第一次让人能像看文本一样追踪 VLM 逐层"读图"的全过程。一个细节顾虑：连接器是对齐到 ViT 最后一层训练的，理论上严谨应给每层单独训连接器，但残差流让最后一层本质是当前层与所有前层输出的线性叠加，因此连接器已具备处理早期层的能力，方法的合理性得以保证。

2. 两阶段格式塔识物：浅层认属性、深层语义消歧

针对"VLM 如何把打散的同物体 patch 关联成类别"这一问题，作者在 GQA 样本上观察 token map 的演化：浅层多是标点、空格等无语义 token；浅到中层开始冒出"fur""yellow"这类属性词（局部低级特征，可被不同物体共享）；中到深层属性词逐渐消失、"bear""rock"这类代表词（物体标签）开始涌现。为量化，作者定义属性词占比 \(r_A=\frac{1}{N_V}\sum_{m=1}^{M}\sum_{w\in W_{A,o_m}}\mathrm{count}(w)\)、代表词占比 \(r_R\) 同理。统计显示 \(r_A\) 从第 5 层上升、约第 15 层达峰后骤降，同时 \(r_R\) 接棒上升。于是识物被划成两阶段：属性识别（浅到中层，检测颜色/纹理等可共享的低级特征）与语义消歧（中到深层，把共有低级特征整合成具体高级概念）。POPE 幻觉实验进一步佐证：逐层检查 token map 是否命中问题里的 [object]，准确率到第 12 层前都在 50%（随机）附近徘徊，之后才上升——说明模型直到中层才"确信看到了什么"。这整个"先感知离散低级特征、再填补不连续 token 间的空隙视为整体"的行为，正对应格式塔的相似律/邻近律（靠点积自注意力关联相似特征）和闭合律（靠先验补全空隙）。

3. 2D RoPE 空间几何分析：左右共线、前后正交，但关键项太弱

针对"VLM 如何从一维序列推断二维空间关系"，作者聚焦支持动态分辨率的 2D RoPE。因为 RoPE 下序列变长、无法给每个位置固定表征，位置信息只能建立在物体表征之上、通过物体交互体现，故从理论入手。简化设定：只考虑物体 A、B 和四种关系 \(R=\{\text{左},\text{右},\text{前},\text{后}\}\)，每个物体简化成一个 patch，ViT 维度降到 4（2D RoPE 最低要求），以 B 为参考原点建坐标系，则 A 的四种位置为 \((-m,0),(m,0),(0,n),(0,-n)\)。推导 A 的注意力输出（如 \(h_A^{\text{left}}\)，见式 5）发现它是 \(v_A,v_B\) 的加权和，而 RoPE 只作用在权重系数上。对比四种关系下 A 的表征：\(v_A\) 的系数完全相同，唯一差别在 \(v_B\) 系数的 X 轴分量；对比"左"与"右"，该分量 \(\mathrm{Re}[q_A^X k_B^{X*}e^{\pm im\theta}]\) 是一对共轭对称项，写成实值即一对共线反向向量 \(\pm[(q_A^{(0)}k_B^{(1)}-q_A^{(1)}k_B^{(0)})\sin(m\theta)]v_B\)——这解释了为何"左/右"在模型几何里恰好相反；对比"左"与"后"，二者位置信息分别落在 X、Y 轴的正交子空间，故"左右"与"前后"近似正交。作者进一步提出方向向量 \(v_r=h_{o_S}^r-h_{o_N}^r\)（卫星减核，既保持线性又放大差异），由此证明"左/右"共线、"左/前后"可分。但关键结论是：携带相对距离的判别项（如 \(c_3,c_4\)）幅值远小于物体表征间的共有项（因三角函数值恒小于 1），这构成空间推理的潜在瓶颈，为第 4 个设计埋下伏笔。在 What's Up B + Qwen2.5-VL 上的"物体擦除"实验（把 B 的 embedding 换成 A，正确答案概率仅 0.909→0.858）证明单个物体表征已含足够空间信息，PCA 可视化与干预实验则证实了上述共线/正交几何。

4. RoPE scaling：自适应放大低频维度，把被淹没的空间信号捞回来

承接第 3 点的瓶颈——判别项太弱，加上 RoPE 频率 \(\theta_i=b^{-2i/d}\) 随维度组下标 \(i\) 增大快速衰减，大 \(i\) 维度对位置变化极不敏感（如 \(i=d/2\)、\(b=10000\) 时，相对距离 \(\pm50\) 的正弦差仅约 0.01），导致关键位置信息被无关信息"淹没"（实验显示"左右"任务中 Y 轴注意力约为含关键信息的 X 轴的 1.5 倍）。作者提出 RoPE scaling，自适应放大相对距离：\((\theta_i)'=\theta_i\cdot g(i)\)，其中 \(g(i)=1+\alpha(2i/d)^p\)。这里 \(\alpha\) 控制缩放幅度、\(p\) 控制缩放曲线形状，使得小 \(i\) 几乎不缩放、大 \(i\) 显著放大，正好补偿频率衰减造成的位置信息损失。它有 training-free 与 fine-tune（GQA 6 万样本）两种用法，且在 MMBench 上通用能力不降反升，说明这是个低成本、即插即用的空间推理增强 trick，而非伤害通用性的硬改。作者也坦言这只是对 RoPE 缺陷的"局部修补"，期待未来有更本质的位置编码。

损失函数 / 训练策略¶

token 压缩需先蒸馏一个"视觉解码器" \(\varphi\)（插在连接器和 LLM 之间，输入视觉 embedding、输出可映射到文本 token 的 logits，用 LLM 的 unembedding 矩阵 \(W_U\) 初始化）。它用知识蒸馏训练，损失为软硬两项加权：\(L=\alpha L_{\text{soft}}+(1-\alpha)L_{\text{hard}}=\alpha\tau^2 D_{KL}(P_T\|Q_T)+(1-\alpha)H(Y,Q)\)，其中 \(\tau\) 是温度，\(P_T,Q_T\) 分别是教师（LLM 最终 logits）与学生（\(\varphi\) 输出）的平滑分布，\(Y\) 是从教师 logits 取的硬标签。训练极轻量：LLaVA-1.5-7B 的视觉解码器在 A40 上约 5 小时、6k 步、batch 16、不到 10 万无标注数据即可。推理时把视觉 token map 拍平成一维文本 token 序列，对连续重复 token 用游程编码（RLE）把对应的多个 embedding 压成一个，从而缩短序列。

实验关键数据¶

主实验：token 压缩（Table 1，VQA/通用能力，多数据集准确率 + 平均缩减率）¶

模型 / 方法	GQA	TextVQA	MMBench-EN	POPE	缩减率
LLaVA-1.5-7B 原始	60.50	45.01	53.73	85.96	/
LLaVA + RLE 压缩(method1)	61.32	43.16	51.40	86.00	27.83%
LLaVA + 去标点 Top1(method2)	60.14	35.04	47.33	85.66	58.35%
LLaVA + 去标点 Top2(method3)	61.06	38.53	50.45	85.90	48.55%
Qwen2.5-VL-7B 原始	61.20	78.21	84.68	89.23	/
Qwen2.5-VL + RLE(method1)	60.80	76.33	84.27	87.46	16.19%
Qwen2.5-VL + 去标点 Top2(method3)	60.03	74.78	83.58	86.83	32.09%

method1 是纯游程压缩；method2 删掉所有"最高概率解码为标点"的视觉 embedding（缩减率最高但 TextVQA 这类细粒度任务掉点明显）；method3 只删 top-2 都是标点的、更稳。整体能在性能损失可控范围内显著缩短序列。

主实验：RoPE scaling（Table 2，空间推理 benchmark 准确率，节选）¶

方法	What's Up A	What's Up B	COCO-spatial 1	GQA-spatial 1
Qwen2-VL-2B	74.61	53.16	49.84	76.61
+ RoPE scaling	77.27	58.25	50.24	78.22
+ SFT	78.54	61.52	58.08	81.29
+ SFT + RoPE scaling	79.42	63.48	59.03	82.24
Qwen2-VL-7B	98.06	87.84	88.79	92.84
+ RoPE scaling	98.86	88.97	89.27	94.31
+ SFT + RoPE scaling	99.03	90.44	89.67	96.98

training-free 的 RoPE scaling 在 What's Up B 上给 2B 模型带来约 +5 点提升；叠加 SFT 后仍有稳定增益，且和 SFT 互补。

关键发现¶

识物是格式塔式两阶段：属性词占比第 5 层起升、约第 15 层达峰后骤降，代表词随之接棒；POPE 准确率到第 12 层才脱离随机——模型直到中层才"确信看清"。
去标点压缩是双刃剑：method2 缩减率最高（LLaVA 达 58.35%），但 TextVQA（需读细粒度文字）从 45.01 掉到 35.04，说明标点附近的视觉 token 对文字密集任务并非冗余。
空间判别项被频率衰减淹没："左右"任务里 Y 轴注意力约为 X 轴 1.5 倍，而 X 轴才含关键判别信息；RoPE scaling 正是放大被衰减的低频维度来纠偏，且在 MMBench 上通用能力还略升。

亮点与洞察¶

"把图当文本读"这一视角本身最巧：用 logit lens 把视觉 token 翻译成 token map，既让黑箱可视化，又顺手发现"连续重复 token"这一可压缩的冗余结构——同一个观察工具同时服务了"解释"和"提速"两个目的。
理论与工程闭环：where 通路不是停在"画图说左右共线"，而是把注意力系数一路拆到 \(\sin(m\theta)\) 项、定位到"判别项幅值太小 + 频率衰减"两个病因，再用 \(g(i)=1+\alpha(2i/d)^p\) 精准放大低频维度——分析直接指明了药方。
可迁移的 trick：RoPE scaling 是 training-free、即插即用、且不伤通用能力的，任何基于 2D RoPE 的 VLM 都能拿来增强空间推理；token map 这套逐层翻译工具也可迁移去诊断其他模态对齐问题。

局限与展望¶

作者承认 RoPE scaling 只是对 RoPE 缺陷的局部修补，期待未来有更本质能捕获相对空间关系的位置编码。
逐层 logit lens 依赖"连接器只对齐 ViT 最后一层却能处理早期层"这一残差流论证，是合理性近似而非严格证明（严格做法需为每层单训连接器，成本太高）。
token 压缩对 TextVQA 这类文字密集任务的稳健性不足；去标点策略在缩减率与细粒度性能间存在明显 trade-off，缺乏自适应选择机制。
理论分析为简化把物体压成单 patch、ViT 降到 4 维，真实多 patch、高维场景下结论的定量程度仍需更多验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 双流假说视角 + logit lens token map + 2D RoPE 空间几何理论拆解，分析视角新颖且自成体系
实验充分度: ⭐⭐⭐⭐ 覆盖多模型多 benchmark，分析详实，但 token 压缩稳健性与理论的高维验证略欠
写作质量: ⭐⭐⭐⭐⭐ "分析→落地算法→反验"的双线结构清晰，理论推导与可视化配合到位
价值: ⭐⭐⭐⭐ 既加深对 VLM 内部机制的理解，又给出两个即插即用的实用算法，对解释性与架构设计都有启发