Constructive Distortion: Improving MLLMs with Attention-Guided Image Warping¶

会议: ICLR 2026
arXiv: 2510.09741
代码: 项目页
领域: 多模态VLM
关键词: MLLM, image warping, attention-guided, fine-grained perception, test-time intervention

一句话总结¶

提出 AttWarp，一种即插即用的测试时图像变形方法，利用 MLLM 自身的跨模态注意力图进行矩形网格重采样，扩展高注意力区域、压缩低注意力区域，在5个基准和4个 MLLM 上一致提升准确率、改善组合推理和减少幻觉。

研究背景与动机¶

领域现状: 多模态大语言模型（MLLM）如 LLaVA、Qwen-VL 在图像对话和推理方面取得进展，但在细粒度感知方面仍有明显缺陷——遗漏小目标、混淆相似物体、误解空间关系。

现有痛点: 现有改进方法要么需要外部检测器（bounding box/mask），要么需多步推理链，要么裁剪/遮挡导致丢失全局上下文。

核心矛盾: 小目标在特征提取阶段已丢失空间细节，后续的注意力改进无法挽回；但简单放大/裁剪又会丢失全局布局。

本文目标: 在不修改模型权重和架构的前提下，通过输入层面的空间变换增强查询相关区域的分辨率。

切入角度: 类比人类的中央凹视觉（foveal vision）——对关注区域密集采样，对外围稀疏采样，同时保留全局信息。

核心 idea: 用模型自身的注意力引导一次矩形线性变形，让同一个模型"看得更清楚"。

方法详解¶

整体框架¶

AttWarp 是一层套在 MLLM 外面的测试时图像预处理：先让模型对"图像+查询"跑一次前向，从解码器的跨模态注意力里读出"它想看哪儿"，把注意力聚合成一张注意力得分矩阵；再据此做矩形线性变形，把图像重新采样——高注意力区域被拉大、低注意力区域被压扁，最后把这张变形图喂回同一个模型得到最终答案。整个过程不碰权重、不改架构，靠的是把注意力分布转成一个保持规则网格的空间映射。在这个基础框架上，论文给了两个扩展：AttWarp-Chain 把"提注意力 → 变形"这步迭代起来形成正反馈；AttWarp-Distill 用一个轻量网络直接预测变形所需的边缘分布，省掉昂贵的注意力提取，把两次前向压成一次。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    IN["图像 + 查询"] --> FW["MLLM 一次前向<br/>读取语言解码器的<br/>跨模态注意力"]
    FW --> A1["注意力得分矩阵<br/>多层/头/token 平均<br/>→ 上采样 + 平滑"]
    A1 --> A2["矩形线性变形<br/>沿两轴边缘化 → CDF 逆变换<br/>→ 双线性重采样"]
    A2 --> WARP["变形图<br/>高注意力拉大 / 低注意力压扁"]
    WARP --> OUT["MLLM 推理 → 答案"]
    WARP -.->|"KL 未收敛时回环<br/>(AttWarp-Chain)"| FW
    IN -.->|"AttWarp-Distill：轻量网络<br/>直接预测边缘分布、跳过注意力提取"| A2

关键设计¶

1. 注意力得分矩阵：把"模型想看哪儿"读成一张可用的热力图

要让变形有的放矢，第一步得有一张干净的、和图像像素对齐的注意力图。AttWarp 从 MLLM 指定的若干解码器层 \(\mathcal{L}\) 里取出跨模态注意力，对所有输出 token、所有注意力头、所有选定层做平均，得到每个图像位置的聚合得分 \(\tilde{A}_{i,j} = \frac{1}{n_{\text{out}} \cdot n_{\text{heads}} \cdot |\mathcal{L}|} \sum_{\ell \in \mathcal{L}} \sum_m \sum_h a^{(\ell,h)}_{m,t}\)。原始注意力分辨率很低（对应视觉 token 网格），所以再上采样到图像尺寸并做平滑，抹掉离散网格的锯齿。这一步的关键是它完全免费——注意力本来就是前向时算出来的副产品，不需要任何外部检测器或额外标注。

2. 矩形线性变形：用 CDF 逆变换重新分配像素密度，又不破坏网格结构

拿到 2D 注意力图后，难点是怎样"放大重点"却不让视觉编码器认不出来。如果做自由形变（per-pixel flow），网格会扭成不规则形状，标准 ViT patch 切分立刻失配，引入巨大分布偏移。AttWarp 的做法是把变形约束成可分离的矩形线性映射：先把 2D 注意力沿两个轴各自边缘化，得到水平、垂直方向的一维分布 \(m_x(j)\) 和 \(m_y(i)\)；对每个分布算累积分布函数（CDF）再取逆，作为该方向的坐标重映射 \(f_X^{\text{Warp}}(j) = W \cdot M_x^{-1}(j/W)\)、\(f_Y^{\text{Warp}}(i) = H \cdot M_y^{-1}(i/H)\)，最后按这两个映射做双线性重采样。CDF 逆变换的几何含义很直观：注意力密集的区间在 CDF 上斜率大，逆变换后被拉伸占据更多像素；注意力稀疏处被压缩。因为映射在每个轴上单调、可分离，行还是行、列还是列，规则网格被完整保留，整张图所有像素也都还在——这是它和裁剪/遮挡的本质区别，后者直接丢信息，而 AttWarp 只重新分配采样密度。实验里这点至关重要：矩形变形相对训练分布的 KID 只有 31.5，而同样放大重点的非矩形自由变形 KID 飙到 174.9。

3. AttWarp-Chain：让"变形改善注意力、注意力改善变形"滚成正反馈

一次变形后，模型在更清晰的重点区域上能给出更聚焦的注意力，而更好的注意力又能驱动更准的变形，于是很自然地把这步迭代起来。每一轮用上一轮的变形图重新提注意力、重新变形，直到相邻两轮的注意力分布趋于稳定为止——终止条件取 KL 散度 \(\mathcal{D}_{KL}(P^{(d)} \| P^{(d-1)}) < \epsilon_{KL}\)，分布几乎不再变化就停。这样既避免了固定迭代次数的浪费，又防止过度变形把图压坏。

4. AttWarp-Distill：把两次前向蒸馏成一次，换来低延迟部署

原始 AttWarp 需要"提注意力 + 推理"两次前向，延迟翻倍。蒸馏版把前半截直接换成一个轻量预测网络：用 CLIP ViT-L/14 编图、FiLM 按文本查询做条件调制、Conv1D 直接吐出两个轴的边缘分布预测 \((\hat{m}_x, \hat{m}_y)\)，从而跳过昂贵的注意力提取。训练时以教师 MLLM 在 TextVQA/GQA/DocVQA 上算出的真实边缘分布为目标做 L1 回归。推理时只需这一次轻量前向加一次 MLLM 推理，整体约 8.7 TFLOPs，几乎和 Base MLLM 的 8.5 TFLOPs 持平，比 ViCrop 的 24.2 TFLOPs 快约 3 倍，适合 AR/具身等低延迟场景。

实验关键数据¶

主实验¶

LLaVA-v1.5-7B 上的结果（准确率%）:

方法	TextVQA	GQA	MMMU	POPE	DocVQA
Base MLLM	49.3	60.5	36.9	85.3	18.1
ViCrop	56.3	60.9	37.2	87.0	22.5
AttWarp	58.1	63.7	40.4	87.5	25.5
AttWarp-Chain	60.3	64.4	41.6	88.2	27.6
Δ vs 最强基线	+4.0	+3.5	+4.4	+1.2	+5.1

Qwen2.5-VL 上同样一致提升 (+2.1~3.6%)。

消融实验¶

注意力分布改善验证 (TextVQA):

指标	无变形	有 AttWarp
Pointing Game Accuracy	37.4%	42.4% (+5%)
Proportion (bbox 内注意力占比)	0.117	0.155 (+3.8%)

分布偏移分析：AttWarp KID=31.5 vs Non-Rectilinear Warp KID=174.9（与训练分布的距离），证明矩形线性变形几乎不引入分布偏移。

关键发现¶

变形确实让注意力更集中于正确区域，Pointing Game 准确率提升 5%
矩形线性设计是关键——非矩形变形导致严重分布偏移（KID 从 31.5 增至 174.9）
AttWarp-Distill 仅 8.7 TFLOPs，接近 Base MLLM 的 8.5 TFLOPs，远优于 ViCrop 的 24.2 TFLOPs
错误分析显示 AttWarp 主要减少了细粒度细节和组合推理的错误

亮点与洞察¶

"建设性扭曲"的哲学: 受人类中央凹视觉启发，主动变形输入是合理且有效的策略
即插即用: 无需修改模型，跨 4 种不同架构的 MLLM（LLaVA, Qwen-VL, InternVL, InstructBLIP）一致有效
保信息性: 与裁剪/遮挡不同，变形保留了所有像素信息，仅重新分配密度
CDF 逆变换框架: 将注意力分布转化为变形映射的数学框架优雅简洁，单次 CDF 前向传播即可
AttWarp-Chain 的正反馈: 变形改善注意力、注意力改善变形的迭代增强，KL 散度自动终止
分布保持分析: 严格验证了矩形变形不引入分布偏移（KID/FID/Mahalanobis）

局限与展望¶

需要两次 MLLM 前向传播（一次提取注意力、一次推理），延迟翻倍
变形可能抑制外围上下文对全局推理的帮助，特别是需要全场景理解的问题
绝对尺度信息在变形后丢失，尺寸相关问题可能受影响
AttWarp-Chain 的迭代次数依赖 KL 阈值超参
注意力质量是前提——如果初始注意力完全偏离，变形会适得其反
变形幅度无理论上界，极端变形可能导致非目标区域的严重压缩
未探索在视频理解模型中的应用（时序一致性的变形）

评分¶

新颖性: ⭐⭐⭐⭐ 注意力引导变形的思路新颖，CDF 逆变换框架优雅，受 foveal vision 启发
实验充分度: ⭐⭐⭐⭐⭐ 5基准+4模型+分布分析+注意力验证+错误分析，非常充分
写作质量: ⭐⭐⭐⭐⭐ 动机→方法→实验逻辑流畅，图示清晰，分析彻底
价值: ⭐⭐⭐⭐ 即插即用的实际价值高，但本质是测试时 trick，理论深度有限