ScaleCap: Scalable Image Captioning via Dual-Modality Debiasing¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=3tUSHgohi5
代码: https://github.com/Cooperx521/ScaleCap
领域: 多模态VLM
关键词: 图像描述, 去偏, 对比解码, 幻觉抑制, 推理时扩展
一句话总结¶
ScaleCap 用"启发式问答 + 对比句子评分"两个互补模块,把开源 LVLM 的描述偏差掰正——前者靠不断追问把被略写的物体细节补齐,后者靠离线对比解码把语言先验导致的幻觉句删掉,并且能随推理预算增大持续变得更细更准;用它标注 45 万张图做预训练,在 11 个基准上一致涨点。
研究背景与动机¶
领域现状:高质量的长描述(detailed caption)对 LVLM 预训练里的细粒度图文对齐越来越重要,从早期只有几个泛词的短 caption,发展到段落级、上下文丰富的描述。但人工标注或调用 GPT-4o 这类闭源 API 来产长描述既贵又不可规模化,于是大家转向用开源 LVLM 自己生成。
现有痛点:开源 LVLM 生成的 caption 质量仍然不行,根源是两类内生偏差。一是多模态偏差:多模态训练数据本身标注不均衡,导致模型对某些物体大书特书、对另一些一笔带过,描述粒度参差、覆盖不全。二是语言偏差:LVLM 从 LLM 继承了语言习惯,偏爱套话和高频共现搭配,于是凭空"脑补"出图里根本不存在的物体或属性,也就是视觉幻觉。
核心矛盾:以往的补救办法是挂外部工具(目标检测器、图像打标器、专家模块)去丰富描述或压幻觉,但 caption 的上限就被这些工具的精度和覆盖度死死卡住。真实世界物体及属性的组合是无穷的,靠手工设计、按类别定制的模块当通用方案根本不现实。
切入角度:作者的关键观察是——细节缺失不是因为模型看不懂,而是生成时信息提取不充分。当你显式追问"再详细说说这个被略写的物体",模型就能给出精准描述(图 2 统计 100 张图,93% 的新回答都补出了物体细节)。更妙的是这种感知能力不依赖大模型:7B 的 LVLM 在合适引导下感知力和 72B 相当,差距主要在推理。
核心 idea:与其堆模型规模或挂工具,不如用一个结构化、可循环的去偏流程,让模型反复回看、追问、校准 caption——用小 LVLM 负责"看"、用强 LLM 负责"问与整合",并用一个预算 \(N\) 控制问多少、从而在质量和成本之间自由伸缩。
方法详解¶
整体框架¶
ScaleCap 是一个"生成—精炼"的可伸缩流水线,目标是把一张图变成全面、细致、忠实的长描述。给定输入图像,先让 LVLM 生成一段初始 caption;接着用对比句子评分模块把其中视觉接地强的句子挑出来,记为"黄金句(golden sentences)",作为后续扩展的骨架与起点。围绕黄金句,启发式问答模块由一个强 LLM 生成一批针对物体和位置的追问指令,再交给轻量 LVLM 逐条作答,把细粒度细节源源不断地注入;每条回答同样过一遍对比句子评分做幻觉过滤。问得越多,描述就越细、越均衡。最后用强 LLM 把这些碎片化的物体细节与位置细节整合成一段结构完整的最终 caption。整个过程由预算 \(N\)(最多允许问多少条指令)统一调度,从而在描述丰富度和算力开销之间灵活权衡。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入图像"] --> B["初始 caption<br/>(LVLM 生成)"]
B --> C["对比句子评分<br/>离线对比解码挑黄金句"]
C --> D["启发式问答<br/>LLM 出题→小 LVLM 作答补细节"]
D -->|每条答案回炉评分过滤| C
D --> E["标题整合<br/>LLM 聚合物体/位置细节"]
E -->|预算 N 控丰富度与成本| F["最终 caption"]
关键设计¶
1. 对比句子评分:用离线对比解码识别并删掉语言先验编出来的幻觉句
这一模块针对语言偏差导致的视觉幻觉。核心思路是:一个真正"看图说话"的 token,应当在有图条件下比无图条件下显著更可能被生成;反之若一个 token 在没图时也照样高概率冒出来,那它多半是靠语言共现先验脑补的。形式上,对初始 caption 的每个 token \(c_t\),分别算两条概率序列:以图像 \(I\) 为条件的 \(p_t = p_\theta(y_t=c_t \mid I,[T,c_{<t}])\),和只以文本为条件的 \(p'_t = p_\theta(y_t=c_t \mid [T,c_{<t}])\),二者相减得对比概率 \(\Delta p_t = p_t - p'_t\)。\(\Delta p_t\) 越大说明该 token 越依赖视觉证据、越可信。
与以往在线对比解码(边解码边干预 logits、容易破坏语言流畅性)不同,ScaleCap 做的是离线分析——先把句子完整生成出来,再回头打分,不动生成过程本身,从而既能查幻觉又不伤连贯性。过滤粒度放在句子级而非 token 级:把 caption 按标点切成句子 \(\{C_1,\dots,C_m\}\),对每句取其关键 token(用词性标注排除介词等虚词)上的最大对比概率,超过阈值 \(\tau\) 的句子才保留为黄金句:
\(\tau\) 越大过滤越严。这个模块既负责筛初始 caption 给出可信骨架,也负责对后续每条问答的答案做同样的过滤,是贯穿全程的"质检员"。
2. 启发式问答:用追问驱动小 LVLM 把被略写的物体逐条补全
这一模块针对多模态偏差造成的粒度不均、覆盖不全。机制是把"补细节"显式拆成一连串简单提问。以黄金句集合 \(S_G=\{S_1,\dots,S_q\}\) 为线索,用一个强 LLM \(M_L\) 以 in-context 方式为每句 \(S_k\) 生成一组物体指令 \(I^k_o = M_L(T_{ict}, S_k)\),每条形如"再详细描述一下飞机",覆盖该句里提到的所有物体;再在物体指令前加位置前缀,得到位置指令 \(I^k_p\),形如"再详细描述一下飞机的位置",用来捕捉物体间的空间关系和整体布局。
作答环节刻意用轻量 LVLM:作者引用 Prism 的结论——LVLM 跨规模的感知力相近、差距主要在推理,而这些指令都很直白、几乎不需要推理,所以让小模型 \(M_V\) 来答即可低成本拿到细节 \(D^k_{o,i}=M_V(I, I^k_{o,i})\)。这正好把"看"(小 LVLM 擅长、便宜)和"问与整合"(强 LLM 擅长)分工开。每问一轮、答一轮,caption 就被补进更细的物体与位置信息——这就是"scalable"的来源:问得越多越细。
3. 标题整合与可伸缩预算 N:把碎片细节聚合成结构化长描述,并用 N 在丰富度与成本间调档
启发式问答产出的是一堆零散的物体细节 \(D_o\) 和位置细节 \(D_p\),直接拼起来会松散无序。整合模块借助 LLM 的总结与逻辑能力,分别用提示 \(T_o\)、\(T_p\) 把物体级、位置级细节各自总结成 \(C_o=M_L(S_G,T_o,D_o)\)、\(C_p=M_L(S_G,T_p,D_p)\),并把黄金句作为"骨架"一并喂给 LLM,让它在总结时始终对齐整体结构;最后再调一次 LLM 把两者融合成结构完整的最终 caption \(F_c=M_L(S_G,T_{final},C_o,C_p)\)。
可伸缩性由预算 \(N\) 控制:\(N\) 限定最多生成多少条物体/位置指令——\(N\) 小则问得少、便宜但略粗,\(N\) 大则把所有指令都问一遍、细节最全。实验显示随 \(N\) 增大(0→2→6→10→15→20→all),Prism 框架下 MMVet 从 51.8 单调升到 58.8、MMStar 从 46.9 升到 50.3,证明这是一条"花更多推理预算换更好描述"的平滑曲线。模型选择上,默认 LVLM 用 Qwen2-VL-7B(看图够用且便宜),LLM 用 Qwen2-72B(出题简单、但要把上千 token 的细节整合需要强推理)。
实验关键数据¶
主实验¶
预训练涨点(表 1,11 个基准平均分):用 ScaleCap-450k 替换其他数据集做进一步预训练,三种架构上都拿到最高平均分。
| 架构 | 预训练数据 | 11 基准平均 | InfoVQA | MMVet |
|---|---|---|---|---|
| Qwen2.5-7B | ShareGPT4V-450k | 62.4 | 47.5 | 48.9 |
| Qwen2.5-7B | DenseFusion-450k | 63.0 | 49.4 | 52.4 |
| Qwen2.5-7B | ScaleCap-450k | 64.7 | 51.8 | 55.9 |
| Qwen2.5-3B | DenseFusion-450k | 58.9 | 44.5 | 39.9 |
| Qwen2.5-3B | ScaleCap-450k | 60.1 | 47.2 | 45.6 |
| InternLM2.5-7B | DenseFusion-450k | 59.1 | 39.1 | 47.2 |
| InternLM2.5-7B | ScaleCap-450k | 60.2 | 39.6 | 48.0 |
InfoVQA 相比 ShareGPT4V 涨 4.3%、相比 DenseFusion 涨 2.4%;MMVet 相比 ShareGPT4V 涨 7%、相比 DenseFusion 涨 3.5%。
描述信息量(表 2,Prism 框架):固定 Qwen2-72B 当推理 LLM,只比 caption 信息量。基于 7B LVLM 的 ScaleCap 平均 58.2,反超直接用 72B 跑 Prism 的 56.0——小模型 + 正确引导超过大模型蛮力。
| 策略 | LVLM | MMVet | InfoVQA | ChartQA | 平均 |
|---|---|---|---|---|---|
| Prism | Qwen2-VL-7B | 53.3 | 49.3 | 68.5 | 54.1 |
| Prism | Qwen2-VL-72B | 57.3 | 50.0 | 69.5 | 56.0 |
| ScaleCap | Qwen2-VL-7B | 58.8 | 53.8 | 72.9 | 58.2 |
消融实验¶
| 配置 | TextVQA | MMVet | ChartQA | Avg | 说明 |
|---|---|---|---|---|---|
| 仅物体指令 | 52.9 | 54.5 | 69.1 | 58.8 | 缺位置关系 |
| 仅位置指令 | 52.3 | 54.3 | 65.7 | 57.4 | 缺物体细节 |
| ScaleCap(全) | 53.2 | 58.8 | 72.5 | 61.5 | 物体+位置互补 |
| 整合模型规模 | MMVet | MMStar | 说明 |
|---|---|---|---|
| Qwen2-7B | 43.6 | 40.3 | 小 LLM 整合不动上千 token 细节,大幅掉点 |
| Qwen2-72B | 58.8 | 49.5 | 整合环节确实需要强推理 LLM |
关键发现¶
- 物体与位置指令互补缺一不可:单用任一种都明显低于合用(58.8/57.4 vs 61.5),位置指令对 ChartQA 这类需要空间布局理解的任务尤其重要。
- 整合环节才是 LLM 规模敏感点:作答可以用 7B 小模型,但整合若换成 7B 会从 58.8 暴跌到 43.6——印证了"看图用小模型、整合用大模型"的分工假设。
- 可平滑伸缩:MMVet 随指令数 0→all 从 51.8 升到 58.8,是一条单调向上的"推理预算换质量"曲线,且预训练数据量从 100K 涨到 450K 时 ScaleCap 相对 DenseFusion 的优势还在扩大。
- 换上 GPT-4o 还能更强:把 ScaleCap 的 LVLM/LLM 都换成 GPT-4o,MMVet 达 76.1,超过 Sonnet 3.5、GPT-4V、Gemini-2.0-Pro 等闭源直答;图像重建的人评相似度排名也优于 GPT-4o 和 Qwen2-VL-72B。
亮点与洞察¶
- "细节缺失 ≠ 看不懂"这个观察很值:作者用一个 100 张图的小实验(93% 追问命中)把问题从"感知能力不足"重新定义成"信息提取不充分",直接把解法从"换大模型/挂检测器"导向"会提问",这是全文的支点。
- 离线对比解码是个聪明的工程取舍:在线对比解码会破坏流畅性,ScaleCap 改成先生成完再回头按 \(\Delta p\) 打分、句子级过滤,既保住幻觉检测能力又不伤语言连贯——这个"先写后审"的思路可迁移到任何需要事实校验的生成任务。
- 看/问分离的成本结构:用 7B 看、72B 问与整合,既省钱又不掉质量,本质是把感知和推理解耦后各用最划算的模型,对所有"小模型干苦力、大模型做规划"的流水线都有参考价值。
- 用图像重建当 caption 质量的代理评测:拿 FLUX 把 caption 重新画回图、再人评相似度,巧妙地把"描述覆盖度"变成可感知的视觉对比,是个轻量又直观的评估 trick。
局限与展望¶
- 推理开销随 \(N\) 线性增长:质量靠多轮问答堆出来,\(N\) 大时调用次数多、延迟和成本上升,标注 45 万张图的总开销不低;论文用预算 \(N\) 缓解但没有给出明确的成本-收益拐点建议。
- 依赖强 LLM 做整合:整合环节必须 72B 级模型,7B 直接崩,意味着这条流水线并非纯"小模型"方案,资源受限场景仍要一个大 LLM。
- 阈值 \(\tau\) 的设定较经验化:黄金句过滤强弱由 \(\tau\) 决定,论文未充分分析 \(\tau\) 的敏感性,过严可能误删真实细节、过松则放过幻觉。
- 重建/人评样本偏小:图像重建相似度只用 50 张图、25 名志愿者打分,结论方向可信但统计力有限。
相关工作与启发¶
- vs 工具增强方法(DenseFusion / 挂目标检测器·打标器):它们靠多个专家模型拼细节,caption 上限被工具精度和类别覆盖卡死,且常漏掉物体属性;ScaleCap 不挂任何专用工具,用通用 LVLM 的追问能力覆盖任意物体,主实验上一致优于 DenseFusion。
- vs 在线对比解码(如 VCD 等):在线方法边解码边对比、干预 logits,易损流畅度;ScaleCap 改成离线、句子级评分,幻觉检测与语言连贯两不误。
- vs Prism 框架:ScaleCap 沿用 Prism"感知/推理解耦"的评测思想,但把它从评测工具升级成生成策略——基于 7B 的 ScaleCap 在 Prism 信息量评测里反超 72B,证明引导比规模更关键。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把"会提问"和"离线对比去幻觉"组合成可伸缩去偏流水线,视角新且接地气
- 实验充分度: ⭐⭐⭐⭐⭐ 三架构预训练 + Prism 信息量 + 图像重建三套互补评测,消融完整
- 写作质量: ⭐⭐⭐⭐ 动机层层递进,图 2 小实验支撑核心论点,方法表述清晰
- 价值: ⭐⭐⭐⭐⭐ 给出可规模化的高质量 caption 标注方案,ScaleCap-450k 数据集对社区直接有用