Enhancing Descriptive Captions with Visual Attributes for Multimodal Perception¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/syp2ysy/CapWorkflow
领域: 多模态VLM / 图像描述
关键词: 描述性图像描述, 视觉专家模型, 细粒度属性, 3D空间关系, LMM 预训练数据

一句话总结¶

本文提出 Cap-Workflow，用一组现成的视觉专家模型（检测、深度、情绪、OCR、细粒度识别、HOI）从图像里抽出"通用 LMM 看不到"的细粒度属性与物体关系，再用 LLM 把这些属性两阶段融合成又准又细的图像描述，从而把 1.1M 张图重新标注成更优质的 LMM 预训练语料，在 14 个基准上提升 LLaVA-v1.5/NeXT 的感知与推理能力。

研究背景与动机¶

领域现状：训练大型多模态模型（LMM）高度依赖"图像—文本"的描述性 caption 做视觉—语言对齐。当前 caption 来源主要两条路：一是人工标注（COCO、LAION），二是用强 LMM 蒸馏（ShareGPT4V、DenseFusion 用 GPT-4V/InternVL2 生成）。

现有痛点：两条路都不够。人工 caption 倾向只描述最显著的物体，漏掉细粒度细节、物体数量和上下文关系——例如 COCO 对一张滑板图只写"一个有绿色纹身的赤膊男子在滑板"，场景里的其他物体和空间结构全丢了。而 LMM 生成的 caption 虽然比人工详细，却仍会整体漏掉某些物体（论文 Fig.1 里 Object 6 被所有 LMM 忽略），更关键的是几乎拿不到3D 空间关系、精确 OCR、细粒度类别（具体是哪种动物/飞机/地标）这类信息，还常伴随幻觉。

核心矛盾：通用 LMM 是"全才但不精"——它没有被专门训练去估深度、识别物种、读文字、判断人物交互，所以这些能力是它的盲区；而这些恰恰是复杂视觉推理最需要的精确信号。让一个通用模型同时把"全、准、细"都做好，本身就难。

本文目标：在不依赖闭源大模型、不靠昂贵人工的前提下，造出信息更全、属性更细、关系更准的图像描述，并验证这种 caption 真的能提升下游 LMM。

切入角度：作者的观察是——人类理解一张图，其实是先用各种"专门视觉能力"（看远近、认物种、读文字、判断谁在和谁互动）感知，再用认知把这些线索组织成语言。那就让视觉专家模型复刻这些专门能力、让 LLM 模拟认知整合，分工协作。

核心 idea：用"现成视觉专家抽属性 + LLM 两阶段融合"代替"单个 LMM 一口气写 caption"，把通用模型看不见的细粒度属性和 3D 关系显式注入描述。

方法详解¶

整体框架¶

Cap-Workflow 是一条"先感知、后组织"的标注流水线：输入一张图，输出一段细致准确的描述性 caption。它先用一个鲁棒的检测器把图里的物体框出来，然后分两支并行抽属性——一支抽实例级属性（每个物体本身的尺寸、深度、情绪、文字、细粒度类别），一支抽关系级属性（物体之间的 HOI、计数、2D/3D 位置关系）。接着进入两阶段语言融合：第一阶段 LLM 把每个物体的属性和一段基础 caption（来自 InternVL2-26B）合成区域级描述；第二阶段 LLM 再把这些区域描述与关系级属性、定位信息拼成一段完整的整图 caption。整条流水线只用开源视觉专家和开源 LLM。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像"] --> B["双检测器融合定位<br/>in-domain + open-world + NMS"]
    B --> C["实例级属性专家组<br/>深度/情绪/OCR/细粒度类别"]
    B --> D["关系级属性专家组<br/>HOI/计数/2D·3D 位置"]
    C --> E["两阶段 LLM 融合<br/>区域描述 → 整图描述"]
    D --> E
    E --> F["细粒度 caption<br/>→ 标注 1.1M 图训 LMM"]

关键设计¶

1. 双检测器融合定位：先把物体框准，后面属性才有附着点

整条流水线的所有属性都是"挂在框上"的——深度要在框内区域平均、情绪要判断框是否为 person、细粒度识别要在框内裁剪后做，所以定位的召回与去重直接决定上限。作者不依赖单一检测器，而是把 in-domain 检测模型和 open-world 检测模型的框合并：保留置信度 > 0.5 的框以兼顾常见类与开放词汇类，再用 NMS（IoU 阈值 0.75）消除重叠冗余框。这一步既保证了"通用 LMM 容易漏掉的物体"也能被框出来（提升物体多样性），又通过 NMS 控制噪声。⚠️ 作者也承认检测引入的噪声会干扰物体识别、拖累 POPE（幻觉评测）。

2. 实例级属性专家组：把每个物体"是什么、什么状态"补全到通用模型看不见的粒度

通用 LMM 的最大盲区是细粒度——它能说"一只鸟"，但说不出是哪个物种。Cap-Workflow 为此挂上一组专家：检测框面积给出 size；把深度图在框内区域平均得到 depth（这是后面算 3D 关系的基础）；若框被标为 person 就用情绪模型给出 emotion；OCR 模型抽取框内文字内容与位置；以及一组细粒度识别模型覆盖动物、植物、食物、logo、飞机、地标、名人——其中动物/植物类目分别达 891k / 427k 物种。作者把这些细粒度类别视作"外部世界知识"，让图中文本内容与人类基本认知对齐（比如认出是 F-16A/B 而不只是"军用喷气机"）。这部分正是"全才模型不精"被专家补齐的核心。

3. 关系级属性专家组：用专家显式给出通用模型几乎拿不到的物体间关系（尤其 3D）

caption 要支撑场景结构理解，就必须有物体之间的关系，而这是 LMM 最弱的一环。作者抽三类关系：用 HOI 模型判断人与物的交互（P2O relation），补全 caption 没提到的动作事件；用检测框给出 2D 绝对位置（左/右/中/左上等）和 2D 相对位置（A 在 B 旁边/附近）以及全图 count；最关键的是 3D 相对位置——利用两个物体的深度差判断"相对相机，A 在 B 前面/后面"。3D 关系靠深度差计算、不靠语言模型猜，这正是通用 LMM 普遍缺失、却对复杂推理（如 GQA）很关键的信号。

4. 两阶段 prompt 引导 LLM 融合：先合区域、再合整图，把零散属性组织成连贯语言

属性抽出来是结构化碎片，得有人把它写成自然语言且不乱编。作者用两阶段 LLM（Qwen2-72B-AWQ）+ 结构化 prompt 完成。第一阶段（区域描述）：把某个物体的属性和 InternVL2-26B 给的基础 caption 喂给 LLM，用受控 prompt 引导它把类别、颜色、纹理、位置、交互融进连贯句子——对细粒度类别还加了条件约束避免幻觉：

"{cat_name} 出现在该区域且 {animal_name} 是 {cat_name} 的子类；则在 caption 中使用 {animal_name}；否则不要提及 {animal_name}"

即只有当细粒度标签确实属于检测出的粗类时才写进去，从机制上压制乱编。第二阶段（整图描述）：把关系级属性、区域定位信息（用于 grounding）和区域 caption 合并成最终整图 caption；如注入 3D 关系时用模板 "Relative to the camera, the {cat0} in {bbox0} is {3d_relation} the {cat1} in {bbox1}."，其中 {3d_relation} 由深度差算出。两阶段拆分让"局部精确"和"全局组织"各司其职，比一次性生成更可控。

损失函数 / 训练策略¶

Cap-Workflow 本身是标注引擎，不训练新模型；它的产物是数据集 Cap-Workflow-1M（来自 DenseFusion 的 100 万张多样图像）和 Cap-Workflow-118K（11.8 万张 COCO 复杂场景图）。下游验证用 LLaVA-v1.5 与 LLaVA-NeXT，采用两阶段训练：(1) 预训练阶段——LLaVA-v1.5 只训 projector 后再放开视觉编码器最后 12 层，LLaVA-NeXT 则整模型可训；(2) 指令微调阶段——分别用开源 LLaVA-mix-665K 与 LLaVA-NeXT-data，不改 SFT 数据，从而把增益干净地归因到预训练 caption 质量。

实验关键数据¶

主实验¶

不同 caption 标注方法在相同下游模型上的对比（数值越高越好）。用 Cap-Workflow caption 预训练在多数基准上最优：

下游模型	标注方法	GQA	ScienceQA	MMBench	MM-Vet	SEED-Bench
LLaVA-v1.5-7B	+ShareGPT4V	63.3	68.4	68.8	37.6	61.9
LLaVA-v1.5-7B	+DenseFusion	64.0	69.3	69.2	37.8	62.3
LLaVA-v1.5-7B	+Cap-Workflow	64.2	71.0	69.2	38.2	64.3
LLaVA-NeXT-7B	+IT	64.9	71.3	68.6	38.1	65.4
LLaVA-NeXT-7B	+Cap-Workflow	65.2	71.2	69.3	40.1	65.7

VQA 基准（LLaVA-v1.5/NeXT 用 Cap-Workflow-1M 预训练 vs 基线）：

模型	VQAv2	DocVQA	GQA	TextVQA	ScienceQA	Ai2d
LLaVA-v1.5 基线	78.5	28.1	62.0	58.2	66.8	55.5
LLaVA-v1.5 (Ours)	80.9	39.1	64.2	61.4	71.0	59.4
LLaVA-NeXT 基线	81.8	74.4	64.2	64.9	70.1	66.6
LLaVA-NeXT* (Ours)	82.4	78.8	65.2	64.8	71.2	71.2

消融实验¶

固定 118K COCO 图、换不同标注方法（人工 / 通用 LMM / Cap-Workflow），看下游表现：

下游模型	标注方法	OKVQA	GQA	ScienceQA	TextVQA	MM-Vet	SEED-Bench
LLaVA-v1.5	+ 人工	54.9	62.4	68.6	58.1	—	61.1
LLaVA-v1.5	+ InternVL2-26B	54.7	63.0	69.1	58.4	32.7	61.8
LLaVA-v1.5	+ LLaVA-NeXT-34B	55.7	62.9	68.8	58.7	33.0	61.7
LLaVA-v1.5	+ Cap-Workflow	56.9	63.2	69.8	58.9	33.9	62.0
LLaVA-NeXT	+ InternVL2-26B	54.3	65.1	70.1	61.2	37.3	64.7
LLaVA-NeXT	+ Cap-Workflow	56.7	65.2	72.0	62.0	37.8	65.0

属性丰富度的人工评测（100 张图、5–10 名评估者，记录属性在 caption 中的出现比例）也显示 Cap-Workflow 在空间关系（0.75）、细粒度（0.24）、OCR（0.48）、情绪（0.47）、位置（0.81）上全面领先 InternVL2 与 LLaVA-NeXT。

关键发现¶

物体属性专家主要拉动 OKVQA/TextVQA：相比 InternVL2 标注，Cap-Workflow 加入的细粒度对象属性显著提升这两类需要"认清具体是什么"的任务。
关系属性主要拉动 GQA：显式注入物体间关系增强了对多物体场景结构的理解，GQA（视觉推理）涨点明显。
3D 关系是差异化亮点：通用 LMM 几乎拿不到、Cap-Workflow 用深度差稳定给出，正是复杂场景推理受益的来源。
诚实记录的短板：TextVQA 受限于开源 OCR 模型和高阈值（漏掉细小文字）；MMBench-CN 因 1M 语料缺中文而偏弱；POPE（幻觉）因检测噪声略受干扰——作者把降噪与多语言列为未来工作。

亮点与洞察¶

"全才补丁"思路很实用：与其逼一个通用 LMM 同时做好"全、准、细"，不如承认它有盲区，用一堆便宜的专门模型把盲区一块块补上——这个解耦让每个能力都用最擅长的模型实现，且全程开源、可扩展（作者明说社区可继续往里加新专家）。
3D 关系靠深度差而非语言猜：把"A 在 B 前面"建立在两物体深度差这一物理量上，绕开了 LMM 凭语言臆测空间关系的幻觉，是值得迁移到任何需要空间标注场景的 trick。
条件 prompt 压制细粒度幻觉："是子类才写、否则不提"这条约束很小但很关键，等于让 LLM 在融合时不敢乱编不确定的细粒度标签。
方法即数据，数据即增益：整套引擎最终落在"造更好的预训练 caption"上，且通过冻结 SFT 数据干净地证明了增益来自 caption 质量本身。

局限与展望¶

作者承认：开源 OCR 受阈值限制漏细小文字（TextVQA 受限）；1M 语料缺中文（MMBench-CN 弱）；检测噪声会引入物体识别误差（POPE 略降）。
自己发现的局限：流水线串了检测、深度、情绪、OCR、多个细粒度识别、HOI、两次 72B LLM 调用，标注成本与误差传播都不小——上游检测错框会沿管线一路放大；论文未给出标注一张图的时间/算力开销与误差传播分析。
改进思路：给关系/细粒度属性加置信度并在融合阶段做加权或拒绝，缓解噪声；引入多语言 LLM 与中文 OCR 补齐中文短板；把专家组做成可插拔接口按场景增删。

评分¶

新颖性: ⭐⭐⭐⭐ 用现成视觉专家+LLM 两阶段融合补齐通用 LMM 盲区的思路清晰实用，3D 关系注入是亮点，但单个组件均为现成模型。
实验充分度: ⭐⭐⭐⭐⭐ 14 个基准、两种下游模型、与 6 种标注方法对比 + 人工属性评测 + 案例分析，且诚实记录短板。
写作质量: ⭐⭐⭐⭐ 动机和流水线讲得清楚，属性表完整；部分指标命名与表格略乱。
价值: ⭐⭐⭐⭐ 产出可直接用的 1.1M 高质量预训练语料与开源引擎，对训练 LMM 的数据侧很有实用价值。