跳转至

🧩 多模态 VLM

🎞️ ECCV2024 · 44 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (418) · 🔬 ICLR2026 (211) · 💬 ACL2026 (82) · 🧪 ICML2026 (89) · 🤖 AAAI2026 (74) · 🧠 NeurIPS2025 (107)

🔥 高频主题: 多模态 ×26 · LLM ×8 · 对抗鲁棒 ×3 · 少样本学习 ×3 · 自监督学习 ×2

A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis

构建了包含13.7万张作物病害图像和100万问答对的CDDM数据集,并提出同时对视觉编码器、adapter和语言模型施加LoRA微调的策略,使Qwen-VL-Chat和LLaVA在作物病害诊断准确率上从个位数跃升至90%以上。

AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting

提出AdaShield框架,通过精心设计的静态防御提示(AdaShield-S)和基于LLM的自适应迭代优化框架(AdaShield-A),在不微调MLLM或训练额外模块的前提下,有效防御结构化越狱攻击,将攻击成功率从75%以上降至15%以下并保持正常任务性能。

AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization

提出 AddressCLIP 框架,通过图像-文本对齐(地址+场景描述的对比学习)和图像-地理匹配(基于GPS距离的流形学习)两大核心组件,将图像地址定位(IAL)问题建模为端到端的视觉-语言对齐任务,在自建的三个IAL数据集上取得最高85.92%的Top-1准确率。

ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling

本文提出将视觉属性识别问题重新建模为基于图像条件的前缀语言模型(PrefixLM)下的句子生成概率问题,通过"生成式检索"(Generative Retrieval)替代传统的"对比式检索"(Contrastive Retrieval),显式建模物体-属性间的条件依赖关系,在VAW和新提出的VGARank数据集上显著超越对比检索方法。

Attention Prompting on Image for Large Vision-Language Models

提出Attention Prompting on Image(API),通过辅助VLM(CLIP或LLaVA)根据文本查询生成注意力归因图,将其作为热力图叠加到原始图像上引导LVLM聚焦相关区域,在MM-Vet上提升LLaVA-1.5达3.8%,跨多种LVLM(包括GPT-4V)通用有效。

BLINK: Multimodal Large Language Models Can See but Not Perceive

提出BLINK——一个包含14个经典计算机视觉感知任务的多模态评测基准(3807道选择题),这些任务人类可以"眨眼间"解决(95.7%准确率),但最强的GPT-4V仅达51.26%(仅高于随机猜测13.17%),揭示了当前MLLM在核心视觉感知能力上的严重缺失。

BRAVE: Broadening the Visual Encoding of Vision-Language Models

本文系统性地分析了不同视觉编码器(CLIP、DINOv2、EVA-CLIP等)对VLM性能的影响,发现没有单一编码器能在所有任务上最优,基于此提出BRAVE方法,通过轻量级的MEQ-Former将多个冻结编码器的特征融合为紧凑表示,以仅116M可训练参数在captioning和VQA任务上取得SOTA,并显著降低视觉幻觉。

CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios

提出 CAT 模型,通过设计问题相关线索聚合器(Clue Aggregator)捕获细粒度音视频特征,结合混合多模态训练策略和 AI 辅助的模糊感知直接偏好优化(ADPO)策略,显著提升 MLLM 在动态音视频场景中的问答准确性,在多个 AVQA 基准上达到 SOTA。

CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts

从因果生成模型视角出发,提出 CLAP(Contrastive Learning with Augmented Prompts),通过文本 prompt 增强 + 对比学习训练一个轻量解耦网络,将 CLIP 预训练特征中的 content 与 style 分离,仅用文本训练即可同时提升图像和文本两侧的表征质量,在 zero-shot、few-shot 分类和对抗鲁棒性上均取得一致提升。

Dataset Growth (InfoGrowth)

提出 InfoGrowth,一种高效的在线数据清洗与选择算法,通过近邻搜索估计每个样本的信息增益,实现数据集的持续增长,同时保证清洁度和多样性,在 CC3M 上仅用 1/6 数据即超过全量训练效果。

Decoupling Common and Unique Representations for Multimodal Self-supervised Learning

提出 DeCUR,在多模态自监督学习中将嵌入维度显式拆分为跨模态共有 (common) 和模态独有 (unique) 两部分,通过互相关矩阵分别驱动对齐与去相关,同时引入模态内训练保证独有维度学到有意义信息,在 SAR-光学、RGB-DEM、RGB-Depth 三类多模态场景上均优于 Barlow Twins / CLIP 等基线。

Efficient Inference of Vision Instruction-Following Models with Elastic Cache

Elastic Cache 提出一种针对多模态指令遵循模型的 KV Cache 管理方法,在指令编码阶段采用基于重要性的 cache 合并策略(而非丢弃),在输出生成阶段采用固定点淘汰策略,以"一个序列、两种策略"实现任意加速比的高效推理,在 KV Cache 预算仅 0.2 时实现 78% 的实际速度提升且保持生成质量。

Elevating All Zero-Shot Sketch-Based Image Retrieval Through Multimodal Prompt Learning

提出 SpLIP,一种基于冻结 CLIP 的双向多模态提示学习框架,通过视觉-文本编码器间的双向知识交换、自适应 margin 的三元组损失和条件跨模态拼图任务,在 ZS-SBIR、GZS-SBIR 和 FG-ZS-SBIR 三种草图检索设定下均取得 SOTA。

Elysium: Exploring Object-level Perception in Videos via MLLM

提出 Elysium——一个端到端可训练的多模态大语言模型(MLLM),通过构建百万级视频目标感知数据集 ElysiumTrack-1M 和设计视觉 Token 压缩网络 T-Selector,将 MLLM 的目标级感知能力从静态图像扩展到视频领域,支持单目标跟踪(SOT)、引用单目标跟踪(RSOT)和视频引用表达生成(Video-REG)三大任务。

Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation

提出ECSO(Eyes Closed, Safety On),一种无需训练的MLLM保护方法,通过检测自身响应的安全性,并将不安全查询中的图像自适应转换为文本描述,从而恢复预对齐LLM的内在安全机制,在MM-SafetyBench上实现最高71.3%的安全性提升,且不损害常规性能。

FlexAttention for Efficient High-Resolution Vision-Language Models

提出 FlexAttention,通过基于注意力图的高分辨率token动态选择和层次化自注意力融合机制,在保持甚至超越现有高分辨率VLM性能的同时,将计算成本降低近40%。

FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models

首次在完全不使用动捕数据的情况下,利用 MLLM(GPT-4V)作为关键帧设计师和动画师,结合基于物理的运动跟踪,实现开放集人体运动合成。

Genixer: Empowering Multimodal Large Language Model as a Powerful Data Generator

提出 Genixer 数据生成流水线,训练 MLLM 自身作为数据生成器,无需依赖 GPT-4V 即可自动生成高质量视觉指令微调数据,生成的 915K VQA 数据和 350K REC 数据分别提升 LLaVA1.5 和 Shikra 在多个基准上的表现。

Grounding Language Models for Visual Entity Recognition

提出 AutoVER——首个将多模态大语言模型(MLLM)应用于大规模视觉实体识别的方法,通过将检索能力集成到 MLLM 内部,结合对比训练和前缀树约束解码,在 Oven-Wiki 基准上大幅超越 PaLI-17B 等先前方法。

LoA-Trans: Enhancing Visual Grounding by Location-Aware Transformers

LoA-Trans提出一种位置感知的查询选择机制,生成多个可能的目标位置作为位置感知查询(而非仅依赖估计的中心点),并引入TaskSyn网络在解码器中实现指代表达理解(REC)和指代表达分割(RES)的任务协同,显著提升视觉定位的准确性。

m&m's: A Benchmark to Evaluate Tool-Use for Multi-step Multi-modal Tasks

提出 m&m's 基准,包含 4K+ 多步骤多模态任务和 33 个可执行工具,系统评估 10 个 LLM 在不同规划策略(多步 vs 逐步)、计划格式(JSON vs 代码)和反馈类型(解析/验证/执行)下的工具使用能力,发现多步JSON规划配合反馈是当前最优设计。

MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection

提出 MarvelOVD 框架,通过将检测器的上下文感知能力和背景识别能力融入 VLM 的伪标签生成与训练流程,在线净化噪声伪标签并自适应重加权训练框,在 COCO 和 LVIS 上大幅超越已有方法。

MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

提出MathVerse——一个包含2612道视觉数学题目(转化为6个版本共15K测试样本)的多模态数学推理评测基准,通过系统性地调控文本与图像中的信息分配来检验MLLM是否真正"看懂"了数学图表,并提出CoT评估策略进行细粒度推理过程评分,揭示了大多数MLLM严重依赖文本而非视觉图表进行数学推理。

Merlin: Empowering Multimodal LLMs with Foresight Minds

提出 Foresight Pre-Training (FPT) 和 Foresight Instruction-Tuning (FIT) 两阶段训练范式,通过轨迹建模赋予多模态大语言模型"前瞻性思维"能力,使模型能够基于当前观察预测未来事件并进行推理。

Meta-Prompting for Automating Zero-Shot Visual Recognition with LLMs

提出 MPVR(Meta-Prompting for Visual Recognition),通过两阶段 meta-prompting 策略自动化生成多样化的类别特定 VLM prompt,无需人工设计 LLM 查询即可显著提升 CLIP 等模型的 zero-shot 识别性能。

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Apple 系统性地消融了 MLLM 构建的三大轴(架构、数据、训练),得出关键设计准则:图像分辨率 > 模型大小 > 训练数据;VL 连接器类型影响甚微;caption/interleaved/text-only 三类数据的精细混合至关重要,最终构建了 3B-30B dense 和最高 64B MoE 的 MM1 模型族,在 few-shot 预训练评测上达到 SOTA。

MMBench: Is Your Multi-modal Model an All-Around Player?

提出 MMBench——一个包含 3217 道多选题、覆盖 20 个细粒度能力维度的双语(英/中)视觉语言模型评测基准,并设计了 CircularEval 循环评测策略和基于 LLM 的选项提取机制,显著提升了评测的鲁棒性和公平性。

MyVLM: Personalizing VLMs for User-Specific Queries

MyVLM首次探索VLM个性化问题,通过外挂概念识别头检测用户特定概念(如"你的狗"),并在VLM中间特征空间学习概念嵌入引导语言模型在回答中自然融入该概念,仅需3-5张图像即可实现个性化caption和VQA。

Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild

Nymeria 是目前世界最大的野外人体运动数据集(300 小时、264 名参与者),首次提供同步定位的多设备多模态自我中心数据(Project Aria 眼镜+腕带+动捕服),并配套 310.5K 句层次化运动语言描述。

Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models

OVT通过构建460万多视角图文数据集MVCap和设计minimax优化的跨视角对齐框架,以参数高效微调方式显著提升VLP模型(如CLIP)对3D视角变化的鲁棒性(平均+9-10%),同时几乎不损失原始性能。

REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models

提出 REVISION 框架,利用 Blender 3D 渲染生成空间关系精确的合成图像,以免训练方式引导 T2I 模型生成空间一致的图像,并构建 RevQA 基准评估 MLLM 的空间推理能力。

Robust Calibration of Large Vision-Language Adapters

本文发现CLIP适配方法(Adapter/Prompt Learning/TTA)在OOD场景下严重损害了零样本基线的校准能力,揭示logit范围增大(而非logit范数增大)是误校准的根本原因,并提出三种简单且模型无关的logit范围约束方案(ZS-Norm、Penalty、SaLS),有效缓解误校准同时保持判别性能。

Select and Distill: Selective Dual-Teacher Knowledge Transfer for Continual Learning on Vision-Language Models

提出选择性双教师知识迁移框架(SND),通过衡量预训练VLM和最近微调VLM之间的特征差异,在无标签参考数据集上自适应选择合适的教师进行知识蒸馏,同时缓解灾难性遗忘并保持零样本分类能力。

Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities

提出EdgeVL框架,通过两阶段适配(双模态知识蒸馏+量化感知对比学习),将大规模VLM(如CLIP)适配到边缘设备上,实现无需人工标注的跨模态(RGB和非RGB)开放词汇分类,达到最高15.4%的准确率提升和93倍的模型压缩。

ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

ShareGPT4V 构建了一个120万条高质量描述性caption数据集(由GPT4-Vision生成100K种子 + Share-Captioner扩展至1.2M),通过在预训练和SFT两阶段使用该数据集训练LLaVA架构的模型ShareGPT4V-7B,在11个多模态benchmark中9个取得最优,证明了高质量caption是LMM模态对齐的关键瓶颈。

SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant

提出视觉自提问(Visual Self-Questioning)训练范式,让 LLM 不仅学习回答问题,还学习根据图像主动提问,通过充分利用指令数据中问题本身的丰富语义信息来增强视觉-语言对齐。

The Hard Positive Truth About Vision-Language Compositionality

本文揭示了现有CLIP组合性基准的评估盲区——缺少hard positives测试,发现hard negative微调会导致模型"过敏"(对语义保持的改写也错误地降低匹配分数),并通过同时加入hard positives和hard negatives训练来缓解这一问题。

Towards Open-ended Visual Quality Comparison

本文提出 Co-Instruct,首个面向开放式视觉质量比较的大型多模态模型,通过从两种"弱监督源"(LLM合并的单图描述 + GPT-4V伪标签)构建562K指令微调数据集,实现比 GPT-4V(其教师模型)更高的多图质量比较准确率,并提出首个多图比较基准 MICBench。

Towards Real-World Adverse Weather Image Restoration: Enhancing Clearness and Semantics with Vision-Language Models

本文提出WResVLM半监督学习框架,利用视觉-语言模型(VLM)为真实恶劣天气图像提供清晰度评估和语义描述监督信号,通过VLM图像评估+天气提示学习增强清晰度、描述辅助的语义正则化增强语义,在真实去雨/去雾/去雪任务上全面超越现有方法。

Uni3DL: Unified Model for 3D and Language Understanding

提出 Uni3DL,一个直接在点云上操作的统一 3D 视觉-语言模型,通过 Query Transformer 学习任务无关的语义/掩码输出,再由 Task Router 组合多个功能头实现语义分割、实例分割、目标检测、视觉定位、3D 描述生成、文本-3D 检索等六大任务,性能达到或超过各任务专用 SOTA。

UniCode: Learning a Unified Codebook for Multimodal Large Language Models

UniCode提出学习一个统一的codebook来同时tokenize视觉和文本信号,通过language-driven iterative training范式将视觉tokenizer的码本与LLM的词表渐进对齐,并引入in-context image decompression预训练任务提升图像生成质量,使MLLM无需额外对齐模块即可实现多模态理解与生成。

Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

提出 Vary 方法,通过生成并融合新的视觉词汇表(vision vocabulary)来扩展 LVLM 的视觉感知能力,使模型在保持原有通用能力的同时,获得文档级 OCR、图表理解等细粒度视觉感知新能力。

X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs

提出X-Former,一个轻量级Transformer模块,通过双交叉注意力机制融合CLIP-ViT(对比学习)和MAE-ViT(掩码图像建模)的互补视觉特征,在仅使用1/10数据量的情况下显著超越BLIP-2在细粒度视觉理解任务上的表现。

Zero-shot Object Counting with Good Exemplars (VA-Count)

提出VA-Count框架,通过样本增强模块(EEM)利用Grounding DINO发现高质量正负样本,结合噪声抑制模块(NSM)用对比学习区分正负密度图,实现零样本目标计数在FSC-147和CARPK上的SOTA表现。