🧩 多模态 VLM¶
🧪 ICML2025 · 42 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (418) · 🔬 ICLR2026 (211) · 💬 ACL2026 (82) · 🧪 ICML2026 (89) · 🤖 AAAI2026 (74) · 🧠 NeurIPS2025 (107)
🔥 高频主题: 多模态 ×28 · 对齐/RLHF ×5 · LLM ×2 · 对抗鲁棒 ×2
- CoCoA-Mix: Confusion-and-Confidence-Aware Mixture Model for Context Optimization
-
提出 CoCoA-Mix 框架,通过混淆感知损失 (CoA-loss) 和置信度感知权重 (CoA-weights) 构建提示混合模型,在不引入额外网络参数的情况下同时提升 VLM prompt tuning 的专精性 (specialization) 和泛化性 (generalization)。
- CoMemo: LVLMs Need Image Context with Image Memory
-
提出CoMemo双路径架构——Context路径将图像token拼入文本做自回归、Memory路径用交叉注意力做图像持久记忆,结合RoPE-DHR位置编码保持2D空间感知和缓解远程衰减,通过三阶段训练策略平衡双路径,在同等设置下全面超越LVLM-S和LVLM-X。
- Context is Key: A Benchmark for Forecasting with Essential Textual Information
-
提出 Context is Key(CiK)基准——71个手工设计的预测任务横跨7个领域,每个任务必须结合数值历史和自然语言上下文才能准确预测,同时提出 RCRPS 评估指标和 Direct Prompt 方法,发现 Llama-3.1-405B 的简单提示方法(RCRPS=0.159)大幅领先所有统计模型和时序基础模型。
- Core Knowledge Deficits in Multi-Modal Language Models
-
提出 CoreCognition 基准(12种核心认知能力、1503题),大规模评测230个MLLM后发现:模型在基础认知能力上系统性落后于人类,且随规模增大并未改善,而是更依赖捷径学习而非真正理解。
- Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces
-
提出了一个在任意状态空间上构建多模态扩散模型的统一框架,通过为每种模态引入独立的解耦噪声调度(decoupled noise schedule),在单个模型中同时实现无条件生成和模态条件生成,无需外部的 tokenizer 或 VAE 预处理。
- Do Vision-Language Models Really Understand Visual Language?
-
本文通过构建综合测试套件(含合成与真实图表)系统评估了大型视觉语言模型(LVLMs)的图表理解能力,发现模型虽可识别实体但对关系理解极为有限,其看似出色的图表推理表现实际源于利用背景知识作为捷径。
- Dynamic Mixture of Curriculum LoRA Experts for Continual Multimodal Instruction Tuning
-
本文提出 D-MoLE 方法,通过动态层级 LoRA 专家分配器和基于梯度的跨模态持续课程策略,在参数预算约束下自动演化 MLLM 架构以持续适配新任务,相比最优基线平均提升 15%。
- Efficient Quantification of Multimodal Interaction at Sample Level
-
提出 LSMI(Lightweight Sample-wise Multimodal Interaction)估计器,首次实现了对真实世界连续分布数据的逐样本级别多模态交互(冗余、唯一性、协同)精确且高效的量化,并展示了其在数据分区、知识蒸馏和模型集成中的实用价值。
- ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics
-
ELEMENTAL 将视觉语言模型 (VLM) 与逆强化学习 (IRL) 融合,通过 VLM 提取特征函数 + IRL 优化权重 + 自我反思迭代改进,在 IsaacGym 9 个任务上比 EUREKA 提升 42.3%。
- ERL-VLM: Enhancing Rating-Based RL to Leverage Feedback from Large VLMs
-
提出 ERL-VLM,用大型视觉语言模型(VLM)对单条轨迹做绝对评分(rating)而非成对比较(preference),结合分层采样和 MAE 损失解决数据不平衡与噪声标签问题,显著提升 VLM 反馈驱动的奖励函数学习效果。
- Enhancing Target-unspecific Tasks through a Features Matrix
-
提出 Features Matrix (FM) 方法,利用多个手工 prompt 模板从冻结 CLIP 中提取通用知识构成特征矩阵,通过对齐 unexpected features 与微调视觉特征来增强模型在目标无关任务(如 base-to-novel 泛化、跨数据集泛化、域泛化)上的表现。
- From Black Boxes to Transparent Minds: Evaluating and Enhancing the Theory of Mind in Multimodal Large Language Models
-
本文从可解释性角度评估多模态大模型(MLLM)的心智理论(ToM)能力,构建了基于 2D 网格世界的多模态 ToM 数据集 GridToM,并提出一种无需训练的注意力头激活干预方法来显著提升模型的 ToM 表现。
- Graph4MM: Weaving Multimodal Learning with Structural Information
-
提出 Graph4MM 框架,通过 Hop-Diffused Attention 将多跳图结构信息注入自注意力机制,并设计 MM-QFormer 实现跨模态融合,在生成和判别任务上平均提升 6.93%。
- Handling Imbalanced Pseudolabels for Vision-Language Models with Concept Alignment and Confusion-Aware Calibrated Margin
-
提出 CAP 框架,通过概念对齐(检测并修复 concept mismatch)和混淆感知校准边距(缓解 concept confusion),解决 VLM 生成伪标签时的类别不平衡问题,在六个数据集三种范式下相对 SOTA 提升 6.29%。
- Importance Corrected Neural JKO Sampling
-
提出 Importance Corrected Neural JKO Sampling (Neural JKO IC),将连续归一化流(CNF)的局部 JKO 步与基于重要性权重的拒绝重采样步交替使用,克服 Wasserstein 梯度流在多模态分布上的局部最优问题,同时保持独立同分布采样和密度可评估性。
- Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models
-
提出基于核函数的无监督嵌入对齐方法(KUEA),通过在核空间中对齐 CLIP 与 DINOv2 的视觉表示,仅用图像数据微调即可增强 CLIP 的细粒度感知能力,同时保持与文本编码器的兼容性,提升下游 MLLM 性能。
- LADA: Scalable Label-Specific CLIP Adapter for Continual Learning
-
提出 LADA(Label-specific ADApter),通过在冻结 CLIP 图像编码器后追加轻量级的类别特定记忆向量,将所有已学任务的判别信息浓缩到统一特征空间,彻底消除推理阶段的参数选择步骤,在 X-TAIL 持续学习设定下取得 SOTA。
- LAION-C: An Out-of-Distribution Benchmark for Web-Scale Vision Models
-
本文指出经典的 ImageNet-C 分布外鲁棒性基准对于在 LAION 等网络规模数据集上训练的模型已不再是真正的 OOD,为此设计了6种全新的高度合成化图像畸变构建 LAION-C 基准,配合19名被试的心理物理学实验,揭示了 OOD 泛化的范式转变——最优模型已追平甚至超越人类。
- Learning Invariant Causal Mechanism from Vision-Language Models
-
通过因果分析证明 CLIP 嵌入是真实不变/可变因子的线性变换,提出 CLIP-ICM 框架利用干预数据估计线性投影矩阵,将预测限定在不变子空间中以实现跨环境一致预测。
- Learning Optimal Multimodal Information Bottleneck Representations
-
提出 OMIB 框架,通过理论推导正则化参数 β 的上界并动态调整各模态权重 r,保证多模态信息瓶颈表示的最优性(包含全部任务相关信息、排除冗余信息)。
- LEMoN: Label Error Detection using Multimodal Neighbors
-
本文提出 LEMoN 方法,利用对比预训练多模态模型(如 CLIP)的嵌入空间中图像-文本对的多模态邻域结构,在分类和图像描述两个场景下自动检测标签错误,在训练无关的基线中 F1 提升 3-4%,过滤后的数据可改善下游分类和描述性能。
- LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models
-
提出 LlavaGuard——基于开源 VLM 的视觉内容安全审核框架,通过可定制安全分类体系、高质量人工标注数据集与策略增强训练,实现对图像内容的灵活、精准安全评估,在准确率和策略适应性上大幅超越现有开源与闭源审核工具。
- M3-JEPA: Multimodal Alignment via Multi-gate MoE based on JEPA
-
将 JEPA(联合嵌入预测架构)推广到任意模态组合的多模态对齐中,用 Multi-gate MoE 作为跨模态预测器在潜在空间对齐(而非 token 空间),门控函数解耦模态特定和共享信息,通过交替梯度下降避免多方向任务间的梯度冲突,仅 140M 可训练参数在多个检索和分类任务上超越 BLIP-2(1.2B)等 SOTA。
- MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization
-
本文提出 MMedPO,一种临床感知的多模态医学偏好优化方法,通过注入可信幻觉和局部病灶加噪构建多模态偏好数据,利用多个医学 LLM 协作评估临床相关性作为加权信号融入 DPO 训练,在 Med-VQA 和报告生成任务上分别平均提升 14.2% 和 51.7%。
- MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding
-
针对多模态大语言模型中跨模态注意力不一致与逐层衰减的"注意力缺失障碍"问题,提出模块化双工注意力机制MODA,通过将注意力解耦为模态内自精炼与模态间交互两路,并借助Duplex Aligner和自适应掩码注意力实现"先对齐再校正"的策略,在21个感知、认知与情感基准上验证了有效性。
- OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance
-
针对大规模视觉语言模型 instruction-tuning 训练中因数据和模型异构性导致的计算不平衡问题,提出 OmniBal 框架从数据、模型、内存三个层面系统性平衡跨设备计算负载,在 InternVL-Chat 上实现约 1.8× 训练加速。
- Parrot: Multilingual Visual Instruction Tuning
-
提出 Parrot,通过文本引导的跨注意力机制和 MoE 模块将英语偏置的视觉特征转换为语言特定表示,以极少量多语言数据(每种语言约 10K 样本)显著提升 MLLM 的多语言能力。
- Ranked from Within: Ranking Large Multimodal Models Without Labels
-
系统研究能否在无标签场景下预测 LMM 的相对性能,评估 47 个 SOTA LMM 在 9 个 VQA 基准上的表现,发现基于 softmax 分布的不确定性指标能提供稳健的无监督模型排名(与真实排名 Spearman 相关 \(\rho=0.92\))。
- Robust Multimodal Large Language Models Against Modality Conflict
-
揭示 MLLM 幻觉的一个被忽视来源——模态冲突(视觉输入与文本输入之间的固有矛盾),从对象/属性/关系三个层面形式化定义模态冲突,构建 20K 样例的 MMMC 数据集,并提出 prompt engineering、SFT 和 RL 三种缓解方法,其中 RL 效果最佳。
- RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer
-
揭示多模态 Transformer 中自注意力机制因"自增强循环"导致动态适应性失效(偏向单一模态),并提出 RollingQ 算法通过旋转 query 向量打破这一循环,恢复跨模态协作动态。
- SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs
-
利用 GPT-4 全自动生成包含 200 万+ QA 对的大规模合成 KB-VQA 数据集 SK-VQA,训练 MLLM 适配上下文增强生成,在跨域泛化性能上显著优于已有数据集。
- Streamline Without Sacrifice — Squeeze out Computation Redundancy in LMM
-
提出 ProxyV,通过引入少量代理视觉 token(proxy vision tokens)替代原始视觉 token 参与 LLM 解码层中的重计算操作(自注意力、FFN),在保留全部视觉信息的前提下大幅压缩计算冗余,甚至在部分设定下提升性能。
- The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models
-
发现多模态奖励模型 (MM-RM) 在训练时会过度依赖文本单模态捷径 (shortcuts),导致分布外泛化能力差,提出 Shortcut-aware MM-RM 学习算法通过动态样本重加权来减少对单模态伪相关性的依赖,OOD 准确率从 68.1% 提升至 78.5%。
- Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage
-
提出 CapMAS 多智能体系统,通过 LLM-MLLM 协作将详细图文描述分解为原子命题并逐一验证真实性来纠正幻觉,同时引入从事实性和覆盖度两个维度评估详细描述的框架,显著提升了包括 GPT-4V 在内的多种 MLLM 的描述质量。
- Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning
-
提出 Counterfactual Soft Reinforcement Learning (CoSo),利用反事实推理评估每个 token 对最终动作的因果影响,通过因果加权熵正则优化集中探索关键 token,解决 VLM 智能体在线 RL 微调中文本动作空间爆炸问题,在 Android 控制、卡牌游戏、具身 AI 上分别提升 12.3%、9.3%、16.7%。
- Towards Rationale-Answer Alignment of LVLMs via Self-Rationale Calibration
-
提出 Self-Rationale Calibration (SRC) 框架,通过轻量级 rationale 微调引导 LVLM 输出推理过程,再利用句子级 beam search 生成多样候选响应,结合专门设计的 R-Scorer 配对评分策略筛选优劣 rationale-answer 对,以 DPO 偏好对齐方式迭代校准模型的推理-答案一致性,在感知、推理和泛化多个基准上取得显著提升。
- Understanding and Mitigating Miscalibration in Prompt Tuning for Vision-Language Models
-
通过分析提示调优导致VLM校准失败的根因(文本特征偏移),提出动态异常值正则化(DOR)方法,利用WordNet中高语义相似度名词作为文本异常值来约束微调过程中的特征漂移,显著降低校准误差。
- Universal Retrieval for Multimodal Trajectory Modeling
-
首次系统定义多模态轨迹检索任务,构建统一代理轨迹数据集 UATD(7,747 个演示、82,793 个状态)和 GAE-Bench 基准(714,628 正样本对),提出基于 VLM2Vec 的 GAE-Retriever 框架,在 5 个 GUI 环境上相比最强基线 VLM2Vec-V2.2 平均提升 10.22 个百分点。
- Vision-Language Model Selection and Reuse for Downstream Adaptation
-
提出 Model Label Learning (MLL) 范式,通过构建语义图对 49 个预训练 VLM 进行离线"标注"(描述各模型在不同视觉概念上的能力),面对新任务时通过语义匹配选择和集成最合适的模型,实现数据高效、计算高效且可扩展的 VLM 选择与复用。
- Vision-Language Models Create Cross-Modal Task Representations
-
本文发现自回归视觉语言模型(VLMs)会将概念上等价的输入(不论是文本还是图像示例、指令还是少样本)压缩为共享的"任务向量",并通过跨模态 patching 实验验证了这种表征对齐的存在和实用性。
- Vision Graph Prompting via Semantic Low-Rank Decomposition
-
提出 Vision Graph Prompting (VGP),首个面向 Vision GNN (ViG) 的视觉提示学习框架,利用图中语义连通分量的低秩特性,设计了图/边/节点三层粒度的语义低秩提示(SeLo-Graph/Edge/Node Prompt),在参数高效的前提下达到接近全量微调的下游任务迁移性能。
- What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities
-
本文提出 OmniBench——一个基于图结构的可扩展虚拟 Agent 基准,通过自动化流水线合成可控复杂度的任务,配合 OmniEval 多维评估框架,在 20 个应用场景中生成 36K 个任务,系统揭示了虚拟 Agent 在不同能力维度上的短板。