🧩 多模态 VLM¶

🧪 ICML2025 · 42 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (418) · 🔬 ICLR2026 (211) · 💬 ACL2026 (82) · 🧪 ICML2026 (89) · 🤖 AAAI2026 (74) · 🧠 NeurIPS2025 (107)

🔥 高频主题： 多模态 ×28 · 对齐/RLHF ×5 · LLM ×2 · 对抗鲁棒 ×2

CoCoA-Mix: Confusion-and-Confidence-Aware Mixture Model for Context Optimization: 提出 CoCoA-Mix 框架，通过混淆感知损失 (CoA-loss) 和置信度感知权重 (CoA-weights) 构建提示混合模型，在不引入额外网络参数的情况下同时提升 VLM prompt tuning 的专精性 (specialization) 和泛化性 (generalization)。
CoMemo: LVLMs Need Image Context with Image Memory: 提出CoMemo双路径架构——Context路径将图像token拼入文本做自回归、Memory路径用交叉注意力做图像持久记忆，结合RoPE-DHR位置编码保持2D空间感知和缓解远程衰减，通过三阶段训练策略平衡双路径，在同等设置下全面超越LVLM-S和LVLM-X。
Context is Key: A Benchmark for Forecasting with Essential Textual Information: 提出 Context is Key（CiK）基准——71个手工设计的预测任务横跨7个领域，每个任务必须结合数值历史和自然语言上下文才能准确预测，同时提出 RCRPS 评估指标和 Direct Prompt 方法，发现 Llama-3.1-405B 的简单提示方法（RCRPS=0.159）大幅领先所有统计模型和时序基础模型。
Core Knowledge Deficits in Multi-Modal Language Models: 提出 CoreCognition 基准（12种核心认知能力、1503题），大规模评测230个MLLM后发现：模型在基础认知能力上系统性落后于人类，且随规模增大并未改善，而是更依赖捷径学习而非真正理解。
Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces: 提出了一个在任意状态空间上构建多模态扩散模型的统一框架，通过为每种模态引入独立的解耦噪声调度（decoupled noise schedule），在单个模型中同时实现无条件生成和模态条件生成，无需外部的 tokenizer 或 VAE 预处理。
Do Vision-Language Models Really Understand Visual Language?: 本文通过构建综合测试套件（含合成与真实图表）系统评估了大型视觉语言模型（LVLMs）的图表理解能力，发现模型虽可识别实体但对关系理解极为有限，其看似出色的图表推理表现实际源于利用背景知识作为捷径。
Dynamic Mixture of Curriculum LoRA Experts for Continual Multimodal Instruction Tuning: 本文提出 D-MoLE 方法，通过动态层级 LoRA 专家分配器和基于梯度的跨模态持续课程策略，在参数预算约束下自动演化 MLLM 架构以持续适配新任务，相比最优基线平均提升 15%。
Efficient Quantification of Multimodal Interaction at Sample Level: 提出 LSMI（Lightweight Sample-wise Multimodal Interaction）估计器，首次实现了对真实世界连续分布数据的逐样本级别多模态交互（冗余、唯一性、协同）精确且高效的量化，并展示了其在数据分区、知识蒸馏和模型集成中的实用价值。
ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics: ELEMENTAL 将视觉语言模型 (VLM) 与逆强化学习 (IRL) 融合，通过 VLM 提取特征函数 + IRL 优化权重 + 自我反思迭代改进，在 IsaacGym 9 个任务上比 EUREKA 提升 42.3%。
ERL-VLM: Enhancing Rating-Based RL to Leverage Feedback from Large VLMs: 提出 ERL-VLM，用大型视觉语言模型（VLM）对单条轨迹做绝对评分（rating）而非成对比较（preference），结合分层采样和 MAE 损失解决数据不平衡与噪声标签问题，显著提升 VLM 反馈驱动的奖励函数学习效果。
Enhancing Target-unspecific Tasks through a Features Matrix: 提出 Features Matrix (FM) 方法，利用多个手工 prompt 模板从冻结 CLIP 中提取通用知识构成特征矩阵，通过对齐 unexpected features 与微调视觉特征来增强模型在目标无关任务（如 base-to-novel 泛化、跨数据集泛化、域泛化）上的表现。
From Black Boxes to Transparent Minds: Evaluating and Enhancing the Theory of Mind in Multimodal Large Language Models: 本文从可解释性角度评估多模态大模型（MLLM）的心智理论（ToM）能力，构建了基于 2D 网格世界的多模态 ToM 数据集 GridToM，并提出一种无需训练的注意力头激活干预方法来显著提升模型的 ToM 表现。
Graph4MM: Weaving Multimodal Learning with Structural Information: 提出 Graph4MM 框架，通过 Hop-Diffused Attention 将多跳图结构信息注入自注意力机制，并设计 MM-QFormer 实现跨模态融合，在生成和判别任务上平均提升 6.93%。
Handling Imbalanced Pseudolabels for Vision-Language Models with Concept Alignment and Confusion-Aware Calibrated Margin: 提出 CAP 框架，通过概念对齐（检测并修复 concept mismatch）和混淆感知校准边距（缓解 concept confusion），解决 VLM 生成伪标签时的类别不平衡问题，在六个数据集三种范式下相对 SOTA 提升 6.29%。
Importance Corrected Neural JKO Sampling: 提出 Importance Corrected Neural JKO Sampling (Neural JKO IC)，将连续归一化流（CNF）的局部 JKO 步与基于重要性权重的拒绝重采样步交替使用，克服 Wasserstein 梯度流在多模态分布上的局部最优问题，同时保持独立同分布采样和密度可评估性。
Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models: 提出基于核函数的无监督嵌入对齐方法（KUEA），通过在核空间中对齐 CLIP 与 DINOv2 的视觉表示，仅用图像数据微调即可增强 CLIP 的细粒度感知能力，同时保持与文本编码器的兼容性，提升下游 MLLM 性能。
LADA: Scalable Label-Specific CLIP Adapter for Continual Learning: 提出 LADA（Label-specific ADApter），通过在冻结 CLIP 图像编码器后追加轻量级的类别特定记忆向量，将所有已学任务的判别信息浓缩到统一特征空间，彻底消除推理阶段的参数选择步骤，在 X-TAIL 持续学习设定下取得 SOTA。
LAION-C: An Out-of-Distribution Benchmark for Web-Scale Vision Models: 本文指出经典的 ImageNet-C 分布外鲁棒性基准对于在 LAION 等网络规模数据集上训练的模型已不再是真正的 OOD，为此设计了6种全新的高度合成化图像畸变构建 LAION-C 基准，配合19名被试的心理物理学实验，揭示了 OOD 泛化的范式转变——最优模型已追平甚至超越人类。
Learning Invariant Causal Mechanism from Vision-Language Models: 通过因果分析证明 CLIP 嵌入是真实不变/可变因子的线性变换，提出 CLIP-ICM 框架利用干预数据估计线性投影矩阵，将预测限定在不变子空间中以实现跨环境一致预测。
Learning Optimal Multimodal Information Bottleneck Representations: 提出 OMIB 框架，通过理论推导正则化参数 β 的上界并动态调整各模态权重 r，保证多模态信息瓶颈表示的最优性（包含全部任务相关信息、排除冗余信息）。
LEMoN: Label Error Detection using Multimodal Neighbors: 本文提出 LEMoN 方法，利用对比预训练多模态模型（如 CLIP）的嵌入空间中图像-文本对的多模态邻域结构，在分类和图像描述两个场景下自动检测标签错误，在训练无关的基线中 F1 提升 3-4%，过滤后的数据可改善下游分类和描述性能。
LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models: 提出 LlavaGuard——基于开源 VLM 的视觉内容安全审核框架，通过可定制安全分类体系、高质量人工标注数据集与策略增强训练，实现对图像内容的灵活、精准安全评估，在准确率和策略适应性上大幅超越现有开源与闭源审核工具。
M3-JEPA: Multimodal Alignment via Multi-gate MoE based on JEPA: 将 JEPA（联合嵌入预测架构）推广到任意模态组合的多模态对齐中，用 Multi-gate MoE 作为跨模态预测器在潜在空间对齐（而非 token 空间），门控函数解耦模态特定和共享信息，通过交替梯度下降避免多方向任务间的梯度冲突，仅 140M 可训练参数在多个检索和分类任务上超越 BLIP-2（1.2B）等 SOTA。
MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization: 本文提出 MMedPO，一种临床感知的多模态医学偏好优化方法，通过注入可信幻觉和局部病灶加噪构建多模态偏好数据，利用多个医学 LLM 协作评估临床相关性作为加权信号融入 DPO 训练，在 Med-VQA 和报告生成任务上分别平均提升 14.2% 和 51.7%。
MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding: 针对多模态大语言模型中跨模态注意力不一致与逐层衰减的"注意力缺失障碍"问题，提出模块化双工注意力机制MODA，通过将注意力解耦为模态内自精炼与模态间交互两路，并借助Duplex Aligner和自适应掩码注意力实现"先对齐再校正"的策略，在21个感知、认知与情感基准上验证了有效性。
OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance: 针对大规模视觉语言模型 instruction-tuning 训练中因数据和模型异构性导致的计算不平衡问题，提出 OmniBal 框架从数据、模型、内存三个层面系统性平衡跨设备计算负载，在 InternVL-Chat 上实现约 1.8× 训练加速。
Parrot: Multilingual Visual Instruction Tuning: 提出 Parrot，通过文本引导的跨注意力机制和 MoE 模块将英语偏置的视觉特征转换为语言特定表示，以极少量多语言数据（每种语言约 10K 样本）显著提升 MLLM 的多语言能力。
Ranked from Within: Ranking Large Multimodal Models Without Labels: 系统研究能否在无标签场景下预测 LMM 的相对性能，评估 47 个 SOTA LMM 在 9 个 VQA 基准上的表现，发现基于 softmax 分布的不确定性指标能提供稳健的无监督模型排名（与真实排名 Spearman 相关 \(\rho=0.92\)）。
Robust Multimodal Large Language Models Against Modality Conflict: 揭示 MLLM 幻觉的一个被忽视来源——模态冲突（视觉输入与文本输入之间的固有矛盾），从对象/属性/关系三个层面形式化定义模态冲突，构建 20K 样例的 MMMC 数据集，并提出 prompt engineering、SFT 和 RL 三种缓解方法，其中 RL 效果最佳。
RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer: 揭示多模态 Transformer 中自注意力机制因"自增强循环"导致动态适应性失效（偏向单一模态），并提出 RollingQ 算法通过旋转 query 向量打破这一循环，恢复跨模态协作动态。
SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs: 利用 GPT-4 全自动生成包含 200 万+ QA 对的大规模合成 KB-VQA 数据集 SK-VQA，训练 MLLM 适配上下文增强生成，在跨域泛化性能上显著优于已有数据集。
Streamline Without Sacrifice — Squeeze out Computation Redundancy in LMM: 提出 ProxyV，通过引入少量代理视觉 token（proxy vision tokens）替代原始视觉 token 参与 LLM 解码层中的重计算操作（自注意力、FFN），在保留全部视觉信息的前提下大幅压缩计算冗余，甚至在部分设定下提升性能。
The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models: 发现多模态奖励模型 (MM-RM) 在训练时会过度依赖文本单模态捷径 (shortcuts)，导致分布外泛化能力差，提出 Shortcut-aware MM-RM 学习算法通过动态样本重加权来减少对单模态伪相关性的依赖，OOD 准确率从 68.1% 提升至 78.5%。
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage: 提出 CapMAS 多智能体系统，通过 LLM-MLLM 协作将详细图文描述分解为原子命题并逐一验证真实性来纠正幻觉，同时引入从事实性和覆盖度两个维度评估详细描述的框架，显著提升了包括 GPT-4V 在内的多种 MLLM 的描述质量。
Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning: 提出 Counterfactual Soft Reinforcement Learning (CoSo)，利用反事实推理评估每个 token 对最终动作的因果影响，通过因果加权熵正则优化集中探索关键 token，解决 VLM 智能体在线 RL 微调中文本动作空间爆炸问题，在 Android 控制、卡牌游戏、具身 AI 上分别提升 12.3%、9.3%、16.7%。
Towards Rationale-Answer Alignment of LVLMs via Self-Rationale Calibration: 提出 Self-Rationale Calibration (SRC) 框架，通过轻量级 rationale 微调引导 LVLM 输出推理过程，再利用句子级 beam search 生成多样候选响应，结合专门设计的 R-Scorer 配对评分策略筛选优劣 rationale-answer 对，以 DPO 偏好对齐方式迭代校准模型的推理-答案一致性，在感知、推理和泛化多个基准上取得显著提升。
Understanding and Mitigating Miscalibration in Prompt Tuning for Vision-Language Models: 通过分析提示调优导致VLM校准失败的根因（文本特征偏移），提出动态异常值正则化（DOR）方法，利用WordNet中高语义相似度名词作为文本异常值来约束微调过程中的特征漂移，显著降低校准误差。
Universal Retrieval for Multimodal Trajectory Modeling: 首次系统定义多模态轨迹检索任务，构建统一代理轨迹数据集 UATD（7,747 个演示、82,793 个状态）和 GAE-Bench 基准（714,628 正样本对），提出基于 VLM2Vec 的 GAE-Retriever 框架，在 5 个 GUI 环境上相比最强基线 VLM2Vec-V2.2 平均提升 10.22 个百分点。
Vision-Language Model Selection and Reuse for Downstream Adaptation: 提出 Model Label Learning (MLL) 范式，通过构建语义图对 49 个预训练 VLM 进行离线"标注"（描述各模型在不同视觉概念上的能力），面对新任务时通过语义匹配选择和集成最合适的模型，实现数据高效、计算高效且可扩展的 VLM 选择与复用。
Vision-Language Models Create Cross-Modal Task Representations: 本文发现自回归视觉语言模型（VLMs）会将概念上等价的输入（不论是文本还是图像示例、指令还是少样本）压缩为共享的"任务向量"，并通过跨模态 patching 实验验证了这种表征对齐的存在和实用性。
Vision Graph Prompting via Semantic Low-Rank Decomposition: 提出 Vision Graph Prompting (VGP)，首个面向 Vision GNN (ViG) 的视觉提示学习框架，利用图中语义连通分量的低秩特性，设计了图/边/节点三层粒度的语义低秩提示（SeLo-Graph/Edge/Node Prompt），在参数高效的前提下达到接近全量微调的下游任务迁移性能。
What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities: 本文提出 OmniBench——一个基于图结构的可扩展虚拟 Agent 基准，通过自动化流水线合成可控复杂度的任务，配合 OmniEval 多维评估框架，在 20 个应用场景中生成 36K 个任务，系统揭示了虚拟 Agent 在不同能力维度上的短板。