🧩 多模态 VLM¶
🧠 NeurIPS2025 · 107 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (418) · 🔬 ICLR2026 (211) · 💬 ACL2026 (82) · 🧪 ICML2026 (89) · 🤖 AAAI2026 (74) · 📹 ICCV2025 (119)
🔥 高频主题: 多模态 ×62 · 对齐/RLHF ×8 · LLM ×8 · 机器人 ×5 · 问答 ×4
- A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
-
提出 M-Attack,通过对源图像做随机裁剪后与目标图像在嵌入空间做局部-全局/局部-局部匹配,配合多 CLIP 模型集成,使对抗扰动自然聚集在语义关键区域形成清晰的语义细节,在 GPT-4.5/4o/o1 等商业黑盒 LVLM 上实现 >90% 的定向攻击成功率。
- A Multimodal Benchmark for Framing of Oil & Gas Advertising and Potential Greenwashing Detection
-
构建了首个面向石油天然气行业视频广告的多模态框架分析基准数据集(706 个视频、13 种框架类型、50+ 实体、20 个国家),系统评估了 6 款 VLM 在检测 greenwashing 相关 framing 中的能力,发现 GPT-4.1 零样本在环境类标签上达 79% F1 但绿色创新仅 46%,揭示了隐式框架分析和文化背景理解仍是 VLM 的核心挑战。
- AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining
-
提出AdaLRS,一种即插即用的在线学习率搜索算法,通过监控损失下降速度(loss velocity)来自适应调整学习率,将学习率超参搜索的成本从多次独立训练降低到单次训练,实现~50%的训练成本节省。
- Adapting Vision-Language Models for Evaluating World Models
-
提出 UNIVERSE(UNIfied Vision-language Evaluator for Rollouts in Simulated Environments),通过对 PaliGemma 2 进行轻量级投影头微调(仅 0.07% 参数),构建统一的世界模型 rollout 语义评估器,在动作识别和角色识别任务上达到与任务专属模型相当的性能并与人类判断高度对齐。
- ADMN: A Layer-Wise Adaptive Multimodal Network for Dynamic Input Noise and Compute Resources
-
提出 ADMN(Adaptive Depth Multimodal Network),通过两阶段训练——(1) Multimodal LayerDrop 微调使 backbone 适应任意层配置,(2) QoI感知控制器动态分配层预算给各模态——在严格计算约束下根据每个模态的信息质量(QoI)自适应分配层数,匹配全量模型精度同时减少 75% FLOPs 和 60% 延迟。
- Advancing Compositional Awareness in CLIP with Efficient Fine-Tuning
-
提出 CLIC,通过拼接两张图像并基于跨图词汇交换生成 hard negatives,同时创建多个正样本描述,仅微调 CLIP 文本编码器就能同时提升组合推理能力(SugarCrepe++ SOTA)和下游检索性能,打破了之前方法中组合性与检索性不可兼得的困局。
- Aligning by Misaligning: Boundary-aware Curriculum Learning for Multimodal Alignment
-
提出 BACL(Boundary-Aware Curriculum with Local Attention),通过可学习的边界感知负样本采样器(由易到难课程学习)+ 对比局部注意力损失(定位 token 级 mismatch),在 LAION-400M 上为 CLIP 带来 +32% R@1 提升,并在四个大规模基准上取得 SOTA。
- AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making
-
反转传统指令接地范式——不将 VLM 知识压缩到中间表征(符号技能或约束),而是将候选机器人轨迹渲染到多视角场景图像中,直接在 VLM 的原生高维表征空间中评估动作方案,实现零样本闭环机器人操作控制。
- AQuaMaM: An Autoregressive, Quaternion Manifold Model for Rapidly Estimating Complex SO(3) Distributions
-
提出AQuaMaM——一种基于Transformer的自回归四元数流形模型,将单位四元数的三个投影分量建模为受几何约束的均匀分布混合,在SO(3)旋转流形上实现精确似然计算和快速采样,比IPDF推理速度快52倍、对数似然高14%,且采样分布与真实分布匹配极为精确。
- Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering
-
本文提出 DeepTumorVQA,一个针对腹部CT肿瘤的3D诊断级视觉问答基准,包含9,262个CT体积(370万切片)和395K专家级问题,系统评估了4个先进VLM的临床诊断能力,发现当前模型在测量任务上尚可但在病灶识别和推理上远未达到临床要求。
- Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering
-
提出 MMDocRAG 基准(4055 个专家标注的 QA 对),系统评估了 60 个 VLM/LLM 和 14 个检索器在多模态文档检索增强生成中的引用选择和交错图文回答能力,揭示当前最强模型 GPT-4.1 的 Quote Selection F1 仅 70.2%,微调可显著提升性能。
- Better Tokens for Better 3D: Advancing Vision-Language Modeling in 3D Medical Imaging
-
提出 BTB3D,一种基于因果卷积编解码器 + 3D Haar 小波压缩 + 三阶段渐进训练的 3D CT tokenizer,在放射报告生成和文本条件 CT 合成两大下游任务上大幅刷新 SOTA,证明"更好的 token 比更大的语言模型更重要"。
- BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning
-
BioCLIP 2 在 TreeOfLife-200M(2.14 亿图像/95.2 万物种)上用层级对比学习训练 ViT-L,零样本物种识别比 BioCLIP 提升 18%,并发现规模化带来的涌现性质——嵌入自动编码生态关系(如达尔文雀喙大小排列)且种内变异与种间差异正交。
- Breaking the Compression Ceiling: Data-Free Pipeline for Ultra-Efficient Delta Compression
-
提出 UltraDelta——首个无数据 delta 权重压缩流水线,通过方差引导的混合稀疏分配、分布感知压缩和迹范数引导缩放三个组件,在 LLM/NLP/视觉/多模态模型上实现最高 224× 的超高压缩比且性能不降甚至超越微调模型。
- BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
-
提出 BridgeVLA,通过将 3D 点云投影为多视角 2D 图像并以 2D 热力图作为中间表示来对齐输入输出空间,实现了高效且有效的 3D 机器人操作学习。
- CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness
-
提出CAPability,一个涵盖6大视角12个维度的综合视觉描述评测基准,通过人工标注近11K图像/视频的视觉元素(而非句子),同时评估描述的正确性(precision)和全面性(hit),并引入"知道但说不出"(\(K\bar{T}\))指标揭示MLLM在QA与caption任务之间的显著能力差距。
- CHOICE: Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models
-
提出 CHOICE,一个面向遥感领域的大规模多层级 VLM 基准,包含 10,507 道全新采集题目,覆盖感知与推理 2 大维度、6 个子维度、23 个叶任务,首次实现对 VLM 遥感能力的系统化与客观化评估。
- CoIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization
-
提出 CoIDO,一个双目标优化数据选择框架,通过联合优化数据重要性和多样性,仅用 20% 随机数据训练轻量评分器,即可从 LLaVA-665K 中选出 20% 子集达到全量微调 98.2% 的性能,同时计算开销为所有方法最低。
- Context Informs Pragmatic Interpretation in Vision-Language Models
-
通过迭代参考游戏(iterated reference games)系统评估 VLM 的语用推理能力,发现模型在无上下文时表现远逊于人类,但在获得相关对话历史后能快速学习达到约 80% 准确率,揭示了 VLM 对上下文信息的强烈依赖性。
- Continual Multimodal Contrastive Learning
-
本文首次形式化定义了持续多模态对比学习(CMCL)问题,提出双侧零空间梯度投影(DNS)方法,将新数据的梯度投影到不影响旧知识的子空间上,在 7 个数据集上实现了稳定性和可塑性的最佳平衡。
- CovMatch: Cross-Covariance Guided Multimodal Dataset Distillation with Trainable Text Encoder
-
提出 CovMatch,通过将多模态对比学习的双层优化简化为跨协方差矩阵对齐的闭式解,首次实现图文双编码器的联合优化进行多模态数据集蒸馏,仅用 500 个合成图文对在 Flickr30K 上获得 38.4 平均检索精度(+6.8% 超越 SOTA LoRS),在极端数据高效场景下大幅超越冻结文本编码器的方法。
- CyIN: Cyclic Informative Latent Space for Bridging Complete and Incomplete Multimodal Learning
-
提出 CyIN 框架,通过 token 级和 label 级信息瓶颈(IB)构建信息化潜空间,结合循环跨模态翻译重建缺失信息,在单一统一模型中同时优化完整和不完整多模态学习。
- DanmakuTPPBench: A Multi-modal Benchmark for Temporal Point Process Modeling and Understanding
-
构建首个多模态时间点过程基准DanmakuTPPBench:DanmakuTPP-Events提供7250个序列共1080万弹幕事件(时间-文本-视频三模态天然对齐),DanmakuTPP-QA通过多智能体pipeline自动生成10类推理问答,系统暴露了经典TPP模型和MLLM在多模态事件动态理解上的显著短板。
- Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention
-
提出 HoloV,一个即插即用的视觉 token 剪枝框架,通过在不同空间裁剪区域自适应分配剪枝预算,保留全局视觉上下文而非仅保留注意力高亮 token,在 LLaVA-1.5 上剪枝 88.9% token 仍保留 95.8% 原始性能。
- DOTA: DistributiOnal Test-time Adaptation of Vision-Language Models
-
DOTA提出将测试时自适应从"缓存样本实例"范式转变为"持续估计测试数据分布"范式,通过在线高斯判别分析结合零样本预测概率估计类别分布,实现无梯度、抗遗忘的高效测试时自适应,在10个跨域基准上平均准确率超越所有基线。
- DynamicVL: Benchmarking MLLMs for Dynamic City Understanding
-
提出 DVL-Suite 框架,包含 DVL-Bench 基准和 DVL-Instruct 指令微调数据集,覆盖 42 座美国城市、14,871 张高分辨率多时相遥感影像,系统评估 18 个 MLLM 在长期城市动态理解上的能力,并开发了 DVLChat 基线模型。
- Efficient Multi-modal Large Language Models via Progressive Consistency Distillation
-
提出EPIC框架,通过渐进式一致性蒸馏(Token和Layer两个维度)解决视觉token压缩训练中特征空间扰动导致的学习困难,在不修改模型架构的前提下实现高效多模态LLM。
- Enhancing Vision-Language Model Reliability with Uncertainty-Guided Dropout Decoding
-
提出Dropout Decoding——将视觉token投影到文本空间后量化其认知不确定性,选择性遮掩高不确定性视觉token并通过多组遮掩结果的集成投票增强输出可靠性,无需额外训练即可显著减少LVLM的对象幻觉。
- Evaluating Multimodal Large Language Models on Core Music Perception Tasks
-
本文通过三项核心音乐感知任务(切分节奏评分、移调检测、和弦辨识)系统性评估了多模态LLM在音频与MIDI两种输入下的表现,揭示了模型在符号推理上接近理想但在音频感知上存在显著缺陷的关键差距。
- ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models
-
ExGra-Med 提出了一种多图对齐(multi-graph alignment)框架,通过联合对齐图像、指令响应和扩展上下文描述在潜空间中的图结构关系,仅用10%预训练数据即可匹配 LLaVA-Med 的100%数据性能,并在多个医学VQA任务上超越现有SOTA。
- Face-Human-Bench: A Comprehensive Benchmark of Face and Human Understanding for Multi-modal Assistants
-
提出 Face-Human-Bench,首个系统评估多模态大模型人脸与人体理解能力的基准,包含三级能力分类体系(2个L1 × 10个L2 × 18个L3),开发集与测试集各 1800 题,支持中英双语,评测 25 个主流 MLLM 并揭示其与专家模型的显著差距。
- FlySearch: Exploring how vision-language models explore
-
FlySearch 提出了一个基于 Unreal Engine 5 的 3D 户外真实感环境,评估 VLM 的探索能力,发现最先进的 VLM 在简单搜索任务上也无法可靠完成,且与人类的差距随任务难度增加而急剧扩大。
- FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering
-
提出 FOCUS,一种无需训练的视觉裁剪方法,利用 MLLM 内部 KV-cache 中 value 特征的余弦相似度构建目标相关性图,高效定位问题相关的图像区域,在细粒度 VQA 上实现与 SOTA 可比的精度,同时计算效率提升 3-6.5 倍。
- ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation
-
提出 ForceVLA,在 VLA 框架中将 6 轴力/力矩传感引入为一等模态,通过 FVLMoE(力感知混合专家)模块在动作解码阶段动态融合视觉-语言嵌入与实时力反馈,在 5 项接触密集操作任务上平均成功率提升 23.2%,个别任务达 80%。
- GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images
-
提出 GEM,首个统一 ECG 时间序列、12 导联 ECG 图像和文本的多模态大语言模型,通过双编码器框架、跨模态对齐和知识引导的指令数据生成,实现了基于可量化生理特征的接地心电图诊断,诊断准确率提升 7.4%,可解释性提升 22.7%,接地能力提升 25.3%。
- Generalized Contrastive Learning for Universal Multimodal Retrieval
-
提出 Generalized Contrastive Learning (GCL)——在 mini-batch 内对所有 6 种模态对组合(image↔text, image↔image+text, text↔image+text)执行对比学习,无需构建新的三元组数据集,仅用现有图文对即可在 M-BEIR 上将 VISTA 的平均检索精度从 21.18 提升到 34.06(+60.8%),在 MMEB 的 text→image+text 任务上从 10.1% 提升到 31.1%。
- GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization
-
提出 GeoRanker,一种距离感知排序框架,利用大视觉语言模型建模查询-候选之间的空间关系,通过多阶距离损失实现全球图像地理定位的 SOTA。
- GoalLadder: Incremental Goal Discovery with Vision-Language Models
-
提出 GoalLadder,利用 VLM 渐进式发现并排序候选目标状态,结合 ELO 评分系统抵抗噪声反馈,在学习的嵌入空间中定义距离奖励,仅凭单条语言指令就能训练 RL 智能体达到约 95% 的成功率。
- Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment
-
提出 MAPLE 框架,利用现成 MLLM 的内在模态对齐能力自动构建偏好数据,通过 Relative Preference Alignment(RPA)损失引导跨模态表示学习,在细粒度检索任务上取得显著提升。
- HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
-
首次揭示统一多模态大模型中理解能力普遍强于生成能力的现象,提出 HermesFlow 框架,通过同源偏好数据构建配对理解-生成偏好对,利用 Pair-DPO 和自博弈迭代优化,在不引入外部高质量数据的情况下同步提升理解与生成能力并缩小两者差距。
- Hierarchical Self-Attention: Generalizing Neural Attention Mechanics to Multi-Scale Problems
-
从熵最小化第一性原理推导出层次化自注意力(HSA)机制,为嵌套信号(多模态、多尺度数据)提供理论最优的注意力计算方法,并证明 HSA 是在保持层次约束下最接近标准 Softmax 注意力的 KL 散度最优解。
- HoPE: Hybrid of Position Embedding for Long Context Vision-Language Models
-
首次从理论上分析多模态RoPE的频率分配策略对长上下文VLM的影响,提出HoPE,将最低频率设为零用于时间建模以保证语义偏好性质,配合动态时间缩放机制,在长视频理解任务上提升8.35%、检索任务上提升22.23%。
- In-Context Compositional Learning via Sparse Coding Transformer
-
受稀疏编码启发,将 Transformer 注意力机制重新解释为在编码字典和解码字典上的投影,通过稀疏系数显式表示组合规则,并利用提升方案(lifting scheme)将上下文任务的组合规则迁移到目标任务。
- In the Eye of MLLM: Benchmarking Egocentric Video Intent Understanding with Gaze-Guided Prompting
-
提出 EgoGazeVQA 基准和三种注视引导提示策略(文本/视觉/显著图),首次系统验证了眼动注视信号对提升 MLLM 第一人称视频意图理解的关键价值,Qwen2.5-VL-72B + GazeS 策略在平均准确率上提升 5.8 个百分点。
- JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models
-
受 Eliciting Latent Knowledge (ELK) 框架启发,首次揭示 VLM 在 fusion layer 潜空间中存在可近似的安全决策边界,提出 JailBound 两阶段攻击框架(Safety Boundary Probing + Safety Boundary Crossing),通过联合优化图像和文本对抗扰动跨越该边界,在白盒和黑盒场景分别达到 94.32% 和 67.28% 平均攻击成功率,显著超越 SOTA。
- Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors
-
VG LLM提出将3D视觉几何编码器(VGGT)集成到多模态大语言模型中,仅从视频输入(无需显式3D数据)即可提取和融合3D几何先验,在3D场景理解和空间推理任务上显著提升MLLM性能,4B模型在VSI-Bench上超越Gemini-1.5-Pro。
- Learning Shared Representations from Unpaired Data
-
提出 SUE (Spectral Universal Embedding),首次证明几乎完全依赖非配对数据即可学习跨模态共享表示:通过独立的频谱嵌入从各模态随机游走中提取模态不变的"通用"结构,再用极少量配对样本(~100对)做 CCA 线性对齐 + MMD 非线性微调,在检索上超越使用同等配对数的对比学习 250%+。
- Learning Skill-Attributes for Transferable Assessment in Video
-
提出CrossTrainer方法,通过发现跨运动通用的技能属性(如平衡、控制、手部定位)作为中间表示,训练多模态语言模型从视频中生成可操作反馈和水平评估,在跨运动零样本迁移中相对SOTA提升高达60%。
- Learning to Instruct for Visual Instruction Tuning
-
提出 L2T(Learning to Instruct),仅通过将训练损失扩展到指令序列(不再只在回答上计算 loss)来改善视觉指令调优——无额外数据和几乎零计算开销,在 16 个多模态基准上获得高达 9% 的相对提升,captioning 提升 18%,同时缓解幻觉。
- Learning to Steer: Input-dependent Steering for Multimodal LLMs
-
针对现有模型引导(steering)方法使用固定方向向量无法适配不同输入的局限,提出 L2S (Learn-to-Steer):先通过输入特定的对比提示生成理想的引导向量(P2S),再训练一个轻量 2 层 MLP 从输入上下文预测该向量,以极低开销实现了输入依赖的行为引导,在安全执行和幻觉缓解两个应用上显著优于静态 steering 基线。
- MDReID: Modality-Decoupled Learning for Any-to-Any Multi-Modal Object Re-Identification
-
提出MDReID框架,通过将模态特征解耦为模态共享(modality-shared)和模态特有(modality-specific)两部分,实现任意模态组合下的目标重识别(any-to-any ReID),在模态匹配和模态不匹配场景下均大幅超越现有方法。
- Metacognitive Sensitivity for Test-Time Dynamic Model Selection
-
借鉴人类认知科学中的元认知灵敏度(meta-d')概念,提出一种测试时动态模型选择框架:用 meta-d' 量化模型"知道自己知不知道"的能力,结合即时置信度构成上下文向量,通过 contextual bandit 在线选择最优模型,在多数据集上超越单模型性能。
- MIDAS: Misalignment-based Data Augmentation Strategy for Imbalanced Multimodal Learning
-
首次提出将跨模态不对齐样本作为有监督训练信号(而非噪声/干扰)来缓解多模态学习中的模态不平衡问题,设计 MIDAS 数据增强框架:通过置信度标注不对齐样本 + 弱模态加权 + 难样本加权三重机制,在四个多模态分类基准上显著超越现有方法。
- Mint: A Simple Test-Time Adaptation of Vision-Language Models against Common Corruptions
-
发现 CLIP 在图像损坏下的性能退化根源在于嵌入方差坍缩——类内与类间方差同步缩小导致嵌入空间判别性丧失;提出 Mint,通过最大化伪标签类间方差(PL-inter)在线修复嵌入几何,仅凭均值累加器和梯度累加器两个极简组件即可在 BS=1 的在线场景下稳定提升 CLIP 在多种损坏基准上的分类精度,同时比最强 baseline 快 45 倍。
- MIP against Agent: Malicious Image Patches Hijacking Multimodal OS Agents
-
揭示针对多模态OS Agent的新型对抗攻击MIP(Malicious Image Patches):在屏幕截图中嵌入人眼不可察觉的对抗性扰动图像块(约占屏幕1/7面积),当OS Agent截屏捕获后会输出预定义的恶意API调用序列;通过联合优化实现跨用户指令和屏幕布局的Universal泛化,攻击成功率高达100%。
- MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios
-
提出 MME-VideoOCR,一个包含 25 个任务、44 个场景、1464 个视频和 2000 个人工标注 QA 对的视频 OCR 综合评估基准,涵盖文本识别、理解和推理三个层次。评估 18 个 SOTA MLLM 揭示最强模型(Gemini-2.5 Pro)仅达 73.7%,跨帧理解任务低至 25% 以下。
- MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
-
构建首个全面的长上下文视觉语言模型(LCVLM)评估基准 MMLongBench——13,331 个样本覆盖 5 类下游任务、混合图像类型、5 级标准化输入长度(8K-128K tokens),评估 46 个模型后发现单任务性能是整体能力的弱代理,且强推理能力与长上下文性能正相关。
- mmWalk: Towards Multi-modal Multi-view Walking Assistance
-
mmWalk 构建了首个面向视障人群步行辅助的多模态多视角数据集(CARLA 仿真器生成 62K 帧/559K 全景图 + 69K VQA 对),基准测试发现 SOTA VLM 在风险评估和导航地标识别等安全关键任务上表现不足(最优仅 55.21%),微调后在真实数据集上泛化提升 16.7%。
- Multimodal Bandits: Regret Lower Bounds and Optimal Algorithms
-
针对奖励函数至多有 \(m\) 个极值的多模态多臂赌博机问题,提出首个计算可行的算法求解 Graves-Lai 优化问题,实现渐近最优的遗憾界,并证明局部搜索策略是次优的。
- Multimodal Disease Progression Modeling via Spatiotemporal Disentanglement and Multiscale Alignment
-
提出 DiPro 框架,通过区域感知的时空解耦(分离静态解剖与动态病理特征)和多时间尺度对齐(局部-全局融合 CXR 与 EHR),解决了纵向胸部X光序列的冗余问题和跨模态时间错位挑战,在疾病进展识别和 ICU 预测任务上达到 SOTA。
- Multimodal Negative Learning
-
提出多模态负学习(MNL)范式,通过让强势模态引导弱势模态抑制非目标类别(而非强制对齐目标类别),稳定决策空间并保留模态特有信息,理论上收紧了多模态融合的鲁棒性下界。
- Nautilus: A Large Multimodal Model for Underwater Scene Understanding
-
构建了首个支持八种水下场景理解任务的大型多模态模型 Nautilus,通过物理先验驱动的视觉特征增强(VFE)模块显式修复水下图像退化,提升 LMM 在水下环境中的鲁棒性。
- NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints
-
本文系统研究了在数据约束条件下原生多模态大语言模型(Native MLLM)的设计空间与缩放特性,发现视觉编码器与LLM之间存在正相关的最优缩放关系,并基于此提出了NaViL模型,仅用约6亿预训练图文对即可达到顶级MLLM的竞争性性能。
- NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables
-
提出 NeedleInATable (NIAT) 基准,将表格中每个单元格视为"针",评估 LLM 对长结构化表格的细粒度感知能力,揭示现有模型在复杂下游任务上的高分可能依赖数据捷径而非真正的表格理解。
- NegoCollab: A Common Representation Negotiation Approach for Heterogeneous Collaborative Perception
-
提出 NegoCollab 框架,通过引入协商者(Negotiator)在训练期间从多模态 agent 的局部表示中协商生成公共表示,有效消除异质协作 agent 之间的域差异,实现低训练成本的协同网联感知。
- On the Value of Cross-Modal Misalignment in Multimodal Representation Learning
-
提出潜变量模型将跨模态失配形式化为选择偏差和扰动偏差两种机制,理论证明MMCL学到的表征恰好捕获与两种偏差无关的不变语义子集,统一了"失配有害/有益"两种对立观点。
- OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Models
-
提出 OpenHOI 框架,利用多模态大语言模型(MLLM)的常识推理能力来推断陌生物体的接触区域和抓取类型,实现开放世界的手物交互合成,无需针对每个物体收集训练数据。
- Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning
-
发现VLM的决策推理能力可与视觉感知解耦——用文本描述替代图像时决策准确率不降反升;据此提出Praxis-VLM,在纯文本场景上通过多阶段GRPO与自适应reward训练决策推理能力,推理时零样本迁移到视觉输入,在三大决策benchmark上全面超越SFT基线,尤其在OOD场景泛化优势显著。
- Reading Recognition in the Wild
-
提出了阅读识别新任务及首个大规模多模态"野外阅读"数据集(100小时),利用RGB、眼动和IMU三种互补模态的轻量级Transformer模型,在智能眼镜上实现实时阅读检测。
- Rethinking Multimodal Learning from the Perspective of Mitigating Classification Ability Disproportion
-
提出"分类能力不均衡"视角理解多模态学习中的模态不平衡,设计 Sustained Boosting 算法(共享编码器 + 多可配置分类器,同时优化分类和残差误差)配合自适应分类器分配(ACA),理论证明跨模态 gap loss 以 \(\mathcal{O}(1/T)\) 收敛,在 CREMAD 等 6 个数据集上大幅超越 SOTA。
- RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness
-
本文从低秩分解的角度揭示了参数高效模块合并中"方向鲁棒性"是关键因素(而非全参数合并中的符号冲突),提出RobustMerge通过互补参数自适应缩放和跨任务归一化维持奇异值方向稳定性,在多模态生成任务上平均提升3.4%(已见任务)和4.5%(未见任务)。
- Scene-Aware Urban Design: A Human-AI Recommendation Framework Using Co-Occurrence Embeddings and Vision-Language Models
-
提出一个人机协同的计算机视觉框架,使用Grounding DINO进行城市物体检测,基于ADE20K数据集构建共现嵌入捕捉真实空间配置,再通过VLM进行场景感知的第三物体推荐,并生成3D模型用于AR预览,旨在让居民参与微观城市设计。
- SD-VLM: Spatial Measuring and Understanding with Depth-Encoded Vision-Language Models
-
提出MSMU大规模定量空间推理数据集(700K QA对、250万数值标注)和深度位置编码(DPE)方法,使VLM在不引入3D点云的前提下获得强大的定量空间测量和理解能力,在MSMU-Bench上超越GPT-4o达26.91%。
- See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model
-
提出 See&Trek,一个无需训练和GPU的空间提示框架,通过最大语义丰富度采样和运动重建来增强 MLLM 的空间理解能力,在 VSI-Bench 上最高提升 3.5%。
- SITCOM: Scaling Inference-Time COMpute for VLAs
-
SITCOM 提出了一种受模型预测控制(MPC)启发的推理时计算框架,通过学习的动力学模型对预训练 VLA 进行多步rollout仿真并利用奖励模型选择最优轨迹,将单步 VLA 转化为鲁棒的长程规划器,在 SIMPLER 环境中将任务完成率从 48% 提升至 72%。
- Situat3DChange: Situated 3D Change Understanding Dataset for Multimodal Large Language Models
-
构建 Situat3DChange 数据集(174K 数据实例),统一了动态场景变化与情境感知理解的感知-行动范式,并提出 SCReasoner——一种高效的 3D MLLM 用于点云对比推理。
- SmartWilds: Multimodal Wildlife Monitoring Dataset
-
发布首个同步多模态野生动物监测数据集SmartWilds,整合无人机影像、相机陷阱和生物声学三种模态共101GB数据,通过GPS/时间戳实现跨模态对齐,建立可重复的保护监测标准协议,填补综合性生态系统多传感器融合数据集的空白。
- Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models
-
本文将稀疏自编码器(SAE)扩展到视觉-语言模型(如CLIP)上,提出了 MonoSemanticity score(MS)来定量评估神经元的单义性,并展示了通过操控 SAE 神经元可以直接引导多模态大模型(如 LLaVA)的输出,实现概念的插入与抑制。
- Structure-Aware Fusion with Progressive Injection for Multimodal Molecular Representation Learning
-
提出 MuMo 框架,通过结构化融合管线(SFP)将 2D 拓扑和 3D 几何统一为稳定的结构先验,并通过渐进注入(PI)机制非对称地将该先验整合到序列流中,在 29 个分子性质预测任务中平均超过最佳基线 2.7%,在 22 个任务上排名第一。
- T-Rex: Task-Adaptive Spatial Representation Extraction for Robotic Manipulation with VLMs
-
提出T-Rex框架,根据任务复杂度动态选择最优的空间表示提取方案(点/向量/6D位姿),并设计Chain of Grounding (CoG)引导VLM逐步推理,实现无需训练的开放词汇机器人操纵。
- Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models
-
提出VSGRPO——基于GRPO的双奖励强化学习策略,联合优化结构级奖励(TEDS-Structure)和视觉保真度奖励(CW-SSIM渲染图比较),使微调后的MLLM(仅3B参数)在表格图像到LaTeX代码生成任务上超越GPT-4o和72B+规模模型,尤其在复杂表格上提升显著。
- Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models
-
提出STS(Spectrum-Aware Test-Time Steering),一种轻量级测试时适应方法:通过文本嵌入的SVD分解提取低维语义子空间,学习少量系数在该子空间内对文本原型进行"转向"以适应域偏移,无需反向传播通过大编码器,推理速度比TPT快8倍、内存占用减少12倍,同时在OOD数据集上大幅超越现有TTA方法。
- Text to Robotic Assembly of Multi Component Objects using 3D Generative AI and Vision Language Models
-
提出了一个端到端流水线,将自然语言输入通过3D生成式AI转化为网格模型,再利用VLM的零样本多模态推理自动分解为多组件3D模型(结构件+面板件),最终由机器人臂自动装配成物理对象,并支持用户通过对话反馈调整组件分配。
- The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models
-
提出TTA-VLM benchmark,在统一实验条件下评估8种episodic和7种online测试时适应(TTA)方法在15个数据集上的表现,发现三个令人意外的结论:(1) 现有TTA方法相比早期TPT基线提升有限;(2) TTA与训练时微调方法协作效果差;(3) 准确率提升以牺牲校准、OOD检测和鲁棒性为代价。
- The Narrow Gate: Localized Image-Text Communication in Native Multimodal Models
-
通过系统性的可解释性分析发现,原生多模态VLM(Chameleon、Emu3)中图像到文本的跨模态信息传递集中于单一的end-of-image [EOI] token——形成"narrow gate"瓶颈,删除[EOI]的注意力导致性能崩溃;而非原生VLM(LLaVA等)的信息传递是分布式的。这一机制差异可被利用于语义操控和鲁棒性改进。
- The Transparent Earth: A Multimodal Foundation Model for the Earth's Subsurface
-
提出Transparent Earth,一种基于Transformer的多模态基础模型,通过位置编码和文本衍生的模态嵌入融合8种异质地球物理观测数据,实现地球地下属性的零样本推断和上下文学习预测。
- TOMCAT: Test-time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning
-
提出 TOMCAT,通过在测试时从无标签数据中累积文本和视觉双模态知识来动态更新组合原型,克服标签分布偏移问题,在四个 CZSL 基准上实现 SOTA。
- Towards Comprehensive Scene Understanding: Integrating First and Third-Person Views for LVLMs
-
提出 E3VQA 基准(首个多视角 VQA 基准)和 M3CoT 提示技术(融合三种互补视角的场景图),增强大型视觉语言模型 (LVLM) 的多视角场景理解能力,GPT-4o 提升 4.84%、Gemini 2.0 Flash 提升 5.94%。
- Towards Evaluating Proactive Risk Awareness of Multimodal Language Models
-
提出PaSBench基准评估多模态语言模型的主动风险感知能力——要求模型在无用户提问的情况下主动观察环境并发出安全预警。评测36个模型发现最强模型(Gemini-2.5-pro)仅达71%准确率且45%的风险无法稳定检测,核心瓶颈是不稳定的主动推理能力而非知识缺失。
- Training-free Online Video Step Grounding
-
提出BaGLM,一种无需训练的在线视频步骤定位方法,利用贝叶斯滤波将LLM估计的步骤依赖关系和LMM估计的步骤进度融入零样本LMM预测中,在三个数据集上超越现有需训练的离线方法。
- TRoVe: Discovering Error-Inducing Static Feature Biases in Temporal Vision-Language Models
-
TRoVe提出自动化方法发现时序VLM中导致系统性预测错误的静态特征偏差,通过结合"错误贡献分数"和"静态偏差分数"的双评分机制,在101个合成模型上以28.6%优势超越基线,并成功应用于7个真实VLM揭示新偏差。
- Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition
-
提出 Uni-MuMER,通过三种数据驱动任务(Tree-CoT、Error-Driven Learning、Symbol Counting)对开源 VLM 进行统一多任务微调,在 CROHME 和 HME100K 数据集上大幅超越专用轻量模型和零样本商用 VLM。
- Unified Reinforcement and Imitation Learning for Vision-Language Models
-
提出 RIL(Unified Reinforcement and Imitation Learning)训练框架,结合 GRPO 强化学习和 GAIL 对抗模仿学习,让小型 VLM(7B)通过学习大型 VLM(72B)的文本生成风格来大幅提升性能,无需增加推理延迟或"思考"过程。
- Unifying Vision-Language Latents for Zero-Label Image Caption Enhancement
-
本文提出ViZer框架,通过统一视觉-语言潜空间对齐的训练范式,在无任何文本标注的情况下提升VLM的图像描述能力——仅使用原始图像数据就能让模型生成更接地、更描述性的caption。
- UniTok: A Unified Tokenizer for Visual Generation and Understanding
-
提出 UniTok,一种统一视觉生成和理解的tokenizer,通过多码本量化(MCQ)突破离散token表示容量瓶颈,在ImageNet上实现0.38 rFID和78.6%零样本精度的双项记录,并可无缝集成到MLLM中同时启用生成和理解能力。
- VaMP: Variational Multi-Modal Prompt Learning for Vision-Language Models
-
提出变分多模态提示学习框架VaMP,将文本侧提示建模为隐变量并通过变分推断进行实例级不确定性建模,结合类感知先验正则化隐空间,在少样本和域泛化设置下显著提升CLIP的下游适配能力。
- Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs
-
构建首个面向视频 LVLM 安全评估的综合基准 Video-SafetyBench,包含 2264 个视频-文本对覆盖 48 个细粒度不安全类别,通过可控视频生成管线和基于 LLM 置信度的 RJScore 指标,对 24 个 LVLM 进行大规模安全评测,揭示良性查询下视频攻击平均成功率达 67.2%。
- VIPAMIN: Visual Prompt Initialization via Embedding Selection and Subspace Expansion
-
提出VIPAMIN——一种零额外参数的视觉prompt初始化策略,通过注意力引导的语义匹配(Matching)和正交子空间注入(Orthogonalizing)两个模块,解决自监督VPT中prompt注意力均匀化和子空间坍塌两大失效模式,仅需单次前向传播即在24个视觉任务上刷新SOTA。
- Vision Function Layer in Multimodal LLMs
-
发现MLLM中视觉相关的功能解码分布在特定的窄层块中(Vision Function Layer),且跨模型家族呈现一致的层级顺序(识别→计数→定位→OCR),据此提出VFL-LoRA(仅用1/3参数匹配full-LoRA性能)和VFL-select(20%数据达98%全量性能)。
- Visual Instruction Bottleneck Tuning
-
首次将信息瓶颈(IB)原理应用于多模态大语言模型的端到端指令微调,提出Visual Instruction Bottleneck Tuning(Vittle),在LLM内部插入轻量瓶颈层学习最小充分表征,在30种分布偏移场景下一致提升鲁棒性,同时不牺牲标准基准性能。
- VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions
-
提出 CLIP-IN 框架,利用指令编辑数据集作为硬负样本和长描述增强 CLIP 的细粒度视觉理解能力,在 MMVP 等基准上显著提升且不损害零样本性能,集成到 MLLM 中可减少视觉幻觉。
- VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning
-
提出VT-FSL框架,通过跨模态迭代提示(CIP)联合利用类名和支持图像驱动LLM生成精确文本描述并零样本合成语义一致图像,再通过核化体积对比学习(CGA)实现全局非线性跨模态对齐,在10个少样本学习基准上平均提升4.2%分类准确率。
- Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM
-
提出 TriSense——一个三模态(视觉+音频+语音)大语言模型,通过 Query-Based Connector 自适应调节各模态权重实现鲁棒的视频时序理解,并构建了包含200万标注的 TriSense-2M 数据集支撑训练。
- WearVQA: A Visual Question Answering Benchmark for Wearables in Egocentric Authentic Real-world scenarios
-
提出 WearVQA,首个专为可穿戴设备(智能眼镜)场景设计的 VQA 基准,包含 2520 个第一人称视角图像-问答三元组,系统覆盖 7 个视觉领域、10 种认知任务类型和 6 类可穿戴特有的图像质量问题,配套 96% 准确率的 LLM-as-a-judge 评估框架,揭示当前 SOTA 多模态模型在此场景下仅达 24-52% 准确率。
- What Can RL Bring to VLA Generalization? An Empirical Study
-
本文系统研究了RL微调对VLA(视觉-语言-动作)模型泛化能力的影响,发现PPO是最有效的RL算法且显著优于DPO和GRPO,RL在语义理解和执行鲁棒性方面的OOD泛化远超SFT,同时在视觉鲁棒性上与SFT持平。
- Windsock is Dancing: Adaptive Multimodal Retrieval-Augmented Generation
-
提出Windsock+DANCE双组件框架解决多模态RAG的三个核心问题:Windsock模块根据查询自适应决定何时检索和检索什么模态(文本/图像/不检索),DANCE指令微调策略通过动态选择模型薄弱模态进行噪声鲁棒训练来提升如何利用检索信息的能力,整体性能提升17.07%同时减少8.95%检索次数。
- STRUCTURE: With Limited Data for Multimodal Alignment, Let the Structure Guide You
-
提出 STRUCTURE 正则化和基于表示相似度的层选择策略,仅用少量配对数据(数万对,不到常规方法的1%)即可实现冻结单模态基础模型的高质量跨模态对齐,在24个零样本分类和检索基准上平均提升51.6%和91.8%。