跳转至

🧩 多模态 VLM

🔬 ICLR2026 · 211 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (418) · 💬 ACL2026 (82) · 🧪 ICML2026 (89) · 🤖 AAAI2026 (74) · 🧠 NeurIPS2025 (107) · 📹 ICCV2025 (119)

🔥 高频主题: 多模态 ×112 · LLM ×15 · 对齐/RLHF ×10 · 少样本学习 ×8 · 布局/合成 ×6

SR-3D: 3D-Aware Region Prompted Vision Language Model

SR-3D 通过把深度估计得到的 3D 位置编码直接注入 2D 基础 VLM 的视觉 token,并配一个动态切片区域抽取器,让同一个模型既能处理单视图图像又能处理多视图视频,支持在任意一帧上画框/涂 mask 就能跨帧做精确的 3D 空间推理,在 2D/3D 多个 benchmark 上都拿到 SOTA。

A-TPT: Angular Diversity Calibration Properties for Test-Time Prompt Tuning of Vision-Language Models

提出 A-TPT 框架,通过最大化归一化文本特征在单位超球面上的最小成对角距离来促进角度多样性,解决测试时提示调优 (TPT) 中 VLM 预测过度自信导致的校准不良问题,在自然分布偏移和医学数据集上均优于现有 TPT 校准方法。

A High Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation

针对统一多模态大模型(LMM)"图文交错生成"训练数据稀缺、评测不可靠两大痛点,本文造了一个 180 万样本、3500 主题、带自动质检(SEIR 迭代精修)的大规模数据集 InterSyn,并训练了一个与人类打分高度一致(A@1 达 95.4%)、输出四维可解释分数的评判模型 SynJudge,实验证明用 InterSyn 微调只需 25K–50K 样本就能显著提升交错生成能力。

ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art

本文以人类艺术家手绘的 ASCII art 为载体,构建了一个内容在文本与图像两种模态下完全等价的识别基准 ASCIIEval,系统性地揭示了 LLM 能从纯字符串"看出"视觉语义、开源 MLLM 在 OCR 与整体视觉感知之间存在权衡、且当前模型无法从"文本+图像"双模态输入中获益等多项诊断性发现。

Asynchronous Matching with Dynamic Sampling for Multimodal Dataset Distillation

针对图文数据集蒸馏中"图像和文本网络优化节奏不同步"的问题,本文提出 AMD 框架:解耦图、文专家轨迹的采样起点做异步轨迹匹配,用 MMD 衡量收敛速度差异来动态确定两模态各自的采样范围,并用语义原型挖掘替代随机初始化,在 Flickr30k / COCO 上以几乎零额外开销显著刷新蒸馏检索性能(Flickr30k 200 对设置下 IR@1/@5/@10 提升 4.5%/9.6%/10.9%)。

AttTok: Marrying Attribute Tokens with Generative Pre-trained Vision-Language Models towards Medical Image Understanding

针对医学多模态大模型把"轻度/重度 DR"等临床属性编码成几乎相同文本 token 而失去判别力的痛点,本文提出属性 token(AttTok)——给每个临床概念分配一个专属特殊 token,并配套构建多模态嵌入书、跨注意力适配器(ACC)与属性匹配损失(ACM),在生成式范式中显式注入判别式医学知识,在 5 个分类基准和 3 个 VQA 基准上稳定涨点。

BaseReward: A Strong Baseline for Multimodal Reward Model

这篇论文不发明新结构,而是把"怎么造一个 SOTA 多模态奖励模型(MRM)"拆成范式、奖励头、正则化、数据、骨干/规模、集成六个维度逐一做消融,得出一份明确的"食谱",并据此搭出 BaseReward——基于 Qwen2.5-VL-7B + 两层 SiLU MLP 奖励头 + 精挑混合偏好数据的简洁强基线,在 MM-RLHF-Reward Bench、VL-Reward Bench 等主流榜上刷新 SOTA,且推理远快于生成式奖励模型。

Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

针对全开源多模态大模型卡在「SFT 数据质量差、缺复杂推理数据」的痛点,本文用一条自动化数据策展管线(HoneyPipe)把约 2400 万原始图文对清洗、富化成 1500 万条带双层 CoT 的高质量数据集 Honey-Data-15M,并在其上训出 8B 模型 Bee-8B,刷新全开源 MLLM 的 SOTA,多项推理基准上追平甚至反超半开源的 InternVL3.5-8B。

Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation

本文构建了首个面向细粒度图像任务的大规模评测基准 FG-BMK(101 万问题、28 万图像),从"人本对话"和"机器特征"两个视角系统拷问 12 个主流 LVLM/VLM,揭示出对比式训练范式、模态对齐、扰动鲁棒性与层级类别推理如何影响细粒度表现,并发现 LVLM 在细粒度任务上仍明显落后于专用模型。

Bilateral Information-aware Test-time Adaptation for Vision-Language Models

针对 CLIP 这类视觉语言模型在测试时适应(TTA)时只用"固定比例低熵样本"导致过拟合非典型特征的问题,本文提出 BITTA:同时用动态比例的低熵样本"学习"核心表征、用高熵样本"反学习"非典型特征,在 CIFAR-10/100-C、ImageNet-C 等损坏数据集上把多种 TTA 方法的平均准确率稳定提升约 1–2 个点。

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

提出 BioCAP,通过用 MLLM 生成 wiki 知识引导的合成描述性 caption(而非仅用物种标签)来训练生物学多模态基础模型,在 10 个物种分类 benchmark 上比 BioCLIP 平均提升 8.8%,在文本-图像检索任务上提升 21.3%。

Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

构建 Bongard-RWR+,一个包含 5400 个 Bongard 问题的 benchmark,使用 VLM 流水线(Pixtral-12B + Flux.1-dev)自动生成真实感图像来表示抽象概念,系统评估揭示 SOTA VLM 在辨别细粒度视觉概念(如轮廓、旋转、角度)时表现挣扎,准确率低至 19%。

Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation

针对图表到代码生成任务中SFT的性能瓶颈问题,提出多模态结构化强化学习(MSRL),通过文本+视觉双层奖励函数和两阶段RL策略,在ChartMimic和ReachQA上分别提升6.2%和9.9%的高层指标,达到开源SOTA并媲美GPT-4o。

CAD-Tokenizer: Towards Text-Based CAD Prototyping via Modality-Specific Tokenization

为 CAD 序列设计一套"原语级 VQ-VAE 分词器"替换 LLM 默认的字词分词,把草图—拉伸对压缩成与 LLM 词表对齐的离散 token,并用有限状态自动机约束解码,从而首次用单一模型统一完成 Text-to-CAD 生成与文本指令驱动的 CAD 编辑。

Calibrated Information Bottleneck for Trusted Multi-modal Clustering

针对信息瓶颈(IB)多模态聚类高度依赖"准确的互信息估计 + 干净伪标签"这两件做不到的事,本文提出 CLIB——用"一个主聚类头 + 多个模态校准头"的并行多头结构,让模态间互相纠偏,再配上一个基于信息冗余度的动态伪标签筛选机制,既把聚类准确率(Caltech-3V 上 ACC 77.8%)做上去,又把过自信问题(ECE 在多个数据集上腰斩)压下来。

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

提出 QIVD(Qualcomm Interactive Video Dataset),一个面对面实时问答 benchmark(2900 个视频+音频+时间戳标注),揭示现有 VLM 在实时情境理解上远落后人类(最佳模型 60% vs 人类 87%),主要瓶颈在指代消歧、回答时机判断和情境常识,微调可显著缩小差距。

Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts

针对 MoE 推理时因 token 分配不均导致的 Straggler Effect(最重负载专家决定整体延迟),提出 Capacity-Aware Token Drop(丢弃过载专家的低分 token)和 Expanded Drop(将溢出 token 重路由到本地低负载专家),在 Mixtral-8×7B 上实现 1.85× 加速且性能提升 0.2%。

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

CapRL 把主观的图像描述质量改写成“纯文本 LLM 能否只凭 caption 答对图像相关选择题”的可验证奖励,用 GRPO 训练 Qwen2.5-VL-3B 生成更稠密、更准确的 caption,并进一步产出 CapRL-5M 数据集,在多模态预训练和 Prism caption 评测中都显著优于 SFT 式 caption 数据。

CARPRT: Class-Aware Zero-Shot Prompt Reweighting for Vision-Language Model

CARPRT 指出现有 VLM 提示集成方法给每个提示模板分配的权重是「全类共享」的,违背了「不同提示对不同类别亲和度不同」的事实;它用一套免训练、纯黑盒(只查相似度分数)的两阶段流程,为每个类别单独估计一组提示权重,在 11 个零样本分类基准上稳定超过 MPE / WPE 乃至人工筛选提示。

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

本文提出 SD-RPN(Self-Distilled Region Proposal Network),把 MLLM 中间层那张又脏又糊的注意力图,经过去噪和选择性打标做成高质量伪标签,再用它训练一个挂在冻结主干上的小型 RPN,让模型在单次部分前向中就预测出感兴趣区域(RoI);仅用 10K 问答对训练,就在 TextVQA / DocVQA / V-Star 等未见基准上拿到 10%+ 的绝对准确率提升。

ChartGalaxy: A Dataset for Infographic Chart Understanding and Generation

ChartGalaxy 构建了一个百万级信息图表数据集,通过从真实设计中归纳图表类型、视觉变体和布局模板,再程序化合成带表格监督的高质量信息图表,显著提升 LVLM 在信息图表问答、代码生成和示例驱动图表生成上的能力。

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

构建 CityLens——迄今最大规模的城市社会经济感知 benchmark(17 城市、6 大领域、11 个预测任务),评估 17 个 LVLM 在直接预测、归一化估计、特征回归三种范式下从卫星/街景图像推断社会经济指标的能力,发现通用 LVLM 在多数任务上仍不及领域特化的对比学习方法。

CitySeeker: How Do VLMs Explore Embodied Urban Navigation with Implicit Human Needs?

CitySeeker 构造了首个面向"隐式人类需求"的具身城市导航 benchmark(8 城、6,440 条真实街景轨迹、7 类需求),用统一的 ReAct 式导航框架评测 27 个 VLM,发现最强模型任务完成率也只有 21.1%,远落后于人类,并提出回溯 / 空间认知增强 / 记忆检索(BCR)三类受人类认知启发的策略把性能推到 26.9%。

CLIP-FMoE: Scalable CLIP via Fused Mixture-of-Experts with Enforced Specialization

CLIP-FMoE 用“两级语义聚类先训专家、再冻结专家训练路由”的 Fused MoE 流水线扩展 CLIP,并通过 Fusion Gate 在预训练 MLP 与领域专家之间逐 token 融合,使模型在提升图文检索和长文本理解的同时尽量保住原 CLIP 的零样本分类能力。

Closing the Modality Gap Aligns Group-Wise Semantics

证明 CLIP 中的 modality gap 对实例级任务(检索)无关紧要但严重损害群组级任务(聚类),并提出由 Align True Pairs loss + Centroid Uniformity loss 组成的新目标函数,在双模态和三模态设置中将 gap 几乎降为零,大幅提升聚类 V-Measure(+10-17 分),同时保持检索性能。

CogMoE: Signal-Quality–Guided Multimodal MoE for Cognitive Load Prediction

CogMoE 把多模态生理信号(EEG/ECG/EDA/眼动)的认知负荷预测从"按模态融合"重构为"按信号质量融合"——先用小波同步与跨模态恢复清洗噪声/缺失/错位,再用三个分别擅长干净/含噪/恢复信号的专家加质量感知门控自适应路由,配合 CORTEX 多目标损失,在 CL-Drive / ADABase 上比强基线最高提升约 13 个百分点。

CoMem: Compositional Concept-Graph Memory for Vision-Language Adaptation

CoMem 把"组合结构"(概念 + 关系的图)当作持续学习的记忆与复述单元,不存原始图像、只在特征空间按子图条件合成回放样本,再用组合一致性约束和教师熵门控蒸馏抑制漂移,在跨域检索、结构化概念学习和持续 VQA 上同时拿到更高保持率与更低遗忘。

Constructive Distortion: Improving MLLMs with Attention-Guided Image Warping

提出 AttWarp,一种即插即用的测试时图像变形方法,利用 MLLM 自身的跨模态注意力图进行矩形网格重采样,

Context Tokens are Anchors: Understanding the Repeat Curse in dMLLMs from an Information Flow Perspective

本文发现扩散式多模态大模型(dMLLM)在使用缓存加速时会出现严重的文本重复(Repeat Curse),从信息流视角揭示其根因是"上下文锚点 token"的信息流被破坏、深层信息熵无法收敛,并据此提出免训练的 CoTA(增强上下文注意力 + 熵引导投票)来根治重复。

ContextNav: Towards Agentic Multimodal In-Context Learning

ContextNav 把"为多模态 in-context learning 挑选并清洗示例"这件事做成一个由 MLLM 驱动的闭环 agentic 工作流——先资源感知地嵌入并检索候选,再用 agent 推理去掉语义噪声和结构噪声,最后用一张操作语法图约束工具调用顺序、并靠下游 ICL 反馈持续优化策略,在 8 个数据集上把平均 ICL 增益从 SOTA 的 7.6% 提到 16.8%。

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

提出情感陈述判断(ESJ)任务与 INSETS 自动标注流水线,将视觉情感评估从"开放式分类"重构为"陈述真伪判断",构建了 MVEI benchmark(3,086 样本、424 种情感标签、四个认知维度),系统评估 19 个 MLLMs,发现即使 GPT-4o 也与人类(91.6%)存在 13.3% 的准确率差距。

DAVE: A VLM Vision Encoder for Document Understanding and Web Agents

DAVE 针对文档/网页图像专门训练了一个 VLM 视觉编码器:先用改造过的像素级 MAE 在 2000 万无标注文档/网页图上做自监督,再用少量高质量数据做自回归监督预训练,并通过"多解码器权重合并 + 与 SigLIP2 集成"两招让编码器既懂结构空间又不丢通用语义,在文档识别、Web 定位和 Mind2Web Agent 任务上平均超过 SigLIP2 约 10.5% / 5%。

DaVinci: Reinforcing Visual-Structural Syntax in MLLMs for Generalized Scientific Diagram Parsing

DaVinci 用「SFT 先学视觉基元 + GRPO 再学结构关系」的两阶段框架训练一个 7B 的 MLLM,把科学示意图解析成可编译的 TikZ 代码,配合自建的 TikZ30K 数据集(规范画图顺序 + 注入注释)和一套从矢量化表示中无误差提取信号的混合奖励,最终在编译率与视觉保真度上反超 GPT-5、Claude-Sonnet-4 等闭源大模型。

DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning

DecAlign 把多模态特征拆成"各模态独有的异质特征"和"跨模态共享的同质特征"两路,分别用原型引导的最优传输对齐异质部分、用潜空间分布匹配 + MMD 对齐同质部分,在四个情感分析基准上稳定刷过 13 个 SOTA。

Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading

提出从阅读时眼动轨迹解码开放式信息检索目标的新任务,基于 OneStop 眼动数据集(360人、486问题、162段落),开发判别式和生成式多模态模型;RoBERTEye-Fixations 在三选一目标选择上达 49.3%(随机 33%),不同 critical span 达 70.9%;DalEye-Llama/GPT 在目标重建中也显著优于无眼动基线。

Decoupling Primitive with Experts: Dynamic Feature Alignment for Compositional Zero-Shot Learning

针对组合零样本学习(CZSL)中"同一个基元在不同组合里语义会变"的痛点,提出 EVA——用混合专家(MoE)适配器把基元拆成多个语义变体来学,再用语义变体对齐挑出与图像最匹配的那个变体做细粒度跨模态匹配,在三个基准的闭世界/开世界设定上都刷到 SOTA。

DeepEyesV2: Toward Agentic Multimodal Model

DeepEyesV2 想把"调用外部工具"真正织进多模态模型的推理过程:让模型在一条推理轨迹里自主决定何时写 Python 代码、何时发起网页搜索,并把工具输出回填继续推理;作者发现直接 RL 学不会稳定的工具调用,于是用"冷启动 SFT + 强化学习"两阶段训练,在感知、数学推理、搜索三类基准上都拿到一致提升(如 MathVerse +7.1、MMSearch 63.7% 远超 53.8% 的专用搜索模型)。

Delving into Spectral Clustering with Vision-Language Representations

这篇论文把谱聚类从只看图像的单模态范式推进到多模态:用 CLIP 文本端的"正样本名词"去锚定一个神经正切核(NTK),让两张图的亲和度变成"视觉邻近 × 语义重叠"的乘积,从而天然强化块对角结构,再用一个正则化亲和扩散机制自适应集成多个 prompt 的亲和矩阵,在 16 个基准上大幅超越此前 SOTA(如 STL-10 98.3% ACC、ImageNet-Dogs 84.9% ACC)。

DataProphet: Demystifying Supervision Data Generalization in Multimodal LLMs

本文系统揭示了「直觉上相似的训练数据更有帮助」这一常识在多模态 LLM 上并不可靠,并提出无需训练的指标 DataProphet,用多模态困惑度、跨域相似度与问题多样性三因子的乘积,在训练前就能高精度预测某个监督数据集对目标 benchmark 的影响排名(Kendall's τ 达 86%),进而指导数据选择,效果超过需要训练的 SoTA 方法甚至接近 oracle。

Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification

提出 EUQ(Evidential Uncertainty Quantification),基于 Dempster-Shafer 证据理论将 LVLM 的认识不确定性分解为冲突 CF(内部矛盾)和无知 IG(信息缺失),无需训练、单次前向传播即可检测幻觉/越狱/对抗/OOD 四类错误行为,平均 AUROC 相对最佳基线提升 10.4%/7.5%。

Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence

针对 CLIP 用 InfoNCE 做视觉-语言对齐时残留的"模态鸿沟",本文提出 CS-Aligner:在最大化互信息的基础上额外用 Cauchy-Schwarz(CS)散度拉近图、文两个特征分布,既补齐了 InfoNCE 只对齐成对样本、忽略整体分布的短板,又自然化解了 InfoNCE 内部 alignment 与 uniformity 的冲突,在文生图(FID)与图文检索上都明显超过 Eclipse、Long-CLIP、LLM2CLIP 等对齐方法。

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

DualToken 把"理解要语义、生成要像素"这对天然冲突的目标,沿 ViT 的浅层/深层结构解耦开来——浅层学重建得到像素码本、深层学语义得到语义码本,在单一 tokenizer 里同时拿到 0.25 rFID 和 82.0% 零样本精度,并让一个纯自回归 MLLM 同时把图看懂和画好。

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Re-ranking

提出EDJE(高效判别式联合编码器),通过将视觉特征提取离线化并用轻量级注意力适配器压缩视觉Token,实现50k图文对/秒的高吞吐推理,同时在Flickr(零样本)和COCO(微调)检索上匹配现有联合编码器的性能,每张图仅需49kB存储。

EgoHandICL: Egocentric 3D Hand Reconstruction with In-Context Learning

首次将上下文学习(ICL)范式引入3D手部重建,通过VLM引导的模板检索、多模态ICL分词器和MAE驱动的重建流程,在ARCTIC和EgoExo4D基准上显著超越SOTA方法。

Endowing GPT-4 with a Humanoid Body: Building the Bridge Between Off-the-Shelf VLMs and the Physical World

BiBo 框架通过"具身指令编译器 + 扩散运动执行器"两级结构,让 GPT-4 等现成 VLM 无需任何微调就能控制人形体代理完成复杂物理场景交互,单次任务成功率达 90.2%。

Enhanced Continual Learning of Vision-Language Models with Model Fusion

提出Continual Decoupling-Unifying(ConDU)框架,首次将模型融合引入VLM持续学习,通过维护统一模型并结合任务触发器进行解耦-统一迭代操作,在MTIL基准上平均性能超SOTA 2%,同时增强了零样本能力。

Enhancing Geometric Perception in VLMs via Translator-Guided Reinforcement Learning

提出 GEOPERCEIVE 基准(基于无歧义 DSL 的几何感知评测)和 GEODPO 框架(译者引导的强化学习),使 VLM 在保持自然语言输出的前提下,通过 NL→DSL 翻译器计算细粒度奖励信号,大幅提升几何图形感知与下游推理能力。

Enhancing Multi-Image Understanding through Delimiter Token Scaling

通过对视觉语言模型中图像分隔符token的隐藏状态进行缩放,增强图像间的信息隔离能力,在不增加任何训练或推理成本的前提下,在多图理解(Mantis/MuirBench/MIRB/QBench2)和多文档/多表格理解(TQABench/MultiNews/WCEP-10)基准上均获得性能提升。

ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

ERGO 用一套面向"效率"设计的 RL 奖励(区域验证奖励 + 框尺寸调节奖励),让 LVLM 在低分辨率粗看图上做"推理驱动的感知"——即使目标物体被降采样到看不清,也能借上下文线索定位到正确区域再放大重编码,在 V* 上比 Qwen2.5-VL-7B 高 4.7 分却只用 23% 的视觉 token、推理快 3 倍。

Error Notebook-Guided, Training-Free Part Retrieval in 3D CAD Assemblies via Vision-Language Models

提出一种无训练的两阶段VLM框架,通过Error Notebook记录纠正后的推理轨迹并结合RAG进行推理时适应,在3D CAD装配体的规格驱动零件检索任务上,GPT-4o准确率从41.7%提升至65.1%(+23.4%),并通过语法约束验证器进一步提升4.5%。

EventFlash: Towards Efficient MLLMs for Event-Based Vision

EventFlash 利用事件流天然的时空稀疏性,设计自适应时间窗聚合与密度引导注意力两个 token 稀疏化模块,把事件 MLLM 的推理吞吐提升 12.4×,并把可处理的事件 bin 数从 EventGPT 的 5 个扩展到 1000 个。

Exploring Cross-Modal Flows for Few-Shot Learning

把图像特征向文本特征对齐这件事,从所有 PEFT 方法的"一步到位"重构成 Flow Matching 的"多步迭代修正",用一个即插即用的速度场(velocity field)把难数据集上纠缠的跨模态分布逐步拉齐,从而显著提升少样本分类。

Fed-Duet: Dual Expert-Orchestrated Framework for Continual Federated Vision-Language Learning

Fed-Duet 把联邦持续学习里的 VLM 适配拆成"语义专家(prompt)+ 参数专家(adapter)"两条互补通路,由服务端知识编排器自适应分发共享语义专家、客户端用跨注意力门控融合本地/共享专家,配合路由一致性损失和专家稳定性损失,在非 IID + 任务流式演化场景下同时缓解遗忘并保住跨模态对齐。

Figma2Code: Automating Multimodal Design to Code in the Wild

本文提出 Figma2Code 这一新任务和数据集,把"设计转代码"从只看截图的图像单模态,推进到包含 Figma 元数据 + 设计资产 + 截图的真实多模态场景,并配套一套同时衡量视觉保真度、布局响应性、代码可维护性的评测框架,系统揭示了当前 MLLM 在保真度与代码质量之间难以两全的核心矛盾。

FLARE: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding

FLARE 把"视觉与语言的深度融合"贯穿 VLM 全流程——编码阶段让文本引导视觉、解码阶段按文本上下文动态聚合视觉、用双向重建损失桥接模态空间、再用"文本先行"的数据合成喂养训练,使 3B 模型仅用 630 个视觉 token 就超过 Cambrian-1 8B 和 Florence-VL 8B。

Flatness-Guided Test-Time Adaptation for Vision-Language Models

本文提出 Flatness-Guided Adaptation (FGA) 框架:训练阶段用 sharpness-aware prompt tuning 找到平坦最小值,测试阶段不再更新任何参数,而是通过"扰动—打分—筛选"增强样本,让被选中的测试损失景观的平坦最小值与训练平坦最小值对齐,从而在零反向传播、低显存的前提下显著提升 CLIP 的分布外泛化。

FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows

FlowBind 用一个可学习的共享潜在锚点 + 每模态可逆流取代固定高斯先验,把多模态联合分布拆解成一组独立的模态-到-锚点流,仅用单一 flow matching 损失端到端训练,就能在文本/图像/音频之间任意互译,参数量少 6 倍、训练快 10 倍。

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

本文提出 NEO——一族从第一性原理构建的原生(单体)VLM,用统一的「native primitive」把视觉编码、跨模态对齐与推理融进单个 decoder-only backbone,借助解耦 T/H/W 的 Native-RoPE、图文混合注意力和可复用的 pre-Buffer,仅用 390M 图文样本就把原生 VLM 与同规模顶级模块化 VLM 的差距大幅缩小。

GeoBench: Rethinking Multimodal Geometric Problem-Solving via Hierarchical Evaluation

GeoBench 用形式化引擎 TrustGeoGen 生成 1021 道可验证的合成几何题,按 van Hiele 认知模型把几何推理拆成「视觉感知→目标规划→定理应用→自反思回溯」四层六任务,从而把 VLM 的几何能力从"只看最终答案"细化到"诊断到底卡在哪一步"。

GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

不动 VLM 架构、不引入点云模态,仅用「视频 + 重建出的鸟瞰图 + 跨帧一致的物体 ID 标记」这套视觉提示,就把 2D 视觉语言模型补出 3D 室内场景理解能力,并在零样本与微调两种设定下都刷到 SOTA。

GranViT: A Fine-Grained Vision Model For Autoregressive Multimodal Large Language Models

通过构建 2951 万图像 / 1.83 亿区域级标注的 Gran-29M 数据集,并用「Bbox→Caption / Caption→Bbox」双向自回归任务 + 局部自蒸馏来预训练视觉编码器,GranViT 让 ViT 第一次具备了对齐 LLM 语义空间的细粒度局部感知能力,在视觉 grounding 与 OCR 理解上刷新 SOTA。

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

提出 GAR(Grasp Any Region),通过 RoI-aligned feature replay 在保持全局上下文的同时提取高保真局部特征,实现精准的单区域描述、多区域交互建模和复合推理,1B 模型即超越 InternVL3-78B。

Grounding-IQA: Grounding Multimodal Language Models for Image Quality Assessment

将空间定位(referring + grounding)与图像质量评估结合,构建 GIQA-160K 数据集训练多模态 LLM 生成带有边界框的质量描述和空间 VQA,在细粒度质量感知上显著优于通用 MLLM。

Guided Query Refinement: Multimodal Hybrid Retrieval with Test-Time Optimization

提出 Guided Query Refinement (GQR):在测试时用一个轻量文本检索器的打分作为引导信号,通过梯度下降迭代精修视觉检索器(ColPali 系)的查询嵌入,让 ColPali 模型在保持小表征的同时逼近甚至超越超大模型的检索质量,实现最高 14× 加速、54× 省内存。

GuirlVG: Incentivize GUI Visual Grounding via Empirical Exploration on Reinforcement Learning

把规则化强化微调(RFT/GRPO)拆成「奖励函数、预测格式、KL 惩罚、训练配置」逐项做受控消融,再补上一个能自适应抑制奖励过优化的 Adversarial KL Factor,最终只用 5.2K 样本就在 ScreenSpot 系列基准上超过用上千万样本 SFT 的方法。

How Do Medical MLLMs Fail? A Study on Visual Grounding in Medical Images

首次系统性诊断出医学MLLM在零样本医学VQA上表现差的根本原因在于视觉扎根(visual grounding)不足——模型注意力系统性地偏离临床相关区域,由此提出无训练的VGRefine推理时注意力修正方法,在6个基准的110K+样本、8种成像模态上均达到SOTA。

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

提出 HSSBench——首个聚焦人文社科(HSS)、覆盖 6 大类 45 小类、含联合国六种官方语言共 13,152 道多模态选择题的大规模评测基准,通过"专家 + 多智能体"协同流水线构建,并在 20+ 主流 MLLM 上验证 HSS 任务对当前模型仍是显著挑战(准确率普遍低于 60%)。

Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models

Human-MME 是首个面向「以人为中心场景」的综合性 MLLM 评测基准,用一条五步自动标注 + 专家人工校验的流水线,构建了覆盖 43 个细分场景、8 个由「细粒度感知→高维因果推理」递进的维度、近 2 万真实图文问答对,并在 20 个 SOTA 多模态大模型上系统暴露了它们在人体细粒度 grounding 和高阶推理上的短板。

Human Uncertainty-Aware Data Selection and Automatic Labeling in Visual Question Answering

本文系统揭示了 VQA 中"人类不确定性(HU)"对监督微调的影响——高 HU 样本不仅无益甚至有害,并提出 HaDola 框架,通过"判别-自标注-错误触发-训练"四阶段流水线,仅用 5% 种子标注就在准确率和校准度上匹敌甚至超越用 100% 数据微调的强基线。

HumanPCR: Probing MLLM Capabilities in Diverse Human-Centric Scenes

HumanPCR 构建了一个面向人类中心视觉场景的 MLLM 分层评测套件,用感知、理解、推理三个层级诊断模型在人体细节、社会行为、时序过程和多证据视频推理上的短板,并发现当前模型最薄弱的不是“看更多帧”,而是主动寻找问题没有明说的关键视觉证据。

ICYM2I: The Illusion of Multimodal Informativeness under Missingness

揭示了多模态学习中被忽视的问题:模态缺失(missingness)导致的分布偏移会使模态价值评估产生严重偏差,提出 ICYM2I 框架通过双重逆概率加权(IPW)纠正训练和评估中的偏差,在 MAR 假设下实现对模态预测效用和信息论价值的无偏估计。

Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization

MISP-DPO 把多模态 DPO 从"一正一负"扩展到"一正多负":用稀疏自编码器在 CLIP 空间挖出可解释的视觉偏差因子来挑选语义多样的负图,再用 Plackett-Luce 目标 + 重要性采样高效训练,把 VLM 的幻觉显著压下去。

IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs

IndicVisionBench 是首个聚焦印度次大陆的大规模文化—多语种 VLM 评测基准,覆盖英语 + 10 种印度语、3 个多模态任务(VQA / OCR / MMT)、5K 图像与 37K+ QA,系统揭示了当前 VLM 在文化多样语境下的显著性能缺口。

InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

InSight-o3 提出 O3-BENCH 来评测模型在高信息密度图像中边找细节边推理的能力,并用 vReasoner + vSearcher 的两智能体框架把通用视觉搜索训练成可插拔组件,从而显著增强 GPT-5-mini、Gemini-2.5-Flash 等多模态基础模型。

InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models

InternSVG 用一套「数据集 SAgoge + 基准 SArena + 模型 InternSVG」三件套,把 SVG 的理解、编辑、生成三类任务统一进同一个多模态大模型里,靠 SVG 专用 token、子词初始化和两阶段课程训练,在自建和已有基准上全面超越开源与闭源模型。

Investigating Redundancy in Multimodal Large Language Models with Multiple Vision Encoders

通过系统性地遮蔽(mask)多编码器 MLLM 中的各个视觉编码器,本文揭示「编码器越多越好」其实是个伪命题,并提出 CUR 与 IG 两个指标量化每个编码器的边际贡献与冗余程度,证明多数任务用 1–2 个编码器就能保住 90%+ 性能、同时大幅省训练与推理成本。

IWR-Bench: Can LVLMs Reconstruct Interactive Webpage from a User Interaction Video?

提出 IWR-Bench——首个让大型视觉-语言模型(LVLM)从「用户交互视频 + 完整静态资源」重建出可交互网页的基准,用 agent-as-a-judge 协议同时考核功能正确性与视觉保真度,28 个模型的实验揭示最强模型也只有 36.35 分、功能分(IFS 24.39%)远落后于视觉分(VFS 64.25%)。

K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge

提出 K-Sort Eval 框架,通过后验校正和动态匹配策略,使 VLM 能可靠高效地替代人类进行视觉生成模型的偏好评估,通常只需不到 90 次模型运行即可得出与人类 Arena 一致的结果。

Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation

KALEIDOSCOPE 通过全球开放科学协作,手工收集 18 种语言、14 个学科、共 20,911 道真实考试多选题(55% 需看图),构建出迄今最大的"原生语言(in-language)"多语言多模态 VLM 评测基准,揭示出当前 VLM 在低资源语言、多模态推理和 STEM 学科上的系统性短板。

KeepLoRA: Continual Learning with Residual Gradient Adaptation

通过分析预训练模型权重的SVD分解,发现通用知识编码在主子空间、领域特定知识编码在残差子空间,提出KeepLoRA方法将新任务的LoRA更新约束在残差子空间中,同时用梯度信息初始化以保持可塑性,在持续学习中达到前向稳定、后向稳定和可塑性的最优平衡。

Knowledge Exchange with Confidence: Cost-Effective LLM Integration for Reliable and Efficient Visual Question Answering

用一个校准良好的小型 VQA 模型输出可信的置信度,按高/中/低三档把问题分别交给 VQA 直接回答、让 LLM 借候选答案当"顾问"、或全权委派 LLM 当"老师",在保持甚至提升精度的同时把昂贵的 LLM 调用次数砍掉一大半。

Label-Free Mitigation of Spurious Correlations in VLMs using Sparse Autoencoders

DIAL 用一个预训练稀疏自编码器把 CLIP 图像嵌入拆成可解释的单义特征方向,零样本地识别出编码虚假属性的子空间并用正交投影把它从受影响样本中减掉,全程不需要训练、额外数据、类别标签或虚假特征标签。

Language-Instructed Vision Embeddings for Controllable and Generalizable Perception

LIVE 把自然语言指令直接注入视觉编码器,让同一张图在不同问题下生成不同的任务中心视觉 embedding,并用 LLM 生成的图像-问题-答案三元组训练,使轻量视觉编码器在 MMVP、GQA 和跨数据集指令检索上显著超过静态视觉表征。

Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation

Lavida-O 用一个掩码扩散模型(MDM)同时打通图像理解、目标定位、图像编辑和 1024px 高清文生图,靠"弹性混合专家"架构把 8B 理解分支和 2.4B 轻量生成分支高效拼起来,再引入规划与自反思机制让"会理解"反哺"会生成",在 RefCOCO、GenEval、ImgEdit 上全面超过 Qwen2.5-VL 和 FluxKontext。

LEGATO: Large-scale End-to-end Generalizable Approach to Typeset OMR

Legato 把一张(甚至多页)整版印刷乐谱图像直接喂给冻结的 Llama 视觉编码器 + 从零训练的 ABC 解码器,端到端转写成简洁的 ABC 符号文本,靠 21.4 万张合成数据成为首个能识别整版/多页 typeset 乐谱、且输出 ABC 的大规模预训练 OMR 模型,在最贴近真实的数据集上把 TEDn 和 OMR-NED 分别绝对降低 68% 和 47.6%。

LiveWeb-IE: A Benchmark For Online Web Information Extraction

提出首个面向在线网页的信息抽取(WIE)基准LiveWeb-IE,覆盖文本/图片/超链接等多类数据抽取,并设计Visual Grounding Scraper(VGS)框架,通过模拟人类认知过程——视觉扫描定位区域→精确定位元素→生成XPath——在动态网页上实现鲁棒的信息抽取。

LLaVA-4D: Embedding SpatioTemporal Prompt into LMMs for 4D Scene Understanding

LLaVA-4D 把"3D 位置 + 1D 时间"编码成动态感知的 4D 坐标作为时空 prompt,并把视觉特征解耦成空间/时间分量后与之交叉注意力融合,让大多模态模型第一次能同时理解静态背景和随时间运动的动态物体。

LLaVA-FA: Learning Fourier Approximation for Compressing Large Multimodal Models

提出 LLaVA-FA,一种在频域进行联合低秩加量化权重近似的高效多模态大模型压缩方法,利用傅里叶变换的去相关性和共轭对称性实现更紧凑准确的权重表示,并引入 PolarQuant(极坐标量化)和 ODC(可选对角校准)方案,在多个基准上以最少的激活参数和计算成本超越现有高效多模态模型。

Long-tailed Test-Time Adaptation for Vision-Language Models

本文首次把视觉语言模型的测试时适应放到长尾测试流中系统研究,提出 L-TTA 用协同原型、可学习重平衡捷径和 Balanced Entropy Minimization 同时修补尾类语义不足、跨模态偏置放大和熵最小化偏向头类的问题,在 OOD、跨域和噪声长尾基准上都提升了准确率与 Macro-F1。

Manzano: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

Manzano 用一个共享视觉编码器 + 两个轻量适配器(连续 token 给理解、离散 token 给生成)的混合 tokenizer,让统一自回归 LLM 在同一语义空间里同时学理解和生成,再外挂扩散解码器渲染像素,从而几乎消除了理解-生成之间的任务冲突,并验证了从 300M 扩到 30B 的可扩展性。

MaskInversion: Localized Embeddings via Optimization of Explainability Maps

不微调任何权重,仅在测试时把"让 frozen CLIP 的可解释性图去逼近一张查询掩码"当作优化目标,迭代优化一个 token,就能为图像任意区域学到一个可直接替换 [CLS] 的局部嵌入。

Massively Multimodal Foundation Models: A Framework for Capturing Interactions with Specialized Mixture-of-Experts

本文提出 MERGE 框架,先用有向信息把多模态交互分解成随时间延迟变化的"冗余/独特/协同 (RUS)"信号,再用这些信号去引导 MoE 路由——让相似的模态走同一专家、独特的模态走不同专家、协同的模态走专门的跨模态专家,从而在传感器、影像、文本等几十路异构输入的"海量多模态"场景下显著提升性能并产生可解释的专家分工。

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

MCIF 是首个由人工标注、覆盖语音/视频/文本三模态、英德意中四语言、长短两种上下文、并在所有维度完全平行对齐的跨语言多模态指令跟随评测基准,取材自 ACL 学术报告视频,对 23 个主流模型的测评揭示出当前 MLLM 在长上下文摘要、语音视频联合理解、细粒度问答上仍有巨大差距。

Memory-Free Continual Learning with Null Space Adaptation for Zero-Shot Vision-Language Models

NuSA-CL 通过 SVD 把 CLIP 当前权重的"低能量零空间"挖出来,再把每个新任务的低秩更新严格锁死在这个零空间里训练后直接合并回主干,从而在零存储、零参数增长、零额外模型的前提下持续学习新任务又几乎不损失原有的零样本能力。

MergeTune: Continued Fine-Tuning of Vision-Language Models

MERGETUNE 把“已经微调完的 CLIP/VLM 还能不能补回预训练知识”单独定义成 continued fine-tuning 问题,通过线性模式连通性约束继续优化已训练参数,让最终模型同时接近 zero-shot CLIP 和下游微调模型,在不加推理参数的情况下提升 base-novel、跨数据集、域泛化和 ID-OOD 鲁棒性。

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

提出 MAPD(Meta-Adaptive Prompt Distillation),一种基于 MAML 元学习的提示蒸馏方法,通过注意力映射器从任务相关的图像特征中蒸馏软提示,使 LMM 在测试时仅用少量梯度步即可适应新的视觉问答任务,性能超越 ICL 21.2%。

MetaCaptioner: Towards Generalist Visual Captioning with Open-source Suites

MetaCaptioner 提出用开源模型组成的多智能体 CapFlow 流程生成跨图像与视频领域的高质量长 caption,再经严格拒绝采样得到 4.1M 训练数据,把一个 8B 多模态模型微调成接近商业模型描述质量、同时保持强下游能力的通用视觉描述器。

MIAM: Modality Imbalance-Aware Masking for Multimodal Ecological Applications

把"掩码策略"形式化为单位超立方体上的概率分布,提出 MIAM——一个具备全支撑、角点优先、且能根据模态相对性能与学习速度动态加大对强势模态掩码概率的混合 product-beta 分布,用一个统一机制同时解决多模态生态数据的缺失鲁棒性、模态不平衡与细粒度贡献分析。

MMDuet2: Enhancing Proactive Interaction of Video MLLMs with Multi-Turn Reinforcement Learning

MMDuet2 把流式视频的"何时该开口回复"这件事改写成纯文本的多轮对话——每个 user turn 喂 1~2 帧、assistant 自己决定输出回复还是 "NO REPLY",再用一套以 PAUC 为核心、无需精确回复时间标注的多轮 GRPO 奖励训练模型,让 3B 视频 MLLM 在 ProactiveVideoQA 上又快又准地主动应答。

MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models

MME-Emotion 构建了迄今最大的多模态大模型情感智能基准——6500 段视频、8 类情感任务、27 种场景,并配套一个免人工标注的多智能体评测套件(识别分/推理分/CoT 分三统一指标),评测 20 个前沿 MLLM 后发现:当前模型情感智能远未达标,最强的 Gemini-2.5-Pro 也只有 39.3% 识别分。

MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models

MME-Unify 提出一个面向统一多模态大模型的综合评测基准,把理解、生成以及“先理解推理再生成”的混合模态任务放到同一套可复现评分框架下,发现当前最强 U-MLLM 的总分也只有约 50,尤其在复杂指令跟随和多步视觉状态维护上仍然薄弱。

MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

六位 3D 视觉研究者耗时 300+ 小时、从 12 万张真实图像中纯人工打磨出 1000 道多图空间推理选择题,构成 MMSI-Bench;37 个主流 MLLM 上最强开源仅 30%、GPT-5 也只有 41.9%,而人类 97%,并配套了一条借助人工推理标注的自动化错误诊断流水线。

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

提出MMTok——一种基于最大覆盖问题(Maximum Coverage Problem)的多模态视觉token选择框架,同时利用文本-视觉和视觉-视觉覆盖信息来选择最具信息量的视觉token子集,在training-free设置下显著优于单模态baseline,甚至超越需要微调的方法。

Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

本文发现并系统定义"模态失语"(Modal Aphasia)现象——统一多模态模型能从记忆中近乎完美地生成视觉概念(如电影海报图像),但在文字描述同一概念时错误率高出 7 倍以上,且严重幻觉几乎只出现在文本模态;通过前沿模型(ChatGPT-5)的真实实验和开源模型(Janus-Pro、Harmon)的合成控制实验,证实模态失语是当前统一架构的系统性缺陷而非训练偶然,并展示了该现象对 AI 安全框架的潜在威胁。

Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds

针对"文本是层次特征、图像只有一个特征"造成的不对称对齐问题,本文同时为图文构建层次特征树,把两棵树嵌入曲率不同的双曲流形,再通过一个用 KL 散度求出的中间流形完成异质流形对齐,在分类学开集识别上显著超越强基线。

MoRA: Missing Modality Low-Rank Adaptation for Visual Recognition

MoRA 用一组"模态共享 + 模态专属"的低秩参数,让视觉和文本编码器在微调时既能保持跨模态对齐、又能各自适应下游任务,从而在缺失模态场景下显著超越基于 prompt 的方法,且推理零额外开销。

Mordal: Automated Pretrained Model Selection for Vision Language Models

Mordal 把"给定下游任务该挑哪个视觉编码器 + LLM 来拼 VLM"这件事自动化:先用表示相似度聚类砍候选数量,再用早停和缩放律预测砍单候选评估成本,用比网格搜索低 8.9–11.6× 的 GPU 时长找到最优组合。

MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs

MotionSight 提出一种无需训练的视频视觉提示方法,用"视觉聚光灯"放大物体运动、用"合成运动模糊"放大相机运动,把这两类信号解耦后喂给现成 MLLM,从而显著提升细粒度运动理解;并据此蒸馏出首个大规模细粒度运动数据集 MotionVid-QA(40K 视频 / 87K QA)训练出 MotionChat。

Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional

通过大规模实证研究量化了23个VQA基准中的模态内依赖和模态间依赖,揭示许多旨在消除文本偏置的基准反而引入了图像偏置,提出了多模态数据集的多维度刻画框架。

Multimodal Aligned Semantic Knowledge for Unpaired Image-text Matching

MASK 用预训练词向量作桥梁,把每个词对齐到一个"原型区域表示",并借词向量的语义结构为分布外(OOD)词重建视觉原型,再用原型一致性对比损失压缩类内方差,从而在不依赖领域配对数据的"无配对图文匹配"上显著超越已有知识型方法。

Multimodal Classification via Total Correlation Maximization

从信息论角度分析多模态分类中的模态竞争问题,提出 TCMax 损失函数通过最大化多模态特征与标签之间的总相关性(Total Correlation),同时兼顾联合学习、单模态学习和跨模态对齐三重目标,在多个音视频/图文分类基准上超越 SOTA。

Multimodal Dataset Distillation Made Simple by Prototype-Guided Data Synthesis

提出 PDS(Prototype-Guided Data Synthesis),首个免训练的多模态数据集蒸馏框架——利用 CLIP 对齐嵌入空间做模态特异聚类,通过匈牙利算法跨模态匹配获得图文原型,再用 unCLIP 解码器从图像原型合成蒸馏图像,在 100 对极小蒸馏集上以零训练代价全面超越优化式方法,并实现 SOTA 的跨架构泛化能力。

Multimodal Dataset Distillation via Phased Teacher Models

针对多模态数据集蒸馏中"教师只在前 20–30% 训练阶段有用、后期轨迹不稳定"的现象,本文提出 PTM-ST,用分阶段教师 + 捷径插值轨迹把蒸馏拆成多个子任务并稳定梯度方向,在 Flickr30k/COCO 图文检索上大幅超越 SOTA(Flickr30k 平均 +9.53%,最高 +13.5%)。

Multimodal Policy Internalization for Conversational Agents

提出"多模态策略内化(MPI)"新任务——把冗长复杂的多模态策略(决策规则、工具调用规则、甚至演示图)从 in-context prompt 写进模型参数里,并用三阶段训练框架 TriMPI(视觉掩码续训 + CoT-SFT + 带 PolicyRollout 的 RL)让模型在推理时不带策略也能高度合规,相对 CoT-SFT 基线绝对提升最高达 70.7%。

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

首次将自动提示优化(APO)从纯文本空间扩展到多模态空间,提出 MPO 框架:通过对齐保持的联合探索(统一语义梯度同步驱动文本+非文本提示更新,配合 Generation/Edit/Mix 三种算子多样化搜索)和先验继承的贝叶斯 UCB 候选选择(利用父提示性能 warm-start 子提示的 Beta 先验),在图像/视频/分子共 10 个数据集上平均准确率达 65.1%,超越最强文本 APO 基线 ProTeGi 的 60.0%。

Naming to Learn: Class Incremental Learning for Vision-Language Model with Unlabeled Data

N2L 把"类增量学习"放到一个更现实的设定下——每个新任务只给类名和无标注图像,先用 CLIP 零样本打伪标签,再用降维精炼伪标签 + 双层样本加权 + 可递归求解的岭回归,让无标注增量训练逼近联合训练效果、同时抗噪抗遗忘。

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

用离散流匹配(Discrete Flow Matching, DFM)取代自回归(AR)作为统一建模范式,搭出第一个完全基于 DFM 的开源全模态基础模型 NExT-OMNI,单编码器统一表示同时支撑文/图/视频/音的理解、生成与跨模态检索。

ODI-Bench: Can MLLMs Understand Immersive Omnidirectional Environments?

本文构建了首个系统评测 MLLM 全景图像(ODI)理解能力的基准 ODI-Bench(2,000 张真实全景图、4,254 个 QA、10 个细粒度任务、闭式+开放双格式),用 20 个主流模型证明现有 MLLM 在沉浸式空间理解上几乎只比盲猜略强,并提出免训练的链式思考框架 Omni-CoT,把 o3 等模型的总分平均提升 6~8 个百分点。

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

针对全模态语言模型「描述越详细、幻觉越多」的共生难题,本文用一个会调用工具的「侦探式」agentic 数据管线(Omni-Detective)自动产出高细节、低幻觉的音视频描述数据,两阶段课程训练出 Audio-Captioner / Omni-Captioner,并设计 cloze 完形填空式评测基准 Omni-Cloze,在 VDC、MMAU、Omni-Cloze 等多个基准上刷到开源 SOTA、逼平 Gemini 2.5 Pro。

Omni-Weather: A Unified Multimodal Model for Weather Radar Understanding and Generation

Omni-Weather 是首个把"气象生成"(雷达临近预报、卫星反演雷达)和"气象理解"(雷达图像/序列的诊断报告)统一进同一个多模态 backbone 的基础模型,通过共享自注意力 + 模态特定编码器把多种任务表达成统一的序列到序列形式,并配套一套针对气象因果推理的思维链(CoT)数据集,让生成任务也能"边想边画",在两类任务上都超过各自的专用 SOTA,并验证了生成与理解可以互相增益。

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

OmniVideoBench 是一个专门评测「音频与视觉协同推理」的高质量基准:从 628 个最长 30 分钟的真实视频里,经人工出题 + 双重模型过滤 + 人工精修,构造出 1000 道带原子级推理链标注的多选题,结果显示连最强的 Gemini-3.0-Pro 也只有 61.8% 准确率、远低于人类的 82.69%,开源模型则接近随机。

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

OmniVinci 用三个针对"视觉-音频对齐"的架构改进(OmniAlignNet 语义对齐、时序分组、约束式旋转时间编码)外加一条能合成 2400 万条对话的数据流水线,仅用 0.2T token 就训练出一个能同时理解视频、声音、语音和文本的开源全模态 LLM,在多个跨模态/音频/视觉榜单上超过 Qwen2.5-Omni(训练 token 只用了它的 1/6)。

On Discriminative vs. Generative Classifiers: Rethinking MLLMs for Action Understanding

作者重新审视了"把 MLLM 当生成式分类器、自回归吐出动作标签"的主流做法,指出动作标签子词共享造成的语义重叠是它精度低的根因,转而用一个可学习 [CLS] token 把 MLLM 改造成判别式分类器,再用生成式建模作为辅助正则,提出 GAD(Generation-Assisted Discriminative)框架,在 5 个数据集、4 类时序动作理解任务上同时拿到更高精度和最高 3× 的推理加速。

On the Generalization Capacities of MLLMs for Spatial Intelligence

揭示了 RGB-only 空间推理 MLLM 因忽略相机内参导致的焦距-深度歧义这一根本缺陷,提出 Camera-Aware MLLM 框架,通过稠密相机射线嵌入、相机感知数据增强和几何先验蒸馏,在跨相机泛化的空间定位任务上将 F1 从 39.1% 提升至 52.1%。

One Patch Doesn't Fit All: Adaptive Patching for Native-Resolution Multimodal Large Language Models

作者发现号称"任意分辨率"的 MLLM 其实对分辨率非常敏感,根因是 ViT 用了固定 patch 大小;于是提出 AdaPatch,根据图像分辨率和信息密度逐图选择 patch 尺寸,并用伪逆 resize 把预训练的固定 patch 模型免训练改造成任意 patch 模型,在多个基准上同时提升精度、稳定性,还能在高分辨率下减少 token 数加速推理。

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

这篇论文为多模态大模型(MLLM)建立了第一个能力维度 + 模态维度都划分清楚的模型合并基准,并提出 OptMerge——通过 SVD 低秩去噪 + 鲁棒的任务向量优化,把多个专家 MLLM 无数据地合并成统一模型,平均涨点 2.48%,甚至能超过混合数据训练。

ORION: Decoupling and Alignment for Unified Autoregressive Understanding and Generation

ORION 指出"单体自回归"统一多模态大模型在同时学理解与生成时存在语义-结构表征冲突(理解要语义可分、生成要低层可重建,二者在共享表征里互相拉扯),用一个非线性视觉头解耦 + 一个表征一致性蒸馏损失对齐,再配三阶段渐进训练,让纯单体自回归骨干在不加任何任务专用参数的情况下,理解与生成都打平甚至超过更复杂的统一模型。

P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark

P2P 把论文到学术海报的生成拆成图表理解、内容组织和 HTML 版式编排三个带自检回路的智能体,并配套提出 P2PINSTRUCT 指令数据集与 P2PEVAL 双视角基准,用客观内容保真和主观整体质量同时评估生成海报。

Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

PaDT 把查询图像自身的 patch 特征直接当成"可解码 token"(Visual Reference Token, VRT)插进 MLLM 的自回归输出里,让一个 MLLM 不再用文本坐标、而是用图像 patch 本身来表示被检测的物体,再用一个轻量解码器把这些 VRT 转成框/掩码/分数,从而在检测、指代理解、指代分割、指代图像描述四类任务上统一取得 SOTA——3B 模型在 RefCOCO REC 上超过 78B 的 InternVL3。

Pay Less Attention to Function Words for Free Robustness of Vision-Language Models

作者发现"功能词"(the/a/of 这类几乎不携带语义的高频词)是视觉-语言模型在跨模态对抗攻击下的脆弱点,于是提出 Function-word De-Attention (FDA):在融合编码器的注意力里并行算一份"功能词→图像"的跨注意力当作干扰,再从原始注意力中差分地减掉它,从而在几乎不掉干净性能(<1%)的前提下,把检索任务的攻击成功率平均降 18/13/53%、视觉定位降约 90%。

PCLR: Progressively Compressed LoRA for Multimodal Continual Instruction Tuning

把一个 LoRA 适配器拆成"秩级原子专家"组成一个极细粒度 MoE(LRP),再借鉴人类睡眠期记忆巩固,设计"压缩—整合—学习"(CIL)流水线:压缩剪掉冗余秩专家腾出容量、整合用蒸馏把被剪知识吸收回来、学习用腾出的容量装新任务,配合渐进式压缩调度,让模型既能持续学新任务又把内存增长压到接近"不扩展"方法的水平,在 CoIN 上把遗忘从 LoRA 的 37.29 降到 3.39。

pFedMMA: Personalized Federated Fine-Tuning with Multi-Modal Adapter for Vision-Language Models

pFedMMA 给 CLIP 的图像/文本编码器顶层插入一种「下投影—共享投影—上投影」的多模态适配器,在联邦学习里让每个客户端本地训练全部参数、但只把跨模态对齐用的共享投影上传聚合,从而在 11 个数据集上同时拿到强个性化和强泛化(对未见类/未见域)的最佳权衡。

PHyCLIP: \(\ell_1\)-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

PHyCLIP 把图文嵌入空间从"单个双曲空间"换成"\(k\) 个双曲因子的 \(\ell_1\)-乘积度量空间",让概念家族内部的 is-a 层级在各个双曲因子里自发涌现,而跨家族的组合("狗 + 车")则由 \(\ell_1\) 求和的可加几何捕捉,类似布尔代数,从而在零样本分类、检索、层级分类和组合理解四类任务上同时超过 CLIP / MERU / HyCoCLIP。

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

PhysLLM 把一个冻结的 CNN(PhysNet)当 rPPG 底座,用「双域平稳化 + 多尺度视觉聚合 + 文本原型对齐」把信号和视觉特征翻译成 LLM 能读懂的 token,再配上由 LLaVA/统计量生成的生理线索 prompt,让大语言模型从人脸视频里估计心率,在四个数据集和跨域测试上都拿到 SOTA。

PI-CCA: Prompt-Invariant CCA Certificates for Replay-Free Continual Multimodal Learning

PI-CCA 把视觉-语言模型(VLM)的「遗忘」重新定义为图文对齐几何的漂移,用一张紧凑的「CCA 证书」(top-k 典型相关谱 + 子空间草图)作为不变量,在无回放、常数显存下约束 LoRA 微调,并通过对提示扰动取平均获得提示不变性,在 MTIL / X-TAIL / VLCL / ConStruct-VL 四个基准上取得无回放方法的 SOTA。

Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding

针对多模态模型在推理时缺失某个模态就性能崩溃的问题,作者发现"哪个模态被偏爱"可以在频域里被量化,于是提出频率比度量(FRM)和一个即插即用、几乎零参数的权重分配模块(MWAM),在训练时给被冷落的模态加权、把优化拉平,让多种 CNN/ViT 骨干在各种模态缺失组合下都更鲁棒。

Post-hoc Probabilistic Vision-Language Models

提出一种免训练的后验(post-hoc)不确定性估计方法,对 CLIP/SigLIP 等 VLM 最后几层使用 Laplace 近似,解析推导余弦相似度的不确定性,在不确定性量化和主动学习中取得显著优于基线的效果。

Preserve and Sculpt: Manifold-Aligned Fine-tuning of Vision-Language Models for Few-Shot Learning

本文把 CLIP 特征空间看成一张「语义流形」,少样本微调时一边用 Gram 矩阵对齐约束流形的内在几何不被破坏(保形),一边用多模态 query-support 匹配把同类样本拉近、异类推远来增强可分性(雕刻),在 11 个数据集上把少样本分类的 SOTA 又往上抬了约 1-2.5 个点。

PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

构建首个基于真实审稿人标记的科学论文多模态不一致性基准PRISMM-Bench,从18009条ICLR开放评审中挖掘384个跨模态不一致,设计识别/修复/配对匹配三任务并提出JSON结构化去偏答案表示,21个顶级LMM最高仅53.9%→系统性暴露当前模型在科学文档跨模态推理上的严重不足。

Procedural Mistake Detection via Action Effect Modeling

提出双分支多模态监督的动作效果建模框架,结合视觉分支(目标状态和空间关系特征)和文本分支(GPT-4o 生成的场景图),通过可学习的效果 token 蒸馏外部监督信号,在第一人称程序视频中实现 SOTA 错误检测。

Prompt-Robust Vision-Language Models via Meta-Finetuning

针对 CLIP 类视觉语言模型"换个说法 prompt 性能就大幅波动"的脆弱性,本文提出 Promise——把同一任务下语义等价的不同 prompt 模板当作元学习里的"任务",用内外双层循环 + 自适应 prompt 加权 + Token 级学习率,学到一组对措辞不敏感的 prompt token,15 个 benchmark 上既降低了 prompt 敏感度又提升了泛化(11 数据集 base-to-new 调和均值 +1.13)。

PSP: Prompt-Guided Self-Training Sampling Policy for Active Prompt Learning

PSP 把"选哪些样本去标注"建模成一个强化学习问题:用 Soft Actor-Critic 配上一个由 prompt 学习反馈算出来的"真实-伪标签混合奖励"来端到端优化采样策略,同时用教师 CLIP 给未选中的样本打可靠伪标签,让被选样本真正服务于 prompt 模板的优化,在七个下游数据集上把平均准确率从 74.36% 提到 76.87%。

QLIP: A Dynamic Quadtree Vision Prior Enhances MLLM Performance Without Retraining

本文指出 CLIP 视觉编码器存在「介观偏置(mesoscopic bias)」和「插值偏置(interpolation bias)」两大缺陷,提出 QLIP——用内容自适应的四叉树切块替换均匀网格切块、再用一个小 MLP 重新插值位置编码,作为可一键替换的「drop-in」改造,不重训练视觉编码器和 LLM 就让 LLaVA-1.5 在细粒度 VQA 基准 V* 上提升最高 13.6%。

RAG4DMC: Retrieval-Augmented Generation for Data-Level Modality Completion

RAG4DMC 把检索增强生成(RAG)第一次搬到「数据级缺失模态补全」上:用「数据集内部完整样本 + 外部公开数据集」组成双知识库,经过跨模态映射、聚类过滤和正交对齐净化后,靠两阶段多模态融合检索取回最相关的示例,再引导生成模型产出多个候选并择优填补缺失的图像或文本,让下游图文检索 / 图像描述任务训练在补全后的数据上涨点最高 +5.0。

RAR: Reversing Visual Attention Re-Sinking for Unlocking Potential in Multimodal Large Language Models

本文发现 MLLM 的最终层往往不如中间层("次优输出层"),把根因追溯到「视觉注意力再下沉(visual attention re-sinking)」——纯文本监督导致视觉 token 的注意力梯度逐渐稀疏,后段层的注意力又退回到低语义背景;并提出无参数的 SADS 框架,在推理时保留全部视觉头、只留极少数 sink 头(含一个共享头),在 20 个 benchmark 上超过标准 SFT 且推理提速 10.3%。

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

构建首个评估多模态检索增强文化理解的基准 Ravenea,包含 1868 个实例和 11396 篇人工排序的 Wikipedia 文档,覆盖 8 个国家 11 个类别,评估 7 个多模态检索器和 17 个 VLM,发现文化感知的 RAG 可在 cVQA 上平均提升 6%、cIC 上提升 11%。

Reading Images Like Texts: Sequential Image Understanding in Vision-Language Models

本文借鉴人脑视觉的"双流假说",把 VLM 的视觉处理拆成"识物(what)"和"定位(where)"两条线分别解剖:用 logit lens 把图像 patch 翻译成文本 token,发现视觉编码器是"先认属性、再消歧成物体"的两阶段格式塔式过程;又从理论上推导出 2D RoPE 编码空间关系的几何结构;并据此提出一个指令无关的 token 压缩算法(提速)和一个 RoPE scaling 技巧(增强空间推理)。

Reconstruction Alignment Improves Unified Multimodal Models

RECA 把统一多模态模型自己的视觉理解嵌入当作密集“视觉提示”,通过无标注图像重建后训练重新对齐理解侧和生成侧,使 1.5B UMM 在 GenEval、DPGBench 和图像编辑基准上显著提升,并且不需要额外 caption、GPT-4o 蒸馏或强化学习。

Rethinking Causal Mask Attention for Vision-Language Inference

这篇论文重新审视 decoder-only VLM 直接继承 LLM causal mask 的合理性,发现视觉 token 在 prefill 阶段适度“看见”未来视觉/文本上下文能提升多图、视觉关系和文字密集问答,并提出把未来注意力压缩回前缀位置的轻量 future-aware attention,在保持因果解码和低延迟的同时保留大部分收益。

Reversible Primitive–Composition Alignment for Continual Vision–Language Learning

针对 VLM 在序列适配中"基元识别还在、组合能力却退化"这一被忽视的现象,本文提出 COMPO-REALIGN——一个轻量对齐头,用一个 Cayley 正交可逆 composer 把基元嵌入合成组合嵌入、用一个多正样本 InfoNCE 把文本组合与合成组合当作图像的双正样本对齐、再用一个谱信任域在对齐敏感度膨胀时裁剪梯度,在组合式 DIL 与多域 MTIL 检索上把最强基线再提 +2.4 R@1、遗忘降低约 40%。

Revisit Visual Prompt Tuning: The Expressiveness of Prompt Experts

从混合专家(MoE)视角揭示 VPT 的局限性——prompt experts 是输入无关的常量函数表达力受限,提出 VAPT 通过 token-wise 投影器和共享特征投影器使 prompt experts 自适应输入,用更少参数实现更优性能,并给出了最优样本效率的理论保证。

Revisiting Confidence Calibration for Misclassification Detection in VLMs

本文指出标准置信度校准即便达到完美校准也会限制 VLM 的误分类检测能力,并用 MisD 导向的可靠性曲线、可微 surrogate loss 和轻量后验 meta network 学习样本级温度系数,从而更好地区分正确预测与错误预测。

Revisiting Multimodal Positional Encoding in Vision-Language Models

本文系统拆解多模态 RoPE 的「位置设计」与「频率分配」两大支柱,提炼出位置一致性、全频谱利用、保留文本先验三条准则,并据此提出无需改架构的 spatial-reset 位置设计与 MHRoPE / MRoPE-I 两种频率分配变体,在图像、视频、视觉定位 20+ 个 benchmark 上一致超过现有 RoPE 方案。

RL Makes MLLMs See Better Than SFT

这篇论文系统对比了 SFT 与 RL(以 DPO 为代表)对多模态大模型(MLLM)及其视觉编码器的不同影响,发现 DPO 不仅在视觉密集的 VQA 任务上更强,还能把视觉编码器重塑得更细粒度、更具定位能力,并据此提出一个极低成本的视觉编码器进化配方 PIVOT。

RLAP-CLIP: Continual Multimodal Learning with Prototype Adaptation and Difficulty-Aware Routing

RLAP-CLIP 面向 CLIP 的类增量多模态持续学习,把类别原型从简单均值改成强化学习加权优化,同时用视觉-文本双模态 prompt 和难度感知 MoE 路由处理不同复杂度样本,在 8 个分类数据集上稳定超过 PROOF、C-CLIP 等持续视觉语言学习方法。

ScaleCap: Scalable Image Captioning via Dual-Modality Debiasing

ScaleCap 用"启发式问答 + 对比句子评分"两个互补模块,把开源 LVLM 的描述偏差掰正——前者靠不断追问把被略写的物体细节补齐,后者靠离线对比解码把语言先验导致的幻觉句删掉,并且能随推理预算增大持续变得更细更准;用它标注 45 万张图做预训练,在 11 个基准上一致涨点。

Seeing Through Deception: Uncovering Misleading Creator Intent in Multimodal News with Vision-Language Models

本文提出 DECEPTIONDECODED:一个以可信新闻上下文为锚、显式模拟误导性创作者意图的大规模多模态新闻 benchmark,用 12,000 个图文样本诊断 VLM 对“表面一致但意图误导”内容的脆弱性,并证明用这类数据微调能迁移提升通用多模态虚假信息检测。

Seeing What's Not There: Negation Understanding Needs More Than Training

针对 CLIP 类视觉语言模型读不懂"否定"的顽疾,本文提出一个完全免训练的零样本方法:用规则抽出句子里被否定的概念,再在文本嵌入空间里用投影减去这部分语义并补回一个 anchor 偏置,使得原始 CLIP 在 NegBench MCQ 上从 25.5% 直接拉到 67.0%,反超那些专门在否定数据集上微调过的模型。

Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

提出 Self-Aug,一种免训练的解码策略,通过自增强提示(SAS Prompting)让 LVLM 利用自身知识动态选择与查询语义对齐的视觉增强方式,并提出稀疏度自适应截断(SAT)算法利用输出分布的完整熵信息动态调节候选词集大小,在5个 LVLM 和7个基准上一致超越现有对比解码方法。

Self-Evolving Vision-Language Models for Image Quality Assessment via Voting and Ranking

提出 EvoQuality 框架,通过成对多数投票生成伪排序标签、结合 GRPO 自迭代优化,使 VLM 在无人工标注下自主提升图像质量感知能力,零样本性能提升 31.8% PLCC,在 7 个 IQA 基准中 5 个超越有监督 SOTA。

Shuffle-R1: Efficient RL Framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

提出 Shuffle-R1 框架,通过 Pairwise Trajectory Sampling(选取高对比度轨迹对)和 Advantage-based Batch Shuffle(按优势值重分配训练批次),解决 RL 训练中的 Advantage Collapsing 和 Rollout Silencing 两大效率瓶颈,在 Geo3K 上比 baseline 提升 22%,MathVerse 上超越 GPT-4o。

SigLIP-HD by Fine-to-Coarse Supervision

SigLIP-HD 用冻结 SigLIP 2 在多尺度图像上产生的细粒度教师特征,监督同架构学生模型只看 \(512^2\) 图像也学到更清晰的视觉 token,从而在不增加推理成本的前提下提升 MLLM 的 OCR、图表和细节感知能力。

Simulation to Rules: A Dual-VLM Framework for Formal Visual Planning

VLMFP 用一个擅长视觉空间理解和动作模拟的 SimVLM 去监督一个擅长 PDDL 生成的 GenVLM,把视觉规划任务从图像自动转成可由形式化规划器求解的 problem/domain PDDL,并在网格世界与 3D 任务上显著优于直接 VLM 规划和无反馈的 PDDL 生成基线。

SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence

SpaCE-10 构建了一个面向 MLLM 的组合空间智能基准:先把真实室内场景中的空间能力拆成 10 个原子能力,再组合成 8 类 QA 任务,并用 811 个真实场景、5k+ 高质量问答系统揭示当前模型在多视角、计数、反向推理和具身视角理解上的明显短板。

Sparsity Forcing: Reinforcing Token Sparsity of MLLMs

提出Sparsity Forcing——基于GRPO的RL后训练框架,将带稀疏注意力的MLLM作为策略模型、原始MLLM作为参考模型,通过多预算rollout探索不同token保留阈值\(p\),以效率(token减少率)+性能(答案正确性)为联合奖励做组内对比优化,将Qwen2/2.5-VL的token减少率从20%提升至75%且精度损失极小,实现内存降3×、解码加速3.3×。

SpatialViz-Bench:一个认知科学驱动、用于诊断 MLLM 空间可视化能力的基准

针对现有多模态基准只考"看得见的信息"、却很难评测"在脑子里旋转/折叠/透视物体"这种空间可视化能力的空白,本文用认知科学把空间可视化拆成 4 个子能力 × 12 个任务,并用 Python+FreeCAD 程序化生成 1,180 道可无限扩展、防数据污染的题目;在 27 个 MLLM 上评测发现最强的 Gemini-2.5-pro 也只有 44.66%(人类 82.46%),且开源模型用 CoT 反而掉点。

SPECS: Decoupling Multimodal Learning via Self-distilled Preference-based Cold Start

SPECS 重新设计多模态大模型进入 RLVR 之前的冷启动阶段:先用自蒸馏构造只区分输出范式的偏好对,再用 DPO+SFT loss 做格式预对齐,最后交给 GRPO 学深层推理,从而比传统 SFT 冷启动获得更好的泛化、训练稳定性和多模态推理性能。

SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery

提出SpectralGCD,将图像表示为CLIP概念字典上的语义混合(跨模态相似度向量),通过谱过滤自动选择任务相关概念,配合正反知识蒸馏保持语义质量,在6个基准上以与单模态方法可比的计算代价达到多模态SOTA。

StreamingVLM: Real-Time Understanding for Infinite Video Streams

StreamingVLM 用“训练时重叠短片段、推理时复用紧凑 KV cache”的统一框架,让 7B 级 VLM 能在数小时视频流上保持低延迟、长程记忆和逐秒级实时解说能力。

Supporting Multimodal Intermediate Fusion with Informatic Constraint and Distribution Coherence

本文从泛化误差角度重新分析多模态中间融合(IF)与后期融合(LF)的差异,提出 IID:用信息约束保证 IF 的线性目标映射满足理论条件,再用带 RIP 降维的 Wasserstein 分布一致化降低模态间分布不协调,从而在视觉-语言分类、场景识别和多模态知识图谱链接预测上稳定提升性能。

TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding

提出 TableDART,通过仅 2.59M 参数的 MLP 门控网络为每个 query-table 对动态选择最优处理路径(Text-only / Image-only / Fusion),复用冻结的单模态专家模型并引入 LLM Agent 进行跨模态融合,在 7 个表格理解 benchmark 上平均超越最强 MLLM 基线 HIPPO 4.02%,同时延迟降低 24.5%。

TABLET: A Large-Scale Dataset for Robust Visual Table Understanding

TABLET 将 14 个表格理解种子数据集重新组织成 400 万条视觉表格指令样本,并尽量找回真实网页或文档中的原始表格截图,使 VLM 在合成渲染表格之外也能学习真实表格的版式、颜色、合并单元格和图像线索。

Talking Points: Describing and Localizing Pixels

这篇论文提出 TalkingPoints,用 Point Descriptor 把图像中的单个像素/关键点描述成粗到细的自然语言,再用 Point Localizer 从描述回归像素坐标,并通过定位准确率来训练和评价“一个点有没有被说清楚”。

Teaching VLMs to Admit Uncertainty in OCR from Lossy Visual Inputs

针对 VLM 在模糊/退化文档上"流畅地编造错字却不示警"的幻觉问题,本文让模型在转写的同时用一对 <C>...</C> 标签把自己拿不准的片段框出来,靠"伪标注冷启动 + 多目标奖励 GRPO"训练,在自建的 Blur-OCR 基准上把不确定标签的 word 级 F1 做到 0.685、且不损失转写精度。

The Unseen Bias: How Norm Discrepancy in Pre-Norm MLLMs Leads to Visual Information Loss

本文指出主流 MLLM 普遍采用的 Pre-Norm 架构会让高范数的视觉 token 和低范数的文本 token 之间产生严重的范数失配,进而导致视觉 token 更新缓慢("表征惯性")、跨模态注意力坍塌;作者在视觉投影器后插入一个精心初始化的 LayerNorm 强制范数对齐,并配套 Global Weight Compensation 解决随之而来的梯度消失,在 LLaVA-1.5 上不仅多模态 benchmark 涨点,连纯文本的 MMLU 都提升。

Thinking as Society: Multi-Social-Agent Self-Distillation for Multimodal Misinformation Detection

用一群"社会用户"MLLM 智能体从不同立场对多模态内容做真伪判断,把它们的集体反馈蒸馏成高质量的"社会思维链"偏好数据,再用一种以"社会误判程度"为可验证权重的偏好优化算法 SCPO 把集体推理能力内化进单个 7B Qwen2-VL,让它在 MFC-Bench / MMFakeBench 上超过更大的开源模型、专门的多智能体框架,甚至逼近/超过 GPT-4o 和 Claude。

Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

本文提出 Puffin,把"相机参数"当成一种语言塞进多模态大模型,用一套共享的"思考相机(thinking with camera)"思维链同时做相机理解(从图像反推 roll/pitch/FoV)和相机可控生成(按指定视角生成图像),在两类任务上都超过各自领域的专用模型。

Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders

Nar-KFC把长视频输入压缩成“查询相关且内容多样的关键帧 + 按真实时间插入的非关键帧叙事”,在不训练 MLLM 的情况下显著提升多种长视频问答和开放生成任务。

Turning Internal Gap into Self-Improvement: Promoting the Generation-Understanding Unification in MLLMs

这篇论文先用“非统一分数”系统验证统一 MLLM 的生成分支常弱于理解分支,再把这种内部差距转化为无需外部奖励模型的自我改进信号:让理解分支筛选生成候选来构造 SFT/DPO 数据,并用课程回放继续挖掘难样本,从而同时提升生成质量、理解判别能力和生成-理解一致性。

U-MARVEL: Unveiling Key Factors for Universal Multimodal Retrieval via Embedding Learning

系统消融MLLM嵌入学习的设计空间,揭示双向注意力+mean pooling优于主流last token、可学习温度被严重低估等关键因子,据此构建U-MARVEL三阶段框架(渐进过渡→过滤硬负→重排蒸馏),在M-BEIR上以单模型63.2% Avg大幅超越现有SOTA,零样本迁移CIR和T2V同样领先。

Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

针对统一多模态模型里"提升生成就掉理解、提升理解就掉生成"的优化困境,本文提出 Reason-Reflect-Refine(R3)框架,把单步图像生成改写成"推理→生成→反思→再生成"的多步链式过程,让生成内在依赖模型的理解能力,再用树状强化学习训练,最终在 BAGEL 上同时把生成(GenEval++ 0.371→0.689)和理解(ITA 60.6→73.4)都显著拉高。

Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs

提出Uni-DPO,通过质量感知加权(高分差偏好对优先)+性能感知加权(focal loss聚焦欠拟合样本)+校准NLL损失三个组件统一动态调整DPO偏好对权重,在文本理解和数学推理基准上一致超越DPO/SimPO,Gemma-2-9B在Arena-Hard达67.1%超过Claude 3 Opus(60.4%)。

UniF2ace: A Unified Fine-grained Face Understanding and Generation Model

UniF2ace 是首个把人脸"理解"(VQA / 描述)和"生成"(文本→人脸)统一进单一模型的统一多模态模型(UMM),靠一个把掩码生成与离散分数匹配统一起来的 D3Diff 损失提升细粒度生成保真度、靠分组的 token 级 + 序列级 MoE 把语义与身份特征重新注入以对抗"属性遗忘",并配套构建了含 130K 图文对 + 1M VQA 的 UniF2aceD-1M 数据集;在 1.8B 规模下,Desc-GPT 和 VQA-score 分别比同量级模型高 7.1% 和 6.6%。

Unified Vision-Language Modeling via Concept Space Alignment

提出v-Sonar将视觉编码器后置对齐到文本嵌入空间Sonar,使得在Sonar空间上训练的Large Concept Model (LCM)能零样本处理视觉输入,并通过指令微调扩展为v-LCM,在61/62种语言上超越现有VLM。

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

提出UniHM,首个统一的语言条件灵巧手操控框架,通过形态无关VQ codebook将异构机械手映射到共享离散空间,结合VLM进行指令驱动操控序列生成,并通过物理引导动态优化确保物理可行性。

UniLIP:改造 CLIP 以统一多模态理解、生成与编辑

UniLIP 用「两阶段+自蒸馏」训练把原本只擅长理解的 CLIP 改造成既能保留语义、又能高保真重建像素的统一视觉编码器,再配上「多模态隐状态 + 查询嵌入」双条件架构桥接 MLLM 与扩散模型,让 1B/3B 的小模型在 GenEval(0.90)、WISE(0.63)、ImgEdit(3.94)上反超 BAGEL(7B)、UniWorld-V1(12B)等更大的统一模型。

Unlocking the Power of Co-Occurrence in CLIP: A DualPrompt-Driven Method for Training-Free Zero-Shot Multi-Label Classification

本文发现把 CLIP 的判别式 prompt(只含目标标签)改写成含共现标签的"相关式 prompt",能引入共现信息提升多标签识别,但也会让 CLIP 过拟合共现、产生物体幻觉;于是作者用因果推断把共现建模为中介变量,推导出一个无需训练的校准公式——直接把判别式与相关式两路 prompt 的预测分数相加(DualPrompt),在 MS-COCO 和 VG-256 上超过现有 SOTA。

UrbanFeel:A Comprehensive Benchmark for Temporal and Perceptual Understanding of City Scenes through Human Perspective

UrbanFeel 构建了一个面向城市街景的多模态大模型评测基准,用 11 个任务、14.3K 个视觉问答样本同时考察静态场景识别、长期时序变化理解和安全/美观/富裕/活力等主观感知一致性,并发现当前 MLLM 在主观单帧判断上已接近人类,但在跨时间排序和城市演化推理上仍明显落后。

VaseVQA-3D: Benchmarking 3D VLMs on Ancient Greek Pottery

本文构建了首个面向古希腊陶器的 3D 视觉问答数据集 VaseVQA-3D(664 个 3D 陶器模型 + 4460 条问答),并基于一条「2D 图像过滤 → 单图 3D 重建 → 六维考古语义清洗」的合成管线,训练出领域专用模型 VaseVLM,其 7B-RL 版本在 R@1 上相对最强基线提升 12.8%、词汇相似度提升 6.6%。

VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling

本文提出层次化视频 token 压缩方法 HiCo,把长视频上下文从 Clip 级到 Video 级两步压到约 \(1/50\)(平均每帧仅 16 token),再配上一套短到长的多阶段训练、114K 长视频的 LongVid 数据集和更难的多跳 NIAH 评测,造出 7B 量级就能在长短视频基准上同时超过 GPT-4o / Gemini-1.5-Pro 的 VideoChat-Flash,并在万帧 NIAH 上拿到 99.1% 的准确率。

ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Models

ViPER 把"提升 VLM 细粒度视觉感知"重构成一个由粗到细的两阶段任务,并用一个"模型自己造数据、自己学"的闭环框架——靠扩散模型把文字描述还原成图像来给 VLM 当 critic、再配两阶段强化学习——在不依赖外部蒸馏和冷启动的前提下,让 Qwen2.5-VL 自我进化出更强的感知力(细粒度感知最高 +6.0%)。

VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

VisCodex 用「任务向量」把一个强代码 LLM 算术地合并进一个视觉语言模型的语言骨干里(视觉编码器和投影层保持不动),再配上自建的 598k 多模态代码数据集 MCD 做监督微调,让 MLLM 同时保住视觉理解又获得强代码能力,在 UI→代码、图表→代码等任务上达到开源 SOTA、逼近 GPT-4o。

Vision-Zero: Scalable VLM Self-Evolution via Multi-Agent Self-Play

把"谁是卧底"搬进视觉世界——给平民真实图、给卧底空白图,让 VLM 通过多角色对抗博弈自动生成训练数据,再用 Self-Play 与 RLVR 交替优化(Iterative-SPO),在完全无标注的前提下让 Qwen2.5-VL-7B 在推理、图表、视觉中心三大类任务上同时超过用昂贵人工标注训练的 SOTA。

Vision Language Models are Biased

这篇论文提出 VLMBias 反事实视觉评测框架,系统修改动物、Logo、国旗、棋盘、棋类棋盘、错觉图和图案网格中的标志性视觉元素,发现主流 VLM 在客观计数任务上平均只有 17.05% 准确率,并且 75.70% 的回答会回到常识先验而不是图像证据。

VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations

提出首个面向数据可视化美学与质量评估的综合基准 VisJudge-Bench(3,090 样本,32 种图表类型),并训练 VisJudge 模型,将 MAE 相比 GPT-5 降低 23.9%,与人类专家的一致性提升 60.5%。

Visual Compositional Tuning

COMPACT 把视觉指令微调样本从“单一视觉能力问答”改造成“多个原子视觉能力自然组合的一问一答”,用 10% 的 LLaVA-665K 数据量达到甚至略超完整视觉指令微调的平均效果。

Visual Jigsaw Post-Training Improves MLLMs

把"打乱再排序"的经典拼图任务搬进 MLLM 的强化学习后训练阶段,让模型在不改架构、不加生成模块、不需任何标注的情况下,通过自监督的可验证奖励显著增强对图像、视频、3D 三种视觉模态的细粒度感知、时序理解与空间理解能力。

Visual Prompt-Agnostic Evolution

提出 Prompt-Agnostic Evolution (PAE),通过频域感知的任务初始化 (MPA) 和 Koopman-Lyapunov 动力系统 (KLD) 跨层关联 prompt,加速 VPT 收敛(平均 1.41× 加速)并在 25 个数据集上提升 1–3% 精度,且对各类 VPT 变体即插即用、无推理开销。

Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing

针对视觉密集型图表解析中大模型容易漏点、错位、幻觉的问题,本文提出"视觉自精炼"(VSR) 范式——让模型先输出像素级定位坐标、把坐标可视化标记后喂回自己迭代纠错,再以校验过的坐标当"手指锚点"解析数值,在自建的高难度 ChartP-Bench 上以 3B 小模型反超 Gemini-2.5-Pro。

Visual Symbolic Mechanisms: Emergent Symbol Processing in Vision Language Models

发现 VLM 内部涌现了一套三阶段符号处理机制(ID retrieval → ID selection → feature retrieval),利用内容无关的空间位置索引(position IDs)来解决视觉绑定问题,并证明绑定错误可直接追溯到这些机制的失败。

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

VL-JEPA 把传统 VLM 的自回归 token 生成改成目标文本语义 embedding 的非自回归预测,在同等训练设置下比 token-space VLM 更省参数、更快收敛,并天然支持分类、检索、VQA 与在线视频场景下的选择性解码。

VLSU: Mapping the Limits of Joint Multimodal Understanding for AI Safety

作者构建了 VLSU——一个含 8187 个真实图文对、覆盖 15 类危害和 17 种安全组合模式的多模态安全基准,系统揭示了主流 VLM 在「单模态都安全、组合起来才危险」这类需要跨模态联合推理的场景下从 90%+ 准确率骤降到 20–55% 的根本缺陷。

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

WAVE 基于 Qwen2.5-Omni 把文本、音频、静默视频和同步音视频投影到同一个语义空间,靠"双音频编码器 + 分层全层特征融合 + 联合多模态多任务训练",做到任意模态间检索(any-to-any)和随指令变化的 prompt-aware 嵌入,在 MMEB-v2 视频赛道刷到 SOTA。

WebDS: An End-to-End Benchmark for Web-based Data Science

提出首个端到端 Web 数据科学基准 WebDS(870 个任务,29 个网站,10 个领域),当前最强 Agent(BrowserUse + GPT-4o)仅完成 15% 的任务,而人类达到 90%,揭示了真实数据科学工作流中 Agent 的巨大性能差距。

WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent

WebWatcher 是一个能在文本与图像两种模态上联合推理的"深度研究"网页 Agent:它用自动合成的高质量工具调用轨迹做 SFT 冷启动、再用 GRPO 强化学习打磨决策,并配套提出了需要跨模态检索的 BrowseComp-VL 基准,在 HLE、LiveVQA、MMSearch 等多个高难度榜单上超过提示词工作流和现有开源多模态 Agent。

When MLLMs Meet Compression Distortion: A Coding Paradigm Tailored to MLLMs

作者先系统分析了图像压缩失真对多模态大模型(MLLM)的影响,发现"跨层级特征"最脆弱,进而提出面向 MLLM 的图像编解码器 CoTAM——编码端用 CLIP 浅层注意力做语义码率分配、解码端用重建先验+适配器+多级损失保住多层级信息,在保持下游任务性能不变的前提下省下最多 35.99% 码率。

Why Keep Your Doubts to Yourself? Trading Visual Uncertainties among Vision-Language Models

本文提出 Agora,把多个异构 VLM 之间的协作重构成一个「不确定性交易市场」:将认知不确定性拆成感知/语义/推理三维可交易资产,让智能体按「能不能降低系统总成本」的经济规则把不确定性卖给最擅长且最便宜的专家,并用一个扩展自 Thompson Sampling 的「市场经纪人」挑选初始智能体,在五个多模态基准上既涨点(MMMU +8.5%)又把成本砍掉 3 倍以上。

Why Reinforcement Fine-Tuning Preserves Prior Knowledge Better: A Data Perspective

通过拼图任务系统研究 SFT 与 RFT 对先验知识的影响,揭示 RFT 避免灾难性遗忘的核心在于数据分布而非算法差异——RFT 采样的数据天然与基模型概率景观对齐,干扰更小。

WorldSense: Evaluating Real-World Omnimodal Understanding for Multimodal LLMs

WorldSense 是第一个强制音频与视觉协同的真实世界全模态视频理解基准——1662 段同步音视频、3172 道多选题,每道题都设计成"去掉音频或去掉视频就答不对",结果连最强的 Gemini 2.5 Pro 也只有 65.1% 准确率,多数开源音视频模型甚至接近随机猜测。

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

XModBench 是首个"三模态全平衡"的多选题评测基准,用 6.1 万道把同一语义在 音/图/文 三种模态、6 种"上下文→候选"方向上各问一遍的题目,专门诊断全模态大模型(OLLM)到底是真做到了模态无关推理,还是在偷偷依赖某种模态的表层特征——结论是连最强的 Gemini 2.5 Pro 都远没达标。

Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition

提出将目标检测与交互识别完全解耦的零样本 HOI 检测框架 DA-HOI,利用 MLLM 的 VQA 能力替代传统 CLIP 特征做交互识别,核心贡献是确定性生成(training-free 即达 31.50 mAP)、空间感知池化(引入空间先验和跨注意力)和单次确定性匹配(M 次前向变 1 次),在 HICO-DET 四种零样本设定下全面超越 SOTA,且训练后可即插即用切换任意检测器。