🧩 多模态 VLM¶
📷 CVPR2026 · 418 篇论文解读
📌 同领域跨会议浏览: 🔬 ICLR2026 (211) · 💬 ACL2026 (82) · 🧪 ICML2026 (89) · 🤖 AAAI2026 (74) · 🧠 NeurIPS2025 (107) · 📹 ICCV2025 (119)
🔥 高频主题: 多模态 ×207 · 对齐/RLHF ×33 · LLM ×29 · 少样本学习 ×18 · 对抗鲁棒 ×18
- 4DP-QA: Scalable QA for 4D Perception in Vision Language Models
-
本文设计了一条可扩展的时空 QA 自动生成 pipeline,从多种真实/合成 4D 数据源造出 40 万训练样本(4DP-QA)和 2.2K benchmark(4DP-QA-Bench),并提出"真运动点轨迹"(true-motion point tracking)这一新感知任务把物体运动从相机运动中解耦出来;用这套数据微调标准 VLM 后,4D 感知准确率从 ~42% 飙到 ~84%,并能泛化到外部 benchmark VLM4D。
- 4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models
-
4DWorldBench 提出一个统一、多模态、物理感知的 3D/4D 世界生成评测框架:把 text/image/video 三种条件全部映射到统一文本空间,沿"感知质量、条件-4D 对齐、物理真实性、4D 一致性"四个维度,用「LLM-as-judge + MLLM-as-judge + 传统度量」的自适应混合策略打分,并通过人类主观实验验证其打分比现有 benchmark 更贴近人的判断。
- A3: Towards Advertising Aesthetic Assessment
-
提出A3框架,包含理论驱动的三阶段广告美学评估范式A3-Law(感知注意力→形式兴趣→欲望影响)、12万条标注数据集A3-Dataset、经SFT+GRPO对齐的模型A3-Align以及评测基准A3-Bench,在广告美学自动评估上超越现有MLLM。
- A Closed-Form Solution for Debiasing Vision-Language Models with Utility Guarantees Across Modalities and Tasks
-
提出VLM去偏的闭式解方法,通过在跨模态嵌入空间中对属性子空间做正交分解并利用Chebyshev标量化求解,实现Pareto最优公平性与有界效用损失,免训练、免标注,统一覆盖零样本分类、文本-图像检索和文本-图像生成三大下游任务。
- A More Word-like Image Tokenization for MLLMs
-
DiVT 用一个基于聚类的视觉投影器替换 LLaVA 里的 MLP projector,把 ViT 的 patch 特征按语义聚成"视觉词"、每个簇生成一个 token,token 数量随图像复杂度自适应,仅靠语言建模目标训练;在 8 个多模态 benchmark 上用 1/4 甚至 1/40 的视觉 token 就追平或超过满分辨率基线。
- Abstract 3D Perception for Spatial Intelligence in Vision-Language Models
-
针对 VLM 在 3D 空间推理上的短板,本文提出训练免费的 SandboxVLM:把单张 2D 图通过视频扩散先验补出多视角,再把关键物体抬升成稀疏的「抽象 3D 包围盒」并渲染回喂给 VLM,让 VLM 在零样本下读懂 3D 结构,SAT-Real 上比基线高 17.4%。
- Activation Matters: Test-time Activated Negative Labels for OOD Detection with Vision-Language Models
-
提出 TANL(Test-time Activated Negative Labels),通过在测试时动态评估负标签在OOD样本上的"激活程度"来挖掘最有效的负标签,配合激活感知评分函数,在 ImageNet 基准上将 FPR95 从 17.5% 大幅降至 9.8%,且完全免训练、测试高效。
- Active Perceptual Inference: A Corticothalamic-Inspired Dynamic Nested Recurrent Network for Multimodal Sentiment Analysis with Incomplete Data
-
针对多模态情感分析中"随机帧级缺失"问题,本文把人脑"主动知觉推理"机制搬进网络,提出双层嵌套递归网络 DNRNet:局部回路模拟皮层内的模式补全做模态内自纠错,全局回路模拟皮层-丘脑回路按模态置信度做跨模态加权补全,两路修正信号迭代回灌输入,把"单次前馈被动补全"升级为"多轮主动推理补全",在 MOSI/MOSEI/SIMS 上各缺失率平均涨点 1.5%–2.0%。
- Adapting In-context Generation for Enhanced Composed Image Retrieval
-
本文提出 DAIG:用 32 张目标域样本对预训练 T2I 模型(Flux)做 in-context 微调(CIR-LoRA),让它批量合成"无偏、贴合目标域"的组合图像检索(CIR)三元组,再用一个两阶段训练框架(特征扰动预训练 DRSP + 角度间隔微调 FRA)把这些合成数据喂给任意现成 CIR 模型,在 CIRR/FashionIQ 上以即插即用、零额外推理成本的方式显著涨点。
- Addressing Exacerbated Attention Sink for Source-Free Cross-Domain Few-Shot Learning
-
作者发现:在 source-free 跨域小样本(CDFSL)场景下,标准的目标域少样本微调会显著加剧 CLIP 的 attention sink——模型把注意力都堆到那些天生就和所有类都"沾边"的 simple token 上,丧失类间区分度;为此提出 TIR(Token Importance Recalibration),在 CLIP 视觉编码器的深层之间按 token 与各类文本的"跨类激活程度"(Sum score)线性重加权,压制 sink token、放大判别 token,在四个 CDFSL 基准上刷到新 SOTA。
- ADSeeker: A Knowledge-Grounded Reasoning Framework for Industry Anomaly Detection and Reasoning
-
ADSeeker 是一个免大规模预训练、即插即用的工业异常检测(IAD)助手:用首个视觉文档知识库 SEEK-M&V + 多模态检索框架 Q2K RAG 给通用 MLLM 注入异常领域知识,再配合 AD Expert 把缺陷定位/判别信息融进视觉 token、用层级稀疏提示(HSP)提取 type-level 缺陷特征,在 12 个工业/医学数据集的零样本异常检测和 MMAD 异常推理上都拿到 SOTA。
- AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models
-
AG-VAS 给大多模态模型(LMM)的词表里塞进三个可学习的"语义锚点"token——绝对锚点
[SEG]把抽象的"异常"翻译成"洞/划痕"这样的具体视觉实体,相对锚点[NOR]/[ANO]建模正常 vs 异常的上下文对比——再配合语义-像素对齐模块(SPAM)和锚点引导掩码解码器(AGMD),让模型在未见类别上直接吐出二值异常掩码,在 6 个工业/医学基准上零样本刷到 SOTA。 - AGFT: Alignment-Guided Fine-Tuning for Zero-Shot Adversarial Robustness of Vision-Language Models
-
AGFT 提出了一种对齐引导的微调框架,通过文本引导的对抗训练和分布一致性校准,在增强 VLM 零样本对抗鲁棒性的同时保持预训练的跨模态语义结构,在 15 个零样本基准上平均鲁棒准确率达到 46.57%,超越 SOTA 3.1 个百分点。
- Aligning What Vision-Language Models See and Perceive with Adaptive Information Flow
-
本文发现 VLM 中文本 token 对无关视觉 token 的过度注意力是"看到但感知错误"的根本原因,提出基于 token 动态熵的自适应信息流调控方法(AIF),通过推理时修改因果掩码来阻断无关视觉-文本连接,免训练提升多种 VLM 的感知能力。
- Air-Know: Arbiter-Calibrated Knowledge-Internalizing Robust Network for Composed Image Retrieval
-
针对组合图像检索(CIR)中"部分匹配"型噪声让传统 small-loss 假设失效的问题,本文用 MLLM 离线标一小撮高精度锚点集、再蒸馏出一个轻量贝叶斯判别代理来在线给出可信置信度,并据此把训练数据分成"干净对齐流"和"反馈校正流",从而把仲裁者和学习者解耦、避免表征污染,在高噪声 CIR 设置下显著超过现有 SOTA。
- Anchor-Guided Gradient Alignment for Incomplete Multimodal Learning
-
针对高缺失率下"重建样本主导优化、压制完整样本表征"的学习失衡问题,ANGA 用完整样本构造优化锚点、把重建样本的梯度向锚点方向对齐(锥形区域三段式调制),再配一个用检索实例生成动态 prompt 的语义增强适配器,在三个数据集上稳定超过 RAGPT 等 SOTA。
- Anti-Degradation Lifelong Multi-View Clustering
-
针对"视图随时间不断到来"的流式多视图聚类场景,ALMC 把每个新视图的原型投影到旧知识子空间的零空间(正交方向)后再融合,从数学上保证新知识不覆盖旧知识,在 6 个基准上多数指标取得 SOTA(如 ALOI-10 ACC 从 87.4% 提到 90.9%)。
- ARC Is a Vision Problem!
-
这篇 MIT(Kaiming He 组)的工作把一向被当成"语言/序列推理"的 ARC 抽象推理基准重新表述为图到图翻译问题,用一个从零训练、仅 18M 参数的标准 ViT 配合"画布表示 + 平移/缩放增强 + 测试时训练",在 ARC-1 上拿到 54.5%(集成后 60.4%),追平人类平均水平并大幅超过同样从零训练的循环推理模型。
- ARGUS: Defending Against Multimodal Indirect Prompt Injection via Steering Instruction-Following Behavior
-
ARGUS 发现"跟用户指令 vs 跟注入指令"这两种行为在 MLLM 的激活空间里是线性可分的、且存在一个"安全子空间",于是在推理时往子空间里一个"既能防御又不掉性能"的方向做激活引导,配合注入检测 + 自适应强度 + 后置过滤三阶段,在图像/视频/音频三种模态上把攻击成功率压到近 0、同时几乎不损失模型可用性。
- ArtiMuse: Fine-Grained Image Aesthetics Assessment with Joint Scoring and Expert-Level Understanding
-
ArtiMuse 用一个 InternVL-3-8B 基座的多模态大模型,同时输出 8 维细粒度专家级美学文字分析和一个连续美学分数,靠新提出的 Token As Score 把连续打分塞进 LLM 的离散 token 生成里,并配套发布了首个 10000 张专家逐维标注的 ArtiMuse-10K 数据集,在多个美学评分基准上刷新 SOTA。
- AToken: A Unified Tokenizer for Vision
-
AToken 把图像、视频、3D 资产统一编码进一个共享的稀疏 4D latent 空间,用一套纯 Transformer + 无对抗 Gram 损失同时做到高保真重建和语义理解,单模型在三种模态上都拿到接近专用方法的成绩(图像 0.21 rFID / 82.2% ImageNet,视频 3.01 rFVD,3D 28.3 PSNR / 90.9%)。
- Authorize-on-Demand: Dynamic Authorization with Legality-Aware Intellectual Property Protection for VLMs
-
AoD-IP 给冻结的 CLIP 加三个轻量投影器,用一枚"凭证 token"把授权域锁成只能凭钥匙激活,既能在部署后按需热插拔新的授权域而不重训主干,又能在每次推理时多输出一路"合法性信号"判定输入是否越权,在多个跨域基准上做到授权域几乎零损失、未授权域准确率大幅塌陷。
- AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models
-
AutoTraces 给多模态 LLM(LLaVA-Video)扩出一种
<point>token + Point Encoder/Head 的轨迹表示,把 2D 路点搬进 LLM 隐空间,让模型用原生的自回归机制逐点预测机器人未来轨迹,再配合自动生成的 CoT 推理与两阶段训练,在 SCAND 上长时段、跨场景、任意长度预测全面超过 SOTA。 - β-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment
-
β-CLIP 把一张长描述拆成「整句 caption → 句子 → 短语」三层文本查询,用 cross-attention 把每个查询动态汇聚成专属的视觉特征,再用一个带 β 调节的对比损失(β-CAL)处理这些层级特征之间天然的语义重叠,在不使用任何 hard negative 的情况下把细粒度检索 FG-OVD(Hard) 拉到 30.9%、Urban1K 检索拉到 91.8/92.3%,刷新了「无 hard negative」设定下的 SOTA。
- BALM: A Model-Agnostic Framework for Balanced Multimodal Learning under Imbalanced Missing Rates
-
BALM 提出一个模型无关的即插即用框架来解决不均衡缺失率(IMR)下的多模态学习问题,通过特征校准模块(FCM)对齐不同缺失模式下的表征、以及梯度再平衡模块(GRM)从分布和空间两个维度平衡各模态的优化动态,在多个多模态情感识别基准上持续提升各类骨干网络的鲁棒性。
- Benchmarking Single-Factor Physical Video-to-Audio Generation
-
本文提出 FlatSounds——一个用"单因素反事实干预 + 单视频模式测试"审计视频到音频(V2A)模型物理推理能力的基准,揭示出当前 SOTA 模型其实是从文字 caption 里"抄"物理与语义、而非从像素学到物理,且 caption 越强、时间对齐越差。
- Beyond Global Similarity: Multi-Conditional Retrieval for Fine-Grained Cross-Modal Understanding
-
本文提出 MCMR 基准——一个要求"图像与文本上的多个互补条件同时满足才算命中"的细粒度跨模态商品检索数据集,并系统评测了主流 MLLM 检索器与 MLLM-as-Reranker,发现现有检索器擅长粗粒度召回但难以做多条件的精排,而显式逐对验证的 pointwise 重排能大幅提升 top 排序质量。
- Beyond Graph Model: Reliable VLM Fine-Tuning via Random Graph Adapter
-
把 VLM 文本适配器里"每个类别 = 一个确定向量"换成"每个类别 = 一个高斯分布",用 LLM 生成的多样化描述初始化分布、再在类别图上做概率消息传播,并配一个按预测确定度(峰度)动态融合多骨干的方案,在 11 个数据集的少样本分类与 OOD 泛化上稳定超过 GraphAdapter / AMU-Tuning 等 SOTA。
- Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition
-
将 VLM 零样本图像识别重构为贝叶斯框架,通过 LLM 驱动的多阶段概念合成流水线构建概念提案分布,并用自适应 soft-trim 似然函数抑制离群概念影响,在 11 个分类基准上优于 SOTA 方法。
- Beyond Missing Modalities: Hypergraph Guided Diffusion for Uncertainty-Aware Multimodal Emotion Recognition
-
针对对话多模态情感识别(MERC)中音/文/视模态随机缺失的问题,HyperEF 用一个掩码超图注意力网络(MHGAT)捕捉对话里的高阶多元依赖,再以它为条件引导扩散模型在隐空间补全缺失模态特征,最后用双通道证据融合(DCEF)从"特征来源"和"判别"两个层面量化不确定性来自适应融合各模态,在 IEMOCAP / MELD 的全部缺失率下都刷新了 SOTA。
- Beyond Sequential Tools: A Unified VLM Agent System for Photographic Post-Processing via Dynamic Multi-Expert Fusion
-
让一个 VLM 当"大脑"诊断图像里耦合的多种退化、给每种退化分配一个权重,再把对应的专家 LoRA 按权重一次性融进扩散骨干,单次前向就完成"去雨+去雾+去模糊"的协同修复——既避开 all-in-one 模型的泛化不足,又躲开 agentic 方法串行调用工具导致的误差累积。
- Beyond Single Images: A Comprehensive Benchmark for Album-Level Vision-Language Understanding
-
本文提出 AlbumBench——首个面向"相册整理"的综合基准,把相册操作拆成意图选片、意图打分、分组标注、分组聚类四类任务,用 27,051 张图 / 641 个相册评测 20 种主流 VLM 配置,发现开源与闭源差距明显、思考模式能大幅提升分组任务但成本高昂、且 VLM 在相册任务上几乎不比"只看一句相册描述"强多少。
- Beyond Weak Supervision: MLLMs-Guided Graded Knowledge Distillation for Unsupervised Camouflaged Object Detection
-
针对无监督伪装目标检测(UCOD)"监督信号弱、伪标签用不好"两大痛点,本文用 MLLM+SAM 组成一个冻结的教师模型生成高质量伪标签,并通过伪装感知思维链(CA-CoT)、分级掩码评估器(GME)和分级知识蒸馏(GKD)三件套保证伪标签质量并按质量差异蒸馏给学生网络,最终大幅超越已有 UCOD 方法、并在零样本设置下也很能打。
- Beyond What's Shared: Recovering Lost Unique Information from Intermediate Layers to Boost Multimodal Geo-Foundation Models
-
作者发现多模态对比模型(如 SatCLIP)的中间层保留了被最终对齐层丢掉的模态特异(unique)信息,于是提出无需任何额外训练目标或外部模型的 BWS——把中间层和最终层表征做深度加权拼接,仅靠这一步就在 7 个地理空间下游任务上稳定涨点。
- Bias Is a Subspace, Not a Coordinate: A Geometric Rethinking of Post-hoc Debiasing in Vision-Language Models
-
作者发现 VLM 嵌入里的人口学偏见并不集中在少数几个坐标维度上、而是分布在若干个线性子空间里,于是提出 SPD:用 INLP 迭代学出"能线性预测敏感属性"的整个偏见子空间,把嵌入投影到它的正交补(零空间)以彻底抹掉可解码的属性信号,再回注一个中性均值保住语义;在零样本分类、文搜图检索、图像生成三类任务上,四个公平性指标平均提升 18.5% 而几乎不掉精度。
- BiomedCCPL: Causal Conditional Prompt Learning for Biomedical Vision-Language Models
-
针对生物医学 VLM 在「同一数据集内未见类」上泛化差的问题,BiomedCCPL 用 VGAP 模块从多尺度自适应视觉原型动态生成图像条件提示、再用 SCD 模块按 front-door 准则把提示拆成因果/非因果双通路做去混淆,在 11 个数据集 9 种模态上把 Base-to-Novel 的平均 HM 从 73.53% 提到 79.98%(+6.45%)。
- Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing
-
PaddleOCR-VL 用一个轻量"先定位有效区域、再逐块精识别"的粗到细两阶段框架,把高分辨率文档里大量冗余背景挡在 VLM 之外——只用 0.9B 参数和约 2.5k 视觉 token,就在 OmniDocBench v1.5 上拿到 92.62 的总分 SOTA,同时吞吐量比最强基线再高 50%。
- Boosting Vision-Language Models Towards Cross-Domain Incremental Object Detection
-
针对"跨域增量目标检测"这一更现实的场景,本文先建了 CDIOD 基准(让检测器依次学自然场景、水下、遥感三个域的子任务),再提出 DGS 框架:按分布相似度把任务动态分组、组内用可扩展 LoRA 适配器共享子空间、并在分组路由下推理,在 CDIOD 上以仅 +1.2% 参数取得 +11.4 AP 的 SOTA。
- Boosting Visual Reprogramming for CLIP with Dual Granularity Alignment
-
针对 CLIP 视觉重编程(只训练输入端的视觉提示、冻结黑盒 CLIP)只做"单层对齐"的缺陷,本文提出 DGA,从数据里挖出两种被忽略的结构信息——语义粒度(标签层级)和视觉粒度(多尺度),用 PLH+HKP 做层级语义对齐、用多尺度裁剪+UPF 做不确定性加权的视觉对齐,两路协同融合,在 12 个识别数据集上比上一代 SOTA(DVP)平均提升 4.5%。
- Breaking Multimodal LLM Safety via Video-Driven Prompting
-
本文揭示视频模态比图像模态更容易越狱多模态大模型,并提出 SPTV:把有害排版图通过二分图匹配编织成一段"在表征空间里贴近安全数据、帧间又足够多样"的视频,在 16 类安全策略、5 个开闭源 MLLM 上把越狱成功率刷到 SOTA(平均 36.4%),同时给出一个有效的视频感知系统提示防御。
- Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding
-
针对视觉语言模型(VLM)"过度依赖语言先验、忽视视觉证据"导致的物体幻觉,本文提出训练无关的 Positive-and-Negative Decoding(PND):用外部 BLIP 跨模态注意力定位视觉证据区域,构造"放大证据"的正路径和"抹除证据、暴露先验"的负路径,在每步解码时对三路 logits 做对比融合,把生成拉向视觉事实,POPE 上准确率最高提升 6.5%。
- Bridging the Modality Gap in Compositional Zero-Shot Learning via Sparse Alignment and Unimodal Memory Bank
-
针对组合零样本学习(CZSL)中 CLIP 固有的「模态鸿沟」,本文提出 SAM 三阶段框架——稀疏对齐挑出与文本最相关的图像 patch 以削减冗余视觉信息、视觉自适应凝练把关键线索压缩进单一表示、动态记忆库用纯视觉分类绕过模态鸿沟,在三个基准的闭世界/开世界设置上全面超越 CLIP-based 方法。
- BriMA: Bridged Modality Adaptation for Multi-Modal Continual Action Quality Assessment
-
提出 BriMA,通过记忆引导的桥接补全和模态感知回放机制,解决多模态持续动作质量评估中非平稳模态不平衡问题,在三个基准上平均提升 6-8% 相关系数、降低 12-15% 误差。
- CAD-Refiner: A Unified Framework for CAD Generation and Iterative Editing
-
CAD-Refiner 用一个 VLM 智能体把文本/图像/编辑指令解析成 CAD 模型的「拓扑结构图」作为统一条件,再配合「序列注入策略」把生成/补全/编辑三类任务对齐进同一个解码器,并用基于 OCCT 几何校验的自适应损失加权来修正几何错误,从而在单一模型里完成「先生成、后多轮迭代编辑」的完整 CAD 建模工作流。
- CADFS: A Big CAD Program Dataset and Framework for Computer-Aided Design with Large Language Models
-
CADFS 把工程师在 Onshape 平台真实创作的 45 万个 CAD 模型重建成干净可执行的 FeatureScript 代码,配上自动生成的文本与多视图标注,让 VLM 第一次能生成超出"草图+拉伸"的复杂设计历史(fillet、loft、revolve 等 15 种操作),在文本生成与图像重建两个任务上都刷新 SOTA。
- Camouflage-aware Image-Text Retrieval via Expert Collaboration
-
本文首次把"图文检索"搬到伪装场景,构建了 1.05 万样本的 CamoIT 数据集,并提出双分支 + 置信度条件图注意力(C2GA)的 CECNet:用一个 COD 专家把伪装目标从背景里"抠"出来单独编码,再有选择地融回全局表征,最终在伪装图文检索(CA-ITR)上把整体准确率拉高约 29%,超过 7 个主流检索模型。
- Can We Build Scene Graphs, Not Classify Them? FlowSG: Progressive Image-Conditioned Scene Graph Generation with Flow Matching
-
FlowSG 把场景图生成从"一次性分类"改造成"渐进式生成"——用混合离散-连续 flow matching,让一张被噪声污染的图随时间逐步长出物体框(连续 CFM)和谓词标签(离散 DFM),在 VG / PSG 的闭集与开放词表设定上比 SOTA(USG-Par)平均高约 3 个点。
- CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation
-
CapNav 提出一个"能力条件导航"评测基准:给 VLM 一段室内巡游视频、一张导航图、一个带物理/操作能力的智能体画像和一个"从 A 到 B"的任务,看它能否判断该智能体在这个空间里到底能不能走通、走哪条路;在 13 个主流 VLM 上的实验显示,一旦给智能体加上移动约束(不能上楼梯、过道太窄),导航性能就断崖式下跌。
- CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment
-
提出 CAPT 混淆感知 prompt tuning 框架,通过语义混淆挖掘器(SEM)和样本混淆挖掘器(SAM)显式建模 VLM 的系统性误对齐模式,配合多粒度差异专家(MGDE)融合不同层次的混淆信息,在 11 个基准上取得 HM 83.90% 的最优表现。
- CaptionQA: Is Your Caption as Useful as the Image Itself?
-
CaptionQA 把"图像描述好不好"重新定义为"这段 caption 能不能替图像撑起下游任务",用一个纯文本 LLM 仅凭 caption 去答 33,027 道密集多选题,直接量出 caption 相对原图损失了多少可用信息——结果发现连最强闭源模型都掉 9–16%,开源模型在 Embodied AI 上甚至掉超过 40%。
- CASPA: Graph-Structured Concept Anchors for Modality-Agnostic Adaptation in Vision-Language Models
-
CASPA 把 CLIP 的下游适配从"每个类各学一套 prompt"改成"所有类共享一组语义锚点(anchor),每个类只学一个在锚点上的软分布",再用跨模态一致性正则把文本锚点和视觉锚点对齐,在冻结 backbone、只引入 1.1M 参数(占 CLIP 0.73%)的前提下,于 Base-to-Novel、跨数据集迁移、few-shot 等四套设置、11 个数据集上达到或超过 SOTA。
- CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering
-
提出 CC-VQA,一种 training-free 的知识冲突缓解方法,通过视觉中心的上下文冲突推理和相关度引导的编码/解码两阶段策略,在 E-VQA、InfoSeek、OK-VQA 三个基准上取得 3.3%-6.4% 的绝对精度提升。
- CF-IPT: Cross-Modal Fusion Interactive Prompt Tuning of Vision-Language Pre-Trained Model for Multisource Remote Sensing Data Classification
-
CF-IPT 用一套"先把高光谱+LiDAR/SAR 融成一张图并生成光谱-空间提示矩阵、再用这些提示矩阵引导 CLIP 视觉/文本两支提示双向交互对齐"的提示微调框架,只动 CLIP 0.76% 的参数就把在自然图上预训练的 CLIP 迁移到多源遥感联合分类,在 Houston/MUUFL/Augsburg 上 OA 分别比 SOTA 高 1.38%/2.27%/1.38%。
- ChartNet: A Million-Scale, High-Quality Multimodal Dataset for Robust Chart Understanding
-
提出 ChartNet,一个包含 150 万条高质量多模态对齐样本的百万级图表理解数据集,通过代码引导的合成管线生成涵盖 24 种图表类型、6 种绘图库的五元组数据(代码、图像、数据表、文本描述、带推理的 QA),在 ChartNet 上微调的 2B 模型可超越 GPT-4o 和 72B 开源模型。
- CICA: Coupling Confidence-Aware Pretraining with Confidence-Informed Attention for Robust Multimodal Sentiment Analysis
-
CICA 让每个单模态编码器在预训练时学会"自评"信号可靠性(输出置信度 \(s_m\) 和不确定度 \(u_m\)),再用这两个信号去调制一个置信度感知注意力的输出,从而在文本/视觉/语音相互矛盾或缺失时自适应地放大可信模态、压制噪声模态,在 MOSI/MOSEI/CH-SIMS/CH-SIMSv2 四个基准上刷新 SOTA。
- CLEP: Contrastive Language-Pose Pretraining
-
CLEP 把 CLIP 式对比学习搬到「3D 人体姿态 ↔ 自然语言」上:用分层姿态编码器 HierFormer(关节/肢体/全身三级 + 跨尺度注意力融合 CSAF)配上自建的 200 万对 CLEP-2M 数据集做对比预训练,在 PoseScript-H 零样本检索上把 mRecall 从 5.9 拉到 34.8(近 6 倍),并在姿态生成、姿态编辑等下游任务上全面超越基线。
- CLIP-like Model as a Foundational Density Ratio Estimator
-
本文把 CLIP / SigLIP 这类对比训练的图文模型重新解读为"现成的密度比估计器"——对比目标隐式优化的相似度分数正比于对数密度比,由此免训练地导出两个新能力:单 prompt 的重要性加权预训练(F1 最高 +7 分)和图文 KL 散度估计(衡量语义多样性、并据此做数据筛选,效果与 LAION2B 过滤相当)。
- Cluster-aware Anchor Learning for Multi-View Clustering
-
针对锚点式多视图聚类"全局固定锚点数、对每个簇一视同仁"的弊病,CAL 把共识锚点矩阵按簇切成 k 组,对每组施加列稀疏惩罚自动决定该簇保留几个锚点,再用簇间正交正则拉开不同簇的锚点,在 8 个 benchmark 上 ACC/NMI 全面超越 10 个 SOTA。
- Cluster-Aware Neural Collapse Prompt Tuning for Long-Tailed Generalization of Vision-Language Models
-
CPT 把"神经坍缩 / ETF 等角分离"约束从全局所有类收缩到预训练 VLM 自带的语义簇内部,再配一个把可学习文本原型拴回冻结原型的旋转稳定损失,从而在长尾提示微调里提升尾类可分性,同时不破坏 CLIP 的全局语义层级——在 11 个数据集上超过 DPC/DeKg/NPT 等 SOTA。
- CodeMMR: Bridging Natural Language, Code, and Image for Unified Retrieval
-
针对"代码检索只看文本、忽略代码渲染出来长什么样"这一缺口,本文造了首个多模态多语种代码检索基准 MMCoIR(5 个视觉域 / 8 种语言 / 11 个库),并基于 Qwen2VL 用指令条件对比学习训出统一模型 CodeMMR,把文本、代码、图像投到同一语义空间,nDCG@10 平均超过 VLM2Vec-v2/GME 等强基线约 10 分,接入 RAG 还能提升图生代码的执行率与视觉保真度。
- CodePercept: Code-Grounded Visual STEM Perception for MLLMs
-
通过系统性缩放分析发现感知(perception)而非推理(reasoning)是 MLLM 在 STEM 领域的真正瓶颈,提出以可执行 Python 代码为锚定媒介的 CodePercept 范式——构建 100 万级 ICC-1M 数据集和 STEM2Code-Eval 基准,在 SFT+RL 两阶段训练后显著提升 MLLM 的 STEM 视觉感知和下游推理能力。
- Concept-Aware Batch Sampling Improves Language-Image Pretraining
-
本文把"数据筛选"从离线、样本级、概念无关的过滤,改成在线、批级、概念感知的采样:先给 1.28 亿图文对标注细粒度概念(DATACONCEPT),再用一个可插拔打分函数 CABS 在训练时实时从超批里挑出符合目标概念分布的子批——分类用"多样性最大化"、检索用"频次最大化",在 28 个 benchmark 上分类涨 7%、检索涨 9.1%。
- Concept Regions Matter: Benchmarking CLIP with a New Cluster-Importance Approach
-
提出一种免训练的 CLIP 解释方法 CCI(把图像 patch 聚成语义簇、逐簇屏蔽注意力、用相似度下降量化每簇贡献),用它揭示「CLIP 的错误大多不是背景依赖、而是细粒度混淆」,并配套构建受控变体基准 COVAR 系统评测 18 个 CLIP 变体的虚假相关倾向。
- Condensed Test-Time Adaptation of VLMs for Action Recognition
-
针对训练免微调的缓存式测试时自适应(TDA)里「视觉-视觉对齐被外观主导、视觉-文本对齐被语义主导」造成的映射链非传递性,CONDA 用文本语义反过来指导视觉缓存的构建——只把和动作语义正相关的 patch 浓缩进缓存(PSPS)并扩成时空 tube(ATC),在 7 个动作识别基准上平均稳超 TDA 1~3.5%,且可即插即用到任意 VLM。
- ConeSep: Cone-based Robust Noise-Unlearning Compositional Network for Composed Image Retrieval
-
针对组合图像检索(CIR)中三元组标注噪声里最棘手的「硬噪声」(参考图与目标图高度相似但修改文本错误),本文提出 ConeSep:先用锥形空间几何边界量化每个样本的匹配保真度做噪声分离,再为每个 query 学一个「对角负组合」作为显式语义反锚点,最后把噪声纠偏建模成最优传输问题做定向遗忘,在 FashionIQ / CIRR 上各噪声率下都超过 TME、HABIT、INTENT 等 SOTA。
- Conflict-Aware Adaptive Cross-Reconstruction for Multimodal Sentiment Analysis
-
针对多模态情感分析中"同一样本里语言/视觉/音频情感极性互相矛盾"这个被忽视的痛点,CACR 先在共享子空间里量化每个模态的情感冲突分数,再用一个带冲突权重的交叉重构模块隐式对齐共享语义、压制冲突模态,并用细粒度情感精化补充文本语义,在三个标准数据集上全面超过现有 SOTA。
- Controllable Federated Prompt Learning at Test Time
-
针对联邦提示学习模型部署后遇到新域分布偏移就崩的问题,本文首次提出测试时联邦提示学习(TTFPL)设定,并用 COTE 框架在「全局 / 本地 / 原始 CLIP」三套提示之间,靠一个自定义的模型-数据对齐分数 MoDA 在线无标注地动态择优,在五个基准的跨域设置上把平均精度提了 6%+。
- CoRiM: Conflict-driven Risk Minimization for Dynamic Multimodal Fusion
-
本文把动态多模态融合重新定义为一个「逐样本、直接最小化冲突风险」的优化问题:设计了一个可微的模态冲突风险函数 \(R(w)\)(融合不确定性 + 模态置信先验 + JS 一致性),并用免投影的 Frank-Wolfe 算法在概率单纯形上求最优模态权重,从而在高冲突、强噪声场景下显著超越 QMF/PDF 等 SOTA。
- CountGD++: Generalized Prompting for Open-World Counting
-
CountGD++ 把开放世界目标计数的"提示"做泛化:既能用文本+视觉示例说"数什么",也能用文本+视觉示例说"别数什么",还能让模型自己生成视觉示例(伪示例)、从外部/合成图借示例,并把自己包装成 LLM 调用的计数专家 Agent——在 8 个数据集上不微调就大幅提升计数与检测精度(血细胞 MAE 从 ~11.5 降到 1.52)。
- CoV-Align: Efficient Fine-grained Cross-Modal Alignment with Cohesive Visual Semantics Priority
-
CoV-Align 提出"先把图像 patch 在没有文本参与的情况下聚合成语义区域、再做区域-词对齐"的细粒度图文检索框架,用可变形注意力 + 一致性分配注意力生成区域、再用空间集中损失和视觉对比损失收紧区域质量,在 Flickr30K / MS-COCO 上刷新 SOTA 的同时比文本引导方法快 3–5 倍。
- CoVFT: Context-aware Visual Fine-tuning for Multimodal Large Language Models
-
发现 MLLM 中视觉编码器微调的"视觉偏好冲突"问题,提出 CoVFT 框架,通过上下文向量提取(CVE)和上下文混合专家(CoMoE)实现上下文感知的视觉微调,在 12 个多模态基准上达到 SOTA 且稳定性显著优于现有方法。
- CrossHOI-Bench: A Unified Benchmark for HOI Evaluation across Vision-Language Models and HOI-Specific Methods
-
提出 CrossHOI-Bench,首个统一评估 VLM 和 HOI 专用模型的多选题 HOI 基准,通过精心策划的正负例避免不完整标注的错误惩罚,揭示大型 VLM 零样本在 Instance-F1 上超越 SOTA HOI 方法 +5.18%,但在多动作识别和跨人归因上仍存在系统性弱点。
- Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens
-
提出 CubiD,首个在高维表征 token(768维)上做离散扩散生成的模型,通过在 \(h \times w \times d\) 三维张量上进行细粒度 mask 预测实现高质量图像生成,同时保留理解能力。
- DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles
-
提出 DeAR,通过 Concept Entropy 指标将 ViT 深层注意力头分解为属性头/泛化头/混合头三类功能角色,并设计基于角色的注意力掩码机制精确控制信息流,在15个数据集上实现任务适配与零样本泛化的最佳平衡。
- Decoupled and Reusable Adaptation for Efficient Cross-Modal Transfer
-
把"将 RGB 基础模型迁移到红外/深度/事件等非 RGB 模态"的过程拆成"一次性学模态知识(自监督训出可复用的模态 LoRA)+ 轻量学任务知识(任务提示 + 模态专家混合)"两段,从而在换任务时不必从头重训,在 6 个跨模态场景上同时拿到数据、计算、存储三重效率优势。
- Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation
-
提出 DASP,通过冗余度评分诊断偏置模态,再用非对称适应策略解耦稳定性与可塑性,解决多模态测试时适应中的负迁移和灾难性遗忘问题。
- DeepAlign: Mitigating Modality Conflict through Modality-Specific Alignment
-
针对多模态大模型里"视觉一接进来反而把语言能力拖累、又抓不住图里细节"的模态冲突,DeepAlign 用一个即插即用的后训练框架——一边用分类器梯度把视觉表征里的"模态特异成分"挑出来、推向 LLM 的文本嵌入空间,一边把 DINOv2 的 patch 结构关系蒸馏进 MLLM 的视觉隐状态——只训练插入的 adapter(200M 参数),就在三种主流 MLLM 上跨十余个 benchmark 稳定涨点,还顺带激活了多模态上下文学习等涌现能力。
- Demo2Tutorial: From Human Experience to Multimodal Software Tutorials
-
Demo2Tutorial 是一个 agentic 框架,把人类操作软件的原始屏幕录制 + 底层操作日志,自动蒸馏成图文交错的结构化教程;生成的教程在自建 benchmark 上质量(86.2)反超官方人工教程(79.1),既能让 GUI Agent 在 OSWorld 上规划成功率大幅提升(GPT-5 在 Chrome 上 52.9%→70.6%),也能让真人学软件提速 10.5%、80% 用户更偏好。
- Describe Anything Anywhere At Any Moment
-
DAAAM 把"实时的几何-语义建图"和"大模型生成的细粒度局部描述"解耦开:用一个优化问题挑选最少的关键帧、再批量喂给 Describe Anything Model(DAM)生成开放词汇描述,从而在 10 Hz 实时下构建带详细文字标注的分层 4D 场景图,作为具身智能体的时空记忆,在大尺度时空问答与序列任务定位上取得 SOTA。
- DEVA: Fine-tuning Multimodal Large Language Models for Visual Perception Tasks
-
针对用 GRPO 强化微调多模态大模型做视觉感知时"组内奖励几乎一样、策略探索受限、奖励设计粗糙"三大顽疾,DEVA 在 GRPO 损失之上叠加 GFlowNet 多样性损失、全局熵正则、对齐超体积奖励和谐波聚合四个即插即用组件,在分类/检测/推理 grounding 上稳定带来 +5~+13 点提升。
- Diagnosing and Repairing Unsafe Channels in Vision-Language Models via Causal Discovery and Dual-Modal Safety Subspace Projection
-
提出 CARE 框架,先用因果中介分析精确定位 VLM 中与不安全行为因果相关的神经元和层(诊断),再通过广义特征分解构建双模态安全子空间并在推理时投影激活值(修复),将攻击成功率降至 10% 以下且几乎不损失通用能力。
- Diagram2Structure: Unlocking LLMs' Diagram Comprehension through DiagramDiff, a Framework for Structuring Offline Diagrams
-
针对 LLM 看不懂"图片形式的离线图表(流程图/思维导图/状态机)"这一痛点,本文提出 DiagramDiff:先用一个高精度笔画重建模型把离线图像还原成在线笔画序列,再用一个扩散增强的图 Transformer(GTN)识别模型做实例级笔画识别,最终把图表转成"节点+边"的标准化数据结构喂给 LLM,从而把 LLM 从只能做简单问答升级为能做语义推理、逻辑校验与图表编辑的智能助手,并在重建/识别任务上取得 SOTA。
- DialogueVPR: Towards Conversational Visual Place Recognition
-
把语言引导的地点识别从「一句话查一次、查完就完」的静态检索,改造成「检索器先粗筛 → 多模态大模型主动提问 → 用户回答 → 再检索」的多轮对话推理(DlgPR),并配套造了首个对话式地点识别基准 DQ-Cities 和一套「SFT + GRPO 课程学习」训练的提问智能体 DQ-Pilot,5 轮对话后 R@1 比 7B 基座提升 13.4%、甚至超过 72B 模型。
- Dictionary-Aligned Concept Control for Safeguarding Multimodal LLMs
-
本文提出 DACO 框架,通过从 WordNet 和 CC-3M 构建包含 15,000 个多模态概念的字典,结合稀疏自编码器(SAE)实现对冻结 MLLM 激活空间的细粒度概念控制,在多个安全基准上显著提升安全性的同时保持通用能力。
- Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification
-
AuditDM 把一个 MLLM 微调成"审计员",让它主动生成"能让目标模型答错、但参考模型集合却一致答对"的图文对,从而系统性挖出目标模型的能力盲点,再把这些盲点变成无标注训练数据回灌——结果让 PaliGemma2-3B 在多个 benchmark 上反超官方 28B 版本。
- Diffusion Guided Chain-of-Vision for Large Autoregressive Vision Models
-
把语言模型里的 Chain-of-Thought 搬进纯视觉的自回归大模型(LVM):用预训练扩散模型在图像空间生成一串视觉上连贯的中间帧,作为"任务无关的推理过程"插进输入序列,让 LVM 在做分割/深度/位姿等下游任务时从"一步直出标签"变成"多步渐进生成",七个视觉任务、三种模型规模上均稳定涨点。
- DiG: Differential Grounding for Enhancing Fine-Grained Perception in Multimodal Large Language Models
-
提出 差异定位(Differential Grounding, DiG) 这一代理任务——给模型两张高度相似的图、不告诉它有几处不同,逼它把所有差异都用 bounding box 框出来;配上 Blender 自动造数据 + GRPO 强化学习 + 课程学习,让 Qwen3-VL 的细粒度视觉感知显著变强,并能迁移到 RefCOCO 等下游 grounding 与通用多模态基准。
- DiGraphHal-Bench: Evaluating Multimodal Large Language Models on Complex Directed Graphs
-
DiGraphHal-Bench 是首个面向「复杂有向图」的大规模 VQA 基准,用 2,796 张真实流程图、四大能力 × 12 个细粒度任务系统评测 MLLM 的幻觉与组合推理;靠一条「LLM 生成 + 算法确定性验证」的两阶段流水线在零人工标注下兼顾规模与可信度,结果显示连 GPT-5/Gemini 2.5 在图结构推理上都频繁幻觉,SFT 能缓解但远未解决。
- Direction-aware 3D Large Multimodal Models
-
针对现有 3D 点云 benchmark「问了左右前后却没给 ego pose」导致方向问题本身无解的痛点,本文用 PoseRecover 从 RGB-D 视频外参里自动找回每个问题对应的相机位姿,再用 PoseAlign 直接把点云旋转平移到该位姿坐标系下喂给现成 3D LMM,只靠指令微调就把 ScanRefer mIoU 相对提升 30%、Scan2Cap 的 LLM-as-judge 准确率提升 11.7%。
- Disentangle-then-Align: Non-Iterative Hybrid Multimodal Image Registration via Cross-Scale Feature Disentanglement
-
提出 HRNet,通过跨尺度特征解纠缠和自适应投影(CDAP)学习干净的共享表示,并在统一的粗到细管线中非迭代地联合预测刚性和非刚性变换,在四个多模态数据集上达到SOTA。
- Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench
-
MeasureBench 用 2,442 张真实+合成的测量仪器图像构建了一个"读数"基准,发现连最强的前沿 VLM 整体准确率也只有 30% 左右——它们能认出单位和仪器类型(>90%),却读不准指针/刻度对应的数值,暴露了 VLM 在细粒度空间定位上的根本短板。
- Do VLMs Perceive or Recall? Probing Visual Perception vs. Memory with Classic Visual Illusions
-
针对「VLM 在经典视觉错觉上答得对、但把诱发因子反转后仍答原样」的现象,本文做了一个可控错觉探针框架 VI-Probe——对图像做分级扰动+配对控制、对提问做极性翻转+指令变体,再用 PFC/TFI/幻觉乘数 R 等指标把「真感知」和「靠记忆背模板」拆开,发现不同模型家族的「答案僵化」其实来自记忆覆盖、感知-记忆竞争、视觉处理瓶颈等异质机制,而非过去认为的单一「语言先验」。
- DPL: Decoupled Prototype Learning for Enhancing Robustness of Vision-Language Transformers to Missing Modalities
-
针对视觉-语言模型在某个模态缺失时性能骤降的问题,本文提出 DPL:把分类头从一个固定的全连接层换成"按缺失情况选原型、再按模态拆分原型"的解耦原型预测头,配合缺失感知的 ArcFace 损失和原型关系对比损失,可即插即用地接在任意 prompt 方法之后,在三个数据集多种缺失场景上稳定超越 SOTA。
- DRS-GUI: Dynamic Region Search for Training-Free GUI Grounding
-
DRS-GUI 在 MLLM 做坐标预测前插入一个"先搜后定位"的免训练阶段:用 UI Perceptor 把截图解析成带语义相关度的 UI 元素,再用 MCTS 调度 Focus/Shift/Scatter 三种类人感知动作、配合区域质量奖励反复搜索出最相关的紧凑区域,在高分辨率密集界面基准 ScreenSpot-Pro 上把 Qwen2.5-VL-7B 与 UGround-V1-7B 的 grounding 准确率提升约 14%。
- DSCA: Dynamic Subspace Concept Alignment for Lifelong VLM Editing
-
DSCA通过将VLM的表征空间分解为一组正交语义子空间,在每个子空间内进行门控残差干预来实现知识编辑,从而在1000次连续编辑后仍保持>95%的编辑成功率且近乎零遗忘。
- DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance
-
DuetSVG 把 SVG 生成从「纯文本生成」改成「图像 token 和 SVG token 一起自回归生成」,让模型自己先画出的图像 token 充当 SVG 解码时的内部视觉引导,再配一套图像引导的测试时重采样,在文生 SVG 和图生 SVG 两个任务上全面超过现有 VLM 方法。
- DuoGen: Towards Autonomous Interleaved Multimodal Generation
-
DuoGen 把一个预训练 MLLM 和一个在视频生成上预训练的 DiT 拼起来,用
<BOV>特殊 token 让 MLLM 自主决定何时画图、用前文所有图像当条件帧让 DiT 续画,配上一套从网页清洗 + 合成造出来的 298k 高质量交错指令数据和两阶段解耦训练,在交错图文生成、文生图、图像编辑三类任务上全面超过开源统一模型。 - Dynamic Logits Adjustment and Exploration for Test-Time Adaptation in Vision Language Models
-
针对 VLM 测试时自适应(TTA)只挑高置信样本导致"继承模型类别偏置 + 探索不足"的问题,本文提出 DLAE:用动态 logit 校准(DLA)按在线预测统计量给每类 logit 乘一个平衡因子来去偏,再用一致性引导的探索缓存(CGEC)专门把"校准后预测翻转"的决策边界样本(在语义+时间双重一致性约束下)纳入缓存,从而在保持稳定的同时探索低置信区域,在跨域和 OOD 两大基准上稳定超过 DPE 等 SOTA。
- DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs
-
提出 DynamicGTR 框架,通过动态路由在推理时为每个查询选择最优的图拓扑表示(GTR,视觉/文本共8种),显著提升 VLM 在零样本图算法问答中的性能,并可迁移到链接预测和节点分类等真实场景。
- Dynamics-Aware Preference Optimization for Vision-Language Models
-
本文从"学习动力学"视角诊断出 VLM 偏好微调不稳定的根因——"挤压效应"(easy negative 虽然 loss 近零却仍带来巨大且方向错误的梯度),并提出两阶段的 CW-DPO:先用受约束的平滑 SFT 把分布"摊平",再用一个随模型置信度自适应缩放负样本梯度的"冷却权重"压住无信息更新,在 COCO/Flickr30k/NoCaps/MMMU/MMBench 上全面 SOTA(COCO CIDEr 142.6,比 PPO +3.4;MMMU +2.4% 绝对精度),同时改善校准、收敛步数减半。
- EagleNet: Energy-Aware Fine-Grained Relationship Learning Network for Text-Video Retrieval
-
EagleNet 通过构建文本-帧关系图并使用关系图注意力网络学习文本-帧和帧-帧之间的细粒度关系,生成融合视频上下文信息的增强文本嵌入,并引入基于能量模型的匹配机制捕获真实文本-视频对分布,在四个基准数据集上取得 SOTA。
- Echoes of Ownership: Adversarial-Guided Dual Injection for Copyright Protection in MLLMs
-
提出 AGDI 框架,通过对抗优化生成 trigger image 进行 MLLM 黑盒版权追踪:双注入机制同时在 response 级(CE loss 驱动辅助模型输出 target answer)和 semantic 级(最小化 trigger image 与 target text 的 CLIP 余弦距离)注入版权信息,并引入模型对抗训练模拟 fine-tune 抵抗,在 Qwen2-VL/LLaVA-1.5 上全面超越 PLA 和 RNA 基线。
- Efficient Encoder-Free Fourier-based 3D Large Multimodal Model
-
Fase3D 提出首个无视觉编码器、基于傅里叶变换的 3D 场景大模型——用「超点池化 + 空间填充曲线序列化 + 窗口 FFT」做轻量 tokenizer 直接处理原始点云,并用 Fourier 增强的 LoRA 把全局频域上下文注入冻结 LLM,在 ScanQA/SQA3D/ScanRefer/Nr3D 上用约 1/6~1/12 的视觉参数、约 1/20 的 FLOP 达到与重编码器方法(3D-LLaVA、PerLA)相当的效果。
- Ego: Embedding-Guided Personalization of Vision-Language Models
-
Ego 直接从 LVLM 自身的跨模态注意力里挑出最能代表某个个性化概念(如"我的杯子""我的狗")的少量视觉 token,把它们当作"概念记忆"在推理时以软提示注入上下文,从而做到完全免训练、不依赖外部视觉模块,并在单概念/多概念/视频三种个性化场景下都取得 SOTA。
- EgoAVU: Egocentric Audio-Visual Understanding
-
针对"现有 MLLM 在第一人称视频里只看不听、把声音和错误视觉源乱配"的问题,本文提出一个全自动数据引擎 EgoAVU,用模块化开源模型分模态生成音视频叙述、用图结构(MCG)显式建模声-源关系,造出 300 万训练样本(EgoAVU-Instruct)和 3000 条人工核验评测集(EgoAVU-Bench),微调后在自家 benchmark 上最高拿到 113% 的相对提升,并能迁移到其他第一人称基准。
- EgoSound: Benchmarking Sound Understanding in Egocentric Videos
-
EgoSound 是第一个系统评测多模态大模型(MLLM)"第一人称声音理解"能力的基准:它合并 Ego4D 与 EgoBlind 两个数据源、定义涵盖固有声音感知与跨模态推理的 7 任务体系,用一条"交互标注→音频中心字幕→视觉校验 OpenQA"的三段式自动流水线产出 900 段视频上的 7315 条开放式问答,实测 9 个 SOTA omni 模型最高只有 56.7% 准确率(人类 83.9%),暴露了模型在细粒度空间/因果声音推理上的短板。
- EMMA: Extracting Multiple physical parameters from Multimodal Data
-
EMMA 把视频、音频、图表三种模态对齐后喂进一个 Liquid Time-Constant(LTC)网络,配合可微物理仿真与物理约束损失,无监督地一次性辨识出动力系统的全部可识别参数——包括视频里看不见的强迫输入、任何模态都测不到的隐式动力学项、以及坐标系原点/初始条件等标定不变量,在 75 段 Delfys 视频和真实 rover/无人机上显著超越只用视频或方程发现的基线。
- ENC-Bench: A Benchmark for Evaluating MLLMs in Electronic Navigational Chart Understanding
-
提出首个面向电子航海图(ENC)理解的专业级基准 ENC-Bench,包含 20,490 样本和三级层次评估体系(感知→空间推理→海事决策),系统评估 10 个 MLLM 后发现最佳模型仅 47.88% 准确率,揭示了通用模型在安全关键专业领域的严重能力缺口。
- Enhance-then-Balance Modality Collaboration for Robust Multimodal Sentiment Analysis
-
EBMC 用"先增强、再平衡"两阶段框架做多模态情感分析:先靠语义解耦和跨模态互补把被压制的音频/视觉弱模态喂饱,再用能量模型拉平各模态的优化动态、并在样本级按可信度重加权融合,从而在 MOSI/MOSEI/IEMOCAP 上拿到 SOTA,且在缺失模态场景下掉点远小于基线。
- Enhancing Continual Learning of Vision-Language Models via Dynamic Prefix Weighting
-
针对 VLM 持续学习中现有 PEFT 方法只在「样本级」给 prefix/adapter 加权、对一个样本内所有 token 一视同仁的问题,DPW 用一个 gating 模块(RePA + CondAct)为每个 token 算出细粒度 prefix 权重、并让 adapter 只在 prefix 权重不够用时以「残差」方式补足,在 MTIL / ODCL-CIL 两个 domain-class 增量基准上取得 SOTA。
- Enhancing Descriptive Captions with Visual Attributes for Multimodal Perception
-
本文提出 Cap-Workflow,用一组现成的视觉专家模型(检测、深度、情绪、OCR、细粒度识别、HOI)从图像里抽出"通用 LMM 看不到"的细粒度属性与物体关系,再用 LLM 把这些属性两阶段融合成又准又细的图像描述,从而把 1.1M 张图重新标注成更优质的 LMM 预训练语料,在 14 个基准上提升 LLaVA-v1.5/NeXT 的感知与推理能力。
- Enhancing Part-Level Point Grounding for Any Open-Source MLLMs
-
不微调任何 MLLM 参数,仅在中间层"合成一个 grounding 感知的 query"来重塑 text-to-image 注意力、再用轻量解码器升采样成点热图,就能把开源 MLLM 的部件级(part-level)点定位精度大幅拉高,并能即插即用到任意带注意力机制的模型上。
- Evo-Retriever: LLM-Guided Curriculum Evolution with Viewpoint-Pathway Collaboration for Multimodal Document Retrieval
-
Evo-Retriever 把"模型"和"训练课程"绑成一对协同进化体——用多视角对齐 + 双向对比稳住表征,再让一个外部 LLM 元控制器根据实时训练状态动态调难负样本难度,在 ViDoRe V2 / MMEB(VisDoc) 上拿到 nDCG@5 65.2% / 77.1% 的新 SOTA。
- EvoGraph-R1: Self-Evolving Multimodal Knowledge Hypergraphs for Agentic Retrieval
-
EvoGraph-R1 把多模态 GraphRAG 的知识超图从"离线建好、一次性查"的静态数据结构,重新定义成一个随推理过程协同演化的 MDP 环境——智能体通过"查图 / 联网搜 / 改图 / 回答"四个动作不断插入、修正、剪枝超图,再用 GRPO 端到端优化策略,在多模态 VQA 和纯文本 QA 上都刷到 SOTA。
- Evolutionary Multimodal Reasoning via Hierarchical Semantic Representation for Intent Recognition
-
提出 HIER,通过层次语义表示(token→概念→关系三级)结合基于 MLLM 反馈的自进化推理机制,在三个多模态意图识别 benchmark 上一致超越 SOTA 方法和领先 MLLM(1-3% 增益)。
- Explaining CLIP Zero-shot Predictions Through Concepts
-
本文提出 EZPC,通过学习一个线性投影矩阵将 CLIP 的图像-文本嵌入映射到可解释的概念空间,在几乎不损失零样本分类精度的前提下(CIFAR-100/CUB/ImageNet-100 上 H-mean 仅差约 1%),为 CLIP 的预测提供基于人类可理解概念的忠实解释,且推理开销仅增加约 0.1ms。
- Explore with Long-term Memory: A Benchmark and Multimodal LLM-based Reinforcement Learning Framework for Embodied Exploration
-
本文提出 LMEE 基准和 MemoryExplorer 框架,通过将多目标导航与记忆问答统一评估具身探索的过程与结果,并用强化学习微调 MLLM 使其主动调用记忆检索工具,在 LMEE-Bench 上 SR 达 23.53%(超越 3D-Mem 的 16.91%)、GOAT-Bench 上 SR 达 46.40%。
- Face-Guided Sentiment Boundary Enhancement for Weakly-Supervised Temporal Sentiment Localization
-
FSENet 把人脸特征作为情感线索引导音视频交互,在只有"点级"时间戳标注的弱监督设定下,用对比学习对齐情感语义、再把稀疏点标注扩展成边界平滑的伪标签,从而在 TSL300 上把时序情感定位的平均 mAP 推到 21.45%,超过此前 SOTA 约 5%。
- Factorize, Reconstruct, Enhance: A Unified Framework for Multimodal Sentiment Analysis
-
FUSE-Net 把每个模态显式拆成「共享 / 特有 / 噪声」三个子空间(factorize),用基于信息瓶颈的变分重建保住情感语义(reconstruct),再用三视角的样本自适应动态融合做加权聚合并门控压噪(enhance),在 MOSI / MOSEI / SIMSv2 三个基准上的回归与有序分类指标都刷到最优。
- FairLLaVA: Fairness-Aware Parameter-Efficient Fine-Tuning for Large Vision-Language Models
-
提出 FairLLaVA,一种参数高效的公平性微调方法,通过最小化隐藏状态与人口学属性之间的互信息来消除多模态大语言模型中的人口学捷径,在胸片报告生成和皮肤病变问答中显著缩小了群体间性能差距。
- FAVE: A Structured Benchmark for Fine-Grained Audio-Visual Temporal Evaluation in Multimodal LLMs
-
FAVE 是一个专门评测「音视频大模型(AVLLM)能否把音频流与视频流在同一时间窗内对齐并做细粒度时序推理」的三层基准,用 shot 切分 + 双模态字幕 + GPT 合成 + 人工核验的可扩展流水线在 QVHighlights 上构造了近万条带时间戳的 QA,对 13 个 SoTA 模型的测评显示:即便最强的 Gemini 1.5 也远低于人类,开源模型几乎全军覆没,跨模态联合时序理解仍是开放难题。
- FedMPT: Federated Multi-Label Prompt Tuning of Vision-Language Models
-
FedMPT 把联邦多标签识别(MLR)建模成一个因果前门调整问题,用 LLM 生成一组通用"条件"(如空间布局、物体姿态)作为中介变量来约束标签共现,再通过条件提示 + 最优传输 + 门控聚合三步把条件对齐到图像区域并自适应加权,从而在客户端数据异构时显著抑制"看到猫就误报椅子"这类伪相关过拟合。
- Finding Distributed Object-Centric Properties in Self-Supervised Transformers
-
论文系统分析了 DINO 这类自监督 ViT 内部「物体信息到底藏在哪」,发现它分布在所有层、并同时编码在 Query/Key/Value 三种 patch 相似度里(而非只在最后一层的 [CLS] 或 key 特征),据此提出无需训练的 Object-DINO——靠聚类跨层注意力头自动挑出「物体头」,把无监督物体发现 CorLoc 提升 +3.6~+12.4,并能给 MLLM 提供视觉证据缓解物体幻觉。
- Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly
-
以"宜家家具装配视频"为沙盒,构建了一个专测大视觉语言模型(LVLM)细粒度时空理解的视频问答基准 Flat-Pack Bench(602 道选择题、4 类任务),发现 GPT-5 等最强模型只有 ~38% 准确率,远低于人类的 94.18%,并定位出"追踪、接触判断、区域指代"才是真正的瓶颈。
- FlowComposer: Composable Flows for Compositional Zero-Shot Learning
-
FlowComposer 首次将 Flow Matching 引入组合零样本学习(CZSL),学习两个原始流(属性流和物体流)将视觉特征传输到对应文本嵌入空间,并通过可学习的 Composer 显式组合速度场得到组合流,同时利用泄露引导增强策略将不完美的特征解耦转化为辅助监督信号,作为即插即用模块在三个基准上持续提升 CZSL 性能。
- FluoCLIP: Stain-Aware Focus Quality Assessment in Fluorescence Microscopy
-
提出 FluoCLIP,一个两阶段视觉-语言框架:先通过染色锚定(stain-grounding)让 CLIP 学习荧光染色的语义,再通过染色引导排序(stain-guided ranking)实现染色感知的对焦质量评估,并引入首个多染色组织级荧光显微镜数据集 FluoMix。
- PinPoint: Focus, Don't Prune — Identifying Instruction-Relevant Regions for Information-Rich Image Understanding
-
提出 PinPoint,一个两阶段框架:先通过 Instruction-Region Alignment 定位与指令相关的图像区域,再对选中区域精细化编码,以更少的 visual token 实现更高的 VQA 精度。
- Foundation Encoders Are All You Need for Preference-Aware Personalization
-
FAN 不给文生图模型加任何额外结构或微调,只把预训练文本编码器里的自注意力"改造"成个性化注意力,再配上一套面向目标 query 的画像策略,就能在 SD V1/XL/V3、FLUX 等多种基础模型上做到"既贴用户偏好又不丢目标语义"的个性化合成。
- From 3D Pose to Prose: Biomechanics-Grounded Vision-Language Coaching
-
BioCoach 把流式健身视频里的 3D 骨骼运动学和身材测量做成显式、可读的中间表示,喂给冻结的视觉/语言主干,通过"选关节 → 算周期与约束 → 视觉-生物力学条件化生成"三段流水线,产出带关节角度、活动范围、相位对齐的精准纠错反馈,在新构建的 QEVD-bio-fit-coach 上 METEOR 比 Stream-VLM 提升 262.8%。
- From Attraction to Equilibrium: Physics-Inspired Semantic Gravitons for Zero-Shot Anomaly Detection
-
SGNet 把 CLIP 视觉-文本的跨模态对齐重新建模成一个「能量势场达到平衡」的物理过程,引入一组可学习的「语义引力子」作为视觉与文本之间的动态中介,通过吸引力与平衡力把两个模态拉到稳定的局部语义平衡点,在 10 个工业/医疗基准上取得零样本异常检测的 SOTA。
- From Failure to Feedback: Group Revision Unlocks Hard Cases in Object-Level Grounding
-
针对 GRPO 微调视觉语言模型时「难样本一组全失败、奖励全为零、学不到东西」的痛点,本文提出 group-revision 范式:先采一个初始回答,再让模型对它做一组「修订」回答,并用匈牙利匹配算出每个修订相对初始的改进量(shaping signal),同时用它来加权奖励和放大优势,从而在分割、REC、计数等任务上稳定超过现有 GRPO 方法。
- From Observation to Action: Latent Action-based Primitive Segmentation for VLA Pre-training in Industrial Settings
-
提出 LAPS(Latent Action-based Primitive Segmentation)流水线,通过在潜在动作空间中定义"Latent Action Energy"指标,从未标注的工业视频流中无监督发现和分割语义动作原语,为 VLA 模型预训练提供结构化数据。
- From Weights to Concepts: Data-Free Interpretability of CLIP via Singular Vector Decomposition
-
本文提出 SITH(Semantic Inspection of Transformer Heads),一个完全无需数据和训练的 CLIP 可解释性框架:直接对注意力头的 Value-Output 权重矩阵做 SVD 分解,然后用自研的 COMP 算法将每个奇异向量解释为语义一致的概念稀疏组合,实现了比现有方法更细粒度的 intra-head 级别可解释性,并支持精准的权重编辑来改善下游性能。
- From Where Things Are to What They Are For: Benchmarking Spatial–Functional Intelligence in Multimodal LLMs
-
提出 SFI-Bench——一个基于 134 段第一视角室内视频、1555 道专家标注四选一题的视频基准,把多模态大模型的评测从"物体在哪里"的几何感知推到"物体是干什么用的"的功能认知,覆盖空间认知与功能推理两大维度共六类任务,揭示当前 MLLM 在"空间记忆 + 功能推理 + 外部知识"三者融合上仍是明显瓶颈。
- G-MIXER: Geodesic Mixup-based Implicit Semantic Expansion and Explicit Semantic Re-ranking for Zero-Shot Composed Image Retrieval
-
提出 G-MIXER,通过测地线混合隐式语义扩展(在球面上沿不同混合比例扩展检索范围)和显式语义重排序(利用 MLLM 生成的属性过滤噪声候选),实现免训练零样本组合图像检索的 SOTA 性能。
- GaussianVision: Vision-Language Alignment from Compressed Image Representations using 2D Gaussian Splatting
-
用一组各向异性 2D 高斯(位置+协方差+颜色)作为图像的紧凑替代表示喂给视觉-语言模型,通过"复用冻结的 RGB ViT 主干 + 轻量 splat 输入头 + 两阶段迁移训练",在 12.8M DataComp 上把视觉输入压缩 3–23.5×、加载提速最高 31×,仍保住 RGB 基线 90–98% 的 38 数据集零样本精度,接入 LLaVA 后甚至在 6 个 VQA benchmark 上反超 RGB。
- GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics
-
GeoAgent 把图像地理定位做成"像人一样逐级推理到精确地址"的任务:先用地理专家和职业玩家标注的 CoT 数据集 GeoSeek 冷启动一个 VLLM,再用两个为地理任务量身定制的 RL 奖励(衡量"答对没"的地理相似度奖励 + 衡量"推理过程站不站得住"的一致性奖励)做 GRPO 微调,在多个粒度上超过现有方法和一众通用 VLLM。
- Geometrically-Constrained Agent for Spatial Reasoning
-
针对 VLM 在空间推理中"语义强、几何弱"的鸿沟,本文提出免训练智能体 GCA:先让 VLM 当"语义分析师"把模糊问题翻译成一个形式化的任务约束(参考系 + 目标),再让它当"任务求解器"在这个约束的确定性边界内调用几何工具算出答案,在多个空间推理 benchmark 上平均超过此前 SOTA 约 27%。
- GeoTikzBridge: Advancing Multimodal Code Generation for Geometric Perception and Reasoning
-
GeoTikzBridge 通过构建最大的 2.5M 图像-TikZ 代码数据集和首个辅助线指令数据集,训练出能精准重建几何图形的代码生成模型,并可作为即插即用模块增强任意 MLLM/LLM 的几何推理能力。
- Global-Graph Guided and Local-Graph Weighted Contrastive Learning for Unified Clustering on Incomplete and Noise Multi-View Data
-
GLGC 在不依赖数据补全的前提下,用一张全局亲和图为不完整多视图数据补出新的正负样本对(治"稀配对"),再用一张局部亲和图给每个跨视图样本对打自适应权重(治"误配对"),把两者塞进统一的对比学习框架,在不完整 + 噪声多视图聚类上全面超过 SOTA。
- Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM
-
Granulon 给以 DINOv3 为代表、强于细节但缺乏粗粒度语义抽象的像素级视觉编码器,加上一个"文本条件的粒度控制器 + 自适应 token 聚合"模块,让单个编码器在一次前向里就能按问题语义动态做"像素→细→粗"的多粒度推理,在同等设置下推理准确率提升约 30%、幻觉率降低约 20%。
- GraphVLM: Benchmarking Vision Language Models for Multimodal Graph Learning
-
提出 GraphVLM benchmark,系统评估VLM在多模态图学习中的三种角色——VLM-as-Encoder(增强GNN特征)、VLM-as-Aligner(桥接模态用于LLM推理)、VLM-as-Predictor(直接作为图学习backbone)。在6个数据集上的实验表明,VLM-as-Predictor持续取得最佳性能,揭示了VLM作为多模态图学习新基础的巨大潜力。
- Gravitation-Driven Semantic Alignment for Text Video Retrieval
-
GraviAlign 把跨模态语义对齐类比成万有引力,将文本/视频的高斯嵌入对齐分数拆成"语义引力(吸引)"和"几何重叠(重叠度)"两个正交、闭式可解的因子,每个因子都有独立否决权,在三个文本-视频检索基准上稳定超过 CLIP-ViP 基线 1.6%~2.6% R@1。
- Grounded 3D-Aware Spatial Vision-Language Modeling
-
GR3D 把「显式 2D grounding + 隐式 2D grounding + 单目 3D grounding」三种定位能力统一进同一个空间 VLM,让模型在生成空间思维链时一边说一边把提到的物体定位成区域 token 插回文本流,再用这些 grounded 区域作为 query 直接预测相机视角下的 3D 框,从而在 Omni3D 3D 检测和多个空间推理 benchmark 上同时刷出提升。
- Grounding Everything in Tokens for Multimodal Large Language Models
-
GETok 给 MLLM 的词表加一组「网格 token + 偏移 token」,把图像平面离散成 2D 锚点格子、再用小步偏移迭代纠错,不改自回归架构就让模型用统一的 token 序列表示点/框/掩码/折线等各种定位,并在 SFT 和 RL 两种范式下都刷到 SOTA。
- GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation
-
针对现有视觉定位基准已被 MLLM 刷到 90%+ 却仍测不出真实能力的问题,作者构造了 GroundingME——一个含 1005 个样本、覆盖「细粒度判别 / 复杂空间 / 受限可见 / 拒答」四维度的硬基准,发现最强模型也只有 45.1% 准确率、绝大多数模型在拒答任务上得 0%,并给出测试时缩放(+4.5%)和负样本混合训练(拒答 0%→27.9%)两条改进路径。
- GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
-
本文提出 GTR-Turbo,通过将 RL 训练过程中的历史 checkpoint 经 TIES 合并产生"免费教师模型"来指导后续训练(可选 SFT 或 KL 蒸馏方式),在多个视觉智能体任务上匹配甚至超过依赖 GPT-4o 等外部教师的 GTR 方法,同时减少 50% 训练时间和 60% 计算成本。
- GUI-SAGE: Enhancing GUI Automation with Self-Explanatory Learning
-
针对 GUI 强化学习中"任务太难时所有 rollout 全失败、advantage 全为 0 学不动"的问题,GUI-SAGE 让模型在 ground-truth 动作做提示的条件下"给自己讲清楚这个动作为什么对",产生分布内(in-distribution)的正样本,再用熵调制信用分配按预测置信度放大/抑制梯度,使 3B 模型在 AndroidControl / GUI-Odyssey 上达到 81.1% 平均成功率,超过更大的 7B baseline。
- GUIDE: A Benchmark for Understanding and Assisting Users in Open-Ended GUI Tasks
-
本文提出 GUIDE 基准,包含 120 个新手用户在 10 款软件上的 67.5 小时屏幕录像和出声思维标注,定义了行为状态检测、意图预测、协助预测三个分层任务,评估发现当前最强多模态模型在理解用户行为和判断协助需求上表现有限(行为检测仅 44.6% 准确率),但提供结构化用户上下文可显著提升性能(协助预测最高提升 50.2pp)。
- Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation
-
为了让 CLIP 视觉编码器同时具备"分得开类别"(判别力)和"看得清细节"(细粒度感知力),本文提出 DCR:不再让扩散模型去重建原图(只补细节、伤判别),而是把对比信号注入到扩散模型预测的噪声上构成一个统一损失,用单一目标同时优化两种能力、绕开了朴素组合两个 loss 时的梯度冲突,在 6 个 CLIP backbone 和下游 MLLM 上一致涨点。
- HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding
-
提出 HAMMER 框架,通过从 MLLM 中提取接触感知的意图嵌入、层次化跨模态融合增强点云特征、以及多粒度几何提升模块为意图嵌入注入3D空间信息,实现基于交互图像的3D可供性定位,在 PIAD 基准上全面超越现有方法。
- HanDyVQA: A Video QA Benchmark for Fine-Grained Hand-Object Interaction Dynamics
-
HanDyVQA 是一个面向"手-物交互(HOI)动态过程"的细粒度视频问答 benchmark,用 6 类问题(动作/过程/物体/位置/状态变化/部件)覆盖"操作→效果"全链路,含 1.11 万道五选一选择题和 1.03 万帧分割掩码,实测最强模型 Gemini-2.5-Pro 也只有 73% 准确率,远低于人类的 97%。
- Harmonious Parameter Adaptation in Continual Visual Instruction Tuning for Safety-Aligned MLLMs
-
针对"已做过安全对齐的多模态大模型在持续指令微调(CVIT)中既遗忘旧任务、又掉安全"的双重问题,本文提出 HPA:在每步微调结束后对权重做一次免训练的参数级编辑——先按 Hessian 重要性把参数分成"安全聚焦/任务聚焦"两类,再用一个可自适应的平衡分数挑选要保留的安全参数,最后对任务参数更新做正交投影来抗遗忘,从而在不动原训练流程的前提下同时守住安全和能力。
- HAVE-Bench: Hierarchical Audio-Visual Evaluation from Perception to Interaction
-
HAVE-Bench 用「感知—推理—交互」三级认知层级 × 「音频作指令(AaI)/音频作上下文(AaC)」双角色搭出一个 2451 题的音视频评测基准,首次把多轮、依赖记忆的交互任务建模成任务图来考 Omni-MLLM,结果显示开源/闭源模型在推理和交互层级断崖式下滑,且语音问图远不如文本问图。
- HBridge: H-Shape Bridging of Heterogeneous Experts for Unified Multimodal Understanding and Generation
-
HBridge 把"统一理解+生成"模型里两个对称、逐层共享注意力的 MoT 专家,换成一对异构专家(冻结大 VLM + 预训练扩散 DiT),只在中间若干层桥接注意力、并加一组语义重建 token,用 BAGEL 约 1/12 的 T2I 训练 token 就在 DPG-Bench / GenEval / ImgEdit 上反超 BAGEL。
- HDR-VLM: HDR-Domain Adaptation of VLMs and Preference-Aligned Quality Assessment for HDR Video Color Grading
-
HDR-VLM 是首个把只见过 SDR 的预训练 VLM 适配到 HDR 域、用于评估 HDR 视频调色质量的方法:第一阶段用 HLG 统一编码 + 渐进解冻补上 HDR 感知,第二阶段用带课程式奖励的 GRPO 把模型打分对齐到含噪的人类主观偏好,在真实产线 HDR 数据集上 PLCC 0.9033 / SROCC 0.8667,且能给出可解释的扣分理由。
- HiconAgent: History Context-aware Policy Optimization for GUI Agents
-
HiconAgent 用一套 History Context-aware Policy Optimization(HCPO)的强化微调框架训练 GUI 导航智能体:采样阶段动态变化历史长度让模型学会"按需用历史",更新阶段把历史截图扔掉、只留历史动作 token 当锚点并用全历史分支对齐蒸馏;3B 模型在 GUI-Odyssey 上反超 GUI-R1-7B 步成功率 +11.32%,同时 FLOPs 降 60%、推理快 2.47×。
- Hierarchical Attacks for Multi-Modal Multi-Agent Reasoning
-
本文提出 HAM³,把对「多模态多智能体系统(MM-MAS)」的对抗攻击拆成感知层、通信层、推理层三个相互衔接的层次,系统性地刻画扰动如何从单点输入级联到集体决策,在 GQA 上对 ReAct/Plan-and-Solve/Reflexion 三种范式做实验,最高攻击成功率(ASR)达 78.3%,并发现推理层攻击最强、最隐蔽、最难纠正。
- HiFICL: High-Fidelity In-Context Learning for Multimodal Tasks
-
HiFICL 通过严格的注意力公式推导,将 ICL 近似问题从"拟合 shift vector"重构为"直接参数化 ICL 的源头"——在注意力头中注入可学习的低秩虚拟键值对,以端到端训练实现一种动态的、上下文感知的参数高效微调方法,在多个多模态基准上以极少参数超越现有 ICL 近似方法和 LoRA。
- HiSpatial: Taming Hierarchical 3D Spatial Understanding in Vision-Language Models
-
HiSpatial 提出将 3D 空间智能分解为四层认知层级(几何感知 → 物体属性 → 物体关系 → 抽象推理),构建了处理约 500 万张图像、4500 万个物体、20 亿 QA 对的自动化数据管线,并设计了以度量尺度点云图为辅助输入的 RGB-D VLM,以仅 3B 参数在多个空间推理基准上超越 GPT-5 和 Gemini-2.5-Pro。
- HOG-Layout: Hierarchical 3D Scene Generation, Optimization and Editing via Vision-Language Models
-
本文提出 HOG-Layout,一个基于 VLM 和 LLM 的层次化 3D 室内场景生成、优化和编辑框架,通过 RAG 增强语义一致性、力导向层次优化确保物理合理性,在 SceneEval 上以 4.5 倍更快的速度超越 LayoutVLM。
- HouseMind: Tokenization Allows MLLMs to Understand, Generate and Edit Architectural Floor Plans
-
提出 HouseMind,通过层次化 VQ-VAE 将建筑平面图的轮廓和房间实例分别离散化为空间 token,与文本 token 统一到同一词汇表中,使小规模 LLM(0.6B)就能在单一自回归框架下实现平面图的理解、生成和编辑三大任务,性能全面超越基于扩散模型和大规模 VLM 的方法。
- Hugging Visual Prompt and Segmentation Tokens: Consistency Learning for Fine-Grained Visual Understanding in MLLMs
-
提出 FCLM,发现"区域描述(captioning)里的视觉提示嵌入
<VP>与 grounding 里的分割 token[SEG]其实指向同一区域、只是输入/输出方向相反",于是用自重构损失 + 隐空间余弦一致性损失把二者对齐,配合一个渐进式混合区域提取器和两阶段训练,让一个 MLLM 在 7 个细粒度视觉任务上同时刷到 SOTA。 - HumanVBench: Probing Human-Centric Video Understanding in MLLMs with Automatically Synthesized Benchmarks
-
提出 HumanVBench,一个包含 16 个细粒度任务的人体中心视频理解基准,配套两个自动化流水线(视频标注 + 干扰项感知 QA 合成),对 30 个主流视频 MLLM 的评测揭示了当前模型在细微情感感知和语音-视觉对齐方面的关键不足。
- Hyperbolic Gramian Volumes for Multimodal Alignment
-
针对 Euclidean Gramian 体积在 L2 归一化下"体积坍缩"(det≈1、方差近 0)而无法刻画语义丰富度的问题,本文把 Gramian 体积对齐搬到双曲(Lorentz 模型)空间以保住方差,并用一个可学习标量 \(\alpha\) 把欧氏体积与双曲体积凸组合,得到 HyperGRAM,在四个视频-文本检索基准上零样本 T2V Recall@1 较 Euclidean GRAM 提升 +1.8% 至 +2.9%。
- IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding
-
提出IAG,首个针对VLM视觉定位的多目标后门攻击方法,通过文本条件U-Net动态生成输入感知触发器,将任意指定目标物体的语义信息嵌入视觉输入中,在12种设置下的11种达到最高攻击成功率。
- IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting
-
本文构建了首个系统评测多模态大模型(MLLM)红外图像理解能力的高质量基准 IF-Bench(499 图 / 680 道 VQA / 10 个维度),系统评测 40+ 模型,并提出训练无关的生成式视觉提示 GenViP——用图像编辑模型把红外图翻译成对齐的 RGB 图、与原红外图一起喂给 MLLM 以缓解域偏移,在不微调任何模型的前提下带来最高约 7% 的相对提升。
- Illuminating Visual Identity in Universal Multimodal Embeddings
-
针对通用多模态嵌入(UME)一直忽视的"视觉身份判别"能力,本文把它形式化成 4 个元任务、造了一个 522K 样本的 MVEB 基准,再用一套"身份感知采样 + 统一对比损失"的简单框架联合训练,让 7B 模型在身份基准上拿到 78.8 的均分(大幅超越所有现有 UME),同时保持通用检索性能不掉。
- Imbalanced View Contribution Evaluation and Refinement for Deep Incomplete Multi-View Clustering
-
ICER 指出"视图缺失不只是数据不全、更会引发视图贡献不平衡"这一被忽视的问题:用 Shapley 值量化每个视图的边际贡献、用不平衡最优传输(UOT)刻画分布偏差,构造视图贡献不平衡指标 \(I_\psi\),再用视图自适应课程学习(VACL)动态强化弱视图、抑制强视图主导,在五个不完整多视图基准上稳定超过现有方法。
- Improving Calibration in Test-Time Prompt Tuning for Vision-Language Models via Data-Free Flatness-Aware Prompt Pretraining
-
本文发现"给 TPT 加正则项改善校准"的本质是把 prompt 推向损失曲面的平坦极小值,于是提出 FPP——一个数据无关的 prompt 预训练框架,直接把初始 prompt 放进平坦区域,仅替换初始化、不改 TPT 任何流程,就同时刷新了准确率和校准(ECE/SCE)的 SOTA。
- Information-Theoretic Decomposition for Multimodal Interaction Learning
-
本文从信息论视角指出"多模态交互(冗余 R / 独有 U / 协同 S)是逐样本动态变化的",证明常规联合学习与模态集成各自只擅长其中一类交互,并提出 DMIL——用变分分解把表示显式拆成 R/U/S 三类成分、再用三阶段微调有针对性地强化它们,从而在不同交互构成的样本上都能拿到最优表现。
- InstAP: Instance-Aware Vision-Language Pre-Train for Spatial-Temporal Understanding
-
InstAP 在视频-语言预训练里把"全局对齐"和"实例级对齐"放进同一个目标联合优化——通过跨注意力把目标框特征和全场景上下文融合、再和对应的实例描述做对比学习,配合自建的双粒度数据集 InstVL,让模型既能把整段视频和整句话对齐,也能把"红色的球""跳起来的狗"精确落到对应的时空轨迹上,实例级检索大幅超过现有 VLP 模型,连全局零样本检索(MSR-VTT、DiDeMo)也一并刷到 SOTA。
- Interactive Episodic Memory with User Feedback
-
针对"在长第一视角视频里用自然语言找出回答问题的那一刻"(EM-NLQ)只能一次出结果、无法纠错的问题,本文提出可交互的 EM-QnF 任务、一套无需人工标注的合成反馈数据生成配方,以及即插即用的反馈对齐模块 FALM——它给每个视频片段打"与反馈对齐分"并重加权原模型特征,让现有 EM-NLQ 模型在不引入笨重 LLM 的前提下,根据用户反馈把焦点移到正确片段,三个基准上 R1/R5 最高提升 +4.9/+5.4。
- Interpretable Debiasing of Vision-Language Models for Social Fairness
-
提出 DeBiasLens,通过在 VLM 编码器上训练稀疏自编码器(SAE)来定位编码社会属性的"社会神经元",然后在推理时选择性去激活这些神经元以缓解偏见,在 CLIP 上降低 Max Skew 9-16%,在 InternVL2 上降低性别偏差比例 40-50%,同时保持通用性能。
- Intervention-Aware Multiscale Representation Learning from Imaging Phenomics and Perturbation Transcriptomics
-
用配对的扰动转录组(RNA-seq)作为"特权信息"在训练期指导显微图像编码器学习——通过一个"转录组条件教师 → 纯图像学生"的蒸馏框架,把药物作用的机制信号灌进图像表征,使得测试时只用显微图像就能对未见过的药物/基因扰动做 one-shot 迁移和药物-靶基因发现,显著优于自监督(MAE/DINO)和对齐(CLIP-style)基线。
- Intra-class Distribution-guided Generative Hashing with Neighbor Refinement for Cross-modal Retrieval
-
IDGH 不再用复杂生成器或简单插值来扩充跨模态哈希的训练样本,而是直接估计每个类别的"类内特征分布"(均值+协方差),再借相邻类信息把估计不准的协方差精修一遍,最后沿这些分布方向平移特征生成语义丰富的合成样本——即插即用、几乎零额外开销,就把哈希码的判别力做上去了。
- Is the Modality Gap a Bug or a Feature? A Robustness Perspective
-
本文从理论上证明:CLIP 等多模态对比模型出现的"模态间隙"(图像与文本被全局分隔)是初始化 + 对比损失共同造成的、与下游性能正交但与鲁棒性单调负相关的现象,因此可以用一个无需重训的后处理算法把一个模态沿间隙向量平移到另一模态,从而在不损失干净精度的前提下显著提升对噪声的鲁棒性。
- Is your VLM Sky-Ready? A Comprehensive Spatial Intelligence Benchmark for UAV Navigation
-
本文构建了首个面向无人机(UAV)视角的空间智能评测基准 SpatialSky-Bench(2 大类 13 个细粒度任务),配套 100 万样本的自动生成训练集 SpatialSky-Dataset,并用「SFT + GRPO 强化微调」训出专用模型 Sky-VLM,平均分 53.30,比最强基线 GPT-5(23.07)高 139.6%。
- IsoCLIP: Decomposing CLIP Projectors for Efficient Intra-modal Alignment
-
IsoCLIP 从理论上分析 CLIP 投影头的结构,发现余弦相似度计算中隐含一个模态间算子 \(\Psi = W_i^\top W_t\) 负责跨模态对齐,和一个模态内算子 \(\Psi_i = W_i^\top W_i\) 仅负责归一化但不促进模态内对齐;通过对 \(\Psi\) 的奇异值分解识别出近似各向同性(isotropic)的对齐子空间,去除各向异性方向后无需训练即可显著改善模态内检索和分类性能。
- Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild
-
提出 JALA 框架,通过联合对齐预测嵌入与逆动力学生成的潜在动作,构建统一的潜在动作空间,使 VLA 能同时从标注数据和未标注的野外人类视频中学习,配合 7.5M 样本的 UniHand-Mix 数据集显著提升机器人操作泛化性。
- Label What Matters: Modality-Balanced and Difficulty-Aware Multimodal Active Learning
-
针对多模态主动学习中"选样规则被固定在融合阶段、对模态价值和样本难度随训练动态变化无感知"的问题,本文提出 RL-MBA:把每轮选样建模成马尔可夫决策过程,用强化学习策略自适应地重平衡模态贡献(AMCB)并基于证据不确定性聚焦"有信息量的难样本"(EFDA),在 Food101/KineticsSound/VGGSound 上以更低标注预算同时提升分类精度与模态公平性。
- Language-driven Fine-grained Retrieval
-
LaFG 把细粒度图像检索(FGIR)的监督信号从语义稀疏的 one-hot 类名换成「属性级语言原型」——用 LLM 把类名展开成属性描述、用冻结 VLM 编码并聚类成数据集级属性词表、再为每类选 Top-K 属性聚合成原型来监督检索模型,从而建立跨类别细节的可比性,在 CUB / Cars / SOP 上刷 SOTA 并显著提升对未见类的泛化。
- Language-guided Frequency Modulation for Large Vision-Language Models
-
本文提出即插即用的 LFM:把 LVLM 喂给 LLM 之前的视觉细化从空间域搬到频域,用文本特征算出「强调图」选择性增强关键频带(高频对应局部细节、低频对应全局语境),不引入任何额外训练参数(只留一个轻量 MLP 投影器),在 GQA/MMB/MathVista 等多基准上稳定提升各种 LVLM。
- LASAR: Towards Spatio-temporal Reasoning with Latent Cognitive Map
-
LASAR 给具身智能体配了一套"双记忆"系统——逐帧的情景记忆 + 一张可查询的隐式认知地图,再用对比目标 ST-CRL 把地图"雕刻"成能编码拓扑/距离/方位关系的高层空间表征,从而在导航(VLN-CE)与零样本空间推理(VSI-Bench)上同时涨点 2%–3.5%。
- Learning Anchor in Dual Orthogonal Space for Fast Multi-view Clustering
-
提出 DOSFMVC,把大规模多视图聚类的锚点学习从"单一空间"扩展到"双正交空间"——既在锚点张成的空间里学锚,又引入以"锚定聚类中心"为基的额外正交空间协同学锚,并用锚点/原数据的聚类指示矩阵替代传统的一致锚图,在 7 个数据集(最大约 30 万样本)的 ACC/NMI/Purity/F1 上全面领先且保持线性复杂度。
- Learning complete and explainable visual representations from itemized text supervision
-
针对医学影像、遥感等"一张图配多条互不重叠的独立文字描述(itemized text)"的监督场景,本文提出 ItemizedCLIP,用一个掩码跨注意力模块生成"按文本条目调制"的视觉表征,并配套四个 SigLIP 式目标,强制做到"条目独立"和"表征完整",在四个真实医学/遥感域 + 一个合成域上零样本性能与细粒度可解释性都大幅超过 CLIP 系基线。
- Learning from Itself: Mining Internal Knowledge from Vision Language Models for Continual Learning
-
针对 CLIP 做持续学习时存在的「文本分布鸿沟」和「视觉/双编码器性能错配」两大病灶,本文提出 Learning from Itself(LfI):让冻结的 CLIP 给每张图优化生成自己的「伪标题」token 来补回预训练式的训练信号,再用一个临时视觉原型分类器与 CLIP 头互相自适应蒸馏,使强者多教、弱者多学,推理时只保留原始 CLIP——在多个持续学习基准上刷到 SOTA,且全程不依赖任何外部大模型。
- Learning to Focus and Precise Cropping: A Reinforcement Learning Framework with Information Gaps and Grounding Loss for MLLMs
-
针对"会用裁剪工具但其实没真看裁剪区域"的 agentic MLLM 痼疾,本文提出一个无需轨迹监督的两阶段纯 RL 框架:第一阶段用「信息差机制」把全局图压糊、逼模型必须依赖高清裁剪块才能答对;第二阶段用层级 bbox 标注 + grounding reward 把裁剪框对准,在 HR-Bench / V* 等高分辨率 VQA 上以 1,024 视觉 token 就超过别人用 16,384 token 的结果,且推理快 4–10 倍。
- Learning to See through Illumination Extremes with Event Streaming in Multimodal Large Language Models
-
针对多模态大模型在过曝/极暗场景下 RGB 信息不可逆退化、产生幻觉的问题,Event-MLLM 引入事件流作为互补模态,用一个从 DINOv2 分支学到的「光照指示器」自适应调控事件-RGB 融合,再用「光照矫正损失」把融合特征对齐到正常光照语义,使模型在 0.05×–20× 的极端亮度下仍能稳定推理与计数。
- Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection
-
提出 PROGRESS 框架,通过追踪 VLM 在自动发现的多模态概念集群上的学习进度来动态选择最有信息量的训练样本,仅用 16-20% 的标注数据就达到全数据 99-100% 的性能,且总训练时间更短。
- Lenses: Toward Polysemous Vision-Language Understanding
-
针对"一张图只有一种字面含义"的主流假设,本文构建了带五种"解读透镜"(字面 / 比喻 / 抽象 / 背景 / 情感)标注的 10.5 万图—73 万句数据集 Lenses,并让多模态大模型为每张图和每句话各吐出一组按透镜对齐的槽位嵌入、用"只允许同透镜相互匹配"的相似度做检索,在字面与非字面检索上同时大幅超过 CLIP / BLIP-2 / BGE-VL 等基线。
- LifeEval: A Multimodal Benchmark for Assistive AI in Egocentric Daily Life Tasks
-
LifeEval 构建了首个面向"第一人称、实时、任务导向"的多模态助手评测基准——用 591 段 Ego4D 视频切片 + 4075 条带推理链的问答对,从六个能力维度(感知/推理/检索/规划/安全/多轮协作)检验 26 个主流 MLLM 能否像一个贴身助手那样实时帮人完成日常任务,结果揭示了它们在动态推理和目标规划上的明显短板。
- Linguistic Priors for Visual Decoupling: Towards Symmetric Vision-Brain Alignment
-
针对脑信号与自然图像之间的"语义信息不对称",用物体级文本描述当语言先验去显式解耦图像中的前景物体与背景,把不对称的视觉-脑对齐变成语义对称对齐,在 THINGS-EEG / THINGS-MEG 零样本脑→图检索上刷新 SOTA。
- Linking Perception, Confidence and Accuracy in MLLMs
-
揭示 MLLM 的严重置信度失校准问题(视觉输入退化时准确率暴跌但置信度不变),提出 CDRL(基于原始-噪声图像对的置信度驱动 RL)进行感知敏感性训练,并利用校准后的置信度实现自适应测试时缩放(CA-TTS),在四个基准上平均提升 8.8%。
- LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
-
针对"当前多模态大模型几乎全是自回归范式、扩散路线尚未被验证"的空白,本文把视觉指令微调嫁接到掩码扩散语言模型 LLaDA 上,做出纯扩散的多模态大模型 LLaDA-V——靠双向注意力更好地捕捉视觉空间关系,在 18 个基准上不仅刷新纯扩散 MLLM 的 SOTA,还在相同训练数据下于 11 个任务上超过自回归基线 LLaMA3-V。
- LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models
-
针对VLM多模态多轮对话中的恶意意图隐蔽性、上下文风险累积和跨模态联合风险三大挑战,构建4,484个标注对话的MMDS数据集和基于MCTS的MMRT红队框架,提出LLaVAShield审计模型,在用户/助手两侧分别达到F1 95.71%/92.24%,大幅超越GPT-5-mini等基线。
- LLMind: Bio-inspired Training-free Adaptive Visual Representations for Vision-Language Models
-
受人眼中央凹编码和皮层放大机制启发,提出无需训练的自适应采样框架 LLMind,通过 Möbius 变换实现非均匀像素分配,并利用闭环语义反馈在测试时优化采样参数,在仅使用 1%-5% 像素的紧张预算下大幅超越均匀采样。
- LOREAL: Mitigating Low-Resolution Challenges in Vision-Language Models with Attribute-driven Prompt Self-Distillation
-
针对 VLM 在边缘端被迫吃低分辨率输入时性能骤降的现实问题,LOREAL 用 LLM 挖掘"分辨率鲁棒的语义属性"来填充 prompt,并搭一个"标准分辨率学生 + 低分辨率学生"互蒸馏的框架,只训练少量 meta-net 就让 CoOp/MaPLe/MMA/MMRL 等主流方法在低分辨率下的调和均值显著回升(最高 +19.95%)。
- Love Me, Love My Label: Rethinking the Role of Labels in Prompt Retrieval for Visual In-Context Learning
-
揭示了视觉上下文学习(VICL)中 prompt 检索忽略标签信息导致标签不一致的问题,提出 LaPR 框架通过图像-标签联合表示和混合专家机制实现标签感知的 prompt 检索,在前景分割、目标检测和图像着色任务上一致超越 SOTA。
- LVLM-Aided Alignment of Task-Specific Vision Models
-
用一个大视觉语言模型(LVLM)当"翻译官",把小型专用视觉模型的解释图翻成自然语言、再把人类类别级描述翻成逐样本的纠错掩码,从而在不需要逐图精细标注的情况下让小模型摆脱对虚假特征(shortcut)的依赖,在合成与真实医学数据上显著提升最差组准确率。
- M3DocDep: Multi-modal, Multi-page, Multi-document Dependency Chunking with Large Vision-Language Models
-
M3DocDep 用冻结的大视觉语言模型(LVLM)把长篇多页工业文档的版面块编码成多模态表示,先用 biaffine 打分 + MST 解码恢复一棵全局合法的"父子依存树",再沿着这棵树切出保留章节层级和图表-标题绑定的检索块,从而在层级恢复(STEDS +28.5~39.6%)、检索(nDCG +1.1~15.3%)和问答(ANLS +4.5~15.3%)三个环节同时提升文档 RAG 效果。
- M3Grounder: Mask-Based Multi-Span and Multi-Granular Grounding for Document QA
-
M3Grounder 把文档问答的"答案定位"从粗糙的边界框改造成像素级分割:VLM 一边生成答案、一边吐出
[GROUND]token,每个 token 经短语 / 行 / 块三个 MLP 头驱动一个可提示分割模块,产出嵌套的多粒度证据掩码,并在四个基准上刷到 SOTA。 - M4-RAG: A Massive-Scale Multilingual Multi-Cultural Multimodal RAG
-
提出首个大规模多语言多文化多模态 RAG 评估框架 M4-RAG,覆盖 42 种语言和 189 个国家的 80K+ 文化 VQA 实例,系统性揭示了 RAG 对小模型有效但无法随模型规模正向扩展、跨语言检索存在严重性能退化的关键发现。
- MarkushGrapher-2: End-to-end Multimodal Recognition of Chemical Structures
-
MarkushGrapher-2 提出了一个端到端多模态化学结构识别模型,通过专用化学 OCR 模块联合编码图像、文本和布局信息,结合两阶段训练策略(先适配 OCSR 特征再融合多模态编码),在 Markush 结构识别上大幅超越现有方法(M2S 准确率 56% vs 38%),同时保持分子结构识别的竞争力。
- Mask to Align, Weight to Disambiguate: Reliable Unsupervised Cross-Modal Hashing with Masked-Weight Contrast
-
针对无监督跨模态哈希里"部分对齐 + 语义歧义"两大顽疾,UWMCH 在融合前对 token 做掩码以逼模型学互补语义,再用语义亲和度给对比损失重新加权来压制假负样本,并辅以双尺度语义正则稳住哈希空间,在三个检索基准的 24 个设置里 21 个拿到最优 mAP。
- MCHDoc: A Comprehensive Benchmark for Reading Multi-Carrier Chinese Historical Documents
-
MCHDoc 把跨越 3000 多年、来自六种书写载体(古籍纸、简牍、书法宣纸、碑刻、缣帛、甲骨)的 15,724 张高分辨率历史文献整理成一个统一基准,模仿专家"先识别再考据校正"的工作流,设计了页级识别、字级识别、纯 LLM 后校正、知识库增强后校正四类任务,系统评测 20 多个开闭源 MLLM/LLM,发现即便顶级模型也很难做到跨载体泛化。
- Mechanisms of Object Localization in Vision-Language Models
-
作者用一套机制可解释性工具(token 消融、注意力 knockout、因果中介分析)解剖了 LLaVA-1.5 与 InternVL-3.5 内部到底"怎么"把物体定位出来,发现定位靠的是一种"容器化"机制——物体区域的 token 集体框定空间范围,其内部语义排布几乎无关——并且整个因果链只由极少数注意力头承担,分类与定位用的是基本不重叠的两组专用头,且定位在因果上依赖分类的中间结果,呈现"先识别、后定位"的顺序计算。
- Medic-AD: Towards Medical Vision-Language Model's Clinical Intelligence
-
Medic-AD 通过三阶段渐进式训练框架——异常检测(
token)、时序差异推理( token)、可视化解释(热力图),将通用医学 VLM 升级为具备病灶检测、症状追踪和视觉可解释性的临床智能模型,在多项医学任务上达到 SOTA。 - MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals
-
MERLIN 把"原生 MLLM"范式搬到电磁(IQ)信号领域:先构建 13.4 万对信号-文本数据(EM-134K)和覆盖感知/推理的 EM-Bench 基准,再用"高 SNR 教师→低 SNR 学生"的两阶段蒸馏框架(核心是把含噪特征投影回信号子空间的 DSM 模块),让模型在信噪比低于 0 dB 的噪声环境下仍保持鲁棒,在 EM-Bench 上全面超过 GPT-5 / Claude-4 等通用大模型。
- MeteorPred: A Meteorological Multimodal Large Model and Dataset for Severe Weather Event Prediction
-
本文构建了首个大规模灾害天气预警多模态数据集 MP-Bench(42 万对 ERA5 气象场+预警文本),并提出能直接吃 4D 气象张量的多模态大模型 MMLM——通过三个分别作用于时间、空间、垂直气压层的即插即用融合模块,把高维气象数据对齐到 LLM 生成自然语言预警。
- Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs
-
指出现有基于 VLM 的 OOD 检测方法使用模态内距离(文本-文本或图像-图像)选择负文本,与 CLIP 优化的跨模态距离不一致,提出 InterNeg 从文本和视觉两个视角系统地利用跨模态距离,在 ImageNet 上实现 FPR95 降低 3.47%。
- MM-ReCoder: Advancing Chart-to-Code Generation with Reinforcement Learning and Self-Correction
-
提出 MM-ReCoder,首个具备自我纠错能力的图表转代码多模态 LLM,通过两阶段多轮 GRPO 强化学习(先共享首轮优化纠错能力,再全轨迹优化编码能力),在 ChartMimic 上以仅 7B 参数达到 86.5% low-level score,媲美 Qwen3-VL-235B。
- MMLandmarks: a Cross-View Instance-Level Benchmark for Geo-Spatial Understanding
-
MMLandmarks 构建了首个在「地面图 / 航拍图 / 文本 / GPS」四模态间做到逐地标一一对应的大规模实例级地理空间基准(美国 18,557 个地标、32.9 万地面图 + 19.7 万航拍图),并证明现有专用模型和通用基础模型都解不好它,再用一个 CLIP 风格的简单四模态对比学习 baseline(MMCLIP)说明「在这种数据上训练能一套模型横扫多任务」。
- MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection
-
作者指出现有多模态讽刺检测数据集/方法全是「单图」、抓不住跨图对比触发的讽刺,于是构建了首个全部由多图样本(每条 2–4 图)组成的真实世界基准 MMSD3.0,并配套提出跨图推理模型 CIRM(双阶段桥接 + 相关性引导融合),在 MMSD / MMSD2.0 / MMSD3.0 上都拿到 SOTA。
- Modeling Cross-vision Synergy for Unified Large Vision Model
-
PolyV 用「动态路由的稀疏 MoE + 协同感知训练」把图像/视频/3D 三种视觉模态拧成一个统一大视觉模型,让模型能像「联觉」一样把视频的时序先验、3D 的几何先验迁移去补静态图像的推理,在 10 个 benchmark 上相对骨干 Qwen2.5-VL-7B 平均提升超 10%。
- MODIX: A Training-Free Multimodal Information-Driven Positional Index Scaling for Vision-Language Models
-
MODIX 把"位置粒度"当成一种隐式资源,用协方差熵(模态内信息密度)+ 跨模态对齐(模态间交互)算出文本/视觉两种模态的信息贡献,据此只放大视觉 token 的 RoPE 步长、保持文本步长为 1,无需训练、不改参数、只在推理前重写一遍位置索引,就让 VLM 在多个 benchmark 上稳定涨点。
- Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
-
Molmo2 是一个完全开放(权重、数据、代码、训练配方全开,且数据不从任何闭源 VLM 蒸馏)的视频-语言模型家族,靠自建的 9 个新数据集 + 三阶段训练,把"在视频里用点和轨迹做 grounding"这一连闭源模型都欠缺的能力补齐,8B 模型在视频计数、指点、跟踪上大幅超越同级开源模型,部分任务甚至压过 Gemini 3 Pro。
- MOON2.0: Dynamic Modality-balanced Multimodal Representation Learning for E-commerce Product Understanding
-
针对电商多模态表征学习中"固定比例混合训练导致模态失衡、只建模商品间关系而忽略商品内图文对齐、原始数据噪声大"三大痛点,MOON2.0 用一个模态驱动 MoE 做端到端多模态联合学习、用双层对齐同时拉齐商品间与商品内关系、再配图文协同增强与动态样本过滤净化数据,并发布了 640 万规模的 MBE2.0 基准,在多项电商检索/分类/属性预测任务上零样本刷到 SOTA。
- More than the Sum: Panorama-Language Models for Adverse Omni-Scenes
-
提出 Panorama-Language Modeling(PLM)范式和 PanoVQA 大规模全景 VQA 数据集(653K QA 对),设计即插即用的全景稀疏注意力模块让现有 VLM 无需重训练即可处理等距柱状投影全景图,在遮挡和事故等恶劣场景下实现优于多视角拼接方案的全局推理。
- Mostly Text, Smart Visuals: Asymmetric Text-Visual Pruning for Large Vision-Language Models
-
通过 MoT 探针实验揭示 LVLM 中文本通路和视觉通路对剪枝的不对称敏感性——文本通路高度敏感必须用文本 token 校准、视觉通路高度冗余可承受 60% 稀疏度,据此提出 ATV-Pruning 使用全部文本 token + 逐层自适应选择的少量视觉 token 构建校准池。
- MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding
-
提出 MSJoE 框架,将 MLLM 和轻量关键帧采样器通过强化学习联合进化——MLLM 生成视觉查询引导帧检索,1D U-Net 采样器从 CLIP 相似度矩阵中学习选帧,两者端到端联合优化实现长视频问答中 +8% 的准确率提升。
- MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model
-
MuCo 提出了一种基于多轮对话的对比学习框架,利用 MLLM 的对话能力在单次前向传播中同时处理多个关联的 query-target 对,大幅提升训练效率,并在 MMEB 和 M-BEIR 检索基准上取得 SOTA 性能。
- Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following
-
构建首个评估多模态 Judge 模型多准则遵循能力的基准 Multi-Crit,包含准则级人类标注和偏好冲突样本,配合 PAcc/TOS/CMR 三个新指标,全面评估 25 个 LMM 并揭示闭源最强模型在开放生成任务上仅 32.78% 的多准则一致性。
- Multi-Hierarchical Contrastive Spectral Fusion for Multi-View Clustering
-
MCSF 把可微的深度谱嵌入塞进多视图聚类的编码器里,再用一个分三层级(视图内结构保持 / 视图-共识对齐 / 共识结构精炼)的对比损失把多个视图融成一个"结构感知"的共识表示,在 8 个 benchmark 上刷出明显领先的聚类精度。
- Multi-Metric Representation Learning Strategy Based on Clustering for Fine-Grained Multimodal Sentiment Analysis
-
针对多模态情感分析中"不同模态融到同一表征空间后情感类中心相互重叠、细粒度边界模糊"的问题,MMRest 先把三模态表征做 k-means 情感聚类、再用一个全局度量 + 各簇局部度量的多度量学习拉近同情感、推开异情感,最后用投影与决策级融合(PDLF)把度量得到的几何投影偏置与单模态预测分数相加,在 CMU-MOSI/MOSEI 上以约 Transformer 方法 30% 的参数量超过 SOTA。
- Multi-Modal Image Fusion via Intervention-Stable Feature Learning
-
提出一个受因果推理启发的多模态图像融合框架,通过三种结构化干预策略(互补掩码、随机掩码、模态丢弃)探测模态间的真实依赖关系,并设计因果特征整合器 (CFI) 学习干预稳定特征,在 MSRS 上 PSNR 达到 66.02、AG 达到 4.129,目标检测 mAP 达到 0.821。
- Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery
-
提出 SSR²-GCD 框架,通过半监督编码率减少(Semi-Supervised Rate Reduction)损失学习模态内均匀压缩的结构化表征,并结合检索式文本聚合策略增强跨模态知识迁移,在8个数据集上超越现有多模态GCD方法。
- Multi-modal Test-time Adaptation via Adaptive Probabilistic Gaussian Calibration
-
针对多模态测试时自适应(TTA)中「模态分布非对称」导致类条件分布建模失效的问题,AdaPGC 用类专属协方差的概率高斯模型显式建模每个类的特征分布、并用基于对称 KL 的对比矫正抑制受损模态的偏置,在 Kinetics50-C / VGGSound-C 上多数损坏设定下取得 SOTA。
- Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models
-
针对 MLLM 只会单图空间推理、连左右都分不清的问题,本文用已标注的 3D/4D 场景数据集自动生成 2700 万条多帧空间问答(MultiSPA),把深度、视觉对应、动态感知三大基础能力灌进 InternVL2,训出的 Multi-SpatialMLLM 在自建 benchmark 上平均比基座涨 36%,甚至追平闭源大模型和专用 3D 模型。
- Multi-speaker Attention Alignment for Multimodal Social Interaction
-
本文发现多模态大模型(MLLM)在多人对话场景里"说话人的文本 token 与其视觉区域"的跨模态注意力严重错位,于是提出一种无需新增参数、无需改架构的注意力对齐方法:先动态挑出真正负责视觉接地的注意力头,再往这些头里注入一个由说话人位置算出的自适应偏置,把同一说话人的视觉特征和台词"焊"在一起,在三个 MLLM、三个数据集上平均提升约 2~3% 并刷新多项 SOTA。
- Multimodal Continual Instruction Tuning with Dynamic Gradient Guidance
-
把多模态持续指令微调(MCIT)中的灾难性遗忘重新定义为「新任务训练时缺失了旧任务梯度」,DGG 用「当前参数指向旧任务最优参数的方向向量」近似旧任务梯度、与有限重放缓冲的真实梯度相加、再用伯努利采样动态调控更新频率,不扩展模型就在 VQAv2 / UCIT 上取得 SOTA。
- Multimodal Distribution Matching for Vision-Language Dataset Distillation
-
本文提出 MDM(Multimodal Distribution Matching),一个面向图文数据集蒸馏的几何感知分布匹配框架——在数据、模型、损失三个层面同时下手(联合空间聚类初始化 + 角度引导的权重插值初始化 + 单位超球面上的测地核能量匹配),用单层优化直接对齐真实与合成数据的联合分布,从而把蒸馏成本相比基于训练轨迹的 SOTA(LoRS)降低高达 98%,同时在跨架构泛化上反超基线。
- Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration
-
本文提出 CPSC(Conformal Predictive Self-Calibration),把模态不平衡和噪声污染这两个看似独立的"低质量数据"问题归因于同一个根源——模型对各模态/各样本可靠性的预测不确定性,并用共形预测(CP)在训练过程中实时生成可靠性分数,同时在特征层(挑出可靠特征分量重组)和梯度层(按样本可靠性重加权梯度)做自校准,在 6 个数据集的不平衡与噪声设置下都刷新了 SOTA。
- Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image
-
MMRB2 是首个面向「omni 模型」(能在同一序列里任意交错读写文本与图像)的奖励模型评测基准,横跨文生图、图像编辑、交错生成、多模态推理四大任务,每任务 1000 对专家标注偏好对,揭示出当前最强裁判(Gemini 3 Pro 仅 76% 平均一致率)与人类(>90%)之间仍有显著差距。
- µVLM: A Vision Language Model for µNPUs
-
µVLM 是首个专为「µNPU」(MCU 级、mW 功耗、内存仅几十 MB 的微型神经处理单元)设计的视觉-语言模型,用全程 NPU 友好算子的 OverMod 编码器 + AttSSM 解码器替代不被硬件支持的自注意力,在 COCO Karpathy 上拿到 117.8 CIDEr 的同时,首次在 µNPU 上实现毫秒级 VLM 推理(TBT 21 ms、功耗 <300 mW)。
- MVLM: Template-Free Tracking via Vision-Language Margin Confidence and Memory-Gated Tracking
-
MVLM 提出一种只用自然语言、不需要任何初始框或视觉模板的单目标跟踪范式:靠视觉-语言相关性定位目标,并设计一个融合"相关性间隔 + 分类间隔 + 时序记忆"的置信度,动态在"紧凑 ROI 局部搜索"和"全图重定位"之间切换,在 TNL2K / LaSOT / OTB99 / MGIT 四个基准上取得纯语言跟踪 SOTA。
- MVP: Multiple View Prediction Improves GUI Grounding
-
针对 GUI 定位模型「截图轻微扰动就让坐标预测剧烈跳变」的不稳定性,提出免训练的 MVP 框架:用指令-视觉注意力裁出多个子视图各自独立预测,再把这些坐标做空间聚类、取最大簇中心作为最终输出,在 ScreenSpot-Pro 上把 Qwen3VL-32B 从 55.3 拉到 74.0。
- Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy
-
Nano-EmoX 提出认知启发的三级情感任务层次(感知→理解→交互),是首个以2.2B紧凑参数统一六项核心情感任务的多模态语言模型,通过P2E渐进式训练框架从基础感知逐步培养到高层共情能力。
- Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning
-
提出 Narrative Weaver 框架,结合 MLLM 的叙事规划与扩散模型的精细生成,通过可学习查询和动态 Memory Bank 实现多模态条件下的长程视觉一致性生成,并构建首个电商广告视频分镜数据集 EAVSD(330K+ 图像)。
- No Hard Negatives Required: Concept Centric Learning Leads to Compositionality without Degrading Zero-shot Capabilities of Contrastive Models
-
C2LIP 提出不依赖 hard negatives 的对比学习微调方案:通过将文本拆解为名词短语概念并引入跨模态注意力池化,在 SugarCrepe/SugarCrepe++ 组合性基准上达到 SOTA,同时保持甚至提升零样本和检索性能。
- Noise-Aware Few-Shot Learning through Bi-directional Multi-View Prompt Alignment
-
提出NA-MVP框架,通过双向(clean + noise-aware)多视图prompt设计配合非平衡最优传输(UOT)实现细粒度patch-to-prompt对齐,并用经典OT对识别出的噪声样本做选择性标签修正,在噪声小样本学习场景下持续超越SOTA。
- Octopus: History-Free Gradient Orthogonalization for Continual Learning in Multimodal Large Language Models
-
针对多模态大模型持续学习中"既不想存历史数据、又要防灾难性遗忘"的难题,Octopus 证明比参数正交更该做的是梯度正交,提出只用历史权重(不用历史数据)的 History-Free 梯度正交(HiFGO),再配一个先自由适配后约束精修的两阶段微调,在 UCIT 基准上 Avg / Last 分别超过前 SOTA 2.14% / 6.82%。
- OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models
-
提出 OddGridBench 评估 MLLM 的细粒度视觉差异感知能力(找出网格中与其他元素在颜色/大小/旋转/位置上不同的那个),发现所有 MLLM 远低于人类水平,进而提出 OddGrid-GRPO(课程学习 + 距离感知奖励)显著提升模型的视觉辨别力。
- OmniFood8K: Single-Image Nutrition Estimation via Hierarchical Frequency-Aligned Fusion
-
构建了涵盖 8036 个样本的中式食物多模态营养数据集 OmniFood8K 和 115K 合成数据集 NutritionSynth-115K,并提出端到端框架通过 Scale-Shift 深度适配器、频域对齐融合和掩码预测头从单张 RGB 图像预测营养信息。
- On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models
-
揭示了动态 MoE 持续学习中"token 困境"——新任务数据中的模糊和旧 token 对新知识贡献微弱却会导致路由漂移和灾难性遗忘,提出 LLaVA-DyMoE 通过 Token Assignment Guidance 和 Routing Score Regularization 缓解路由漂移,在 CoIN 基准上 MFN 提升超 7%,遗忘降低 12%。
- One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework
-
把零样本图像描述从"以整图为单位"改成"以 patch 为原子单位",用冻结的稠密视觉骨干(DINOv2 系)抽 patch 特征、按区域做无参聚合、再喂给纯文本训练的解码器,从而在不用任何区域级标注的前提下,用一个统一框架同时干掉单 patch / 框 / 鼠标轨迹 / 整图等多粒度描述任务。
- OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation
-
OneCAT 把"理解 + 生成 + 编辑"塞进同一个 decoder-only Transformer,靠一个按模态硬路由的 MoE(文本/理解/生成三类专家)实现 encoder-free 推理,并首次把多尺度自回归生成搬进 LLM(配 Scale-Aware Adapter),在统一模型里同时拿到 SOTA 性能和约 10× 于扩散模型的生成速度。
- ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models
-
ORIC 把"物体出现在不该出现的场景 / 该出现却缺席"这种上下文不一致形式化为一种不确定性来源,用 LLM 引导和 CLIP 引导两种采样策略从 MSCOCO 造出专门考验这种情形的二分类基准 ORIC-Bench,揭示 18 个主流 LVLM 在此场景下宏 F1 从近满分跌到约 60–80,并用 600 条 ORIC 风格样本做 Visual-RFT 微调把表现拉回来且更贴近人类判断。
- ORION: ORthonormal Text Encoding for Universal VLM Adaptation
-
ORION 只用类别名(不碰任何图像)对 CLIP 文本编码器做 LoRA 微调,损失里加一项把各类文本原型推向两两正交的 Frobenius 惩罚、同时约束不偏离原始零样本原型,造出一组角度更分散、判别力更强的"通用文本分类器",作为即插即用替换品在零样本、少样本、测试时自适应三种设定、11 个数据集、3 个 backbone 上一致涨点。
- P-Flow: Prompting Visual Effects Generation
-
针对「爆炸、挤压、坍塌等动态视觉特效难以靠一句文本 prompt 精确描述」的痛点,P-Flow 提出一个免训练框架:把文本 prompt 当作优化变量,用视觉语言模型(VLM)对比参考视频与生成视频的差异、迭代改写 prompt,配合噪声先验增强和历史轨迹维护,让冻结的视频生成模型在零微调下复现目标特效,在 T2V/I2V 上的 FID-VID、FVD、Dynamic Degree 及人评均超越基线。
- PACT: Phase-Like Transition Constraints in Adapter-Based Continual Learning of Vision-Language Models
-
针对"用正交约束隔离各任务 adapter 会压制跨任务知识共享"的痛点,作者从 PAC-Bayes 理论推导出一个后收敛阶段应满足的"相像转变约束(PACT)":让 adapter 像水的相变一样在"冻结(保历史)"与"融化(适应新任务)"两个状态间平滑过渡而非硬阈值切换,通过双分支 ViT + 稳定 adapter 初始化(SAI)+ 先验锚定(PA)落地,在多种持续学习设定上超过 SOTA,且可训练参数比标准 adapter 基线少 36.96%。
- Parameter-Efficient Adaptation for MLLMs via Implicit Modality Decomposition
-
针对 LoRA 微调多模态大模型时"文本模态过度主导参数更新"的失衡问题,本文提出 IMoD:把单个 LoRA 矩阵隐式划分成文本专属、非文本专属、共享三块,再用两条直接注入反向传播的梯度级约束去引导它们各司其职,在不增加任何可训练参数、保持权重可合并的前提下,音视文任务平均提升约 3.3%。
- PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs
-
PAS 把 Video LLM 时间编码的不稳定诊断成"对一条带高频纹波的逆傅里叶时间核采样",提出免训练的多头反相相位平滑——给不同注意力头的 query 加上小幅相反的时间相位偏移再正常聚合,相当于做一次受控滑动平均把纹波抹平,在九个视频基准上稳定涨点且几乎零额外开销。
- Personalized Image Descriptions from Attention Sequences
-
DEPER 第一次把"每个人怎么看图"(注意力扫视轨迹)当成个性化信号,蒸馏出一个跨图像稳定的主体嵌入,再用一个轻量 adapter 把它注入冻结的 Qwen2-VL,让模型在不需要测试时注视数据、不需要逐人微调的情况下,生成符合个人风格的图像描述,四个数据集平均提升约 24%。
- PersonaVLM: Long-Term Personalized Multimodal LLMs
-
本文提出 PersonaVLM,一个面向长期个性化的多模态智能体框架,通过主动记忆管理(四类记忆数据库)、多步推理检索和动量式人格演化机制,将通用 MLLM 转化为能适应用户偏好变化的个性化助手,在 128K 上下文下超越 GPT-4o 5.2%。
- Phrase-Grounding-Aware Supervised Fine-Tuning for Chart Recognition via Side-Masked Attention
-
在 VLM 微调阶段插入一个无新增参数的"侧掩码注意力模块"(SMAM),把答案里每个短语对齐到图表上的文字区域、监督该区域的 logit 贡献,从而让模型在做图表问答时把生成"接地"到正确的视觉区域,在 ChartQA / C2T 等多个基准上稳定超过标准 SFT。
- PhyCritic: Multimodal Critic Models for Physical AI
-
PhyCritic 用「物理技能预热 + 自参照评审微调」两阶段 RLVR 管线,把一个 7B 多模态模型训成专评物理 AI(感知/因果/规划)任务的评审模型——核心是让评审模型「先自己解题、再拿自解当参照去判两个回答谁更好」,在新建的 PhyCritic-Bench 上拿到开源 7B/8B 最佳,同时作为策略模型也提升了物理推理能力。
- Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision
-
提出 DeepfakeJudge 框架,通过 bootstrapped generator-evaluator 流程将人类标注的推理监督扩展为大规模结构化评分数据,训练出 3B/7B 视觉语言模型作为 deepfake 检测推理质量的自动评判者,在 pointwise 和 pairwise 评估上均达到与人类高度一致的水平。
- POGA: Paraphrased and Oppositional Graph Alignment for Fine-Grained Cross-Modal Retrieval
-
POGA 把图文都解析成结构化场景图,用 LLM 自动生成"复述正样本 + 反事实负样本"并提取它们的差异信息,再用一个跨全局/节点/关系/焦点四个粒度的复合损失训练,从而在长文本细粒度检索上既看清物体属性又能否决"语义相近但事实错误"的描述。
- Point Cloud as a Foreign Language for Multi-modal Large Language Model
-
SAGE 是首个无需预训练 3D 编码器的端到端 3D 多模态大模型:它用一个轻量「3D tokenizer」把原始点云通过几何采样 + 向量量化离散成 token,像「外语」一样直接扩进 LLM 词表,再配一套语义对齐奖励的 GRPO 偏好优化,在 3D 描述/分类/问答上超过依赖大编码器的 PointLLM、ShapeLLM,同时推理快 2.3 倍、对点云分辨率变化更鲁棒。
- PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models
-
提出 PointAlign,在 3D VLM 的 LLM 中间层对点云 token 施加特征级对齐正则化(与 Q-Former 输出对齐),仅训练轻量对齐投影器和 LoRA 适配器,即可有效防止几何信息在语言建模过程中退化,在开放词汇分类上提升 7.50pp。
- Pointing at Parts: Training-Free Few-Shot Grounding in Multimodal LLMs
-
POP 是一个免训练、即插即用的方法,把 MLLM 的语言引导注意力图(提供语义和指代能力但粗糙)和 DINOv3 自监督特征的双向视觉对应(精确但多目标时分不清)做逐元素相乘融合,让 MLLM 在少样本下实现部件级(如「笔记本的键盘」)而非仅实例级的精确指点,1-shot 在三个数据集上平均涨最多 8.9 分、3-shot 涨 16.4 分,连本来不会指点的 MLLM 也能涨最多 30.9 分。
- PosterIQ: A Design Perspective Benchmark for Poster Understanding and Generation
-
本文提出 PosterIQ,一个面向海报设计的综合基准,包含 7,765 条理解标注和 822 条生成提示,覆盖 OCR、字体感知、布局推理、设计意图理解和组合感知生成等 24 类任务,系统评估了 MLLM 和扩散模型在设计认知方面的差距。
- PowerCLIP: Powerset Alignment for Contrastive Pre-Training
-
PowerCLIP 把"图像区域子集的幂集"和"文本句法树短语"做穷举的局部到全局对齐,再用线性复杂度的非线性聚合器(NLA)把幂集对齐的指数级开销降到 \(O(M)\),在 28 个零样本基准上 22 个超过现有 CLIP 类方法,尤其在组合性与鲁棒性上提升明显。
- PP-OCRv5: A Specialized 5M-Parameter Model Rivaling Billion-Parameter Vision-Language Models on OCR Tasks
-
PP-OCRv5 不靠堆参数,而是用一套"数据为中心"的方法论——沿难度、准确度、多样性三个维度系统筛选并扩展训练数据——把一个仅 5M 参数的两阶段 OCR 系统训到能与百亿乃至千亿参数 VLM 在标准 OCR 基准上掰手腕,同时在定位精度、幻觉抑制和算力成本上全面占优。
- Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models
-
本文系统诊断了MLLM中LLM中间层视觉表征在全局功能和patch语义结构两个层面的退化现象,揭示其本质是纯文本生成目标下的"视觉牺牲",并提出Predictive Regularization (PRe) 通过让退化的中间层特征预测初始视觉特征来缓解退化,在多个VL基准上取得一致提升。
- Prime Once, then Reprogram Locally: An Efficient Alternative to Black-Box Service Model Adaptation
-
本文提出AReS方法,用单次API查询预热本地编码器代替传统零阶优化(ZOO)的持续API调用,在GPT-4o上获得+27.8%提升(ZOO方法几乎无效),同时将API调用量减少99.99%以上,实现了无成本推理。
- Probabilistic Prompt Adaptation for Unified Image Aesthetics and Quality Assessment
-
PPA 把"用哪句文本 prompt 来评分"当成一个隐变量,对一池由 LLM 预采样的对立 prompt 做概率加权边缘化,从而在只用 (任务, 图像, 分数) 三元组、不需要任何 prompt/属性标注的情况下,同时学到一个高精度的任务打分器和一个可被任意文本 prompt 控制的通用美学/质量评估器。
- ProM3E: Probabilistic Masked MultiModal Embedding Model for Ecology
-
ProM3E 用一个"先对齐再融合"的两阶段框架,在嵌入空间里训练一个掩码变分自编码器(MVAE),从少量可见模态推断缺失模态的高斯分布表示,从而支持任意到任意的模态生成、模态反演检索,以及"该融合哪些模态"的不确定性分析,在生态学多模态任务上全面超越 TaxaBind。
- ProSoftArena: Benchmarking Hierarchical Capabilities of Multi-modal Agents in Professional Software Environments
-
ProSoftArena 是首个面向专业软件(CAD、ChemDraw、ArcGIS、Photoshop 等 13 款)的多模态智能体基准,它把智能体能力划成 L1–L5 五级,在真实 Windows 虚拟机里用执行结果自动判分,并独创"人在回路"评测,结果显示最强智能体在软件级任务(L2)成功率仅 20.6%、跨软件工作流(L3)几乎全军覆没。
- Protect to Adapt: Orthogonal Subspace Control with Ranked Negative-Prompt Curriculum for Few-Shot Action Recognition
-
把 CLIP 适配到少样本动作识别(FSAR)时,作者用「正交子空间控制(OSC)」把 LoRA 更新约束到预训练权重主子空间的正交补里,避免破坏通用语义、抑制灾难性遗忘;再用「排序负提示课程(RNC)」让 LLM 生成由易到难、经校验器过滤的类内难负样本去拉大决策边界——只训 2% 参数就在 5 个 FSAR 基准上刷到 SOTA。
- Prototype-as-Prompt: Multimodal Sentiment Prototypes Endowing Large Language Models the Capability to Perform Multimodal Sentiment Analysis
-
这篇论文提出 Prototype-as-Prompt(PaP),把音视频模态压缩成一组带显式情感语义的"情感原型"当作软提示喂给冻结的 LLM 做多模态情感分析,靠情感监督、跨模态对齐和多样性约束让原型真正编码情感含义,仅用 0.09%–0.26% 的可训练参数就在四个数据集、三种 LLM 上超过此前 SOTA。
- Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment
-
Proxy3D 把视频帧的语义特征 + 几何点云按"语义组"聚类成一组紧凑的 3D 代理(proxy)token,再用 SpaceSpan 数据集做多阶段对齐训练,让 VLM 仅用 700 个视觉 token(不到对手 1/10)就在 3D 问答、视觉定位、空间推理上做到与 SOTA 相当甚至更好的水平。
- Quota-Calibrated Fine-Grained Alignment with Context-Aware Marginals for Text-based Person Retrieval
-
针对"文本-行人检索"里词与图像区域的细粒度对齐问题,本文提出无参数、即插即用的训练正则 QC-Align:用一个无参数的上下文感知边际估计器(CAME)给每个词/区域动态分配"匹配配额",再用配额校准的熵正则最优传输(QCT,配 Sinkhorn 散度防塌缩)在配额约束下求解多对多对应,从而抑制注意力过度集中和误分配;它不需要细粒度标注、不增加推理开销,在三个主流基准上稳定涨点,尤其在小数据与跨域场景下提升更明显。
- R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment
-
R4-CGQA 针对"计算机图形(CG)图像质量评估缺乏可解释文本描述、且 VLM 直接评判 CG 质量不够准"的问题,先构建首个带六维质量描述的 3.5K CG 数据集,再提出一个内容相似 + 质量相似双流检索框架——免微调地把视觉相似 CG 图的质量描述当作示例喂给 VLM,在 LLaVA、Llama 3.2-V、Qwen2.5-VL 等多个 VLM 上一致提升 CG 质量评估能力。
- Re-evaluating Continual VQA: Toward Fair and Robust Evaluation for Multimodal Continual Learning
-
本文指出现有持续 VQA 基准存在"跨任务共享答案词表"和"任务内训练/测试答案分布相同"两个结构性缺陷,会高估抗遗忘能力,于是重建了强制答案空间逐 token 互斥、并引入任务内分布漂移的 UCo-VQA 基准;同时提出 MaDQ——只回放历史问题、配合双层蒸馏与图文匹配正则的参数高效方法,在去偏后的更难设定下取得 SOTA。
- RE-VLM: Event-Augmented Vision-Language Model for Scene Understanding
-
针对"常规 RGB 在低光/高动态/快速运动下退化、纯事件流又缺颜色纹理"的痛点,本文提出首个 RGB-Event 双流视觉语言模型 RE-VLM,用并行 RGB/事件编码器 + 三阶段渐进对齐把异构视觉特征对到语言空间,并用图驱动、退化自适应的数据管线把同步 RGB-Event 流转成可核验的场景图来批量合成字幕与问答,在字幕与 VQA 上优于参数相当甚至更大的 RGB-only / event-only 模型,恶劣光照下增益尤其明显。
- RealBirdID: Benchmarking Bird Species Identification in the Era of MLLMs
-
RealBirdID 是一个面向「答得出就给物种、答不出就给理由」的细粒度鸟类识别基准:它从 iNaturalist 真实争议样本里挖出 3.4k 张「不可答」图片(标注上「需要叫声 / 角度遮挡 / 画质太差」三类拒答理由)配上同属的「可答」样本,并配套三套指标,结果发现 GPT-5、Gemini-2.5 Pro 等顶尖 MLLM 在物种级准确率不足 13%、几乎无法区分可答与不可答、即使拒答理由也大多给错。
- ReBaPL: Repulsive Bayesian Prompt Learning
-
ReBaPL 把 CLIP 的 prompt 学习从"找一个最优解"改成"用循环式 SGHMC 从后验里采一组多样的好 prompt",并在表征空间用 MMD/Wasserstein 度量加一个"排斥力"防止采样塌缩到单一模式,从而以即插即用的方式给任意 MLE prompt 学习方法(MaPLe、MMRL)加上贝叶斯外壳,显著改善 base-to-novel、跨数据集与域泛化。
- ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval
-
揭示了将生成式MLLM适配为判别式检索器时的"能力退化"现象(Capability Degradation),提出ReCALL框架通过诊断检索器盲点→利用基座MLLM的CoT推理生成纠正性三元组→分组对比精炼三阶段管线,有效恢复退化的细粒度组合推理能力,在CIRR上R@1达55.52%、FashionIQ上R@10达57.04%。
- ReCoFuse: Ultra-Robust Image Fusion via Restorative Multi-Modal Diffusion Reciprocal Coupling
-
ReCoFuse 把红外-可见光图像融合中的"信息恢复"和"信息融合"重新定义为互相增强的关系,用扩散模块(DiM)做双分支恢复、用时间感知跨模态融合模块(TIM)在每个采样步桥接两条分支并聚合出融合表征,使得低光/雾/噪声/条纹等复杂退化下也能产出干净高保真的融合图。
- Reevaluating the Intra-Modal Misalignment Hypothesis in CLIP
-
这篇论文系统反驳了"CLIP 图像嵌入存在内模态错位(intra-modal misalignment)"这一流行假设:从理论上证明图-图相似度其实被图-文相似度完全决定、并无自由度,从实证上用 DINO/SigLIP2 等非 CLIP 模型复现了所谓"错位指标",说明这些指标是度量本身的产物而非 CLIP 训练目标的缺陷,最后用一个极简的 PCA 投影方法在检索和小样本分类上超过了那些"为修正错位而设计"的方法。
- Relational Visual Similarity
-
本文首次形式化定义关系视觉相似度问题(两图像间的内在关系/功能对应,而非表面属性相似),构建114K匿名描述数据集并训练relsim模型,揭示了现有相似度指标(CLIP/DINO等)在捕捉关系相似度方面的根本性缺陷。
- Reliable Clustering Number Estimation for Contrastive Multi-View Clustering
-
RCNMC 用一个 JSD 自适应加权的语义感知对比模块缓解低质量视图把高质量视图"拖垮"的表征退化,再把"猜聚类数 K"建模成马尔可夫决策过程、用强化学习在单次训练里自动推断 K,从而在不预设 K、不依赖真值的条件下,在 9 个多视图数据集上达到甚至超过用了真值 K 的对比方法。
- ReMatch: Boosting Representation through Matching for Multimodal Retrieval
-
ReMatch 把多模态大模型(MLLM)当 embedding 模型微调时,额外挂上一个「聊天式 Yes/No 匹配」任务和「多可学习 token」表示,让生成能力反过来给检索 embedding 提供逐样本判别信号,在 MMEB 上刷新 SOTA,且推理几乎不增加成本。
- ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding
-
提出 ReMoRa,直接操作视频压缩表示(I帧 + 运动向量),通过 Refined Motion Representation (RMR) 模块将粗糙的块级运动向量精化为接近光流的细粒度运动表征,再用 Hierarchical Motion State Space (HMSS) 模块进行线性时间的长程时间建模,在 LongVideoBench、NExT-QA、MLVU 等基准上超越基线。
- RetFormer: Multimodal Retrieval for Enhancing Image Recognition
-
RetFormer 把世界知识从"压进模型权重"改为"存进外部图文知识库",对查询图像做 k-NN 检索后用一个图文交叉融合注意力模块计算每个邻居的贡献,再和主干分支融合输出 logits,在长尾识别和噪声标签学习上把 ImageNet-LT 整体精度从 78.3% 提到 81.9%。
- Rethinking BCE Loss for Multi-Label Image Recognition with Fine-Tuning
-
作者发现用 BCE 微调 CLIP 做多标签识别时会系统性破坏文本嵌入的语义几何、导致基类欠自信/新类过自信的校准崩坏,于是提出 Class-wise Covariance Regularization (CCR)——用 batch 内"类对共同未激活"估计的预测协方差去对齐文本语义相关矩阵,作为一个轻量结构正则项叠在 BCE 上,既修好了校准又提升了泛化。
- Rethinking Cross-Modal Anchor Alignment for Mitigating Error Accumulation
-
针对图文检索中"噪声对应学习"长期被忽视的一个误差来源——干净锚点对自身也存在跨模态不一致(anchor correlation discrepancy),本文用傅里叶变换在频域对齐锚点表示、再据此做几何感知的软标签校正,并配一个语义约束三元组损失来抑制误差累积,在三个数据集上一致刷新检索精度。
- Rethinking MLLM Itself as a Segmenter with a Single Segmentation Token
-
提出 SELF1E,首次实现不依赖专用 mask 解码器且仅用单个 [SEG] token 的 MLLM 分割方法,通过 Residual Features Refilling (RFR) 和 Residual Features Amplifier (RFA) 恢复 pixel-shuffle 压缩造成的分辨率损失,在多个分割任务上达到与解码器方法竞争力相当的性能。
- Rethinking Model Selection in VLM Through the Lens of Gromov-Wasserstein Distance
-
针对「该给 VLM 选哪个视觉编码器」这个老大难问题,本文系统验证了「选最大/zero-shot 精度最高」的传统直觉几乎与最终 VLM 性能不相关,转而提出用 Gromov-Wasserstein(GW)距离 度量视觉表征与 LLM 文本表征之间的「结构相似性」,作为一个免训练、纯推理的代理指标;理论上证明 GW 距离能 bound 跨模态投影器的 Lipschitz 常数(即可学习性),实验上在 60+ 次完整 VLM 训练中比所有基线指标都更强地相关于最终性能,从而能在完整训练前 1 分钟级别地预测哪个编码器最优。
- Revisiting Model Stitching in the Foundation Model Era
-
本文系统研究视觉基础模型(VFM)之间的拼接可行性,发现传统方法在VFM上失效,提出"Final Feature Matching + Task Loss"两阶段训练策略使异构VFM可靠拼接,拼接模型甚至能超越两个单独VFM,进而提出VFM Stitch Tree(VST)架构为多VFM系统提供可控的精度-效率权衡方案。
- Revisiting Visual Corruptions in LVLMs: A Shape-Texture Perspective on Model Failures
-
本文从"损坏类型异质性"出发,发现图像损坏会沿形状和纹理两个互补维度破坏 LVLM 感知并诱发两种相反的误判模式,据此提出训练无关的双路对比解码 ST-CD——用边缘图和拼图图作探针放大各自的偏差、再按熵自适应融合校正信号,在多个 LVLM 和鲁棒性基准上一致提升了对异质损坏的鲁棒性。
- RNED: Rotary Number Encoding and Decoding for Medical VLMs
-
针对医学 VLM 在「数值预测」上的硬伤,本文提出 RNED:编码端仿照 RoPE 用一个「值相关的旋转矩阵」把标量旋进一个专用
[NUM]token(保范数、保序、宽量程),解码端用 score-matching 从隐状态里查回连续数值,在放射学测量估计和医学视觉定位两个任务上稳定超过现有 VLM 基线。 - RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations
-
提出 RobustVisRAG,一个因果引导的双路径框架,通过非因果路径捕获退化信号、因果路径学习纯净语义来解耦 VisRAG 中的语义-退化纠缠,在真实世界退化条件下检索、生成和端到端性能分别提升 7.35%、6.35% 和 12.40%,同时保持干净数据上的性能。
- Role-SynthCLIP: A Role-Play Driven Diverse Synthetic Data Approach
-
用「多专家角色扮演提示」驱动 MLLM 从构图、叙事、情感等不同认知视角为同一张图生成多条互补 caption,再用蒸馏出的角色感知过滤器去噪,只用 1M 张图就把 CLIP-B/16 在 MS-COCO 的 Recall@1 推到 64.1%,反超用了 5M 对的最强合成数据基线。
- ROSE: Rotate Your Large Language Model to See
-
本文不再把视觉特征拼成 token 塞进 LLM 输入(导致序列暴长、二次复杂度、还冲淡语言先验),而是把视觉语义编码成正交旋转矩阵直接左乘到 LLM 的预训练权重上——既避开了上下文扩展、又因正交性保住了参数间的角度结构(即语言先验),由此造出 7B 的 ROSE:在 12 个多模态 benchmark 上与 Qwen2.5-VL-7B 相当,却把 FLOPs 砍掉 80.7%、推理延迟降 56.4%。
- Rosetta Stone for Unified MLLMs: A Unified Tokenizer to Decipher Understanding and Generation
-
针对"统一视觉 tokenizer 中重建任务和语义任务相互打架"这个老大难,作者用单编码器层级解耦(浅层做像素重建、深层做语义对齐)+ CLIP/DINOv2/SAM 多基础模型监督 + 注意力优先映射的双 codebook + 语义收敛后的由粗到细重建,在 ImageNet 上做到 rFID 0.33、零样本精度 80.9%,并用它驱动的 7B 统一 MLLM 在理解上反超 TokenFlow-13B 3.1%。
- RxnCaption: Reformulating Reaction Diagram Parsing as Visual Prompt Guided Captioning
-
RxnCaption 把"化学反应图解析(RxnDP)"从让大模型预测分子坐标框,重构成让大模型"看图说话"——先用专门训练的分子检测器 MolYOLO 在图上预先画好分子框和序号,再让 LVLM 只需用自然语言引用这些序号来描述反应,配合自建的 U-RxnDiagram-15k 真实数据集,在多项指标上刷到 SOTA。
- SALMUBench: A Benchmark for Sensitive Association-Level Multimodal Unlearning
-
提出 SALMUBench——首个针对 CLIP 类模型的关联级别机器遗忘基准,包含 60K 合成人物-敏感属性配对数据集、从头训练的 Compromised/Clean 模型对,以及结构化 holdout 集评估协议,首次系统揭示了现有遗忘方法的三种失败模式(灾难性破坏、过度泛化遗忘、无效遗忘)。
- Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs
-
作者提出 REST / REST+ 两个 benchmark,把同一道题分别以「纯文本 / 纯图像(渲染成图)/ 图文混合」三种形态喂给 MLLM,并在严格控制 OCR 正确的前提下度量「同样的内容、不同的答案」这一跨模态不一致现象——评测 15 个前沿 MLLM 发现没有一个能在三种模态上稳定一致(不一致率至少 ~10%,最差超 80%),且模型普遍更偏好文本模态,而这种不一致与模型内部图文表征的余弦相似度(模态鸿沟)显著相关。
- Same or Not? Enhancing Visual Perception in Vision-Language Models
-
作者把"细粒度视觉感知"重新定义成一个最简单的二选一任务——给两张相似图片,判断它们是不是同一个物体实例,据此构建了 561K 对的 TWIN 数据集,用 GRPO 强化学习在上面后训练 VLM,让 Qwen2.5-VL 在自建的 FGVQA 基准上最高涨 19.3%,且不损伤通用 VQA 能力。
- SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics
-
SaPaVe提出端到端主动操作框架,通过解耦相机动作和操作动作的底层到顶层训练策略,先用20万对语义相机控制数据学习主动感知先验,再联合优化实现主动操作,在真实世界中超越π₀和GR00T N1达31.25%成功率提升。
- Scaling Spatial Intelligence with Multimodal Foundation Models
-
SenseNova-SI 通过系统化构建800万级多样化空间数据(SenseNova-SI-8M),在 Qwen3-VL、InternVL3 和 Bagel 等多模态基础模型上培养空间智能能力,在 VSI-Bench、MMSI 等多个空间基准上取得前所未有的性能,同时保持通用多模态理解能力。
- Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism
-
提出 FlexMem——一种训练免的视觉记忆机制,通过迭代式双路径 KV 缓存压缩构建视觉记忆库,结合编码式和快速索引式记忆召回策略,让 MLLM 在单张 3090 GPU 上处理 1000+ 帧长视频,大幅超越现有高效视频理解方法。
- Scene-VLM: Multimodal Video Scene Segmentation via Vision-Language Models
-
提出 Scene-VLM——首个基于微调 VLM 的视频场景分割框架,通过结构化多模态镜头表征(视觉帧+对白+元数据)、因果序列预测、上下文-焦点窗口机制和 token logits 置信度提取,在 MovieNet 上取得 +6 AP 和 +13.7 F1 的大幅提升,并展示了自然语言解释能力。
- SEA-Vision: A Multilingual Benchmark for Document and Scene Text Understanding in Southeast Asia
-
推出 SEA-Vision 基准,统一评估 11 种东南亚语言的文档解析(15,234 页)与文本中心 VQA(7,496 QA 对),通过重渲染策略消除多语言 VQA 的视觉-文本错位,揭示 MLLM 在低资源东南亚语言上存在 3–7 倍的严重性能退化。
- SEA: Evaluating Sketch Abstraction Efficiency via Element-level Commonsense Visual Question Answering
-
针对「草图好不好」没有合适指标的问题,本文提出无参考指标 SEA——把「识别概率 P、类别常识元素总数 E、草图实际画出的元素数 V」三个信号组合成奖励-惩罚式分数,专门衡量草图「用尽量少的笔画保留可识别性」的抽象效率,并配套发布首个带元素级标注的草图数据集 CommonSketch(300 类、23,100 张人工草图),实验证明 SEA 与人类判断高度一致(一致率约 88%)。
- SEATrack: Simple, Efficient, and Adaptive Multimodal Tracker
-
提出 SEATrack 多模态跟踪器,通过 AMG-LoRA 实现跨模态注意力图的动态对齐,以及 HMoE 实现高效全局关系建模的跨模态融合,在 RGB-T/D/E 跟踪中以极少参数实现 SOTA 的性能-效率平衡。
- SeD-UD: An Influence-Driven and Hierarchically-Decoupled Information Bottleneck for Multimodal Intent Recognition
-
针对多模态意图识别中文本/语音/视觉特征里冗余与噪声并存的问题,SeD-UD 提出一个由「影响因子」驱动、能按样本动态调整瓶颈维度的信息瓶颈模块 IDAB,并把「去冗余」和「去噪」拆成分层解耦的两步——先在各单模态内并行去冗余、融合后再统一去噪,在 MIntRec、MELD-DA、CH-SIMS 上超过现有 SOTA。
- See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis
-
针对"现代扩散模型生成的结构性瑕疵难以人工标注、VLM 又看不懂"的双重困境,本文提出 ArtiAgent——一个由感知/合成/校验三智能体组成的全自动流水线,通过在 DiT 自注意力里操纵位置嵌入(PE)+ 值嵌入把可信瑕疵注入真实图像,零人工合成 10 万张带框带解释的瑕疵数据,用它微调的开源 VLM 在检测/定位/解释三任务上反超 GPT-5。
- See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding
-
SWIM 是一种训练策略:只在训练阶段用对象掩码去监督 MLLM 中「对象名词 token → 视觉 token」的跨注意力,让模型学会从纯文本提示里精确定位用户指定物体,推理时不再需要任何点 / 框 / 掩码等视觉提示,在视频细粒度理解 benchmark 上反超依赖视觉提示的专家模型。
- Seeing Through Touch: Tactile-Driven Visual Localization of Material Regions
-
提出触觉定位任务——给定触觉输入识别图像中具有相同材质属性的区域,通过局部视觉-触觉对齐和材质多样性配对策略学习密集跨模态特征,构建两个新的触觉-材质分割数据集。
- Self-guided Semantic Inspection for Zero-Shot Composed Image Retrieval
-
针对零样本组合图像检索(ZS-CIR)训练用"对齐图文对"、推理却要处理"不对齐的参考图+修改文本"的训练-推理失配问题,本文提出 DiffComp,用"先制造差异再融合"(Differentiate-then-Compose)的自监督范式,在训练阶段主动 mask 掉与文本短语对齐的视觉区域来人为引入跨模态差异,再做差异感知的自适应融合,在四个 ZS-CIR benchmark 上刷到 SOTA。
- Semantic Noise Reduction via Teacher-Guided Dual-Path Audio-Visual Representation Learning
-
TG-DP 把音视频预训练里"掩码重建"和"对比对齐"两个目标拆成两次独立前向(各用自己的掩码比例),再用一个全视图教师网络给对比分支挑选可见 token、并蒸馏全局表征,从而消除以往单前向耦合带来的语义噪声,在 AudioSet / VGGSound 的零样本检索与线性探测上刷到 SOTA。
- SenseSearch: Empowering Vision-Language Models with High-Resolution Agentic Search-Reasoning via Reinforcement Learning
-
SenseSearch 让一个 7B 的 VLM 在多轮推理过程中自主协调「文本搜索 + 图像搜索 + 图像裁剪」三种工具,用两阶段训练(冷启动 SFT + 自研 BN-GSPO 强化学习)学会同时应对「知识密集」和「高分辨率细粒度感知」两类难题,在新建的 HR-MMSearch 基准上比同规模基线高 19.18 个点。
- Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning
-
提出 Similarity-as-Evidence (SaE) 框架,将 VLM 的文本-图像相似度重新解释为 Dirichlet 证据,通过 Similarity Evidence Head (SEH) 校准过度自信的 softmax 输出,并基于 vacuity(知识空缺)和 dissonance(证据冲突)的双因子采集策略实现可解释、高效的医学主动学习,在 10 个数据集上以 20% 标注预算达到 82.57% 的 SOTA 宏平均准确率。
- SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models
-
SIMPACT 提出一种测试时的仿真增强动作规划框架,从单张 RGB-D 图像自动构建物理仿真环境,使 VLM 能够提出动作、观察仿真结果并迭代优化推理,无需额外训练即可在刚体和可变形物体操作任务上达到 SOTA 性能。
- SketchVL: Policy Optimization via Fine-Grained Credit Assignment for Chart Understanding and More
-
SketchVL 让 MLLM 把每一步图表推理"画"成图像上的标注动作(框/线/点/圈),再用新提出的 FinePO 算法把整条轨迹的粗粒度优势,按一个过程奖励模型 FinePRM 给每个动作打的分重新分配到每一步,从而做到 step 级的细粒度信用分配,在图表/自然图像/数学多类基准上平均比基座模型提升 7.23%。
- Small Object, Great Challenge: A Benchmark for Small Object Visual Grounding
-
针对现有视觉定位(VG)基准只标大目标的偏差,本文用 MLLM 自动流水线在 COCO 上构建了平均目标面积仅占全图 1.60% 的 RefCOCOs 基准(32 万条指代表达),并提出带分层文本注入(HTI)模块的强基线 SoVG-Net,在小目标定位/分割上 [email protected] 与 mIoU 全面领先。
- SMAP: Semantic Route Planning with Map-Grounded Multimodal Alignment
-
SMAP 把用户查询、POI 结构化元数据和一张「只标候选 POI 的正北朝上地图瓦片」一起喂给多模态大模型来做语义路线规划,并用「生成器画草稿、验证器照地图改错」自动造出偏好对,再用幻觉惩罚版 DPO(HDPO)训练,把一个 32B 开源模型在路线效率、时序合理性和整体质量上拉到与 GPT-5 持平甚至反超。
- SMoES: Soft Modality-Guided Expert Specialization in MoE-VLMs
-
针对 MoE-VLM 里"该不该、怎么让专家按模态专精"这个被忽视的问题,本文提出 SMoES:用随层动态变化的软模态分数刻画 token 的真实视觉/文本融合程度,把专家分箱(bin)成对齐部署设备的组,再用箱间互信息正则驱动各箱专精到不同模态——在 4 个 MoE-VLM、16 个 benchmark 上多模态/纯语言任务平均涨 0.9%/4.2%,同时把专家并行通信开销砍掉 56.1%、吞吐提升 12.3%。
- SO-Bench: A Structural Output Evaluation of Multimodal LLM
-
这是 Apple 提出的首个系统评测「多模态大模型把视觉输入转成符合预定义 JSON Schema 的结构化输出」能力的 benchmark——SO-Bench 用一条三阶段自动标注管线,从 11.2 万张四领域图像、6.5K 个 JSON Schema 中构造了 1.8K 个「图像–Schema–指令」三元组,配套三级评测指标,揭示了即便最强的 Gemini-2.5-Pro 完全正确率也只有 18.9% 的巨大差距。
- SoC: Semantic Orthogonal Calibration for Test-Time Prompt Tuning
-
针对 CLIP 测试时提示调优(TPT)中"为提升类别可分性而强加完全正交约束反而让模型过度自信、校准变差"的问题,本文用一个 Huber 形式的平滑正交正则(SoC) 替代硬正交约束——对语义相近的类别原型只施加有上限的温和排斥,从而在几乎不损失分类精度的前提下把校准误差 ECE 显著压低。
- Socratic-Geo: Synthetic Data Generation and Cross-Modal Geometric Reasoning via Multi-Agent Interaction
-
Socratic-Geo 用「教师—解题者—生成器」三智能体闭环,从仅 108 道种子题出发、由教师诊断解题者失败后用 Python 代码程序化地改造几何图并自我验证,造出图文严格对齐的几何题课程:解题者用 1/4 数据在六个几何 benchmark 上拿到 49.11%(比最强 baseline 高 2.43 分),副产物图像生成器在 GenExam-Math 上达 42.4 分、刷新开源 SOTA。
- SOTA: Self-adaptive Optimal Transport for Zero-Shot Classification with Multiple Foundation Models
-
SOTA 把每个基础模型(CLIP 这类 VLM、DINO 这类 VFM)的分类输出都转成一张代价矩阵,再用一个"平方内积"目标的自适应最优传输求一个软分配 transport plan,免训练、免先验地自动平衡各模型贡献,在自然/遥感/医学三大域 26 个 benchmark 上比最强单模型大幅涨点。
- SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs
-
提出 SPARROW 框架,通过 目标特定追踪特征(TSF) 注入时间一致性监督、双提示([BOX]+[SEG])粗到细解码 稳定首帧初始化,以即插即用方式集成到现有视频 MLLM 上,在 6 个基准 3 个任务上取得一致提升。
- Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models
-
针对掩码离散扩散模型(MDM)每步都要把上千个冗余掩码 token 全部喂进网络、且无法用 KV 缓存的两大效率瓶颈,Sparse-LaViDa 提出一种"稀疏参数化 + register token + step-causal 注意力掩码"的等价改造,在不破坏 MDM 双向上下文的前提下,让模型每步只处理"该解码的那一小撮 token",在文生图、图像编辑、视觉数学推理上拿到最高 ~2.8× 的加速且画质/精度基本不掉。
- Sparse Spectral LoRA: Routed Experts for Medical VLMs
-
本文提出 MedQwen,把预训练权重的 SVD 谱段切成互不重叠的专家、用 top-k 路由按输入选谱先验,再配一套有理论依据的残差补偿与缩放规则把低秩 MoE 的训练动力学对齐到全秩全量微调,在 23 个医学数据集上逼近全量微调(参数少 339×),并把序列训练的灾难性遗忘从 >20–50% 压到约 5%。
- SpatialScore: Towards Comprehensive Evaluation for Spatial Intelligence
-
本文提出了目前最全面的多模态空间智能基准 SpatialScore(5K样本/30任务),并通过数据驱动的 SpatialCorpus(331K QA)微调方案和免训练的 SpatialAgent(12个工具)两条互补路径来提升 MLLM 的空间理解能力。
- SpatialTree: How Spatial Intelligence Branches Out in MLLMs
-
受认知科学启发,把多模态大模型(MLLM)的空间智能拆成"感知→建图→模拟→执行"四层 27 项原子能力,建成首个"以能力为中心"的分层基准 SpatialTree-Bench,并用 SFT/RL 干预实验揭示:低层能力彼此独立但能向高层强迁移,且过度"思考"会损害直觉感知——为此提出 auto-think 策略让 RL 在全层级稳定提升。
- Spot The Ball: A Benchmark for Visual Social Inference
-
这篇论文提出 SPOT THE BALL 基准:从「抹掉球的体育画面」里让人和 VLM 反推球的位置,发现人类靠球员的注视与姿态等社会线索推理、准确率是模型的 2–3 倍,而四个主流 VLM 只会用「猜中心 / 猜球员附近」的肤浅空间启发式,揭示出当前 VLM 在视觉社会推理上的系统性短板。
- STAR: Test-Time Adaptation Can Enhance Universal Prompt Learning for Vision-Language Models
-
STAR 让已经做过 few-shot prompt tuning 的 CLIP 在推理阶段继续用无标签测试流(混着 ID 和 OOD 样本)自我适应:先用 Fisher score 自适应地软门控分开 ID/OOD,再用共轭优化生成可靠伪标签做无监督微调,最后用动态原型库做按类校准的 OOD 检测——在 ImageNet-1K 上把 LoCoOp/SCT 的 FPR95 大幅压低。
- STiTch: Semantic Transition and Transportation in Collaboration for Training-Free Zero-Shot Composed Image Retrieval
-
STiTch 是一个免训练的零样本组合图像检索(ZS-CIR)框架:先让 MLLM 采样出多条目标描述(视为离散分布),再用文本修改语在嵌入空间构造一个"迁移向量"把这些描述往目标图像方向纠偏、滤掉参考图带来的噪声,最后把"描述集合 vs 目标图像增强集合"建模成集合对集合的双向传输(CT)距离来算检索分,在 CIRCO / CIRR / FashionIQ / GeneCIS 四个基准上免训练方法里整体最优。
- Streaming Video Instruction Tuning (Streamo)
-
Streamo 把"何时该开口说话"这件事直接做进视频大模型的 next-token 预测里——用三个状态 token(Silence/Standby/Response)让模型逐帧自己判断响应时机,再配一份 46.5 万条多任务流式指令数据集端到端训练,把离线视频模型一键改造成能实时旁白、定位、问答的在线助手,OVO-Bench 上比此前 SOTA Dispider 高 13.83%。
- Structural Graph Probing of Vision-Language Models
-
这篇论文把视觉-语言模型每一层的神经元两两相关性建成一张"相关图",用 GCN 图探针证明这种群体级拓扑结构能预测模型行为、刻画跨模态融合随深度的演化、并定位出扰动后会显著改变输出的"枢纽神经元",从而提出一个介于"局部归因"和"完整电路恢复"之间的全新可解释性中间尺度。
- StructXLIP: Enhancing Vision-Language Models with Multimodal Structural Cues
-
StructXLIP 将边缘图(edge map)作为视觉结构的代理表示,在 CLIP 微调中引入三种结构中心损失(边缘-结构文本对齐 + 局部区域-文本块匹配 + 边缘-彩色图连接),通过最大化多模态结构表示的互信息引导模型走向更鲁棒的语义稳定最优解,在跨模态检索任务上超越现有竞争者。
- SynCLIP: Synonym-Coherent Language-Image Pretraining for Robust Open-Vocabulary Dense Perception
-
SynCLIP 发现现有 CLIP 类开放词汇密集感知方法存在「同义词导致的定位不一致」——同一物体换个近义说法,空间注意力就会漂移;它用一个「同义词→原标签」的空间注意力对齐损失(SSA)加上借助 DINOv2 做语义 token 选择与上下文聚合的注意力精修(SAR),在 OV-COCO/OV-LVIS 上既刷到 CLIP 类 SOTA,又把换近义词时的掉点从 ~9 AP 压到 4.4 AP。
- Synthesizing Visual Concepts as Vision-Language Programs
-
把 VLM 当成"感知函数"而不是"推理器"——让它从图像里抽出结构化符号描述,再用程序合成在一套领域专用语言上搜出一段可执行的逻辑程序来表达视觉规则,从而在归纳视觉推理任务上稳定超过直接 prompt VLM,且程序天然可解释、可人工修正。
- Tackling Alignment Ambiguity in Person Retrieval through Conversational Attribute Mining
-
针对「文本-图像行人检索」里查询和图像对不齐的老大难问题,本文用多模态大模型以「多轮问答」方式从行人图里挖出细粒度属性并总结成一段描述,再用双向交叉注意力把这段总结和图像 token 互相精炼,最后用置信度加权损失压住大模型生成的噪声对话,在三个基准上把 Rank-1 刷到新高。
- Tackling Model Bias via Game-theoretic Multi-agent Collaboration Framework for Hateful Meme Classification
-
GECO 把三个大型多模态模型加一个可学习智能体、一个主决策智能体组织成一场正则化博弈,用"混合奖励"驱动它们就正确标签达成共识,从而压制单模型与模型间的认知偏差,在五个仇恨表情包基准上刷新 SOTA。
- TANGO: Text-Anchored Guided Optimization for Robust Fine-tuning Vision-Language Models under Label Noise
-
TANGO 把 CLIP 文本编码器生成的一组「干净且不可变的语义锚点」当作独立于训练标签的真值参考,既用它取代易被噪声污染的线性分类头(参数化变成检索式投票),又用它去校验/纠正噪声样本,在六个含噪基准上刷新 SOTA(CIFAR-100N 上 83.83%,比强基线 DeFT 高 4.79%)。
- Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models
-
提出TARA框架,通过将LMM的中间表示与生物基础模型(BFM)的分类学感知特征对齐,为大型多模态模型注入分类层次知识,显著提升已知和新颖类别的层次化视觉识别性能。
- TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task Reinforcement Learning
-
TempR1 把五种视频时序任务(时序定位 TG、稠密定位 DTG、动作定位 TAL、亮点检测 VHD、有依据视频问答 GVQA)统一进一个基于 GRPO 的多任务强化学习框架,关键在于按"预测区间 ↔ 真值实例"的三种对应关系(一对一/多对一/多对多)分别设计定位奖励,在五个 benchmark 上全面刷新 SOTA,且多任务联合训练对单任务也产生正向协同。
- Test-Time Attention Purification for Backdoored Large Vision Language Models
-
发现LVLM后门行为的本质是跨模态注意力窃取(trigger视觉token抢夺文本token的注意力),提出CleanSight——首个无需训练的测试时后门防御框架,通过检测和剪枝高注意力trigger token来消除后门效应。
- Text-Printed Image:把文本「印」成图片来弥合图文模态鸿沟
-
为了在没有真实图片、只有文本描述的情况下微调大视觉语言模型(LVLM),本文提出 Text-Printed Image(TPI)——把文本描述直接渲染到一张纯白画布上当作图像输入,让文本经过视觉编码器进入模型,从而既弥合图文模态鸿沟、又完整保留文本语义,在 4 个模型、7 个 benchmark 上一致优于「纯文本」和「扩散模型生成图像(T2I)」两类基线。
- The LLM Bottleneck: Why Open-Source Vision LLMs Struggle with Hierarchical Visual Recognition
-
揭示开源LLM缺乏关于视觉世界的层次分类知识(甚至不知道基本的生物分类体系),这使得LLM成为Vision LLM层次视觉识别的瓶颈。
- The More, the Merrier: Contrastive Fusion for Higher-Order Multimodal Alignment
-
提出Contrastive Fusion (ConFu)框架,将CLIP式的双模态对比学习推广到三模态高阶对齐,在统一目标中同时学习配对和融合表示,支持1→1和2→1检索。
- TIGeR: A Unified Framework for Time, Images and Geo-location Retrieval
-
提出TIGeR框架,通过多模态Transformer联合学习图像-位置-时间的统一地理时间嵌入空间,实现地理定位、拍摄时间预测和地理时间感知图像检索三个任务的统一,并构建了4.5M规模的高质量基准数据集。
- TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
-
系统调查构建MLLM视频时间定位(VTG)能力的关键因素,从数据质量和算法设计两个维度出发,发布高质量基准TimeLens-Bench和训练集TimeLens-100K,并通过交错文本时间编码+thinking-free RLVR训练范式构建TimeLens系列模型,在开源模型中达到SOTA并超越GPT-5和Gemini-2.5-Flash。
- TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment
-
提出 TIPSv2,通过发现蒸馏能显著提升 patch-text 对齐能力,并将该洞察转化为新的预训练目标 iBOT++(可见 token 也参与损失计算),结合头部EMA和多粒度文本增强,在 9 个任务 20 个数据集上达到 SOTA。
- Token Warping Helps MLLMs Look from Nearby Viewpoints
-
提出对 MLLM 的 ViT image token 做空间 warping(而非传统的像素级 warping)来模拟视角变换,发现 backward token warping 在保持语义一致性同时对深度估计噪声鲁棒,在自建的 ViewBench 上大幅超越像素级 warping、专用空间推理 MLLM 和生成式 warping 方法。
- Towards Calibrating Prompt Tuning of Vision-Language Models
-
针对prompt tuning后CLIP面临的"双重误校准"问题(基类欠自信+新类过自信),提出均值-方差margin正则化和文本矩匹配损失两个互补正则项,作为即插即用模块在7种prompt tuning方法和11个数据集上显著降低ECE。
- Towards Dynamic Modality Alignment in Multimodal Continual Learning
-
这篇论文指出"模态对齐不是一次定型的静态约束、而是随任务和网络层动态演化的过程",于是为每个任务构建一张「动态对齐图」(节点是跨模态聚类质心、层内边刻画 token 交互、层间边刻画表示传播),再用三级图正则把旧类子图的演化锁住、新类子图放开,从而阻止浅层错位像滚雪球一样传到深层;在 MTIL 11 数据集上以 1.8M 可训练参数把 Avg./Last 推到 79.4%/87.1%,超过此前最强基线 DIKI 约 +3.1%/+2.0%。
- Towards Multimodal Domain Generalization with Few Labels
-
定义并研究半监督多模态域泛化(SSMDG)新问题,提出融合一致性驱动伪标签、分歧感知正则化和跨模态原型对齐的统一框架,在少量标注下实现多模态模型的跨域泛化。
- Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset
-
本文构建了首个百万级工业缺陷"图像-文本对"数据集 IMDD-1M(124 万张图、63 个制造领域、421 种缺陷类型),并在其上从零训练了一个文本条件扩散基础模型,把分割、检测、分类、生成统一进一套框架;下游任务每类仅用约 200 张样本微调(不到专家模型 5% 的标注量)即可逼近专用模型性能。
- Towards Policy-Adaptive Image Guardrail: Benchmark and Method
-
针对"现有 VLM 图像护栏只会拟合单一固定安全策略、换策略就崩"的问题,本文一方面造了一个用图像编辑生成"安全/不安全成对图、5 档策略"的跨策略评测基准 SafeEditBench,另一方面提出两阶段方法 SafeGuard-VL(先用"自配文重述"做描述式 SFT 注入有害语义,再用策略感知的可验证奖励 RL 对齐策略),把 UnsafeBench 总分从 41.7 提到 72.2,同时保住了通用多模态能力。
- Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training
-
提出数据-训练协同设计框架 DocHumming:通过 Realistic Scene Synthesis 构建 DocMix-3M 大规模合成数据集,结合渐进学习和结构 token 加权的 Document-Aware Training Recipe,在仅 1B 参数的 MLLM 上实现 OmniDocBench Overall 93.75(超越 Qwen3-VL-235B 的 89.15),且在真实拍摄场景下仅退化 6.72 分(模块化方法退化 18-20 分)。
- Towards Reasoning-Preserving Unlearning in Multimodal Large Language Models
-
针对"会思考"的多模态大模型,提出基准 RMLLMU-Bench 专门衡量推理链里的信息泄漏与推理能力保留,并给出一个免训练、推理时介入的框架 R-MUSE——通过子空间引导 + 自适应转向,在遗忘目标答案和中间推理痕迹的同时尽量不破坏通用推理。
- Training-Only Heterogeneous Image-Patch-Text Graph Supervision for Advancing Few-Shot Learning Adapters
-
TOGA 在训练阶段额外挂一个「图像-图块-文本」异构图教师做细粒度跨模态推理,并把这些关系知识蒸馏进 Tip-Adapter 的键值缓存里,测试时把整个图教师丢掉、推理路径和 Tip-Adapter 完全一样(零额外延迟/显存),在 11 个 1–16 shot 基准上刷新 SOTA。
- Training High-Level Schedulers with Execution-Feedback Reinforcement Learning for Long-Horizon GUI Automation
-
提出 CES(Coordinator-Executor-State Tracker)多智能体框架和分阶段执行反馈强化学习算法,将高层任务规划与低层执行解耦,通过专门训练的 Coordinator 和 State Tracker 显著提升 GUI Agent 在长时序任务上的规划和状态管理能力。
- TRANSPORTER: Transferring Visual Semantics from VLM Manifolds
-
论文提出 logits-to-video(L2V)这一新的可解释性任务,并设计 VLM-无关的 TRANSPORTER:通过最优传输把文生视频生成器的视觉潜空间和 VLM 的语义嵌入空间耦合起来,再用一组可学习的"概念向量"把 VLM 两个对比 token(如 happy↔sad)之间的 logit 散度翻译成视频上的细粒度属性改变,从而用"生成的视频"直接、可视化地解释 VLM 到底在看什么。
- TreeTeaming: Autonomous Red-Teaming of Vision-Language Models via Hierarchical Strategy Exploration
-
TreeTeaming 提出了一个基于层次策略树的自动化红队测试框架,通过 LLM 驱动的 Orchestrator 动态地探索和进化攻击策略,在12个主流 VLM 上实现了 SOTA 的攻击成功率(GPT-4o 达 87.60%),并发现了超越已知策略集的多样化新攻击手段。
- TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
-
提出 TRivia 自监督微调框架,通过表格问答(QA)驱动的 GRPO 强化学习,让 VLM 直接从无标注表格图像中学习表格识别能力,3B 参数的 TRivia-3B 在多个基准上超越 Gemini 2.5 Pro 和 GPT-5 等私有模型。
- TTL: Test-time Textual Learning for OOD Detection with Pretrained Vision-Language Models
-
针对现有 CLIP OOD 检测依赖"固定外部 OOD 标签"无法覆盖开放世界的痛点,TTL 在测试流上只更新一组可学习的 OOD 文本提示,用伪标签放大 OOD 相似度、用净化损失剔除 ID 边界样本噪声、再用一个文本知识库做跨批次分数校准,在两大基准九个 OOD 数据集上把平均 FPR95 降了 12.67%、AUROC 提了 3.94%。
- TTRV: Test-Time Reinforcement Learning for Vision Language Models
-
TTRV 让现成的解码器型 VLM 在推理阶段、对着无标签的测试数据直接做强化学习——靠"模型自己输出的频率"和"输出分布的熵"两个自监督奖励驱动 GRPO,在 16 个数据集上物体识别平均涨 24.6%、VQA 平均涨 10.0%,甚至把 InternVL3-8B 的 ImageNet 识别推到超过 GPT-4o。
- TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models
-
TUNA 把一个 VAE 编码器和一个语义表示编码器级联起来,得到一套同时适配「理解」和「生成」的连续统一视觉表示,再配上自回归文本头 + 流匹配生成头,让 1.5B/7B 规模的单一原生模型在图像/视频理解、图像/视频生成、图像编辑上全面拿到 SOTA(MMStar 61.2、GenEval 0.90)。
- Twin-T & TwintVQA: A Reliable Structure-Detail Separating VLM and a Comprehensive Benchmark for Chart and Table Tasks
-
Twin-T 用「双头图像编码器 + Schur 式融合」显式把图表的结构线索(坐标轴、网格、布局)与细节线索(数值、图例、文字)拆开再重组,再用 MINT 偏好学习专门强化数字与关键词的保真度,配套提出覆盖 17 种图表、11 类任务、3 种格式的 TwintVQA 基准;7B 模型在主流图表-表格榜上超过 GLM-4.5V-106B,逼近 GPT-4o 与 Gemini-2.5-Pro。
- UARE: A Unified Vision-Language Model for Image Quality Assessment, Restoration, and Enhancement
-
UARE 把图像质量评估(IQA)、图像恢复与增强塞进同一个基于 MoT(mixture-of-transformers)的视觉语言模型里,用"先评估、再恢复"(reason-then-restore)的交错数据做两阶段训练,首次系统验证了"让模型先把质量分析说清楚,恢复结果就更好"这一假设,在 SR / 多退化恢复 / IQA 三类任务上都拿到有竞争力的成绩。
- UI-Lens: Assessing General MLLMs' Potential to Automate UI Display Quality Assurance
-
UI-Lens 构建了一个面向真实商业 App 的多语言 UI 显示缺陷检测基准(中文 4,759 张界面 + 英文 3,392 张,6 类缺陷、专家标注),系统评测 9 个主流 MLLM/VLM 后发现:它们在细粒度边界缺陷(文字溢出 F1 仅 22.19%)和跨界面语义一致性(F1 仅 11.44%)上几乎等同随机猜测,暴露出当前模型"只认识物体是什么、不关心它怎么呈现"的根本短板。
- Uncertainty-Aware Knowledge Distillation for Multimodal Large Language Models
-
提出Beta-KD,一种基于贝叶斯视角的不确定性感知知识蒸馏框架,通过将教师监督建模为Gibbs先验并用Laplace近似推导闭形解,自动调节数据与教师信号的平衡,在多模态VQA基准上持续提升蒸馏效果。
- Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models
-
提出UNCHA框架,在双曲VLM中用双曲不确定性建模部分图像对整体场景的语义代表性,通过不确定性引导的对比损失和蕴含损失增强组合性场景理解,在多个下游任务上超越现有双曲VLM。
- Understanding Counting Mechanisms in Large Language and Vision-Language Models
-
作者用一套受控的"重复物体计数"实验 + 自研的因果探针工具 CountScope,逐层逐 token 地剖开 LLM 和 LVLM 是怎么数数的,发现计数不是一次性求和,而是一个随层数逐步涌现、靠"内部计数器"逐项更新、并严重依赖分隔符等结构捷径的分层过程。
- Understanding Task Transfer in Vision-Language Models
-
本文首次系统研究了 VLM 在一个视觉感知任务上微调后对其他感知任务零样本性能的影响,提出 Perfection Gap Factor (PGF) 归一化指标量化跨任务迁移,在 Qwen-2.5-VL 三个尺度模型上揭示了任务迁移的结构性规律(正/负迁移团、任务角色分类、尺度依赖等),并证明 PGF 可指导数据选择提升微调效率。
- UNI-OOD: Unified Object- and Image-level Out-of-Distribution Detection via Cross-Context Attentive Vision-Language Modeling
-
UNI-OOD 用两对相同的 CLIP 图文编码器分别建模"目标物体"和"背景",靠四类跨上下文注意力(图内 / 图间 / 文本间 + 图文对齐)把细粒度物体证据从虚假背景关联中解耦出来,第一次用一个模型、无需推理时预先知道任务类型,就在物体级和图像级 OOD 检测上同时刷到 SOTA。
- UNICBench: UNIfied Counting Benchmark for MLLM
-
推出UNICBench,首个统一的跨模态(图像/文本/音频)多层级计数基准,包含5,508+5,888+2,905共14,301个QA对及三级能力(Pattern/Semantic/Reasoning)×三级难度(Easy/Medium/Hard)分类,系统评估45个SOTA MLLM,揭示基本计数任务趋近但推理级和困难任务存在显著差距。
- Unified Multimodal Models as Auto-Encoders
-
这篇论文把"图→文理解"(I2T) 和"文→图生成"(T2I) 重新看成一个自编码器:文本是中间隐表示,理解模块当编码器、生成模块当解码器,于是用"重建出来的图像和原图有多像"作为强化学习奖励 (Unified-GRPO) 去同时优化两端,让理解和生成互相促进——GenEval 从 0.73 提到 0.86,小目标检测从 0.05 飙到 0.45。
- Unified Personalized Understanding, Generating and Editing
-
OmniPersona 在一个统一大多模态模型里同时实现"个性化的理解、生成、编辑":用结构解耦的概念 token 把同一个概念按任务路由到不同专家子空间以减少互相干扰,再用推理时的"显式知识回放"把概念属性先问答出来再喂给生成,从而第一次把个性化图像编辑也纳入统一框架,并配套提出 OmniPBench 评测基准。
- Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models
-
针对 MLLM「越深越偏文本、视觉表示逐层同质化」的模态失衡问题,本文提出 LaVer:在 LLM 的潜在语义空间里对视觉 token 做掩码重建(latent MIM),并用 Clipped Gram-Anchoring 防止特征塌缩,给视觉表示提供直接监督信号,在 OCR/视觉中心等密集视觉任务上显著提升(如 OCRBench +19.22%)。
- UVU: Improving Multimodal Understanding via Vision-Language Unified Autoregressive Paradigm
-
UVU 把视觉监督从「后训练的辅助约束」前移到「预训练的主驱动力」:它抛弃向量量化(VQ),用连续视觉编码无损输入图像,并用大规模迭代分层聚类构建一个 20 万词条的像素级视觉码本,让 LLM 在自回归 next-token 预测里像吐文字一样吐出像素级图像 token,从而在不依赖外部解码器的前提下把细粒度视觉感知刻进模型的感知主干,3B 模型在 12 个理解 benchmark 上显著超越 Qwen2.5-VL 等同级模型。
- VCU-Bridge: Hierarchical Visual Connotation Understanding via Semantic Bridging
-
VCU-Bridge 提出「基础感知 → 语义桥接 → 抽象隐含义」三层递进的视觉隐含义理解框架,配套可逐层诊断的 HVCU-Bench,发现 MLLM 随推理层级升高性能持续下滑,并用 MCTS 引导的指令微调数据强化底层感知,不仅在本基准提升、还在通用基准平均涨 +2.53%(MMStar +7.26%)。
- Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping
-
定义审美指导(AG)新任务并构建AesGuide基准(10748张照片含审美评分、分析和指导标注),提出Venus两阶段框架——先通过渐进式审美问答赋能MLLM审美指导能力,再通过CoT推理激活审美裁剪能力,在两个任务上均达到SOTA。
- Video-Only ToM: Enhancing Theory of Mind in Multimodal Large Language Models
-
提出VisionToM,一个基于视觉的轻量级干预框架,通过探测和干预MLLM中对视觉输入和ToM推理敏感的注意力头,在不微调模型的情况下显著增强多模态大语言模型的心智理论推理能力,在EgoToM基准上大幅提升表现。
- VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion
-
提出首个大规模红外-可见光视频融合框架 VideoFusion,通过跨模态差分增强、完整模态引导融合和双向时序协同注意力机制,联合建模跨模态互补性与时序动态,生成时空一致的高质量融合视频,并构建了包含220个视频/15.4万帧的 M3SVD 数据集。
- ViKey: Enhancing Temporal Understanding in Videos via Visual Prompting
-
ViKey 通过在视频帧上叠加帧序号的视觉提示(Visual Prompting),配合轻量的关键词-帧映射(KFM)模块,在免训练条件下显著提升 VideoLLM 的时序推理能力,即使只用 20% 的帧也能接近密集帧的性能。
- VinQA: Visual Elements Interleaved Long-form Answer Generation for Real-World Multimodal Document QA
-
VinQA 提出一个面向真实文档的「视觉元素交错式长答案生成」数据集与任务——答案不再是纯文本,而是把引用到的图、表、图表插在对应支撑文字之前,并配套两种把原始页面图喂进 MLLM 的编码方式(Page / Modality Encoding)和一套多模态打分框架 M-GroSE;在 VinQA 训练集上微调开源 Qwen2.5-VL-7B 能把 M-GroSE Avg 从 ~2.0 拉到 ~3.34,大幅逼近 GPT-4.1 / Claude 3.5 等闭源前沿模型。
- Vision-Language Model Guided Source-Free Domain Adaptation via Optimal Transport
-
VSFOT 把无源域适应(SFDA)从"模型自己给自己打伪标签自训练"的死循环里解放出来,改成用冻结的 CLIP 当外部语义先验、通过最优传输(OT)把目标特征软对齐到源分类器原型,再让任务模型反向蒸馏微调 CLIP,两个方向交替优化形成双向蒸馏,在四个 benchmark 上稳定超过现有 SFDA 方法。
- Vision-Speech Models: Teaching Speech Models to Converse about Images
-
这篇论文提出 MoshiVis,用一组轻量的门控交叉注意力适配模块,把一个实时全双工语音对话大模型 Moshi 改造成能"看着图片用语音聊天"的视觉-语音模型(VSM),靠"图文无声数据 + 少量图-语音数据"的单阶段混合微调把训练成本压到一天 8×H100,且推理每步只增加约 7ms 延迟。
- VISion On Request: Enhanced VLLM Efficiency with Sparse, Dynamically Selected, Vision-Language Interactions
-
VISOR 提出了一种区别于视觉 token 压缩的新效率范式——通过稀疏化 LLM 内部视觉-语言交互层(少量交叉注意力 + 动态选择的自注意力层),在保留完整高分辨率视觉 token 的同时实现 8.6-18 倍 FLOPs 节省,尤其在需要细粒度理解的困难任务上大幅超越 token 压缩方法。
- VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models
-
VisMem 给视觉语言模型(VLM)装上一套"潜视觉记忆"系统——按认知心理学把记忆拆成「短时·视觉主导」和「长时·语义主导」两类,在自回归生成途中由特殊 token 动态触发、即时生成 latent 记忆向量插回上下文,用两阶段强化学习训练,在 12 个基准上相对原模型平均提升 11.0%。
- VisPlay: Self-Evolving Vision-Language Models
-
VisPlay 让一个基座 VLM 同时扮演「出题者」和「答题者」两个角色,仅用无标注图片、靠答题者的回答不确定性自动给出题者的题目打分、靠多数投票给答题者造伪标签,两者用 GRPO 交替自博弈进化,在 8 个视觉推理基准上稳定涨点且几乎追平用人工标注训练的 GRPO。
- Visual Grounding for Object Questions
-
本文提出为物体问题做视觉定位(VGOQ)这一新任务——不再去框"答案直接在哪",而是定位"能支撑回答开放式抽象问题的视觉证据/上下文";作者用两条自动数据生成流水线造出 VizWiz-VGOQ 与 ABO-VGOQ 两个基准,并训练了一个仅 1.77M 参数的轻量 CLIPSeg 风格模型,在 VGOQ 任务上超过 GLaMM/UnifiedIO/OFA 等大模型、可与同期的 Qwen3-VL 抗衡。
- VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes
-
本文用 150 张超 4K 分辨率、人物动作高度密集的公版名画构建了 VisualOverload——一个含 2720 道人工标注问答、真值私有的 VQA benchmark,专门测 VLM 在"视觉过载"场景下的基础感知(活动/属性/计数/OCR/推理/场景分类),结果 37 个模型里最强的 o3 在最难子集上也只有 19.6% 准确率,说明"基础视觉理解已被解决"是个错觉。
- VITAL: Vision-Encoder-centered Pre-training for LMMs in Visual Quality Assessment
-
VITAL 用六个打分模型自动标注、再让多个 LMM 互审,造出 458 万条视觉-语言对,然后冻住 LLM 只训视觉编码器做生成式预训练,得到一个能在图像/视频质量打分与质量描述上同时通用、且换任意 LLM 解码器都能秒迁移的视觉质量评估基础模型。
- VKG-QA: Visual Knowledge Graph-based Question Answer for Large Multimodal Models
-
把知识图谱画成图片让大多模态模型(LMM)直接"看图"做问答,作者构建了覆盖 3 大类 14 子任务、3205 道题的 VKG-QA 基准,评测 19 个 LMM 后发现:当前模型在"看懂图结构"上普遍吃力,图结构理解(度数/方向/连通性)是最难的短板,闭源模型大幅领先开源模型。
- VL-Eraser: Vacuum Distillation for Machine Unlearning in Vision-Language Models
-
VL-Eraser 指出传统「反向训练」式遗忘在 VLM 上其实只是破坏了跨模态对齐、并没有真正删掉知识;它把遗忘重构成「先蒸馏、后删除」两阶段——先把要遗忘的知识在「真空空间」约束下蒸馏进一组 LoRA,再把这组 LoRA 从原模型里减掉,从而在删得更干净的同时保住模型可用性。
- VL-RouterBench: A Benchmark for Vision-Language Model Routing
-
提出VL-RouterBench,首个面向视觉-语言模型的系统性路由基准,涵盖14个数据集、17个候选模型和519,180个样本-模型对,评估10种路由方法,并发现当前最优路由器与理想Oracle之间仍存在显著差距。
- VLIC: Vision-Language Models As Perceptual Judges for Human-Aligned Image Compression
-
作者发现现成的 VLM(Gemini 2.5-Flash)能零样本复现人类的两两偏好判断,于是把它当作"感知裁判",用 Diffusion DPO 对一个基于 FlowMo 的扩散自编码器做后训练,得到与人类感知高度对齐、在多数感知指标上达到 SOTA 的图像压缩系统 VLIC。
- VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction
-
VLM-3R 把一个度量尺度的前馈式 3D 重建模型(CUT3R)接到 VLM 上,从纯单目视频里抽出隐式的场景几何 token 和相机运动 token,再用跨注意力融进视觉特征做指令微调,让模型不靠深度传感器、不靠预建点云地图就能做空间和时序推理,在 VSI-Bench、新提出的 VSTI-Bench 上都拿到开源模型第一。
- VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery
-
提出基于VLM的双记忆自反思评判代理(Critique Agent)为扩散式人体网格恢复生成组级偏好信号,再通过组偏好对齐(Group Preference Alignment)微调扩散模型,无需3D标注即可大幅提升野外场景下的HMR精度。
- VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models
-
提出VLM-Loc框架,将3D点云地图转换为BEV图像和场景图供VLM进行结构化空间推理,结合部分节点分配(PNA)机制实现文本-点云精细定位,在自建的CityLoc基准上以Recall@5m提升14.20%大幅超越先前SOTA。
- VLM4RSDet: Collaborative Optimization with Vision-Language Model for Enhancing Remote Sensing Object Detection
-
VLM4RSDet 让一个常规闭集检测器和一个视觉语言模型(Florence-2)在训练阶段共享视觉骨干、联合反传,把 VLM 的先验知识"灌"进检测器的特征里;推理时直接扔掉 VLM、只留标准检测分支,因此零额外开销地把检测精度推到 SOTA(VisDrone2019 上 mAP\(_{0.5:0.95}\) 比之前最好方法高 7.5%)。
- Do Vision-Language Models Leak What They Learn? Adaptive Token-Weighted Model Inversion Attacks
-
首次系统研究 VLM 的模型反转(Model Inversion)攻击,提出一套面向 token 生成特性的反转策略(TMI/TMI-C/SMI),以及基于视觉注意力强度动态加权 token 梯度贡献的 SMI-AW 方法,在 4 种 VLM 和 3 个数据集上实现最高 61.21% 的人类评估攻击准确率,揭示了 VLM 严重的训练数据隐私泄露风险。
- Vocabulary Scaling Law: Tuning Open-vocabulary Predictors for Their Openness
-
本文把 CLIP 在「词表不断扩张」时维持旧类精度(stability)和零样本认新类能力(extensibility)这两件事,理论上证明它们都被「在完整开放词表宇宙 \(U\) 上的预测置信度」所下界,由此推出三条调优原则(覆盖整个 \(U\)、只调类名嵌入、对训练/开放类名嵌入加正交约束),并落地为一个用子模贪心选小子集来近似 \(U\) 的微调方法 SVFT,在 stability 和 extensibility 上同时显著超过现有微调方法。
- VQ-VA World: Towards High-Quality Visual Question-Visual Answering
-
这篇论文把"看图提问、用图回答"(Visual Question-Visual Answering, VQ-VA)这一原本只有 GPT-Image / NanoBanana 等闭源系统才有的能力带给开源模型:用一条五智能体流水线从网页图文交错文档里挖出约 180 万条"需要世界知识与推理才能完成图像变换"的训练样本,外加人工标注的 IntelligentBench 评测集;在这批数据上微调 LightFusion 后,IntelligentBench 得分从 7.78 飙到 53.06,超过所有开源模型并大幅缩小与闭源系统的差距。
- VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments
-
本文提出 VS-Bench,一个包含十个视觉化博弈环境的多模态基准,从感知、策略推理和决策三个维度系统评估 VLM 在多智能体环境中的策略能力,发现当前最强模型在推理和决策上仍与最优表现有显著差距。
- Wan-Weaver: Interleaved Multi-modal Generation via Decoupled Training
-
Wan-Weaver 提出规划器(VLM)+ 可视化器(DiT)的解耦架构,通过大规模文本代理数据训练规划器而非真实交错数据,在 OpenING 上 Overall 8.67 分超越 Nano Banana 的 8.85,在保持理解能力(MMMU 74.9)的同时实现 SOTA 交错文图生成。
- WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation
-
WEAVE 构建了首个面向"多轮、带历史上下文"的交错跨模态理解与生成数据套件——10 万条多轮对话训练集 WEAVE-100k + 100 题人工标注基准 WEAVEBench + 混合 VLM 评判框架,揭示出当前统一多模态模型在多轮、需要"视觉记忆"的图像编辑/生成上集体翻车,而用 WEAVE-100k 微调能让模型涌现出视觉记忆能力。
- WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs
-
诊断了当前 Video-LLM 存在的"时间不可知"(Time-Agnosticism)问题,提出 WeaveTime 框架,通过训练时的时序重建辅助任务(SOPE)赋予模型时序感知能力,推理时用不确定性门控的粗到细记忆缓存(PCDF-Cache)实现高效自适应记忆检索,在流式视频 QA 上取得显著提升。
- WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens
-
WeMMU 用一组每步从 \(\mathcal{N}(0,I)\) 重采样的「噪声查询 token」把冻结的 VLM(Qwen2.5-VL)和可训扩散模型(Sana)桥接起来,再外挂一条 VAE 线性分支补回细节,从而治好了「固定可学查询」在迁移到新任务时的「任务泛化坍缩」,实现高效、可持续学习的统一多模态生成与编辑。
- Where Does Vision Meet Language? Understanding and Refining Visual Fusion in MLLMs via Contrastive Attention
-
这篇论文先用「逐层视觉掩码」拆解 MLLM 内部视觉信息究竟在哪几层被融合进语言流(发现融合集中在浅-中层、深层会"回看"),再据此提出一个免训练的对比注意力方法——拿"预融合层"和最终层的注意力做差来抠出真正与任务相关的图像区域、重新喂回模型做二次推理,在 7 个 MLLM、多个 VQA benchmark 上稳定涨点。
- Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation
-
提出Eagle,一个轻量级黑盒归因框架,通过insight score(充分性)和necessity score(不可或缺性)的统一目标函数对MLLM的自回归token生成进行空间归因,并量化每个token依赖语言先验还是感知证据,在忠实度/定位/幻觉诊断上全面超越现有方法且GPU显存需求大幅降低。
- Which Concepts to Forget and How to Refuse? Decomposing Concepts for Continual Unlearning in Large Vision-Language Models
-
本文提出CORE(COncept-aware REfuser),一个面向大视觉语言模型(LVLM)持续遗忘的框架:通过将待删除的视觉-语言对分解为细粒度的视觉属性和文本意图概念,使用概念调制器识别需要拒绝的概念组合,再通过混合拒绝专家(refusers)生成概念对齐的拒绝回复,在16个连续遗忘任务上实现了90.67% CRR和88.02% AR的最佳遗忘-保留权衡。
- Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training
-
这篇论文用「数据视角」解释了为什么 RL(GRPO)后训练的 VLM 比 SFT 更能泛化到分布外数据:RL 的优势并非来自算法本身,而是其优势函数天然把训练信号集中在「中等难度」样本上,相当于一个隐式数据过滤器;据此作者提出 DC-SFT——显式剔除困难样本后再做普通 SFT,结果在 OOD 上反超 RL,且更稳定、快 3–5 倍。
- Widget2Code: From Visual Widgets to UI Code via Multimodal LLMs
-
首次形式化 Widget-to-Code 任务,构建了首个纯图像 widget 数据集和多维评估体系,提出基于感知代理和 WidgetFactory 基础设施的模块化基线,通过组件分解、图标检索、可复用可视化模板和自适应渲染实现高保真 widget 重建。
- WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition
-
WikiCLIP 重新拾起被生成式方法压过的对比学习范式做开放域视觉实体识别——用 LLM 编码维基百科文本当知识表示、再用视觉特征在 patch 级别筛掉无关文字得到"知识感知实体向量",配上合成难负样本训练,在 OVEN unseen 上反超 13B 生成式 SOTA(AutoVER)3.4 个点,推理却快了近 100 倍。
- Will Multimodal Models Be Dazzled by Multi-Image Visual Puzzles?
-
这篇论文提出 MIRACLE 基准——一个含 4,000 道题、29,400 张图、平均每题 7.35 张图(最多 14 张)的多图复杂推理评测集,强制模型必须做跨图关系推理才能答对,结果显示连最强的 Gemini-2.5-Pro 也只拿到 55.91%,而拼图、数字约束推理这类高视觉密度任务上所有模型集体崩盘,暴露出当前 MLLM 在结构化、协同视觉推理上的能力短板。
- World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models
-
作者提出 CultureMix 这个食物 VQA 基准——用扩散模型合成 2.3 万张「多种文化元素同框」的图片(4 个子任务),评测 10 个大视觉语言模型(LVLM)在文化混合场景下识别食物及其原产国的能力,发现模型严重依赖背景线索、会被「干扰文化」带偏预测(加背景后准确率掉 14%),并初步验证了监督微调(SFT)能显著缓解这一脆弱性。