🧩 多模态 VLM¶
🤖 AAAI2026 · 74 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (418) · 🔬 ICLR2026 (211) · 💬 ACL2026 (82) · 🧪 ICML2026 (89) · 🧠 NeurIPS2025 (107) · 📹 ICCV2025 (119)
🔥 高频主题: 多模态 ×39 · 对齐/RLHF ×5 · 对抗鲁棒 ×5 · LLM ×4 · 持续学习 ×3
- Aligning the True Semantics: Constrained Decoupling and Distribution Sampling for Cross-Modal Alignment
-
提出 CDDS 算法,通过双路径 UNet 将嵌入解耦为语义和模态分量,并利用分布采样方法间接实现跨模态语义对齐,避免直接调整嵌入导致的分布扭曲,在 Flickr30K 和 MS-COCO 上超越 SOTA 6.6%~14.2%。
- anyECG-chat: A Generalist ECG-MLLM for Flexible ECG Input and Multi-Task Understanding
-
构建anyECG数据集(含报告生成、波形定位、多ECG比较三大任务)并提出anyECG-chat模型,通过动态ECG输入机制支持变长/少导联/多ECG输入,采用三阶段课程学习训练,在报告生成的OOD泛化、秒级异常波形定位和多ECG对比分析上全面超越现有ECG-MLLM。
- "Are We Done Yet?": A Vision-Based Judge for Autonomous Task Completion of Computer Use Agents
-
提出基于 VLM 的自主任务完成评估框架,通过截图+任务描述判断 CUA 是否完成任务,并将评估反馈回传给 Agent 实现自我纠正,在 macOS 环境上达到 73% 评估准确率和 27% 的任务成功率相对提升。
- BiPrompt: Bilateral Prompt Optimization for Visual and Textual Debiasing in Vision-Language Models
-
提出 BiPrompt,一种双边 prompt 优化框架,在测试时同时缓解 CLIP 等 VLM 中视觉侧(结构化注意力擦除)和文本侧(平衡 prompt 归一化)的虚假偏差,无需重训练即可提升 OOD 鲁棒性。
- BOFA: Bridge-Layer Orthogonal Low-Rank Fusion for CLIP-Based Class-Incremental Learning
-
提出BOFA框架,仅微调CLIP已有的跨模态投影层(bridge-layer),通过正交低秩融合(Orthogonal Low-Rank Fusion)将参数更新约束在与旧任务特征正交的低秩"安全子空间"中,配合跨模态混合原型分类器,在不增加任何额外参数和推理开销的前提下实现了SOTA的无样本存储类增量学习。
- Branch, or Layer? Zeroth-Order Optimization for Continual Learning of Vision-Language Models
-
本文系统探索了零阶(ZO)优化在基于PEFT的视觉-语言持续学习(VLCL)中的应用,发现全ZO替换会导致训练不稳定,提出从分支级(branch-wise)到层级(layer-wise)的渐进式ZO-FO混合策略,并基于视觉模态方差更大的理论发现提出MoZO策略(梯度符号归一化+视觉扰动约束),在四个benchmark上达到SOTA。
- Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation (BriMPR)
-
提出 BriMPR 框架,通过"分而治之"策略将多模态测试时自适应(MMTTA)分解为多个单模态特征对齐子问题,先用 prompt tuning 校准各模态全局特征分布实现初始跨模态语义对齐,再通过跨模态掩码嵌入重组和实例级对比学习精细化对齐。
- Bridging the Copyright Gap: Do Large Vision-Language Models Recognize and Respect Copyrighted Content?
-
首次系统评估 LVLM 在多模态上下文中对版权内容的识别和遵守能力,构建了 50,000 对多模态查询-内容的大规模 benchmark,发现 11/12 个 SOTA LVLM 即使面对明确版权声明也无法有效拒绝侵权请求,并提出 CopyGuard 工具增强框架将侵权拒绝率从 ~3% 提升至 ~62%。
- ClearAIR: A Human-Visual-Perception-Inspired All-in-One Image Restoration
-
受人类视觉感知(HVP)启发,提出一种从粗到细的统一图像复原框架 ClearAIR,通过 MLLM 质量评估 → 语义区域感知 → 退化类型识别 → 内部线索复用四阶段逐步恢复图像质量,在多种退化任务上取得 SOTA。
- Conditional Information Bottleneck for Multimodal Fusion: Overcoming Shortcut Learning in Sarcasm Detection
-
揭示多模态讽刺检测中三类捷径学习问题(角色标签偏见、罐头笑声标签泄漏、情感不一致捷径)并重构了无捷径的 MUStARD++R 数据集,提出基于条件信息瓶颈的多模态融合框架 MCIB,通过压缩主模态冗余同时保留辅助模态的互补信息来实现有效融合。
- CreBench: Human-Aligned Creativity Evaluation from Idea to Process to Product
-
提出 CreBench,一个覆盖创意想法→创作过程→创意产品三个维度、12个细粒度指标的多模态创造力评估基准,配套构建 CreMIT(2.2K样本、79.2K人工评价、4.7M指令)并微调出 CreExpert,在创造力评估上显著优于 GPT-4V 和 Gemini-Pro-Vision。
- Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models
-
提出 CoEvo,一个 training-free 和 annotation-free 的 test-time 框架,通过双向 sample-conditioned 的文本/视觉 proxy 协同演化机制动态更新正负代理缓存,在 ImageNet-1K 上比最强负标签基线 AUROC 提升 1.33%、FPR95 降低 45.98%(从 18.92% 降至 10.22%),实现 SOTA 的 zero-shot OOD 检测。
- DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control
-
提出 DEIG,一个面向细粒度多实例图像生成的框架,通过实例细节提取器(IDE)将 LLM 编码器的高维嵌入蒸馏为紧凑的实例感知表示,并用细节融合模块(DFM)的实例掩码注意力防止属性泄漏,在多属性(颜色+材质+纹理)复合描述的生成任务上大幅超越现有方法。
- Difference Vector Equalization for Robust Fine-tuning of Vision-Language Models
-
提出DiVE方法,通过约束预训练和微调模型嵌入之间的"差异向量"在各样本间保持相等,从而在CLIP微调过程中保持嵌入空间的几何结构,同时在ID、OOD、零样本三个指标上取得全面优于现有方法的结果(零样本平均提升8+点)。
- DisCode: Distribution-Aware Score Decoder for Robust Automatic Evaluation of Image Captioning
-
提出 DISCODE,一种免微调的测试时自适应解码器,通过引入高斯先验分布最小化 ATT 损失,使 LVLM 生成的图像描述评估分数更鲁棒地对齐人类判断,并构建了覆盖六个视觉域的 MCEval 基准。
- Empowering Semantic-Sensitive Underwater Image Enhancement with VLM
-
利用 VLM 生成空间语义引导图,通过 cross-attention 注入和语义对齐损失的双重引导机制,赋予水下图像增强网络语义感知能力,使增强结果同时有利于人类感知和下游检测/分割任务。
- Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding
-
提出 Exo2Ego 框架,通过学习外中心(第三人称)与自中心(第一人称)域之间的映射关系,将 MLLM 中丰富的外中心知识迁移到自中心视频理解,结合新构建的 110万同步 ego-exo clip-text 对数据集 Ego-ExoClip 和 60万指令微调数据集 EgoIT,在 8 个自中心视频基准上取得了领先的开源模型性能。
- Explore How to Inject Beneficial Noise in MLLMs
-
提出 Multimodal Noise Generator (MuNG),通过变分推断框架从图文对中动态生成"有益噪声"注入冻结的MLLM视觉特征中,以抑制无关语义、增强跨模态表征对齐,仅需约1%额外参数即可超越全参数微调和LoRA等PEFT方法。
- Exploring LLMs for Scientific Information Extraction using the SciEx Framework
-
本文提出SciEx,一个模块化、可组合的科学信息抽取框架,将PDF解析、多模态检索、Schema引导的抽取和跨文档聚合解耦为独立组件,在医学和环境科学的143篇论文数据集上评估了GPT-4o和Gemini-2.5-Flash的抽取能力,揭示了当前LLM在跨模态推理、数值精度和领域泛化方面的系统性不足。
- Few-Shot Precise Event Spotting via Unified Multi-Entity Graph and Distillation
-
提出 UMEG-Net,面向少样本精确事件定位(PES)任务,通过构建统一多实体图(融合人体骨架、运动物体关键点和环境标志点),结合高效的时空图卷积和无参数多尺度时序平移模块,并通过多模态知识蒸馏将图特征迁移至 RGB 学生网络,在五个运动数据集上以极少标注数据显著超越现有方法。
- Format Matters: The Robustness of Multimodal LLMs in Reviewing Evidence from Tables and Charts
-
本文系统研究了多模态LLM在使用表格和图表作为证据验证科学声明时的鲁棒性,通过扩展SciTabAlign和ChartMimic两个数据集构建了表格-图表对齐的评估基准,发现12个多模态LLM在表格证据上的表现一致优于图表证据,而人类在两种格式上表现一致,揭示了当前模型在图表理解方面的关键短板。
- FT-NCFM: An Influence-Aware Data Distillation Framework for Efficient VLA Models
-
提出 FT-NCFM 框架,通过因果归因(Fact-Tracing)评估样本价值并引导对抗式 NCFM 过程合成高信息密度核心集,仅用 5% 合成数据即可达到全量训练 85-90% 的性能,训练时间减少 80% 以上。
- Harnessing Textual Semantic Priors for Knowledge Transfer and Refinement in CLIP-Driven Continual Learning
-
本文提出SECA框架,利用CLIP文本分支的稳定语义先验来指导骨干网络中语义相关的历史知识迁移(SG-AKT模块),并通过文本嵌入的类间语义关系精炼视觉原型构建混合分类器(SE-VPR模块),在ImageNetR/A和CIFAR100上超越现有SOTA。
- Heterogeneous Uncertainty-Guided Composed Image Retrieval with Fine-Grained Probabilistic Learning
-
本文提出了HUG范式,通过细粒度高斯概率嵌入和异构不确定性估计(区分查询侧多模态协调不确定性与目标侧内容质量不确定性),结合动态加权融合和不确定性引导的对比学习,在Fashion-IQ和CIRR两个CIR基准上取得SOTA。
- HiMo-CLIP: Modeling Semantic Hierarchy and Monotonicity in Vision-Language Alignment
-
提出 HiMo-CLIP,通过对文本嵌入做 batch 内 PCA 分解(HiDe)提取多粒度语义成分,配合双分支单调性感知对比损失(MoLo),在不修改编码器的前提下让 CLIP 学会"文本越完整、对齐分数越高"的语义单调性,在长文本检索上显著超越现有方法。
- ImageBindDC: Compressing Multi-modal Data with ImageBind-based Condensation
-
本文提出ImageBindDC,首个在ImageBind统一特征空间中进行多模态数据压缩的框架,利用特征函数距离(CFD)替代传统MMD,并设计单模态/跨模态/联合模态三级分布对齐损失,在NYU-v2上仅用5个合成样本/类即实现与全数据训练相当的性能(97.30%),比前SOTA绝对提升8.2%,且压缩时间削减4.6倍。
- Information Theoretic Optimal Surveillance for Epidemic Prevalence in Networks
-
本文首次提出以互信息作为优化准则的流行病监测框架 TestPrev,旨在选择网络中的最优节点子集以最大化与疾病流行度分布的互信息,从而提供传统方法无法给出的暴发规模分布级别洞察,并证明了其 NP-hard 性质,设计了贪心算法 GreedyMI 在合成与真实网络上优于基线方法。
- Knowledge Completes the Vision: A Multimodal Entity-aware Retrieval-Augmented Generation Framework for News Image Captioning
-
本文提出MERGE,首个面向新闻图像描述的多模态实体感知RAG框架,通过构建实体中心多模态知识库(EMKB)、假设描述引导的多模态对齐(HCMA)和检索驱动的多模态知识集成(RMKI)三大组件,在GoodNews上CIDEr提升+6.84、F1提升+4.14,并在未见过的Visual News上实现CIDEr +20.17的强泛化。
- Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework
-
本文探索了解码器型LLM在极端多标签分类(XMC)中的有效利用,提出双解码器学习策略和 ViXML 多模态框架,通过结构化提示模板适配LLM embedding + 高效融合视觉元数据,在四个公共数据集上大幅超越 SOTA(最大数据集 P@1 提升 +8.21%),证明"一张图胜过数十亿参数"。
- LLMC+: Benchmarking Vision-Language Model Compression with a Plug-and-play Toolkit
-
本文提出 LLMC+,一个全面的视觉语言模型(VLM)压缩基准和即插即用工具包,支持 5 个代表性 VLM 家族的 20+ 种压缩算法,系统研究了 token 级和模型级压缩的独立及联合效果,揭示了三大关键发现。
- MacVQA: Adaptive Memory Allocation and Global Noise Filtering for Continual Visual Question Answering
-
本文提出MacVQA框架,通过全局噪声过滤(GonF)增强视觉特征的鲁棒性,并通过自适应记忆分配(AMA)基于原型检索和记忆衰减优化知识保留与更新,在VQA v2的10个持续学习任务上实现43.38%平均准确率(+3.57%)和2.32%遗忘率。
- MCMoE: Completing Missing Modalities with Mixture of Experts for Incomplete Multimodal Action Quality Assessment
-
本文首次探索不完整多模态动作质量评估问题,提出 MCMoE 框架,利用自适应门控模态生成器(AGMG)补全缺失模态,并通过混合专家(MoE)动态融合单模态和跨模态联合表示,在单阶段训练中统一学习,在三个公开 AQA 基准上的完整和不完整场景中均达到 SOTA,且参数量仅 4.90M。
- Multi-Agent VLMs Guided Self-Training with PNU Loss for Low-Resource Offensive Content Detection
-
本文提出了一种多智能体视觉语言模型(MA-VLMs)引导的自训练框架,结合新颖的PNU损失函数,在仅有少量标注数据(如50个)的低资源场景下实现高质量攻击性内容检测,性能接近大规模模型。
- Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework
-
提出 Multimodal DeepResearcher,一个四阶段 Agent 框架从零生成图文交替研究报告:通过形式化可视化描述(FDV)让 LLM 学习和生成多样化图表,结合 Actor-Critic 迭代精炼机制(LLM生成D3.js代码→浏览器渲染→多模态LLM评审),在自建 MultimodalReportBench 上达到 82% 整体胜率(Claude 3.7),人类评估 100% 胜率。
- Neighbor-aware Instance Refining with Noisy Labels for Cross-Modal Retrieval
-
提出 NIRNL 框架,通过跨模态边距保持(CMP)增强样本区分度,并利用邻域感知实例精炼(NIR)将训练数据三分为纯净/困难/噪声子集,分别定制不同优化策略,统一了鲁棒学习、标签校准和实例选择三种范式,在高噪声率下实现了 SOTA 跨模态检索性能。
- O3SLM: Open Weight, Open Data, and Open Vocabulary Sketch-Language Model
-
本文构建了大规模草图-图像-指令三元组数据集SketchVCL(包含600K预训练 + 215K微调数据),并训练了O3SLM——首个能够流畅理解手绘草图并完成检测、计数、检索和VQA四大任务的开源大视觉语言模型,在所有任务上大幅超越现有LVLM。
- OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive
-
本文基于UCSF-JHU阿片类药物行业文档档案(OIDA),构建了包含400K训练文档和370K多跳QA对的多模态文档问答基准OIDA-QA,并开发了结合内容重述和页面查找器的领域特化LLM系统,有效处理超长文档的多轮问答和答案页面定位。
- OmniPT: Unleashing the Potential of Large Vision Language Models for Pedestrian Tracking and Understanding
-
本文提出OmniPT,一个基于大视觉语言模型(LVLM)的统一行人跟踪框架,通过RL-Mid Training-SFT-RL四阶段训练策略,同时支持传统MOT、基于语言引用的跟踪(RMOT/CRMOT)和语义理解(SMOT),在多个基准上取得SOTA结果,尤其在BenSMOT上HOTA达75.04,较前SOTA提升3.06。
- Panda: Test-Time Adaptation with Negative Data Augmentation
-
提出 Panda,通过负数据增强(patch 打乱重组)生成保留 corruption 但破坏语义的图像,用其特征偏移原始嵌入以抑制 corruption 引起的预测偏差,以极低开销(<10%)即插即用提升各类 TTA 方法的鲁棒性。
- PatientVLM Meets DocVLM: Pre-Consultation Dialogue Between Vision-Language Models for Efficient Diagnosis
-
本文提出PCDF(Pre-Consultation Dialogue Framework),通过两个VLM角色扮演——DocVLM提问、PatientVLM回答——模拟真实医患对话,生成image-dialogue-diagnosis三元组用于微调DocVLM,在四个医学影像基准上平均F1提升11.48个百分点,且不依赖真实临床对话数据。
- PET2Rep: Towards Vision-Language Model-Driven Automated Radiology Report Generation for Positron Emission Tomography
-
本文提出 PET2Rep,首个专用于正电子发射断层扫描(PET)放射报告生成的大规模基准数据集(565例全身 PET/CT 图像-报告对),并设计了 PET 临床效能(CE)评估指标,对 30 个前沿通用和医疗专用 VLM 进行系统评估,发现当前 SOTA VLM 在 PET 报告生成任务上表现不佳,甚至无法超越简单的模板基线。
- Phantom Menace: Exploring and Enhancing the Robustness of VLA Models Against Physical Sensor Attacks
-
本文首次系统研究Vision-Language-Action(VLA)模型面对物理传感器攻击的安全性,提出"Real-Sim-Real"框架评估六种摄像头攻击和两种麦克风攻击对四个VLA模型的影响,发现所有VLA模型均存在严重脆弱性,并提出基于对抗训练的防御方法将中等强度攻击下的性能提升高达60%。
- Pharos-ESG: A Framework for Multimodal Parsing, Contextual Narration, and Hierarchical Labeling of ESG Reports
-
本文提出Pharos-ESG框架,通过基于版面流的阅读顺序建模、目录锚点引导的层次结构重建、上下文感知的多模态图像描述转换、以及多级金融标签预测四个核心模块,实现对ESG报告的结构化解析,在全面评估中F1达93.59、ROKT达0.92、TBTA达92.46%,显著超越MinerU、GPT-4o、Gemini 2.5 Pro等基线,并发布了首个大规模公开ESG报告数据集Aurora-ESG(24K+报告)。
- PlantTraitNet: An Uncertainty-Aware Multimodal Framework for Global-Scale Plant Trait Inference from Citizen Science Data
-
本文提出 PlantTraitNet,一个多模态、多任务、不确定性感知的深度学习框架,利用公民科学平台(iNaturalist、Pl@ntNet)的弱监督植物照片,结合图像特征(DINOv2)、深度先验(Depth-Anything-V2)和地理空间先验(Climplicit),同时预测四种关键植物性状(株高、叶面积、比叶面积、叶氮含量),生成的全球性状图在与 sPlotOpen 植被调查数据的基准测试中一致优于现有全球性状产品。
- Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation
-
提出 Plug-and-Play Clarifier,一个零样本、模块化的多模态框架,将第一人称视角中的意图歧义问题分解为文本澄清、视觉质量评估和跨模态手势定位三个子任务,使 4-8B 小模型在意图消歧任务上提升约 30%,接近甚至超越大模型水平。
- Positional Bias in Multimodal Embedding Models: Do They Favor the Beginning, the Middle, or the End?
-
本文首次系统研究多模态表示模型中的位置偏差现象,发现文本编码器倾向于偏好输入开头,而图像编码器在开头和结尾均表现偏好,并通过大量控制实验揭示该偏差源于位置编码方案、训练损失、上下文重要性和图文对训练的多因素共同作用。
- ReCAD: Reinforcement Learning Enhanced Parametric CAD Model Generation with Vision-Language Models
-
提出 ReCAD 框架,通过将 CAD 脚本重写为参数化代码进行 SFT,再利用 GRPO 强化学习与分层基元课程学习策略,使 VLM 能从文本或图像输入生成高精度、可编辑的参数化 CAD 模型,在分布内和分布外设置上均大幅超越现有方法。
- Recursive Visual Imagination and Adaptive Linguistic Grounding for Vision Language Navigation
-
提出基于隐式场景表征(ISR)的VLN策略,通过递归视觉想象(RVI)将历史轨迹压缩为固定大小的紧凑神经网格学习高层场景先验,并通过自适应语言对齐(ALG)将指令的不同语义组件与不同网格精细匹配,在R2R-CE和ObjectNav两个连续环境导航任务上取得SOTA。
- Remember Me: Bridging the Long-Range Gap in LVLMs with Three-Step Inference-Only Decay Resilience Strategies
-
提出 T-DRS(Three-step Decay Resilience Strategies),一个无需训练的推理时框架,通过语义驱动增强、距离感知控制和远距离重强化三个阶段协同缓解 RoPE 引起的长程注意力衰减,在 VQA 任务上持续提升多个 LVLM 的性能。
- Revisiting the Data Sampling in Multimodal Post-training from a Difficulty-Distinguish View
-
提出两种多模态数据难度评估策略——PISM(渐进图像语义遮蔽)和CMAB(跨模态注意力平衡),发现在难度分层数据上仅用GRPO训练即可一致超越传统SFT+GRPO流水线,证明了战略性数据筛选比复杂训练范式更重要。
- RMAdapter: Reconstruction-based Multi-Modal Adapter for Vision-Language Models (Oral)
-
提出 RMAdapter,一种双分支适配器架构:在标准 adapter 的适应分支旁增加重建分支(类 AutoEncoder),通过共享下投影层和逐层本地重建损失,在 CLIP 少样本微调中实现任务特定适应与通用知识保持的最佳平衡,在 Base-to-Novel 泛化、跨数据集和领域泛化三个任务上全面超越 SOTA(含 Prompt-based 方法)。
- SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge
-
提出SafeR-CLIP框架,通过近邻感知重定向(将不安全嵌入重定向到语义最近的安全目标而非固定配对)和相对跨模态重定向损失(仅以不安全表示作为负样本而非随机批内负样本),在保持安全性的同时将零样本分类精度比Safe-CLIP恢复8.0%。
- SAGE: Spuriousness-Aware Guided Prompt Exploration for Mitigating Multimodal Bias
-
提出SAGE,一种无需训练、微调或外部标注的提示选择方法,通过计算提示模板在类别间的分离度得分来缓解CLIP模型中的多模态虚假偏差,在四个基准+五个骨干模型上一致提升最差组准确率(WGA)和调和均值(HM)。
- SatireDecoder: Visual Cascaded Decoupling for Enhancing Satirical Image Comprehension
-
提出SatireDecoder,一种无需训练的框架,通过多智能体视觉级联解耦和不确定性引导的CoT推理来增强MLLM对讽刺图像的深层语义理解,在YesBut数据集上正确性、完整性和忠实性三项指标分别提升10%-40%。
- SDEval: Safety Dynamic Evaluation for Multimodal Large Language Models
-
提出首个 MLLM 安全动态评估框架 SDEval,通过文本动态(6种策略)、图像动态(2类策略)和跨模态动态(4种策略)从原始安全基准生成可控复杂度的变体样本,在 MLLMGuard 和 VLSBench 上使 InternVL-3-78B 安全率下降近 10%,有效缓解数据泄露并暴露模型安全漏洞。
- See, Symbolize, Act: Grounding VLMs with Spatial Representations for Better Gameplay
-
系统性评估了符号化空间表示(物体坐标)对VLM游戏能力的影响,发现符号信息仅在检测准确时有益,当VLM自提取符号时效果取决于模型能力和场景复杂度,视觉帧始终不可或缺。
- Seeing Justice Clearly: Handwritten Legal Document Translation with OCR and Vision-Language Models
-
本文系统性对比了传统 OCR+机器翻译(OCR-MT)流水线与视觉大语言模型(vLLM)在手写马拉地语法律文档翻译为英语任务上的表现,发现两类方法均未达到法律级部署要求,OCR-MT 受级联错误影响严重,vLLM 存在严重的幻觉问题,但 vLLM 展现出统一端到端处理的发展潜力。
- SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models
-
SpeakerLM 是首个专为端到端说话人分离与识别(SDR)设计的多模态大语言模型,通过音频编码器-投影器-LLM 架构和灵活的说话人注册机制,在多个公开基准上大幅超越级联基线系统(cpCER 绝对降低最高达 13.82%),并在域外测试集上展现强鲁棒性。
- TabFlash: Efficient Table Understanding with Progressive Question Conditioning and Token Focusing
-
TabFlash 提出渐进式问题条件化(Progressive Question Conditioning)和 Token 聚焦(Token Focusing)两大技术,在 ViT 中注入问题信息生成问题感知的视觉特征,并基于 L2 范数剪枝背景 token 同时通过对比训练将关键信息集中到保留 token 中,在7个表格理解基准上超越 GPT-4o 和 Gemini 2.5 Pro,同时减少 27% FLOPs 和 30% 显存。
- The Triangle of Similarity: A Multi-Faceted Framework for Comparing Neural Network Representations
-
本文提出"相似性三角"(Triangle of Similarity)框架,整合静态表征相似性(CKA/Procrustes)、功能相似性(线性模式连接/预测分布相似性)和稀疏性相似性(剪枝鲁棒性)三个互补视角来全面比较神经网络,发现架构家族是表征相似性的主要决定因素,且模型的表征结构比任务准确率在剪枝下更为鲁棒。
- To Align or Not to Align: Strategic Multimodal Representation Alignment for Optimal Performance
-
通过引入可控对比学习模块系统调节对齐强度 \(\lambda\),结合偏信息分解(PID)框架量化模态间冗余-独特-协同信息结构,揭示显式对齐的效用高度依赖于数据特性:冗余主导时对齐有益,独特主导时有害,混合场景存在最优 \(\lambda^*\)。
- Towards Human-AI Accessibility Mapping in India: VLM-Guided Annotations and POI-Centric Analysis in Chandigarh
-
本文将Project Sidewalk无障碍标注平台适配到印度昌迪加尔,通过定制化界面标签、VLM驱动的任务指导(Gemini 2.5 Flash),以及以POI为中心的分析框架,在三个不同土地用途的区域中审计了约40公里人行道,识别出1,644处可改善的无障碍设施位置。
- Towards Long-window Anchoring in Vision-Language Model Distillation
-
LAid(Long-window Anchoring distillation)提出了一种位置感知的知识蒸馏框架,通过头部级别的傅里叶增强位置知识传递,将小型VLM(3B/7B)的有效上下文窗口扩展至原来的3.2倍,接近大型教师模型(32B)的水平,同时保持标准VL基准上的性能。
- Towards Scalable Web Accessibility Audit with MLLMs as Copilots
-
提出 AAA 框架,通过 GRASP(基于图的多模态页面采样)和 MaC(MLLM 作为 Copilot)两大创新,将 WCAG-EM 标准操作化,实现可扩展的端到端网页无障碍审计。
- CAMU: Context Augmentation for Meme Understanding
-
本文提出 CAMU 框架,通过视觉 grounding 增强的上下文 caption 生成、新颖的 caption 评分网络和 CLIP 文本编码器的参数高效 n-layer 微调,在 Hateful Memes 数据集上达到 0.807 准确率和 0.806 F1,与 55B 参数的 SOTA 方法持平但效率高得多。
- UniFit: Towards Universal Virtual Try-on with MLLM-Guided Semantic Alignment
-
提出 UniFit,一个由多模态大语言模型(MLLM)驱动的通用虚拟试穿框架,通过 MLLM 引导的语义对齐模块(MGSA)桥接文本指令与参考图像之间的语义鸿沟,并通过两阶段渐进训练+自合成流水线克服复杂场景的数据稀缺问题,首次在单一框架内支持 6 种 VTON 任务。
- URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding
-
URaG 发现 MLLM 处理长文档时存在类人的"粗到细"推理模式(浅层注意力均匀分散、深层集中于证据页),基于此洞察在第 6 层插入轻量跨模态检索模块(仅占参数 0.05%),选取 Top-5 相关页面丢弃其余内容,实现 SOTA 性能的同时减少 44-56% 计算量。
- VILTA: A VLM-in-the-Loop Adversary for Enhancing Driving Policy Robustness
-
VILTA 将 VLM(Gemini-2.5-Flash)直接嵌入自动驾驶 RL 训练循环中,通过"Vision-Language-Editing"(VLE)范式让 VLM 编辑周围车辆的未来轨迹来生成具有挑战性的危险场景,训练出的驾驶策略在 CARLA 挑战场景中路线完成率提升 13.3%、碰撞率降低 28.5%。
- VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use
-
VipAct 提出了一个多Agent协作框架,通过编排器Agent(任务分析+规划+协调)、专用Agent(描述/比较/视觉提示解读)和视觉专家模型(深度估计/目标检测/分割等)三层协作,显著提升 VLM 在细粒度视觉感知任务上的表现,在 Blink 上从 63.74% (zero-shot GPT-4o) 提升到 73.79%。
- VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction
-
提出VIR-Bench——一个基于200个日本旅行vlog视频的benchmark,通过行程重建任务(visiting order graph构建)评估MLLM的地理空间和时间理解能力,发现SOTA模型(包括GPT-4.1和Gemini-2.5)在POI识别和时间转移推理上仍困难重重。
- vMFCoOp: Towards Equilibrium on a Unified Hyperspherical Manifold for Prompting Biomedical VLMs
-
提出 vMFCoOp 框架,通过在统一超球面流形上反向估计 von Mises-Fisher 分布对齐 LLM 和 CLIP 的语义偏差,实现生物医学 VLM 的鲁棒少样本提示学习。
- VP-Bench: A Comprehensive Benchmark for Visual Prompting in Multimodal Large Language Models
-
VP-Bench 提出了首个系统评估 MLLM 视觉提示(Visual Prompt)理解能力的两阶段 Benchmark:Stage 1 用 30K+ 图像覆盖 8 种 VP 形状×355 种属性组合评测 VP 感知能力,Stage 2 评测 VP 对 6 个下游任务的实际效果。在 28 个 MLLM 上的评测揭示了 VP 形状选择对性能的关键影响。
- When Eyes and Ears Disagree: Can MLLMs Discern Audio-Visual Confusion?
-
发现多模态大语言模型(MLLMs)在音视觉信息不对称时严重受视觉主导而无法识别缺失音频的"音视觉混淆"现象,提出 AV-ConfuseBench 基准和 RL-CoMM 方法(引入外部音频模型做参考的阶梯式推理奖励 + 答案置信度优化),在仅用约 20% 训练数据的情况下提升基线模型准确率 10~30%。
- Zero-Reference Joint Low-Light Enhancement and Deblurring via Visual Autoregressive Modeling with VLM-Derived Modulation
-
提出 VAR-LIDE,一个完全无监督的视觉自回归框架,通过 VLM 感知先验引导自适应光照调制、空间-频率 RoPE 和递归相位域调制三大模块,联合解决低光增强与去模糊问题,在无需配对数据的条件下逼近甚至超越监督方法的感知质量。