🧩 多模态 VLM¶
💬 ACL2026 · 82 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (418) · 🔬 ICLR2026 (211) · 🧪 ICML2026 (89) · 🤖 AAAI2026 (74) · 🧠 NeurIPS2025 (107) · 📹 ICCV2025 (119)
🔥 高频主题: 多模态 ×41 · LLM ×8 · 布局/合成 ×4 · 对齐/RLHF ×3 · 模型压缩 ×3
- A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends
-
系统综述基于多模态大语言模型(MLLM)的视觉丰富文档理解(VRDU),从特征表示/融合和训练范式两个维度梳理OCR-based和OCR-free方法,并讨论数据稀缺、多页文档、多语言支持、RAG和智能体等新兴方向。
- AdaTooler-V: Adaptive Tool-Use for Images and Videos
-
本文指出现有"thinking with images" MLLM 普遍存在盲目工具调用问题——所有视觉问题都强行 zoom-in/抽帧,反而 overthinking 降准、增推理成本;为此提出 AdaTooler-V,引入 AT-GRPO 强化学习算法用样本级 Tool Benefit Score 动态调节奖励尺度(工具有效时鼓励、无效时惩罚),让 7B 模型在 V* 高分辨率基准上达到 89.8%,超过 GPT-4o 与 Gemini 1.5 Pro。
- AFMRL: Attribute-Enhanced Fine-Grained Multi-Modal Representation Learning in E-commerce
-
提出 AFMRL 框架,将电商产品的细粒度理解定义为属性生成任务,通过 MLLM 生成关键属性来增强对比学习(AGCL),并用检索性能作为奖励信号反向优化属性生成器(RAR),在大规模电商数据集上实现 SOTA 检索性能。
- AICA-Bench: Holistically Examining the Capabilities of VLMs in Affective Image Content Analysis
-
提出 AICA-Bench,一个涵盖情感理解(EU)、情感推理(ER)和情感引导内容生成(EGCG)三个维度的综合基准,评估 23 个 VLM 后发现模型存在强度校准失败和描述浅薄两大缺陷,并提出 GAT Prompting 训练无关框架来缓解这些问题。
- Aligned Multi-View Scripts for Universal Chart-to-Code Generation
-
把"同一张图表用 Python / R / LaTeX 三种语言写出语义等价脚本"作为新的监督信号,构建了 176K 四元组数据集 Chart2NCode,并提出在 LLaVA 投影器上加一个"语言条件的低秩子空间路由"的轻量适配器 CharLuMA,让一个模型在三种绘图语言上都达到可执行率与视觉保真度双高的水准。
- All Changes May Have Invariant Principles: Improving Ever-Shifting Harmful Meme Detection via Design Concept Reproduction
-
提出RepMD方法,通过构建设计概念图(DCG)——借鉴攻击树思想描述恶意用户设计有害梗图的步骤和逻辑——来引导MLLM检测不断变化的有害梗图,在GOAT-Bench上达81.1%准确率。
- Almieyar-Oryx-BloomBench: A Bilingual Multimodal Benchmark for Cognitively Informed Evaluation of Vision-Language Models
-
BloomBench 用 Bloom 认知分类法重构 VLM 评测,将 7,747 个英阿双语图文问答样本组织为 6 个认知层级和 106 个任务类型,并发现当前 VLM 的高分往往掩盖了事实回忆、创造性综合和跨语言推理上的明显短板。
- Automatic Slide Updating with User-Defined Dynamic Templates and Natural Language Instructions
-
定义了"基于自然语言指令在用户自定义模板上进行动态幻灯片更新"的新任务,构建了包含 20,036 个指令-执行三元组的 DynaSlide 基准,并提出了 SlideAgent 作为强参考基线。
- Beyond Screenshots: Evaluating VLMs' Understanding of UI Animations
-
构建首个 UI 动画理解评测集 AniMINT(300 段密集标注的动画视频 + 3 位专家 + 300 用户标注),系统测试 9 个 SOTA VLM 后发现:基础运动效果能识别,但动画用途分类和高层语义解读与人类差距巨大,进一步用 Motion-Context-Perceptual Cue (MCPC) 增强能在 Gemini-2.5-Flash 上同时提升分类和解读性能。
- CARES: Context-Aware Resolution Selector for VLMs
-
CARES 在目标 VLM 前增加一个轻量 query-aware 分辨率选择器,用低分辨率图像和文本问题预测“足够回答”的最小输入分辨率,在 9 个多模态 benchmark 上基本保持准确率,同时平均节省约 65–85% 的 prefill 计算成本。
- CArtBench: Evaluating Vision-Language Models on Chinese Art Understanding, Interpretation, and Authenticity
-
本文构建了 CArtBench——一个基于故宫博物院藏品的多任务基准,评估 VLM 在中国艺术理解中的四种能力(证据问答、结构化鉴赏、可辩护重解读、真伪辨别),发现即使最强模型在证据关联和风格-年代推理上也存在显著性能下降,而真伪辨别接近随机水平。
- ChartDiff: A Large-Scale Benchmark for Comprehending Pairs of Charts
-
作者构建了第一个面向"两图对比摘要"的大规模 benchmark ChartDiff(8,541 对图表,覆盖 6 种图类型、3 个绘图库、约 60 种视觉风格、LLM 生成 + 人工核验的对比摘要),系统评测了 14 个 VLM/pipeline,发现前沿闭源大模型在 GPT Score 上领先但 ROUGE 低,专业图表模型/pipeline 反之,揭示了 ROUGE 与人感知质量的严重失配;同时多系列图始终是所有模型最难的死角。
- CharTide: Data-Centric Chart-to-Code Generation via Tri-Perspective Tuning and Inquiry-Driven Evolution
-
CharTide 把"图表→绘图代码"的瓶颈归因到数据本身:用三视角解耦的 SFT(视觉感知 / 纯文本代码逻辑 / 模态融合三路正交数据流)打破同质数据的扩展墙,再用一个冻结 Inspector 通过原子 QA 客观核验生成图表来给可验证奖励做 RL,让 7B/8B 开源模型超过 GPT-4o、逼近 GPT-5。
- CNSL-bench: Benchmarking the Sign Language Understanding Capabilities of MLLMs on Chinese National Sign Language
-
CNSL-bench 是首个基于《国家通用手语词典》的权威中国手语 MLLM 评测基准,覆盖 6,707 个唯一手语词条 × 文本/图片/视频三模态 × 三种手部 articulation(空写/指拼/手指字母)共 20,121 道四选一题,在 21 个 SOTA MLLM 上揭示:GPT-5 文本 89.6%、图片 67.0%、视频 56.7%,相对人类 97% 仍有巨大 gap,且 CoT 推理对视频帮助微弱。
- CO-EVO: Co-evolving Semantic Anchoring and Style Diversification for Federated DG-ReID
-
CO-EVO 针对联邦域泛化行人重识别(FedDG-ReID)中的"语义-风格冲突",提出 CSA(相机不变语义锚定)学习冻结的身份级文本原型作为"引力中心"+ GSD(全局风格多样化)用轻量 GCSB(全局相机风格库)合成真实跨域扰动,二者耦合优化在 Market-1501/MSMT17/CUHK03 leave-one-out 上 ViT mAP 平均比 SOTA 提升 14 个点(34.1→48.1)。
- CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook
-
CodeBind 用 shared-specific 表征解耦和组合式 VQ codebook 改造 ImageBind/ViT-Lens 式多模态对齐,在九种模态上同时提升跨模态分类/检索,并保留更强的模态特有细粒度信息。
- CogGen: A Cognitively Inspired Recursive Framework for Deep Research Report Generation
-
CogGen 提出一个模拟人类认知写作过程的多智能体递归框架,通过宏观认知循环实现全局重构、微观认知循环实现并行章节精炼、抽象视觉表示(AVR)实现文本-图表的语义级协同规划,在 OWID 基准上达到人类专家水平并超越 Gemini Deep Research。
- CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering
-
CRAFT 是一个面向新闻事件多视频问答的 claim-centric pipeline,它结合动态关键帧选择、ASR 转写、UNLI/MNLI/LLM critic 迭代修正和引用合并,在 MAGMaR-Test 上取得 0.739 macro average、0.810 reference recall 和 0.635 citation F1。
- Cross-Cultural Expert-Level Art Critique Evaluation with Vision-Language Models
-
论文提出 Vulca-Bench 三层评测框架(自动指标 + 单评审打分 + 人类 sigmoid 校准),覆盖 6 大艺术传统、165 个文化维度与 L1–L5 五层"视觉描述→文化诠释"层级,在 15 个 VLM 上首次量化揭示了"模型在深层文化诠释上掉点显著、且系统性偏好西方艺术"的现象。
- Cross-Modal Masked Compositional Concept Modeling for Enhancing Visio-Linguistic Compositionality
-
MACCO 让 CLIP 在一个模态里遮住"关系/属性"这类组合概念、再用另一模态的完整信息把它重建出来,配上两个辅助对齐损失,在不造硬负样本的情况下显著提升了 VLM 的组合理解能力。
- Cross-Modal Taxonomic Generalization in (Vision-) Language Models
-
本文系统研究 VLM 中语言模型是否能将纯文本习得的分类学知识(上位词关系)跨模态泛化到视觉输入,发现即使训练时完全不提供上位词标签,预训练 LM 仍能在图像中识别上位词类别,但这种泛化需要类别成员在视觉上的一致性。
- DMN: A Compositional Framework for Jailbreaking Multimodal LLMs with Multi-Image Inputs
-
这篇论文提出 DMN,用分布式指令、多模态证据和数字链辅助任务组合成多图越狱评测框架,证明当前支持多图输入的 MLLM 在跨图安全对齐上存在明显弱点,同时给出一个 multi-image-aware filter 作为初步防御。
- Do MLLMs Capture How Interfaces Guide User Behavior? A Benchmark for Multimodal UI/UX Design Understanding
-
这篇论文提出 WiserUI-Bench,用 300 组真实 A/B 测试验证过的 UI 图片对和 684 条专家解释评测 MLLM 是否理解界面设计如何影响用户行为,结果显示现有模型在选择赢家时接近随机、在解释原因时也明显未达专家水平。
- Doc-PP: Document Policy Preservation Benchmark for Large Vision-Language Models
-
本文提出 Doc-PP 基准,揭示大型视觉-语言模型(LVLM)在多模态文档问答中存在"推理诱导的安全缺口"——模型在需要跨模态推理时会绕过显式非披露策略泄露敏感信息,并提出 DVA(Decompose–Verify–Aggregation)结构化推理框架来显著降低泄露率。
- DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset
-
DraDDP 构建了首个公开的英文多模态多方对话话语解析数据集,并用传统解析器、LLM 与多模态 LLM 系统评测了文本、音频、视频线索对依存边和话语关系识别的不同贡献。
- DualFact: A Multimodal Fact Verification Framework for Procedural Video Understanding
-
作者把"做饭、家具制作"这类程序化视频字幕的事实评测拆成双层事实——conceptual facts(抽象角色,如 Action/Ingredient/Tool/Location)+ contextual facts(视频中可观察的 predicate–argument 关系,如 stir(soup, pot)),配套构建 YouCook3-Fact / CraftBench-Fact 两个标注隐式参数补全 (VIA) 与对比性事实的基准,并提出 MultiFactScore 用多模态/文本 NLI 在角色级别分别核查事实,进而把错误细分为 Hallucination / Saliency / Omission;实验发现 SOTA MLLM 字幕"流畅但事实残缺",单看字幕会高估 Hallucination 一半左右,只有 video-grounded 评测才能区分 saliency 与真 hallucination。
- Dynamic Emotion and Personality Profiling for Multimodal Deception Detection
-
本文指出现有欺骗检测数据集仅提供受试者级别的情感/人格标签(同一人所有样本共用标签),提出样本级动态标注方案和可靠性加权多模态融合框架 Rel-DDEP,在欺骗检测 F1 上提升 2.53%,情感检测提升 2.66%,人格检测提升 9.30%。
- E2E-GMNER: End-to-End Generative Grounded Multimodal Named Entity Recognition
-
提出E2E-GMNER,首个将实体识别、语义分类、视觉定位和隐式知识推理统一在单一多模态大语言模型中的端到端GMNER框架,通过CoT推理自适应判断视觉/知识线索的可用性,并引入高斯风险感知框扰动(GRBP)提升生成式框预测的鲁棒性。
- EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions
-
作者发布 1,334 条真实大学电路课手写作业的 EDU-CIRCUIT-HW 数据集,并提出"upstream 识别 + downstream 评分"双层评测协议,发现即便最强 MLLM(GPT-5.1 / Gemini-3-Preview)也有 37–85% 样本含识别错误,但仅 7–20% 会传播到评分;通过 LLM-judge 错误模式 + 仅 3.3% 人工兜底的 regrading 模块,可把 point-agreement 从 70 %提升到 76 %。
- Efficient Inference for Large Vision-Language Models: Bottlenecks, Techniques, and Prospects
-
本文提出一个系统性的LVLM推理效率分类体系,围绕编码-预填充-解码三阶段推理流水线分析瓶颈,揭示了"视觉token主导"导致的系统性效率屏障,并梳理了从信息密度塑形、长上下文注意力管理到内存带宽突破的完整优化技术图谱。
- Enhancing Multimodal Large Language Models for Ancient Chinese Character Evolution Analysis via Glyph-Driven Fine-Tuning
-
本文构建了一个包含11个任务、13万+实例的古汉字演变分析基准,评估了19个MLLM后发现现有模型在字形级识别和演变推理上能力有限,并提出字形驱动对比微调框架GEVO,在2B模型上实现全任务提升。
- From Charts to Code: A Hierarchical Benchmark for Multimodal Models
-
本文提出 Chart2Code,一个包含 2,186 个任务、覆盖 22 种图表类型的层次化基准,分为图表复现(Level 1)、图表编辑(Level 2)和长表格转图表(Level 3)三个递进难度级别,评测 29 个 SOTA 多模态模型,发现即使最强的 GPT-5.2 在编辑任务上的图表质量评分仅 33.41,揭示了当前模型在实际图表代码生成中的显著不足。
- From Heads to Neurons: Causal Attribution and Steering in Multi-Task Vision-Language Models
-
提出 HONES 框架,通过先定位任务关键注意力头再以其为条件引导 FFN 神经元归因,实现了多任务 VLM 中跨异构任务的统一、无梯度的神经元级因果分析和轻量级任务性能提升。
- From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck
-
本文提出 MM-Mem,一种受模糊痕迹理论启发的金字塔式多模态记忆架构——将记忆分为感知缓冲层(视觉为主)、情景流层(事件级摘要)和符号图式层(知识图谱)三个层级,通过 SIB-GRPO(语义信息瓶颈+强化学习)自底向上压缩冗余、通过熵驱动自顶向下检索,在 4 个长视频 benchmark 上实现 SOTA。
- GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents
-
提出 GameplayQA,一个基于多人3D游戏视频的端到端基准框架,通过密集时间线标注(1.22标签/秒)和结构化干扰项分类学,系统评估多模态大模型在决策密集、多视角同步场景下的感知和推理能力,揭示前沿模型与人类表现仍有显著差距。
- GroupToM-Bench: Benchmarking Group Theory of Mind and Nonlinear Social Emergence in MLLMs
-
这篇论文提出 GroupToM-Bench,用 240 个专家设计的多模态群体互动场景和 7 层认知审计框架评测 MLLM 是否能从个体信念/欲望/意图推理到群体张力、结构约束和非线性集体结果,结果显示当前模型普遍存在明显的 group cognitive gap。
- GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance
-
GuideDog 用「专家规范驱动的银标生成 + 人工核验金标」流水线,从 269 段全球行走视频中构建出 22K 张第一视角行人场景图文对(含 818 题 QA 基准),首次让 MLLM 在 BLV(盲与低视力)导航任务上有了规模化、地理多样、标准化的训练与评测数据。
- How Do LLMs and VLMs Understand Viewpoint Rotation Without Vision? An Interpretability Study
-
本文提出文本视角旋转理解 (VRU) 基准 VRUBench,用 layer-wise probing 与 head-wise path patching 揭示 LLM/VLM 之所以在该任务上接近随机的根因 —— 中后层关键头未能把"已感知的朝向"与"该朝向对应的观测"绑定,并通过只微调 32 个关键头就以 50% GPU 时间达到全量微调的效果且不损通用能力。
- Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production
-
这篇论文提出 HybridSign,把自回归逐帧生成和 flow-based diffusion 细化结合起来,并加入三专家多尺度姿态表示与 confidence-aware causal attention,在 PHOENIX14T 和 How2Sign 上取得更好的手语生成质量-延迟折中。
- "I See What You Did There": Can Large Vision-Language Models Understand Multimodal Puns?
-
本文提出 MultiPun——首个带"对抗性 non-pun 干扰项"的多模态双关语 benchmark(445 个 pun + 890 个 non-pun,覆盖同音/同形两类),系统评测了 11 个 VLM 在双关检测/定位/解释三类任务上的表现,发现所有模型都倾向于把 non-pun 也当作 pun(TNR 普遍 < 0.4),并提出 Pun-CoT 提示策略 + Pun-Tuning 微调策略,平均 F1 提升 16.5%。
- Jailbreaking Multimodal Large Language Models using Multi-Clip Video
-
这篇论文构建MCV SafetyBench来评估视频MLLM安全性,发现多clip、多上下文的视频输入会系统性提高攻击成功率,而简单的抽帧图像过滤能显著降低这种风险。
- LaMI: Augmenting Large Language Models via Late Multi-Image Fusion
-
提出 LaMI,通过后融合架构在预测最后阶段融合视觉特征与 LLM 输出,并在推理时从文本生成多张图像进行基于置信度的聚合,在不损害文本推理能力的前提下显著提升 LLM 的视觉常识推理能力。
- Learning More from Less: Exploiting Counterfactuals for Data-Efficient Chart Understanding
-
针对 chart 是"程序化生成的视觉产物"这一独特属性,提出 ChartCF——通过 GPT-5 在绘图代码上做最小改动生成视觉相似但答案不同的"反事实图对",再用文本 DPO + 图像 DPO 联合偏好优化让 VLM 学会细粒度视觉判别,仅用 4K 偏好对就在多个 chart QA benchmark 上匹配或超过用 300K SFT 数据训练的 ECD。
- Leave My Images Alone: Preventing Multi-Modal Large Language Models from Analyzing Unauthorized Images
-
提出 ImageProtector,通过在图像中嵌入近不可察觉的对抗扰动作为视觉提示注入攻击,使 MLLM 对被保护图像生成拒绝响应,从而阻止恶意分析者利用开放权重 MLLM 大规模提取图像中的隐私信息。
- Long Story Short: Disentangling Compositionality and Long-Caption Understanding in Contrastive VLMs
-
系统拆解了对比 VLM 里"组合性推理 (compositionality)"和"长 caption 理解 (long-caption understanding)" 这两项能力之间的关系——发现它俩是双向相互促进的,但这种迁移对训练数据质量和优化策略极度敏感:用 grounded + 高词表覆盖的长 caption 数据 + 全参数微调能同时拿满两个能力,而 DAC/DCI 的低质量合成 caption + LoRA 部分更新就会两头垮;LongCLIP 把前 20 个位置 embedding 冻结看似保护了通用对齐,实则限死了组合学习——作者的"control 模型" LSS 在原 77-token 上下文窗口内全参微调 ShareGPT4V,性能反超 LongCLIP。
- Lost in Translation: Do LVLM Judges Generalize Across Languages?
-
本文提出 MM-JudgeBench,首个大规模多语言多模态评判模型基准(25 种语言、60K+ 偏好实例),评估 22 个 LVLM 发现当前 LVLM 评判器存在显著的跨语言性能差异——模型大小和架构不能预测多语言鲁棒性,即使最先进的评判器也表现不一致,突显了多语言多模态评估基准的必要性。
- MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems
-
提出 FlowVerse 基准(将数学问题信息分为 DI/EI/RP/OQ 四个组件并构建六个变体版本)和 MathFlow 模块化管线(将感知和推理解耦为独立阶段),训练专门的感知模型 MathFlow-P-7B 从数学图表中提取关键信息,显著提升各类推理模型的视觉数学问题解决能力。
- Measuring What Matters Beyond Text: Evaluating Multimodal Summaries by Quality, Alignment, and Diversity (MM-Eval)
-
针对"多模态摘要带多模态输出 (MSMO)"任务,提出 MM-Eval 评测框架:把文本质量 (OpenFActScore + G-Eval)、跨模态对齐 (MLLM-as-Judge) 和视觉多样性 (Truncated CLIP Entropy) 三个分项分数用 Ridge 回归学到的权重聚合成单一打分,在 mLLM-EVAL 新闻基准上对人类偏好的 Kendall \(\tau\) 从 equal-weight baseline 的 0.041 提升到 0.374。
- MedLayBench-V: A Large-Scale Benchmark for Expert-Lay Semantic Alignment in Medical Vision Language Models
-
本文提出 MedLayBench-V,首个大规模多模态医学专家-通俗语义对齐基准(79,793 图文对),通过 Structured Concept-Grounded Refinement (SCGR) 流水线将专业放射学报告转化为通俗描述,确保临床语义保真的同时将阅读难度从研究生级别降至高中水平,零样本检索实验表明通俗描述仅带来不到 1% 的性能损失。
- MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&A
-
MM-BizRAG 证明企业多模态 RAG 不能只依赖页面截图和视觉 embedding,而应先按文档结构区分报告与幻灯片,再显式解析文本、表格和图片,并在推理时组装多模态上下文,从而在 SlideVQA、FinRAGBench-V 和内部企业数据上显著超过视觉中心 baseline。
- MONETA: Multimodal Industry Classification through Geographic Information with Multi Agent Systems
-
本文提出 MONETA,首个结合文本(网站、维基百科、Wikidata)和地理空间数据(OpenStreetMap、卫星图像)的多模态行业分类基准,并设计零样本和多轮多智能体两种无训练管线,使用开源和闭源 MLLM 在 20 类 NACE 行业分类上达到 62.10%-74.10% 准确率,多轮设计最高提升 22.80%。
- More Than Meets the Eye: Measuring the Semiotic Gap in Vision-Language Models via Semantic Anchorage
-
本文从认知符号学角度揭示 VLM 的"字面优越偏差"——模型在高保真图像上倾向于字面解读而非隐喻/习语理解,通过引入 DIVA 基准(图标化简化图像)和 Semantic Alignment Gap 指标,证明降低视觉保真度能显著缩小字面与习语解读之间的鸿沟。
- MSEarth: A Multimodal Benchmark for Earth Science Phenomenon Discovery with MLLMs
-
从 64,560 篇 CC-BY 开源地球科学论文里抽出 289K 张图,用「raw caption + 正文上下文」合成 refined caption,再用 5 模型多智能体投票 + 三阶段 PhD 专家校验生成 7,195 题 graduate-level 测试集(含 captioning / MCQ / open-ended),系统揭示了 SOTA MLLM 在 Earth-science 多图推理上"感知 >> 推理"的 20+ 分鸿沟,并给出 441K 训练集让开源 7B 模型 GRPO 后媲美 GPT-4o。
- PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection
-
PRISM 发现 MLLM 视觉特征的非零均值会造成 Global Semantic Drift,从而污染基于相似度的数据选择,并用训练免的均值重中心化和低相关样本筛选,在只保留约 30% 视觉样本的情况下达到 101.7% 相对性能,同时把端到端 GPU 时间降低约 70%。
- Reducing Peak Memory Usage for Modern Multimodal Large Language Model Pipelines
-
论文把多模态大模型的显存瓶颈从“解码阶段的长上下文缓存”前移到“prefill 阶段的视觉 token 峰值缓存”,提出在 prefill 过程中边计算边压缩的结构感知 KV-cache 框架,在固定缓存预算下把峰值显存控制住,同时尽量保留图像和视频理解能力。
- Region-R1: Reinforcing Query-Side Region Cropping for Multi-Modal Re-Ranking
-
本文提出 Region-R1,将多模态重排序中的查询图像区域裁剪建模为决策问题,通过强化学习(r-GRPO)学习何时以及如何裁剪查询图像中与问题相关的区域,在 E-VQA 和 InfoSeek 上将 CondRecall@1 分别提升 20% 和 8%。
- Response-G1: Explicit Scene Graph Modeling for Proactive Streaming Video Understanding
-
Response-G1 用查询引导的在线场景图、历史场景图检索和带时间戳的触发提示,把流式视频中的视觉证据和用户查询的响应条件显式对齐,在无需微调的情况下显著提升 Video-LLM 判断“现在是否该回答”的能力。
- Revisit What You See: Revealing Visual Semantics in Vision Tokens to Guide LVLM Decoding
-
ReVisiT 发现 LVLM 的视觉 token 本身已经编码了可解释的对象语义,并通过上下文约束词表、视觉 token 选择与 logit 融合,在不训练、不额外前向的情况下提升视觉 grounding 并降低幻觉。
- Prune-then-Merge: Towards Efficient Multi-Vector Visual Document Retrieval
-
本文提出 Prune-then-Merge,一个两阶段的免训练多向量文档压缩框架——先通过自适应注意力剪枝移除低信息 patch,再对剩余高信号 patch 进行层次聚类合并,在 29 个 VDR 数据集上将近无损压缩范围从 50-60% 扩展到 60-70%,并在 80%+ 高压缩率下显著优于单阶段方法。
- Segment, Embed, and Align: A Universal Recipe for Aligning Subtitles to Signing
-
SEA 将连续手语视频的字幕对齐拆成 sign segmentation、text-sign embedding 和 episode-level dynamic programming 三步,在 BOBSL、How2Sign、WMT-SLT SRF、SwissSLi 四个数据集上取得 SOTA [email protected],并能在 CPU 上高效处理长视频。
- SlideAgent: Hierarchical Agentic Framework for Multi-Page Visual Document Understanding
-
提出 SlideAgent,一个层次化智能体框架,通过全局、页面、元素三级专用 agent 构建结构化知识表示,显著提升多页视觉文档(尤其是幻灯片)的细粒度理解能力。
- Stability Implies Redundancy: Delta Attention Selective Halting for Efficient Long-Context Prefilling
-
提出 DASH(Delta Attention Selective Halting),一种无需训练的推理加速方法,通过监测自注意力层的逐层更新幅度 Δ_attn 来识别已"语义固化"的 token 并停止其后续计算,在长上下文文本和视觉-语言基准上实现显著的 prefill 加速且几乎不损失精度。
- STELLA: A Multimodal LLM for Protein Functional Annotation via Unified Sequence-Structure Encoding
-
STELLA 将 ESM3 的统一序列-结构蛋白表示接入 Llama-3.1-8B-Instruct,通过两阶段多模态指令调优完成蛋白功能描述和酶催化反应预测,并在 OPI-Struc 系列基准上刷新多项功能注释指标。
- StructBreak: Structural Cognitive Overload-Induced Safety Failures in MLLMs
-
StructBreak 提出"结构认知过载"(SCO)攻击范式,利用视觉知识图谱(VKG)的拓扑复杂性诱发多模态 LLM 的安全失效——在黑盒设置下对 6 个前沿 MLLM 实现平均 92% 的攻击成功率(Gemini 2.5 高达 97%),并从注意力耗散、隐空间拓扑和几何分析三个层面揭示安全崩塌机制。
- TEMA: Anchor the Image, Follow the Text for Multi-Modification Composed Image Retrieval
-
本文提出 TEMA(Text-oriented Entity Mapping Architecture),首个面向多修改文本的组合图像检索(CIR)框架,通过 MMT 解析助手(PA)增强修改实体覆盖、实体映射模块(EM)解决子句-实体对齐问题,并构建了 M-FashionIQ 和 M-CIRR 两个多修改基准数据集,在原始和多修改场景中均取得最优性能。
- Test-Time Scaling in Multimodal Foundation Models: A Comprehensive Survey of Generation and Reasoning
-
首篇专门面向多模态基础模型(MFM)测试时扩展(TTS)的综述:把"推理阶段动态分配算力"的各路方法统一成 \(\pi^*=\arg\max_\pi \mathbb{E}[U(x,y)]\) s.t. 算力预算受限的框架,并归纳为采样式 / 反馈式 / 搜索式三大范式,覆盖多模态生成与推理两类任务,给出代表方法、基准与开放挑战的路线图。
- TeXOCR: Advancing Document OCR Models for Compilable Page-to-LaTeX Reconstruction
-
这篇论文把科学 PDF OCR 从“转成文本/Markdown”推进到“重建可零人工编译的页面级 LaTeX”,提出 TEXOCR-Bench、TEXOCR-Train 和 SFT+RLVR 两阶段训练,让一个 Qwen3-VL-2B 派生模型在结构一致性、引用有效性和编译成功率上显著优于同规模开源基线。
- Text-Guided Multi-Scale Frequency Representation Adaptation
-
这篇论文提出 FreqAdapter:先把 CLIP/LLaVA 的视觉和文本嵌入变换到 DCT 频域,再用文本引导的多尺度全局适配与跨模态调制微调视觉频率表示,以约 0.11% 额外参数在图文检索和 VQA 上稳定优于常见 prompt/adapter 方法。
- Topology-Aware Layer Pruning for Large Vision-Language Models
-
提出基于拓扑数据分析的层剪枝框架 TopoVLM,将各层隐藏状态建模为点云并通过 zigzag 持久同调量化层间拓扑一致性,自适应保留关键表征转换层、剪除结构冗余层,在 50-60% 稀疏率下显著优于现有剪枝方法。
- Towards Visually Grounded Multimodal Summarization via Cross-Modal Transformer and Gated Attention
-
这篇论文提出 SPeCTrA-Sum,把层级对齐的 Deep Visual Processor、门控跨模态注意力和 DPP 蒸馏的图像选择器合在一起,使多模态摘要不仅保持接近 SOTA 的 ROUGE,还能选出更相关且更多样的支撑图像。
- TRACE:基于证据定位的多视频事件理解与声明生成
-
TRACE 通过"先定位后推理"的管道,先用 OCR 和目标检测构建文本可搜索的视频时间线,再用文本 LLM 进行查询条件的证据定位,最后由 LVLM 生成带引用的声明,在多视频事件理解任务上达到 SOTA,F1 从 0.705 提升到 0.811。
- Tree-of-Evidence: Efficient "System 2" Search for Faithful Multimodal Grounding
-
本文提出 Tree-of-Evidence(ToE),一种推理时离散束搜索算法,将多模态模型的可解释性形式化为在粗粒度证据单元(生命体征时间窗口、放射报告片段)上的离散优化问题,仅用 5 个证据单元即可保留全输入模型 98% 以上的 AUROC,同时生成可审计的证据追踪路径。
- UniversalRAG: 多模态语料库的检索增强生成
-
UniversalRAG 提出一个通用的任意到任意 RAG 框架,通过模态感知路由和粒度感知检索,动态地从异构多模态语料库(文本、图像、视频,不同粒度)中选择最合适的知识源进行检索和生成,避免统一嵌入空间中的模态间隙问题,在 10 个基准上大幅超越单一模态和统一方法。
- Utility-Oriented Visual Evidence Selection for Multimodal Retrieval-Augmented Generation
-
本文把多模态 RAG 的图像选择从“语义相似度排序”改成“对最终回答是否有用”的效用估计,并用轻量多模态代理模型高效预测证据 helpfulness,在 MRAG-Bench 和 Visual-RAG 上同时提升回答质量和推理效率。
- VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation
-
本文提出 VAUQ,用图像信息分数和注意力驱动的核心区域遮蔽来衡量 LVLM 的回答是否真正依赖视觉证据,从而在无需训练和外部评估器的情况下更可靠地做多模态自评估与幻觉检测。
- VIGNETTE: Socially Grounded Bias Evaluation for Vision-Language Models
-
VIGNETTE 构建了一个 30M+ 合成配对图像的 VQA 偏见评估基准,用事实性、感知、刻板印象和决策四类问题揭示 VLM 会把身份线索、活动语境和社会等级联系起来,产生细粒度且有时相互矛盾的偏见。
- ViLL-E: Video LLM Embeddings for Retrieval
-
提出 ViLL-E,首个同时支持文本生成和 embedding 生成的 Video LLM 统一架构,通过三阶段生成-对比联合训练和自适应 KV-Former embedding head,在视频检索和时序定位上逼近专家模型,同时保持 VideoQA 竞争力。
- Vision-Language Models Mistake Head Orientation for Gaze Direction: Nonverbal Conversation Cues
-
这篇论文用 1,360 张受控真实照片和预注册统计检验发现,当前 VLM 在判断人看向哪个物体时远弱于人类,主要会把头部朝向误当成视线方向;对专门 gaze 模型微调后可缓解但不能完全消除这种偏差。
- VULCA-Bench: A Multicultural Vision-Language Benchmark for Evaluating Cultural Understanding
-
VULCA-Bench 用 8 个文化传统、7,410 组图像-双语专家评论和 L1-L5 五层文化理解框架,把 VLM 评测从“看见物体”推进到“理解符号、历史和审美哲学”,并显示现有模型在高层文化推理上普遍掉点 31-40 个百分点。
- What Do Vision-Language Models Encode for Personalized Image Aesthetics Assessment?
-
本文通过线性探测发现 VLM 的隐藏表示中编码了丰富的多层次美学属性信息(光照、色彩、构图等),并传播到语言解码器层,基于此提出用简单线性回归实现无需微调的个性化图像美学评估(PIAA),效果显著优于 few-shot 和 LoRA 微调基线。
- When Seeing Overrides Knowing: Disentangling Knowledge Conflicts in Vision-Language Models
-
这篇论文构造 WHOOPS-AHA! 让 VLM 的常识知识与图像反事实证据正面冲突,并发现少数晚层注意力头能因果控制模型依赖内部知识还是视觉输入。
- WikiSeeker: Rethinking the Role of Vision-Language Models in Knowledge-Based Visual Question Answering
-
提出 WikiSeeker,重新定义 VLM 在多模态 RAG 中的角色——从单纯的答案生成器转变为两个专门化智能体(Refiner 用 RL 训练重写查询、Inspector 验证检索上下文是否可靠),在 EVQA、InfoSeek、M2KR 三个基准上实现 SOTA。