🧩 多模态 VLM¶
💬 ACL2025 · 111 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (418) · 🔬 ICLR2026 (211) · 💬 ACL2026 (82) · 🧪 ICML2026 (89) · 🤖 AAAI2026 (74) · 🧠 NeurIPS2025 (107)
🔥 高频主题: 多模态 ×88 · LLM ×13 · 对抗鲁棒 ×6 · 对话系统 ×4 · 对齐/RLHF ×4
- A Parameter-Efficient and Fine-Grained Prompt Learning for Vision-Language Models
-
本文提出 DoPL(Detail-oriented Prompt Learning)方法,通过低熵信息集中理论发现文本-视觉兴趣共享 token,并以此构建对齐权重增强文本和视觉提示,仅用 0.25M(0.12%)可训练参数即实现细粒度多模态语义对齐,在六个基准上超越全参数微调方法。
- Activating Distributed Visual Region within LLMs for Efficient and Effective Vision-Language Training and Inference
-
本文发现 LLM 中存在类似人脑视觉皮层的"视觉区域"——稀疏且均匀分布的层集合,仅更新 25% 的层即可保留 99% 的视觉性能,同时保持甚至提升语言能力,并据此提出了高效的视觉区域定向训练和剪枝范式。
- Adaptive Linguistic Prompting (ALP) Enhances Phishing Webpage Detection in Multimodal Large Language Models
-
提出 Adaptive Linguistic Prompting (ALP),一种 8-shot 结构化提示方法,引导多模态 LLM 从 HTML 文本、截图和 URL 三个维度联合推理,检测钓鱼网页,在 GPT-4o 上组合分析达到 F1=0.93,超过传统零样本基线。
- Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates
-
提出MAC基准和diversity-promoting自训练方法,通过让LLM生成欺骗性文本来系统暴露CLIP等预训练多模态表征的组合性漏洞,在图像/视频/音频三个模态上均显著超越已有方法。
- Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents
-
本文提出Agent-RewardBench,首个评估多模态LLM作为agent奖励模型能力的基准,覆盖感知/规划/安全三个维度和7个真实场景,包含1,136条高质量step-level样本,实验揭示即使最强模型GPT-4o也仅达61.4%准确率,且强模型在安全维度反而表现更差。
- AGRI-CM3: A Chinese Massive Multi-Modal Multi-Level Benchmark for Agricultural Understanding
-
本文提出AGRI-CM3,一个面向农业领域的中文大规模多模态多层次评测基准,涵盖作物识别、病虫害诊断、农事操作理解等多个农业子任务,用于系统评估VLM在农业垂直领域的能力。
- AkaCE: A Multimodal Multi-party Dataset for Emotion Recognition in Movie Dialogues
-
构建 AkaCE——首个非洲语言多模态对话情感识别数据集,覆盖阿坎语(加纳主要语言,约 2000 万使用者),含 385 段对话 6162 条发言(音频+视觉+文本三模态)、308 名说话人(性别平衡 155男/153女),并提供首个非洲语言词级韵律突出标注。
- Aligning VLM Assistants with Personalized Situated Cognition
-
基于社会学"角色集合"(Role-Set) 概念刻画用户多样性,提出 PCogAlign 框架,通过认知感知的动作导向奖励模型来为 VLM 助手生成个性化回复,使不同角色的用户在相同视觉场景下获得最适合自身需求的建议。
- AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models
-
提出 AlignMMBench,首个面向中文视觉上下文的多模态对齐评测基准,涵盖 3 大类 13 项任务、1054 张图像和 4978 个 QA 对(含单轮/多轮对话),并训练了基于 ChatGLM3-6B 的评估器 CritiqueVLM,其评估一致性超过 GPT-4。
- Aria-UI: Visual Grounding for GUI Instructions
-
提出 Aria-UI,一个专为 GUI 视觉定位设计的纯视觉多模态模型,通过可扩展的指令合成数据管线和文本-图像交错的动作历史机制,在离线和在线 Agent 基准上均达到 SOTA,包括 AndroidWorld 第1名(44.8%)和 OSWorld 第3名(15.2%)。
- Attacking Vision-Language Computer Agents via Pop-ups
-
系统性设计了一套对抗性弹窗攻击方法来攻击基于视觉语言模型的计算机操控 agent,在 OSWorld 和 VisualWebArena 上平均攻击成功率达 86%,任务成功率下降 47%,基础防御手段几乎无效。
- AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity
-
在 LLaVA-NeXT 上增加视觉粒度缩放器(空间金字塔池化获取多级粒度 token)和视觉粒度路由器(基于图像+指令自适应选粒度),并提出 RGLF 训练范式用 LMM 自身的生成概率作为反馈来训练路由器,在 11 个基准上实现"减少 token 反而提升性能"的效果。
- Enhancing Multimodal Continual Instruction Tuning with BranchLoRA
-
针对多模态持续指令微调(MCIT)中MoELoRA的参数低效和灾难性遗忘问题,提出BranchLoRA——一种非对称架构,共享矩阵A捕获跨任务通用模式、多路矩阵B编码任务特有知识,配合灵活调参-冻结机制和任务特定路由器,在CoIN benchmark上以更少参数大幅超越前SOTA MoELoRA(ACC: 44.20 vs 37.13, BWT: -20.98 vs -25.91)。
- Burn After Reading: Do Multimodal Large Language Models Truly Capture Order of Events in Image Sequences?
-
提出 TempVS 基准测试,系统评估 38 个 MLLM 在图像序列中对多事件时序关系的 grounding 和推理能力,揭示 SOTA 模型与人类之间存在巨大性能差距。
- Can MLLMs Understand the Deep Implication Behind Chinese Images?
-
提出 CII-Bench(Chinese Image Implication Understanding Benchmark),包含698张中国互联网/传统文化图像及800道选择题,系统评测MLLM对中文图像深层含义的高阶理解能力,发现最佳模型准确率仅64.4%,远低于人类平均78.2%,且模型在中国传统文化领域表现最差。
- Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers
-
本文提出 MISS-QA,首个专门评估多模态基础模型理解科学论文中示意图能力的基准,包含 1,500 个专家标注样本,揭示了当前最强模型与人类专家之间存在显著性能差距。
- Can Vision-Language Models Evaluate Handwritten Math?
-
本文提出FERMAT基准,通过609道人工策划的7-12年级数学题及其2200+份手写错误解答(覆盖计算、概念、符号、格式四类错误),系统评估9个VLM在手写数学内容的错误检测、定位和纠正能力,发现Gemini-1.5-Pro达到最高纠错率77%,但所有模型在处理手写内容时仍面临显著挑战。
- Can Vision Language Models Understand Mimed Actions?
-
提出 Mime 基准(86 个哑剧动作 × 10 种变体 = 860 个样本),通过动作捕捉 + 3D 渲染构建可控评测,发现人类在各种扰动下保持近 100% 准确率而最强 VLM 仅 52.3%(多选)/ 19.8%(自由回答),揭示 VLM 严重依赖场景上下文线索而非动作本身。
- MMSafeAware: Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs
-
提出 MMSafeAware,首个同时评估"不安全内容识别"和"过度敏感"的多模态安全意识基准,包含 1,500 个跨 29 种安全场景的图文对,评估 9 个 MLLM 发现所有模型都存在安全与有用性的严重权衡——GPT-4V 将 36.1% 的不安全输入误判为安全,同时将 59.9% 的安全输入误判为不安全;三种改进方法均无法根本解决问题。
CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling
- Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
-
系统研究多语言LVLM训练策略中训练语言数量、语言数据分布和多语言OCR三个维度,发现可同时训练100种语言且仅需25-50%非英语数据,据此训练出覆盖100语言的Centurio模型达到SOTA。
- ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation
-
提出首个专用chart-to-code MLLM(ChartCoder),以Code LLM为语言骨干+160K大规模图表-代码数据集+Snippet-of-Thought逐步推理方法,7B模型在三个基准上超越所有开源MLLM,接近GPT-4o水平。
- Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation
-
提出CoSyn框架,利用纯文本LLM的代码生成能力自动创建40万张文本丰富图像(图表、文档、图表等)+270万条指令微调数据,训练的7B VLM在7个基准上达到SOTA,超越GPT-4V和Gemini 1.5 Flash。
- COLING-UniA at SciVQA 2025: Few-Shot Example Retrieval and Confidence-Informed Ensembling for Multimodal Large Language Models
-
本文提出了一种基于多模态大模型(MLLM)集成的科学图表视觉问答系统,通过 few-shot 示例检索策略和置信度感知的模型选择机制,在 SciVQA 2025 共享任务中获得第三名(平均 F1 = 85.12)。
- Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities
-
本文提出 Con Instruction 方法,通过优化对抗性图像或音频使其在嵌入空间中与目标恶意指令对齐,实现无需文本输入即可越狱多模态大语言模型(MLLM),在 LLaVA-v1.5 上达到 86.6% 的攻击成功率,并提出了 ARC 评估框架来同时衡量攻击响应的质量和相关性。
- ConECT Dataset: Overcoming Data Scarcity in Context-Aware E-Commerce MT
-
构建了 ConECT——首个捷克-波兰电商多模态翻译数据集(11,400 句对 + 产品图片 + 类目路径),通过 VLM 端到端翻译、NMT+类目路径前缀、NMT+图像描述前缀三条技术路线的系统对比,发现结构化类目上下文能稳定提升翻译质量(COMET +0.005),而合成图像描述以级联方式注入反而严重损害翻译性能(COMET 暴跌 0.11+)。
- Insight Over Sight: Exploring the Vision-Knowledge Conflicts in Multimodal LLMs
-
首次系统探索 MLLM 中常识级别的视觉-知识冲突问题,提出自动化框架构建 ConflictVis 基准(374 图 + 1122 QA),发现 MLLM 在约 20% 的冲突场景中过度依赖参数化知识(尤其是 Yes-No 和动作类问题),并提出 Focus-on-Vision 提示策略进行缓解。
- CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relations?
-
本文提出CORDIAL,首个用连贯关系(Coherence Relations)评估MLLM多模态话语分析能力的基准,涵盖灾难管理、社交媒体和在线文章3个话语领域的不同粒度连贯关系,实验发现即使Gemini 1.5 Pro和GPT-4o也无法匹配简单的CLIP分类器基线,揭示了MLLM在语用理解方面的根本不足。
- CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG
-
CoRe-MMRAG 提出了一个端到端多模态 RAG 框架,通过四阶段流水线(参数知识生成→视觉-文本联合重排序→外部知识生成→内外知识整合)解决参数知识-检索知识不一致(PRKI)和视觉-文本知识不一致(VTKI)两个问题,在 InfoSeek 和 Encyclopedic-VQA 上分别提升 5.6% 和 9.3%。
- Coreference as an Indicator of Context Scope in Multimodal Narrative
-
本文揭示了大型多模态语言模型在视觉叙事(visual storytelling)任务中的共指表达(coreferential expressions)分布与人类存在显著差异——人类能变化丰富地交错引用不同实体并保持跨文本-图像的一致性,而机器在追踪混合引用方面能力不足,并提出了一系列量化共指模式特征的指标。
- COSMMIC: Comment-Sensitive Multimodal Multilingual Indian Corpus
-
构建首个面向印度语言的评论感知多模态多语言数据集COSMMIC——覆盖9种印度语言、4,959篇文章-图像对、24,484条读者评论,提出评论过滤(IndicBERT)和图像分类(CLIP)增强方案,用GPT-4和LLaMA3建立摘要和标题生成基准。
- CrafText Benchmark: Advancing Instruction Following in Complex Multimodal Open-Ended World
-
提出 CrafText,一个基于 Craftax 开放世界环境的多模态指令跟随基准,包含 3,924 条指令和 3,423 个独特词汇,覆盖定位、条件、建造和成就四类任务,并设计双重评估协议测试智能体的语言泛化和目标泛化能力。
- Cultivating Game Sense for Yourself: Making VLMs Gaming Experts
-
本文提出了 GameSense 框架,将 VLM 从游戏的直接控制者提升为高级开发者,通过让 VLM 自主观察和开发特定任务的"游戏感"执行模块(从规则到神经网络),首次实现了在动作游戏、射击游戏和休闲游戏等多种类型中的流畅游玩。
- DALR: Dual-level Alignment Learning for Multimodal Sentence Representation Learning
-
提出 DALR 框架,通过跨模态一致性学习 + 模态内排序蒸馏的双层对齐策略,解决多模态句子表示中的跨模态不对齐偏差(CMB)和模态内语义分歧(ISD)问题,在 STS 和 TR 任务上取得 SOTA。
- Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation
-
提出基于认知科学的双阶段框架(感知+预测),构建 WM-ABench 大规模基准(23 维度、6 模拟器、10 万+实例),通过 660 组实验系统揭示 15 个 SOTA VLM 在基本世界建模能力上的严重不足。
- Donate or Create? Comparing Data Collection Strategies for Emotion-labeled Multimodal Social Media Posts
-
本文系统比较了三种收集作者标注情感数据的策略(创建、捐赠、近期帖子),发现研究创建的数据在文本长度、情感原型性和图文关系上与真实数据存在显著差异,但创建数据仍可有效训练泛化模型,不过真实数据对准确评估模型效果不可或缺。
- Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models
-
发现 LVLM 中存在"blind token"现象——少量语义无关的图像 token 吸引了不成比例的注意力权重,并提出 AvisC 方法通过测试时对比解码重新校准 blind token 影响,有效减轻视觉幻觉。
- Enhance Multimodal Consistency and Coherence for Text-Image Plan Generation
-
本文提出一种自回归文本-图像计划生成框架(MPlanner),通过四阶段迭代——文本草拟、图像编辑、视觉信息提取、文本精炼——有效提升多模态计划中视觉步骤的连贯性和文本-图像的一致性。
- Error-driven Data-efficient Large Multimodal Model Tuning
-
提出一种错误驱动的数据高效微调框架,通过教师模型分析学生模型的错误推理步骤并识别缺失技能,从外部数据集检索针对性训练样本进行微调,无需任务特定数据即可实现平均 7.01% 的性能提升。
- Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users
-
通过用户调查确定视障人群对 AI 视觉助手的核心需求与挑战,设计涵盖图像描述、多语言VQA、光学盲文识别、视频物体识别、视频问答五大用户中心任务的评估框架,系统评测 12 个 MLLM,揭示当前模型在文化理解、多语言支持、盲文阅读、辅助设备识别和幻觉控制方面的显著不足。
- Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration
-
本文提出了一种半自动化的文化 VLM 基准构建框架,通过人-VLM 协作生成多选 VQA 样本,并以此构建了聚焦韩国文化的 K-Viscuit 数据集(657 题),揭示了开源与闭源 VLM 在文化理解上的显著差距。
- Exploring Compositional Generalization of Multimodal LLMs for Medical Imaging
-
提出 Med-MAT 数据集(106个医学数据集、53个子集),通过 MAT-Triplet(Modality-Anatomical area-Task)分解医学影像属性,首次系统验证了多模态大模型在医学影像上存在组合泛化(Compositional Generalization)现象,并证明组合泛化是多任务训练泛化增益的关键驱动因素。
- Exploring How Generative MLLMs Perceive More Than CLIP with the Same Vision Encoder
-
系统探究为何生成式多模态LLM(如LLaVA)使用与CLIP相同的视觉编码器却能在视觉推理任务上大幅超越CLIP,发现patch token、位置编码和prompt加权是关键因素。
- Filter-And-Refine: A MLLM Based Cascade System for Industrial-Scale Video Content Moderation
-
TikTok提出一种基于MLLM的两阶段级联内容审核系统(Router-Ranker),通过轻量级嵌入检索路由器过滤97.5%的合规流量,仅将高风险视频送入微调后的LLaVA进行精细分类,F1提升66.5%的同时部署成本降至直接全量部署的1.5%。
- Finding Needles in Images: Can Multi-modal LLMs Locate Fine Details?
-
本文提出 NiM 基准数据集,系统评估多模态大模型(MLLM)在复杂文档中定位细粒度信息的能力,并设计 Spot-IT 方法通过智能补丁选择和高斯注意力机制显著提升模型在细节抽取任务上的表现。
- FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation
-
提出 FlagEvalMM,一个开源的多模态模型评估框架,通过将模型推理与评估过程解耦的架构设计,统一支持视觉语言理解(VQA)、文生图/文生视频生成和图文检索等多种多模态任务的评估。
- GODBench: A Benchmark for Multimodal Large Language Models in Video Comment Art
-
GODBench 构建了首个系统性评估多模态大模型(MLLM)视频弹幕/评论创作能力的基准,定义了5个创意维度和25个子类别,并提出受物理波纹传播启发的 Ripple of Thought(RoT)多步推理框架来增强模型的创意生成能力。
- Harnessing PDF Data for Improving Japanese Large Multimodal Models
-
提出一套全自动 PDF 数据提取管道,从日语 PDF 中提取图文对并生成指令数据,通过持续微调 LLaVA1.5 框架显著提升日语多模态模型性能,在 Heron-Bench 上实现 2.1%~13.8% 的提升。
- Hidden in Plain Sight: Evaluation of the Deception Detection Capabilities of LLMs in Multimodal Settings
-
本文系统评估了LLM和多模态大模型在文本、视频、音频等多种模态上的欺骗检测能力,发现微调后的LLM在文本欺骗检测上达到SOTA,但多模态模型在利用跨模态线索方面仍存在显著不足。
- HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model
-
通过 CKA 分析发现 MLLM 顶层学任务特异信息而其余层学通用知识,提出 HiDe-LLaVA:顶层 LoRA 做 MoE 式任务特异扩展(双模态锚点匹配)+ 其余层 LoRA 做均匀融合,在新构建的无信息泄露基准 UCIT 上比最佳基线提升 5.8%。
- HSCR: Hierarchical Self-Contrastive Rewarding for Aligning Medical Vision Language Models
-
提出层级自对比奖励方法 HSCR,通过视觉 token dropout 暴露模型内在的模态失对齐(misalignment),自动生成高质量偏好数据,并结合显式/隐式多层级偏好优化,仅用2000条训练样本即显著提升医学VLM的零样本性能和可信度。
- I See What You Mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue
-
提出自监督预训练方法学习表征性共语手势(co-speech iconic gestures)的嵌入表示,将骨骼动作 grounded 到语言中,在面对面对话的指称消解任务上证明手势与语音的互补性——手势+语音准确率 31% 远超单独语音 24% 或手势 19%。
- Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback
-
提出 UMed-LVLM,通过 Abnormal-Aware Instruction Tuning 和 Abnormal-Aware Rewarding(包含 Relevance Reward、Abnormal Localization Reward、Vision Relevance Reward)训练策略增强医学 LVLM 的异常区域定位能力,在 MAU 数据集上比基线提升 58%,并展现出优秀的跨模态和 OOD 泛化能力。
- Improving MLLM's Document Image Machine Translation via Synchronously Self-reviewing Its OCR Proficiency
-
本文提出 Synchronously Self-Reviewing (SSR) 范式,通过在文档图像翻译过程中让 MLLM 先生成 OCR 文本再生成翻译文本,利用"双语认知优势"缓解微调导致的灾难性遗忘,同时提升 OCR 和文档图像机器翻译(DIMT)的性能。
- iNews: A Multimodal Dataset for Modeling Personalized Affective Responses to News
-
构建了一个包含 291 位英国标注者对 2,899 条 Facebook 多模态新闻帖子的个性化情感标注数据集 iNews,标注者特征(人口统计、人格、媒体信任等)可解释 15.2% 的标注方差,结合 persona 信息的 LLM 零样本预测准确率提升最高 7%。
- Inference Compute-Optimal Video Vision Language Models
-
首次系统性研究视频VLM推理计算预算的最优分配问题:在固定推理FLOPs下,通过大规模训练扫描(~100k A100小时)和add-interact参数化建模(\(R^2\)=0.98),确定语言模型大小 \(x_N\)、帧数 \(x_T\) 和每帧视觉token数 \(x_V\) 三个维度的最优权衡策略。
- InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model
-
基于InternLM-XComposer2.5构建判别式多模态奖励模型IXC-2.5-Reward,通过精心构建跨文本/图像/视频的多领域偏好数据集训练,在多模态奖励基准VL-RewardBench上以70.0% Macro Acc超越GPT-4o(62.4%),并展示了RL训练、Best-of-N测试时缩放和数据清洗三大应用。
- Jailbreak Large Vision-Language Models Through Multi-Modal Linkage
-
提出多模态链接(MML)攻击框架,通过跨模态加密-解密机制和"邪恶对齐"策略,以极高成功率(GPT-4o上达99%+)越狱当前最先进的视觉语言模型。
- JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games
-
提出ActVLP训练范式,在动作模仿学习之前增加视觉语言后训练阶段(世界知识、视觉对齐、空间定位),构建首个能在Minecraft中执行1000+原子任务的VLA模型JARVIS-VLA,相比最佳基线提升40%。
- LogicQA: Logical Anomaly Detection with Vision Language Model Generated Questions
-
提出 LogicQA 框架,利用预训练 VLM 自动生成异常相关问题并通过问答投票机制检测逻辑异常,在无需训练、无需标注的少样本设置下达到 SOTA 性能,同时提供自然语言的异常原因解释。
- MAGIC-VQA: Multimodal and Grounded Inference with Commonsense Knowledge for Visual Question Answering
-
提出MAGIC-VQA框架,通过三阶段流程(显式知识检索→按类型后处理→GNN隐式增强)将外部常识知识系统地注入LVLM,在ScienceQA、TextVQA、MMMU等基准上实现即插即用的常识推理增强,仅需0.33M可训练参数。
- Maximal Matching Matters: Preventing Representation Collapse for Robust Cross-Modal Retrieval
-
提出 MaxMatch 方法,通过基于匈牙利算法的最大配对相似度和两个新损失函数,解决集合嵌入方法中的稀疏监督和集合坍塌问题,在 MS-COCO 和 Flickr30k 上取得 SOTA 性能。
- Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree Search
-
提出AutoCaption框架,利用蒙特卡洛树搜索(MCTS)自动迭代生成细粒度视频描述关键点(平均122个/视频),构建MCTS-VCB基准评估20+个MLLM的视频描述能力,并证明生成的数据可用于微调显著提升模型性能。
- MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval
-
提出 MegaPairs 数据合成方法,利用异构 KNN 三元组从开放域图像语料中挖掘相关图像对,结合 VLM/LLM 生成检索指令,合成 2600 万多模态训练实例,训练的 MMRet 模型仅用 0.5M 数据即超越使用 36.7M 数据的 MagicLens(70× 数据效率),在 4 个 CIR 基准和 MMEB 36 个数据集上达到 SOTA。
- MEIT: Multimodal Electrocardiogram Instruction Tuning on Large Language Models for Report Generation
-
提出 MEIT 框架,通过多模态指令微调将 ECG 信号与 LLM 对齐,利用轻量级拼接融合策略(无需额外参数)在 LLM 的自注意力层中注入 ECG 嵌入,实现自动 ECG 报告生成,并建立涵盖质量评估、零样本迁移、噪声鲁棒性和专家对齐四项任务的综合基准。
- MIRA: Empowering One-Touch AI Services on Smartphones with MLLM-based Instruction Recommendation
-
提出 MIRA 框架,通过结构化推理、模板增强推理和前缀树约束解码,让用户在智能手机上长按文本或图片即可获得上下文相关的 AI 服务指令推荐,在 7B 模型上超越 GPT-4V(F1: 0.9121 vs 0.879),token 使用量仅为 1/7。
- MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction
-
提出MIRe框架,通过"无融合模态交互"(fusion-free modality interaction)在视觉-文本对齐阶段避免直接融合文本特征,利用查询引导注意力池化模块让文本嵌入引导视觉信息提取但不将文本信号反馈回视觉表示,有效缓解多模态检索中的文本主导问题,在四个基准上取得零样本SOTA。
- MMINA: Benchmarking Multihop Multimodal Internet Agents
-
提出MMInA基准,包含1,050个人工编写的多跳多模态网页任务(覆盖14个真实动态网站,平均2.85跳),并设计逐跳评估协议和记忆增强方法,揭示当前最强Agent(GPT-4V仅21.8%任务成功率)在多跳网页导航上与人类(96.3%)的巨大差距。
- MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
-
在 MMMU 基础上通过三步加固(过滤纯文本可解题目、扩展选项至 10 个、引入 Vision-only 输入)构建更鲁棒的 MMMU-Pro 基准,所有模型性能下降 16.8%~26.9%,揭示当前多模态模型远未实现真正的跨模态理解。
- MMSciBench: Benchmarking Language Models on Chinese Multimodal Scientific Problems
-
提出 MMSciBench,一个包含 4,482 道中文高中数学和物理题目的多模态科学推理基准,涵盖选择题和问答题、纯文本和图文配对两种模态,并带有人工标注难度等级和三级知识分类体系;评估显示最强模型 Gemini 1.5 Pro 002 仅达 63.77% 准确率,且在图文题上性能大幅下降(36.28 个百分点差距)。
- mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus
-
提出 mOSCAR——首个大规模多语言多模态文档级语料库(163种语言、303M文档、200B tokens、1.15B图片),从 Common Crawl 中提取交错的图文文档,并证明在此数据上训练的多语言 mLLM 能获得显著的 few-shot 学习提升。
- MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering
-
构建了 MTVQA——首个覆盖 9 种语言的多语言文本中心视觉问答基准,通过人类专家标注解决翻译方法的"视觉-文本不对齐"问题,评估显示最佳 MLLM(InternVL-2.5,32.2%)与人类表现(79.7%)差距巨大,揭示了多语言文本理解的严峻挑战。
- MultiMM: Cultural Bias Matters — Cross-Cultural Benchmark for Multimodal Metaphors
-
提出MultiMM——首个跨文化多模态隐喻数据集,包含8461个中英文广告图文对及细粒度标注,并设计SEMD模型融合情感特征增强隐喻检测。
- Multimodal Coreference Resolution for Chinese Social Media Dialogues: Dataset and Benchmark Approach
-
提出 TikTalkCoref,首个面向中文社交媒体对话的多模态共指消解数据集(基于抖音短视频),并构建了包含文本共指消解、视觉人物追踪和跨模态对齐三个模块的 pipeline benchmark。
- NegVQA: Can Vision Language Models Understand Negation?
-
提出 NegVQA 基准(7,379 道二选一 VQA 题),系统评估 20 个 VLM 对否定句的理解能力,发现所有模型在否定问题上性能大幅下降(平均 29.7%),并揭示"U 型"缩放趋势。
- OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference
-
构建了 OmniAlign-V(200K 高质量多模态 SFT 数据集)和 MM-AlignBench 评测基准,通过多样化图片来源、开放式问题设计和多样化回答格式,显著提升开源 MLLM 的人类偏好对齐能力,使 LLaVA-Next-32B 经 SFT+DPO 后超越 Qwen2VL-72B。
- A Survey on Patent Analysis: From NLP to Multimodal AI
-
系统综述了 NLP 和多模态 AI 在专利分析四大核心任务(分类、检索、质量分析、生成)中的应用,提出基于专利生命周期的分类体系,揭示了从 Word2Vec+LSTM 到 BERT/GPT 再到多模态模型的方法演进趋势及重要研究空白。
- Performance Gap in Entity Knowledge Extraction Across Modalities in Vision Language Models
-
系统性地揭示了视觉语言模型(VLM)在视觉 vs 文本表征下实体知识提取的显著性能差距(最高达 18%),通过机制可解释性工具发现图像 token 的关键信息流发生在模型中间层很深处,导致后续事实推理的层数不足。
- PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension
-
本文提出PunchBench,一个包含6,000个图文对和54,000个问答对的多模态幽默/讽刺理解基准,通过同义/反义标题生成消除语言捷径,同时提出Simple-to-Complex Chain-of-Question (SC-CoQ)策略,在所有模型和问题格式上一致性提升punchline理解能力。
- R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding
-
提出R-VLM,将传统目标检测中的区域提议(region proposal)和IoU感知损失引入VLM的GUI元素定位,通过两阶段放大推理和IoU加权交叉熵损失,在ScreenSpot和AgentStudio上平均提升13%的grounding准确率。
- RATE-Nav: Region-Aware Termination Enhancement for Zero-shot Object Navigation with Vision-Language Models
-
提出 RATE-Nav,一种基于边际效用理论的零样本目标导航方法,通过几何预测区域分割和基于区域的探索率估计,结合 VLM 的宏观环境感知能力智能判断是否终止当前区域的探索,在 HM3D 上达到 67.8% 成功率和 31.3% SPL,在 MP3D 上比先前零样本方法提升约 10%。
- REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark
-
提出 REAL-MM-RAG 多模态文档检索基准,定义了真实世界检索基准的四大关键属性(多模态文档、增强难度、真实 RAG 查询、准确标注),引入多级查询改写鲁棒性评估,并通过针对性训练集(改写数据集+金融表格数据集)实现 SOTA 检索性能。
- Redundancy Principles for MLLMs Benchmarks
-
本文从维度冗余、实例冗余和跨基准冗余三个层面系统量化了当前MLLM评测基准中的冗余现象,提出了基于性能排名相关性的冗余分析框架,为未来基准设计提供了原则性指导。
- Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities
-
通过在VLM的三个中间特征空间(视觉编码器、VL投影层、语言解码器)上训练线性探针,系统揭示了一个反直觉的现象:对于大多数视觉任务,视觉编码器和VL投影层其实保留了充分的视觉信息,真正的瓶颈在于语言解码器的响应空间——信息在从投影层传递到最终文本输出的过程中大量丢失。
- Scalable Vision Language Model Training via High Quality Data Curation
-
提出 SAIL-VL 系列开源视觉语言模型(2B/8B),核心贡献在于:构建了3亿规模最高质量的 SAIL-Caption 数据集,首次揭示了VLM预训练中的数据量对数缩放定律(655B token实验),并通过课程式三阶段SFT将缩放曲线从对数提升至近线性,在18个基准上达到SOTA。
- SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification
-
SciVer 是首个面向多模态科学文献声称验证的基准数据集,包含 3000 个专家标注样本覆盖 1113 篇 CS 论文,设计了直接/并行/序列/分析四种推理子任务,评估 21 个基础模型后发现最强模型 o4-mini(77.7%)与人类专家(93.8%)仍有 16% 的显著差距。
- SemEval-2025 Task 1: AdMIRe -- Advancing Multimodal Idiomaticity Representation
-
设计了 SemEval-2025 AdMIRe 共享任务——通过图像排序和图像序列补全两个子任务,在多模态(文本+图像)和多语言(英语+巴西葡萄牙语)场景下评估模型对习语表达的理解能力,最佳系统通过混合专家和多查询平滑策略达到了接近人类水平的表现。
- Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions
-
提出让视力正常者「评估」而非「生成」VLM 的图表描述,构建了首个经 BLV 专业教育者验证的 5k 图表 / 137k 样本多任务数据集 Sightation,偏好微调 2B 模型后在 BLV 有用性评分上平均提升 1.67σ。
- SingaKids: A Multilingual Multimodal Dialogic Tutor for Language Learning
-
提出 SingaKids 系统,一个面向小学生的多语言多模态对话式语言学习辅导系统,通过图像描述任务整合稠密图像字幕、多语言对话、语音理解和儿童友好语音生成,支持英语、中文、马来语和泰米尔语四种语言的互动学习。
- Single-to-mix Modality Alignment with Multimodal Large Language Model for Document Image Machine Translation
-
本文提出 M4Doc,一种基于"单模态到混合模态对齐"的文档图像机器翻译框架,在训练阶段利用多模态大语言模型(MLLM)的视觉-文本联合表示来增强轻量级图像编码器,推理时丢弃 MLLM 以保持高效,在跨域泛化和复杂文档场景中取得了显著的翻译质量提升。
- Can Multimodal Large Language Models Understand Spatial Relations?
-
提出 SpatialMQA 基准,以多选题形式评估 MLLM 的空间关系推理能力,发现 SOTA 模型仅达 48.14% 准确率,远低于人类 98.40%。
- Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues
-
提出 VENUS——首个大规模多模态对话数据集(89,459 段对话、14,910 小时),包含时间对齐的文本、3D 面部表情和肢体语言标注;基于该数据集开发 MARS 多模态语言模型,通过 VQ-VAE 将非语言线索离散化后与文本统一建模,实现对话中文本与非语言动作的联合理解和生成。
- SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation
-
提出 SPHERE 三层级空间推理评估框架(单技能→多技能→推理),基于 MS COCO 人工标注 2285 个 QA 对,发现 GPT-4o(67.9%)与人类(93.0%)差距 25%,尤其在距离判断、视角切换和物理推理上表现严重不足。
- Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images
-
提出 S-VCO(对称视觉对比优化),一种新的 VLM 微调目标,通过对称地对齐/拒绝匹配/矛盾的图像-文本对来增强视觉依赖,配合最小视觉对比数据集 MVC,在幻觉检测上减少 22%,视觉依赖任务上显著提升。
- Table Understanding and (Multimodal) LLMs: A Cross-Domain Case Study on Scientific Tables
-
提出 TableEval 基准(3017 张表格,5 种格式),系统比较了文本 LLM 和多模态 LLM 在科学 vs. 非科学表格理解任务上的表现,发现模型对表格模态(图像/文本)保持鲁棒但在科学表格上性能显著下降。
- Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions
-
提出 ClearVQA 基准和自动化数据生成管线,让 VLM 学会在遇到歧义视觉问题时主动提出澄清问题而非强行作答,通过三类歧义分类(引用歧义、属性歧义、关系歧义)系统化交互式 VQA,实验证明训练后 VLM 能显著提升歧义识别和澄清质量,获 ACL 2025 SAC Highlight Award。
- TheoremExplainAgent: Towards Video-based Multimodal Explanations for LLM Theorem Understanding
-
提出 TheoremExplainAgent,一个双 Agent 系统(Planner + Coder),通过 Manim 动画脚本自动生成长达 10 分钟的定理讲解视频,配套 TheoremExplainBench(240 个 STEM 定理 × 5 维评估指标),证明 agentic planning 是长视频生成的关键,且视觉解释能暴露文本评估无法发现的推理缺陷。
- Towards Storage-Efficient Visual Document Retrieval: An Empirical Study on Reducing Patch-Level Embeddings
-
系统性研究了视觉文档检索(VDR)中 patch 级别嵌入的压缩策略,发现 pruning 在 VDR 中本质不适用(简单随机剪枝反而最优),而 token merging 结合微调可在仅保留 2.8% 存储量时维持 94.6% 的检索性能(Light-ColPali/ColQwen2)。
- Transferring Textual Preferences to Vision-Language Understanding through Model Merging
-
提出一种免训练方法,通过模型参数合并(model merging)将纯文本奖励模型(RM)的偏好能力迁移到大视觉语言模型(LVLM)中,构建视觉语言奖励模型(VLRM),在多个多模态评估基准上超越LVLM直接评分和纯文本RM。
- Unsolvable Problem Detection: Evaluating Trustworthiness of Large Multimodal Models
-
提出 Unsolvable Problem Detection (UPD) 任务,通过三类不可解问题(缺失答案、不兼容选项、图文不匹配)系统评估大型多模态模型在面对无法回答的 MCQA 问题时是否能正确拒绝作答,揭示了现有 benchmark 无法衡量的可信度维度。
- Unveiling Cultural Blind Spots: Analyzing the Limitations of mLLMs in Procedural Text Comprehension
-
提出 CAPTex 基准,通过跨 7 个国家/语言的文化程序性文本理解任务(步骤排序、选择题、对话推理等),系统揭示了多语言大模型在文化特定程序性文本理解上的盲区和局限。
- Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward
-
提出 V2R-Bench 基准框架系统评估 21 个 LVLM 对位置/尺度/方向/上下文四种基本视觉变化的鲁棒性,揭示了即使先进模型在简单视觉任务上也存在显著脆弱性,并通过组件级分析证明这些漏洞根源在于多模态对齐不足和流水线架构的误差累积,而非数据不足。
- Value-Spectrum: Quantifying Preferences of Vision-Language Models via Value Decomposition
-
提出 Value-Spectrum 基准,通过 50K+ 社交媒体短视频截图和 Schwartz 价值理论框架,系统评估 VLM 的内在价值偏好及角色扮演时的偏好适配能力。
- VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos
-
提出VF-Eval基准,通过一致性验证、错误感知、错误类型检测、推理评估四大任务系统评估13个MLLM为AIGC视频提供反馈的能力,发现即使GPT-4.1也难以在所有任务上表现一致,揭示了AIGC视频理解的挑战性。
- ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding
-
提出 ViGiL3D——一个语言多样性诊断数据集和自动化分析框架,用于评估 3D 视觉定位(3DVG)方法在否定、粗粒度指代、共指消解等多种语言现象上的表现,揭示现有方法在分布外提示上性能显著下降(最高达 20+ 点)。
- Vision-Language Models Struggle to Align Entities across Modalities
-
提出 MATE 基准(5,500 个问答实例),通过合成 3D 场景的跨模态属性检索任务系统评估 VLM 的实体链接能力,发现即使最强闭源模型仍落后人类约 15 个百分点,且性能随场景物体数量增加急剧下降——根源在于跨模态特征绑定而非单模态感知。
- VLM2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues
-
本文提出VLM2-Bench,一个专门评估视觉语言模型(VLM)跨图像/帧"视觉线索关联"能力的基准,涵盖通用线索、物体中心线索和人物中心线索3大类9个子任务共3000+测试样本,发现即使最先进的商业模型在该任务上也落后人类30%以上,揭示了VLM在基础视觉匹配能力上的重大差距。
- VLMInferSlow: Evaluating the Efficiency Robustness of Large Vision-Language Models as a Service
-
首次在黑盒设置下研究 VLM 的效率鲁棒性,提出 VLMInferSlow 方法,通过零阶优化搜索对抗性图像扰动,迫使 VLM 生成更长序列,将计算成本最高增加 128.47%,揭示了 VLM 在 MLaaS 部署场景下的效率安全隐患。
- VLSBench: Unveiling Visual Leakage in Multimodal Safety
-
揭示现有多模态安全基准中存在的视觉安全信息泄露(VSIL)问题——图像中的危险内容已在文本查询中暴露,导致模型仅凭文本即可拒绝,从而使安全评估不可靠;为此构建了无泄露的VLSBench基准(2.2k图文对),发现多模态对齐在无VSIL场景中显著优于纯文本对齐。
- Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains
-
提出 Focus-Centric Visual Chain 多图推理范式,通过问题分解和逐步聚焦关键视觉信息实现跨图推理,并构建 VISC-150K 数据集,在七个多图基准上实现 2-3% 的一致性提升。
- WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and Charts
-
提出 WikiMixQA 基准,包含 1,000 道需要跨表格和图表进行多模态推理的多选题,评估 12 个 VLLM 后发现闭源模型在提供精确上下文时准确率约 70%,但需从长文档检索时性能骤降,开源模型最高仅 27%,揭示了当前视觉语言模型在长上下文多模态文档理解上的严重不足。