ICML2026 多模态 VLM 论文解读论文笔记多模态对抗鲁棒 LLM 对齐/RLHF 压缩/编码医学影像

🧩 多模态 VLM¶

🧪 ICML2026 · 89 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (418) · 🔬 ICLR2026 (211) · 💬 ACL2026 (82) · 🤖 AAAI2026 (74) · 🧠 NeurIPS2025 (107) · 📹 ICCV2025 (119)

🔥 高频主题： 多模态 ×39 · 对抗鲁棒 ×9 · LLM ×4 · 对齐/RLHF ×4 · 压缩/编码 ×3

ACTIVE-o3: Empowering MLLMs with Active Perception via Pure Reinforcement Learning: ACTIVE-o3 把"该往哪看、怎么看"这件事交给一个 MLLM 自己学：用纯强化学习（GRPO）训练它把一张图像并行地圈出最多 3 个最值得放大的子区域，靠"任务奖励 + 启发式奖励"双形态奖励解决纯任务奖励太稀疏的问题，在小/密集目标检测、遥感、自动驾驶、交互式分割上一致超过基线，还顺带提升了 RealWorldQA / MME 等通用理解能力。
AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions: 本文提出 AgentHijack，用 9 类可配置的日常环境破坏评测 computer-use Agent 鲁棒性，并进一步用 DA-GRPO 强化 grounding、引入 onlooker 进行行为总结与环境检查，使 UI-TARS-1.5-7B 在平均成功率上从 18.74% 提升到 22.89%。
Alterbute: Editing Intrinsic Attributes of Objects in Images: Alterbute 用 VLM 自动挖掘 Visual Named Entity 身份簇，并在扩散模型中联合条件化身份参考、属性文本、背景和 mask，从而统一编辑物体颜色、纹理、材质和形状，同时尽量保持物体身份与场景上下文。
Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds: 作者通过 pilot study 发现"显式把视觉提升到点云、再与 2D patch 融合"是 VLA 注入 3D 信息的最有效方式；为了解决 3D 数据稀缺和不同点云源（仿真/传感器/单目估计）的域差异，提出 Any3D-VLA：用 hybrid point cloud training 学到 source-agnostic 的几何表示，在真实抓取任务上 zero-shot 比最强 baseline 提升 29.2%（62.5% vs 33.3%）。
AOEPT: Breaking the Implicit Modality-Reduction Bottleneck in Modality-Missing Prompt Tuning: AOEPT指出现有缺失模态 prompt tuning 会把多模态 Transformer 的推理范围压缩到可见模态子空间，并用从训练集蒸馏出的模态上下文提示为缺失模态补回可检索的隐式信息源，在多数据集、多缺失率和多 backbone 上稳定优于现有方法。
Are VLMs Seeing or Just Saying? Uncovering the Illusion of Visual Re-examination: 这篇论文提出 VisualSwap 和 VS-Bench，通过在 VLM 自称“再看一眼图像”之后替换图像来检验真实视觉重检能力，发现当前推理型 VLM 往往沿着旧文本惯性继续生成，显式用户多轮指令或增强视觉注意力才能显著恢复 grounding。
AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs: AVI-Bench 是一个受人类认知启发的音视频基准：把对 Omni-MLLM 的评测按「感知 → 理解 → 推理」三阶段组织、再补一个测「原始感知」的 PriSe 扩展，用 14 个任务、5,864 个样本、9 个指标系统诊断 28 个开源/闭源 Omni-MLLM 的音视频智能（AVI），并据此提出一个四级 AVI taxonomy。
Benchmarking and Enhancing VLM for Compressed Image Understanding: 本文构建了首个评估 VLM 对压缩图像理解能力的大规模 benchmark（11 种编解码器、9 个 VLM、100 万+ 压缩图像），将性能下降分解为不可修复的"信息差距"和可弥补的"泛化差距"，并提出一个轻量级条件视觉编码器适配器，通过编解码器类型和压缩级别的条件嵌入 + 蒸馏训练，在不同编码器和比特率下将 VLM 性能提升 10%–30%。
Benchmarks for Vision-Language Models in Urban Perception Should Be Reliability-Aware and Negotiated: 本文提出 VLM 城市感知评估应具备"可靠性感知"和"可协商"两大属性，通过 100 张蒙特利尔街景图像、12 名社区标注者、30 个维度的基准测试，揭示了模型对齐度与标注者一致性正相关，且在主观评价维度上模型与人类存在系统性分布偏差。
Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling: 提出 DiNa-LRM，将偏好学习直接建立在扩散模型的噪声潜空间上，通过噪声校准的 Thurstone 似然和推理时多噪声集成，以远低于 VLM 奖励模型的计算开销实现接近 SOTA 的偏好预测精度。
Calibrated Multimodal Representation Learning with Missing Modalities: 针对"想用 V-T、A-T 等部分模态数据训练统一多模态对齐"这种现实场景，本文用奇异值扰动给出"缺失模态会导致 anchor shift"的理论上下界，并提出 CalMRL：用概率 PCA 风格的生成模型对缺失模态在表示层做闭式 EM 插补，再把观测 + 插补一起喂给 GRAM/PMRL 的 SVD 对齐目标，在 VAST 之上把跨模态平均 Recall@1 从 44.8 推到 54.2 (+9.4)。
Certified Robustness under Heterogeneous Perturbations via Hybrid Randomized Smoothing: 本文把随机平滑（RS）从"只支持单一连续或离散输入"扩展到"离散 token + 连续图像"的混合扰动场景，通过一个混合 Neyman–Pearson 分析得到一个一维、连续、可逆的似然比 CDF，从而把原本组合爆炸的离散 knapsack 问题变成可解的根求解问题，并在 LLaVA-Guard 多模态安全过滤上给出首个针对"图文联合不安全"的 model-agnostic 证书。
CG-MLLM: Captioning and Generating 3D Content via Multi-modal Large Language Models: CG-MLLM 提出了一种基于 Mixture-of-Transformer 的多模态大语言模型，通过 TokenAR（逐token自回归）和 BlockAR（块级并行）双 Transformer 架构，结合预训练 VLM 骨干与 3D VAE 潜空间，首次实现在单一 MLLM 框架内端到端进行高分辨率 3D 内容生成与 3D 字幕理解，在 MLLM 类 3D 生成方法中达到 SOTA。
Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Vision-Language Models: 提出 Circle-RoPE，将图像 token 的 2D 坐标映射到与文本位置轴正交的环面上，形成锥体几何结构，使每个文本 token 到所有图像 token 的 RoPE 距离相等（PTD=0），消除跨模态伪位置偏置，同时通过逐层交替编码（AGE）保留图像内部空间结构。
Conditional Diffusion Sampling: 本文提出 Conditional Diffusion Sampling（CDS）：通过推导一类条件随机插值（conditional interpolants），得到一个对未归一化目标分布的精确闭式 SDE（不需要神经网络拟合），再用 Parallel Tempering 高效采样这个 SDE 的初始分布——把 PT 的全局探索能力和扩散过程的局部细化能力拼起来，在 8 个目标分布、4 类任务上以更少的密度评估次数同时击败传统 MCMC、训练自由 MCMC 和神经采样器。
Contextualized Visual Personalization in Vision-Language Models: CoViP 把"基于用户历史经验做视觉个性化"这一开放任务，统一收敛到"个性化图像字幕"这个共享底层过程，通过可验证奖励的 RL 后训练 + 推理时的字幕增强生成（CAG），让 VLM 在交错图文上下文里真正"看图说人话"，并配套设计了能排除文本捷径的 MCQA 诊断基准。
Contrastive Spectral Rectification: Test-Time Defense towards Zero-shot Adversarial Robustness of CLIP: 作者发现对抗样本的特征在「逐步抹掉中高频」时会急剧崩塌（而干净样本不会），据此提出测试时防御 CSR：先用「过滤前后特征是否一致」当门控检测对抗样本，再用一个「拉向低通锚点、推离原始对抗特征」的对比目标在输入上优化一个修正扰动，把图像拽回自然流形；在 16 个分类基准上对强攻击 APGD 平均提升 18.1%，且推理开销很小。
CVSearch: Empowering Multimodal LLMs with Cognitive Visual Search for High-Resolution Image Perception: CVSearch 提出一个无需训练的"评估-再搜索"认知框架：先用视觉专家（SAM 3）做快速定位，专家失败时再触发语义引导的自适应分块 + 自底向上搜索作为兜底，在 V*Bench、HR-Bench 等高分辨率基准上同时拿到精度与效率的 SOTA。
CyberJurors: A Multi-Agent Simulation Task for E-Commerce Disputes Verdict: 作者把电商平台"众包陪审团"的真实裁决任务形式化为 EDV (E-commerce Dispute Verdicts)，构建首个含 17 名陪审员投票真值的多模态基准 VerdictBench（6000 案、文/图/视频/多轮），并提出 CyberJurors——用四阶段的 Individual Verdict Chain-of-Thought (IV-CoT) 做单陪审员细粒度证据定位，用 Jury Consensus Verdict (JCV) 借鉴 Stare Decisis 引入历史判例做集体共识；在 VerdictBench 上 Acc 较最强 LLM/MLLM/法庭仿真器分别 +9.48%/+9.38%/+6.19%。
DCER: Robust Multimodal Fusion via Dual-Stage Compression and Energy-Based Reconstruction: DCER 把"模态内频域压缩 + 跨模态 bottleneck token"作为统一的鲁棒融合管道，并用一个学习的能量函数对缺失模态做梯度下降式重建，同时把最终能量值当作内蕴的不确定度，在 MOSI/MOSEI/SIMS 上同时刷新 SOTA。
Debate with Images: Detecting Deceptive Behaviors in Multimodal Large Language Models: 作者构建了首个面向 MLLM 欺骗行为的多模态基准 MM-DeceptionBench（六类、1013 个真实案例），并提出"带图辩论 (Debate with Images)"框架——两个 MLLM 智能体在多轮辩论中被强制用可视化操作回切原图取证，再由 judge 判定是否欺骗，使与人类一致性的 Cohen's kappa 相对 MLLM-as-a-judge 提升最高 1.5×、准确率提升最高 1.25×。
Decentralized Instruction Tuning: Conflict-Aware Splitting and Weight Merging: 作者从"merge-ready 平坦盆地"出发给权重合并写了一套局部二次理论：合并增益等于曲率加权的 checkpoint 方差，PCA 沿梯度冲突主方向切分能最大化这个增益，并据此提出 MERIT 流水线——按数据集梯度冲突做 PCA 切分、各分支零通讯独立微调、最后一次 token 加权平均，在 Qwen2.5-VL-3B + 136 个 Vision-FLAN 任务上把 8-benchmark 平均从 54.3 提到 57.0。
Deep Pre-Alignment for VLMs: 作者把标准 VLM 里"ViT + 轻量 projector"的视觉编码模块整体替换为一个小 VLM（perceiver），让模态对齐这件耗深度的脏活在 upstream 的小 VLM 内部就完成，使下游大 LLM 不必在浅层浪费深度去做模态对齐——4B 模型在 8 个多模态基准上提升 +1.9 点、32B 上提升 +3.0 点，并把语言能力遗忘减少 32.9%，且推理吞吐只下降 2–6%。
DenseMLLM: Standard Multimodal LLMs for Dense Prediction: 作者把语义分割、深度估计、指代分割这些密集预测任务直接塞进一个 4B 标准 MLLM（ViT + Projector + LLM），不加任何任务专用 decoder，靠对视觉 token 引入"多标签下一 token 预测"（NTP-M）监督，在 ADE20K 取得 54.2 mIoU、DDAD 取得 87.6 δ1、RefCOCO val 取得 80.7 cIoU，同时通用 VL 指标与 Qwen3-VL-4B 持平。
Density-Aware Translation of Spurious Correlations in Zero-Shot VLMs: 作者发现 CLIP 嵌入在球壳上呈各向异性椭球分布、伪相关样本扎堆在均值附近，于是提出 DAT：用每个 (类别, 伪属性) 组的参考集估一个局部密度 \(D_{y,a}(z)\)，再用 \(\tilde s_{y,a}(x)=s_{y,a}(x)/(D_{y,a}(z)+\varepsilon)^{\lambda}\) 把原始 cosine 相似度按"样本是否处在该组核心"重缩放，从而在不微调、不改文本端、不需测试时伪属性标签的前提下显著提升 worst-group 准确率。
Detached Skip-Links and \(R\)-Probe: Decoupling Feature Aggregation from Gradient Propagation for MLLM OCR: 针对 MLLM 的 OCR 场景，作者在多层 ViT→LLM 融合架构中给浅层 skip 分支加 stop-gradient（Detached Skip-Links），同时提出用"LLM 自身前 1/4 层"初始化的重建探针 \(R\)-Probe 来诊断视觉 token 是否真的把细粒度信息送到了语言模型那一侧。
Dimension-Free Multimodal Sampling via Preconditioned Annealed Langevin Dynamics: 对预条件退火朗之万动力学（PALD）做首个维度无关的非渐近收敛分析——把多模态分布采样复杂度从 \(\tilde{O}(d/\epsilon^2)\) 缩减到 \(\tilde{O}(1/\epsilon^2)\)，让扩散类采样算法在高维下从"维度爆炸"中解放。
DIVA: Harnessing the Representation Divergence in Unified Multimodal Models for Mutual Reinforcement: DIVA 发现统一多模态模型 (UMM) 在中间层会自发把"理解"与"生成"两条信息流解耦，于是显式地把表示因子化为共享与独有两部分，用对比/CLUB 互信息约束实现"共享对齐 + 独有解耦"，在 Show-o/Liquid/Nexus-Gen 上同时提升理解 +7.82% 与生成 +8.46%，无需改架构。
Does AI Reviewer See the Full Picture? Attacking and Defending Multimodal Peer Review: 随着 AAAI/ICML/NeurIPS 等会议把 AI 生成评审正式纳入初审，本文提出 PaperGuard——首个系统评测"多模态 AI 评审在对抗操纵下有多脆弱"的基准：统一了黑盒提示注入与白盒梯度攻击（文本 GCG、图像 PGD/APGD/CW），证明仅靠文本防护远远不够（图像攻击能把分数抬高 +14 分），并给出一个轻量的 chunk 级嵌入检索防御（95% 准确率、零误报）。
ECA: Efficient Continual Alignment for Open-Ended Image-to-Text Generation: ECA 提出在预训练 VLM 的「对齐模块」（BLIP-2 的 Q-Former）上做免样本增量学习——用 Mixture-of-Query 按图组合任务专属查询、用基于 Fisher 信息矩阵的判据按需扩展并行适配器、用稀疏字典回放保留旧知识，从而在视觉主题随时间漂移的开放式图文生成任务里既学新主题又不灾难遗忘。
ECG-R1: Protocol-Guided and Modality-Agnostic MLLM for Reliable ECG Interpretation: ECG-R1 是首个面向心电图解读的"推理型"医学多模态大模型，通过协议引导的指令数据合成 + 信号/图像解耦编码 + 交错模态丢弃训练 + 基于诊断证据的过程奖励 RL 四件套，把心电诊断准确率从此前 SOTA GEM 的 74.7 提升到 80.3，并在任一模态缺失时保持跨模态一致性。
Explaining Is Harder than Predicting Alone: Evaluating Concept-Based Explanations of MLLMs as ICL Visual Classifiers: 作者用 5 级形式化逐步加严的解释条件（裸分类 → 自然语言解释 → 特征清单 → IF-THEN 知识库 → DL 公理）和一个评 9 个 XAI 指标的 LLM-as-a-judge 流水线，对 4 个 SOTA MLLM 做了 2,080 次 ICL 分类实验，发现"逼模型生成越正式的概念解释，分类准确率反而单调下滑（93.8% → 90.1%）"，但"局部判别性"是唯一与准确率显著相关的解释质量维度。
FlowNar: Scalable Streaming Narration for Long-Form Videos: FlowNar 通过"段末清空视觉 KV 缓存 + 用门控线性注意力把历史视觉信息压成定长记忆 token"的组合，让流式视频解说模型在显存与计算上保持常数级开销，可处理 \(10\times\) 更长的视频并取得 \(3\times\) 吞吐，同时引入自条件评测协议揭示了基线方法在真实部署下被严重高估的现象。
Focusing Where Vision Matters: Selective Training for Large Vision Language Models via Visual Information Gain: 本文提出 Visual Information Gain (VIG)——一个基于"有图 vs 无图（用模糊图代替）"困惑度对数比的视觉依赖度指标，从样本和 token 两个粒度量化"这条数据/这个 token 到底用没用到图"，并据此做选择性指令微调：只在高 VIG 的样本和 token 上算 loss，让 LLaVA-1.5-13B 仅用 21% 的有效 token 就全面超过 vanilla 训练，并显著缓解语言偏差与幻觉。
FreeRet: MLLMs as Training-Free Retrievers: FreeRet 提出一个完全不训练的两阶段多模态检索框架：第一阶段绕过 MLLM 最后一层 MLP 并配合受控生成 prompt 抽取语义忠实的 embedding 做候选检索，第二阶段把 reranking 改成多项选择题来规避 LLM 的 framing 偏置；在 MMEB 上比训练了千万级配对数据的检索模型还要强。
Furina: Fragmented Uncertainty-Driven Refusal Instability Attack: 本文先用多指标诊断证明"LLM 的安全决策不是二值阈值，而存在一段拒绝不稳定带"，并发现该带的特征是"外部不确定性升高而内部安全信号反而下降"；据此提出 Furina——一种无需模型特定优化、靠把恶意意图打碎进场景化叙事来强行把输入推入不稳定带的越狱攻击，在 HarmBench 上超越多种强基线。
FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs: 提出首个评测多模态大模型「从音视频上下文预测未来事件」能力的基准 FutureOmni（919 视频 / 1034 道选择题），发现连最强模型 Gemini 3 Flash 也只有 64.8% 准确率，并用一套带推理链的指令微调方法 OFF 把开源模型的预测与泛化能力同时拉高。
CHARM: 用 Multimodal JEPA + 通道描述做时间序列 foundation embedding: CHARM 把通道文本描述（如"温度传感器 °C"）作为 inductive bias 注入时间序列 Transformer，用 JEPA 目标（latent prediction 而非 raw signal reconstruction）训练；得到的 embedding 在 anomaly detection、classification、forecasting 上用 linear probe 就能与 PatchTST/MOMENT/Moirai 等专用模型匹敌，且 channel-permutation 严格等变。
Hierarchical Synthetic Tabular Data Generation: A Hybrid Top-Down and Bottom-Up Framework: 本文提出 H-TDBU 框架：用 LLM 或人工写的规则在 top-down 路径生成"逻辑骨架" \(\mathcal{S}\)，再用 RandomForest/XGBoost/CTGAN 等轻量 bottom-up 生成器学习"统计纹理" \(z\)，最后通过条件生成器 \(G(z\in\mathcal{Z}\mid\mathcal{S})\) 把两者拼起来并用 TSTR + XModal 反馈循环迭代修正，在弱多模态金融基准上 TSTR AUROC 优于纯神经网络 baseline 同时保持跨模态一致性。
Hyper-ICL: Attention Calibration with Hyperbolic Anchor Distillation for Multimodal ICL: Hyper-ICL 通过将 CLIP 嵌入提升到双曲空间形成结构化"超球面锚"，结合层次感知蒸馏注意力为多模态 LVLM 上下文学习提供结构先验——在 VQA / Captioning / Caption Editing 等任务上稳定超越传统 demo 选择策略。
Immuno-VLM: Immunizing Large Vision-Language Models via Generative Semantic Antibodies for Open-World Trustworthiness: 本文把生物免疫系统中的"阴性选择"原理搬到 CLIP 等 VLM 上：用 LLM 主动幻觉一批"看起来像但不是已知类"的文本描述作为语义抗体，再以一个轻量 adapter 把视觉特征推离这些抗体，从而在不重训骨干的情况下显著降低开放世界场景下的"高自信误判"。
ATHA: 通过打破尾部对齐改进 CLIP 在源数据无关跨域小样本上的适配: ATHA 提出在 CLIP 跨域小样本微调中"对齐头部 token、推开尾部 token"的非对称对齐范式——把语义稀薄的 patch 主动从文本嵌入推开,反而能减轻过拟合并把 1-shot 平均精度从 55.92% 推到 58.35%。
RESTORE: 通过矫正失真改进视觉 Token 缩减以提升 MLLM 推理效率: RESTORE 把现有视觉 Token 缩减(VTR)中被忽略的"位置失真"和"注意力衰减"两个问题摆到台面上,通过给 RoPE 衰减加一个距离感知的反向补偿项,再用兼顾代表性与判别性的 anchor 选择策略改进 token 合并,使得 LLaVA-1.5-7B 在 64 token(约 11% 保留率)下仍能逼近全 token 性能。
Injecting Distributional Awareness into MLLMs via Reinforcement Learning for Deep Imbalanced Regression: 本文把 MLLM 的连续值回归在长尾分布下的"回归到均值"问题转化为分布感知的 RL 问题，在 GRPO 框架内用 Concordance Correlation Coefficient (CCC) 作为批次级奖励——既看相关性、又看方差、又看均值——从而显式惩罚预测分布塌缩；在 4 个长尾回归任务、Qwen2.5-VL-3B/7B 上稳压 SFT、SoftLabel、各种 point-wise RL，特别是 medium/few-shot 区域 MAE 大幅下降。
VEENA: Interpreting and Enhancing Emotional Circuits in Large Vision-Language Models via Cross-Modal Information Flow: VEENA 用 steering-vector 因果归因框架定位 LVLM 的情感电路——发现其遵循"Adapt（浅层模态对齐）→Aggregate（中层 emotion-specific heads 聚合）→Execute（深层 emotion-general heads + neurons 生成）"三段式机制，进而用"视觉情感增强 + 情感神经元放大"做训练无关推理时干预，显著缓解情感幻觉。
Jailbreaking Vision-Language Models Through the Visual Modality: 作者提出 4 种只通过视觉输入就能越狱前沿 VLM 的攻击（视觉密码 / 物体替换 / 文本替换 / 视觉类比谜题），在 6 个前沿 VLM 上系统验证了"文本端的安全对齐不会自动迁移到视觉端"，并用 mechanistic 分析揭示了背后的层级机理。
LBR/LBP: Language Bias in LVLMs — From In-Depth Analysis to Simple and Effective Mitigation: 本文系统量化 LVLM 训练中的语言偏置——发现 VIT 和 DPO 两个阶段都让 text-only likelihood \(\pi(y|x)\) 涨得几乎不输 multimodal likelihood \(\pi(y|x,v)\)，证明 LVLM 在系统性低估视觉输入；提出 Language Bias Regularization（VIT 阶段用 \(|\mathcal{B}|\) 把语言路径钉回参考水平）和 Language Bias Penalty（DPO 阶段用 sigmoid 惩罚主动把已有偏置往负压），不加任何数据/辅助模型就显著提升 10+ benchmark 性能并降幻觉。
Large Vision-Language Models Get Lost in Attention: 本文用"信息复杂度 (eRank) + 子空间支持"的几何信息论框架定量诊断 LVLM 的残差流，发现 Attention 几乎只做子空间内重配置而 FFN 才注入新语义维度；更惊人的是把学习到的 attention 权重换成高斯噪声后多数视觉任务性能不降反升，揭示当代 LVLM 在 visual attention 上严重错配冗余。
Layer-Specific Fine-Tuning for Improved Negation Handling in Medical Vision-Language Models: NAST 用因果追踪 (causal tracing) 算出 CLIP 文本编码器各层对否定理解的因果贡献度 (CTE)，再以这些 CTE 做层级化梯度缩放微调 LoRA，让医学 VLM 在区分"有 / 没有某症状"时的语义敏感度大幅提升，并把肯定-否定准确率差距从 21.6% 缩到 4.2%。
Left-Right Symmetry Breaking in CLIP-style Vision-Language Models Trained on Synthetic Spatial-Relation Data: 作者用一个 1D 合成 image-text 测试床端到端训练 CLIP-style Transformer，发现这类模型能学到"左/右"关系并泛化到未见物体对，机制是位置嵌入与 token 嵌入的交叉项 \(EW_{QK}P^T\) 在 vision encoder 注意力 logit 中诱导出一条水平梯度，打破左右对称；消融该项后左右判别准确率掉到随机水平。
Manga109-v2026: Revisiting Manga109 Annotations for Modern Manga Understanding: 作者重审 Manga109 这一漫画 AI 研究的基础数据集，识别出五类对话文本标注问题，结合商用 OCR + GPT-5/Gemini 3 Flash 双 LLM 投票 + 人工校验，修订约 29,000 条标注（占全部 147,887 条文本标注的 19.6%）发布 Manga109-v2026，使端到端 OCR 评测 H-mean 从 48.5 提升到 62.9（+14.4 pp）。
Measurement Plasticity: Sensor-Level Adaptation for Vision–Language Models: 这篇论文把视觉语言模型（VLM）的测试时自适应（TTA）从"调模型/调 token"搬到了"调相机/调光子"——把相机的曝光三角（ISO、快门、光圈）当作可控的"物理提示"，在拍摄阶段就用源域亲和度选出多个物理视图、再经熵过滤和硬投票聚合，无需任何梯度或改模型，就在传感器级分布偏移下显著超过只在数字域做适应的 TTA 方法。
Med-Scout: Curing MLLMs' Geometric Blindness in Medical Perception via Geometry-Aware RL Post-Training: Med-Scout 把"医学 MLLM 在病灶定位时不遵守图像几何约束"这一系统性缺陷定义为"几何盲"，用三个不需要专家标注的几何代理任务（多尺度定位 / 拓扑拼图 / 异常一致性）配合稠密几何奖励（DGR）在 GRPO 下做后训练，并发布 Med-Scout-Bench 用于量化几何盲，在四个 backbone、八个医学基准上一致提升，开源模型甚至反超 GPT-5 / Gemini-3-Flash。
MedSIGHT: Towards Grounded Visual Comprehension in Medical Large Vision-Language Models: MedSIGHT 把"区域感知器"和一套"按模态分组的区域 codebook"塞进医学 LVLM，让同一个生成式模型既能做诊断推理、又能直接吐出离散区域码并解码成分割掩码，仅用 72K 指令样本就在理解与分割两类任务上同时达到 SOTA。
Mitigating Manifold Departure: Uncertainty-Aware Subspace Rectification for Trustworthy MLLM Decoding: 针对训练无关解码方法"无差别压制语言先验"会把隐状态推离正常解码流形（manifold departure）从而损害正常生成的问题，MGAP 用 SVD 从盲文本隐状态中估出一个低秩"语言先验子空间"，解码时只把隐状态在该子空间上的投影分量按"视觉冲突程度 + 预测不确定度"自适应衰减，在 POPE / CHAIR 上同时拿到更强的幻觉抑制和更稳的生成保真。
Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling: 本文揭示并形式化 MLLM-as-a-Judge 的"感知判断偏差"——评判模型在视觉证据与文本叙述冲突时倾向于奖励语言上更流畅的回答，并通过构造感知扰动数据集 PPJD 与基于 GRPO 的批量排序奖励训练，仅用 3k 样本就让 7B 评判器在多模态评测一致性、单分预测、批量排序三类协议上同时大幅超越同尺寸基线。
MoDA: Modulation Adapter for Fine-Grained Visual Grounding in Instructional MLLMs: 针对 MLLM 因 ViT patch 表示里"多种视觉语义纠缠在一起"而难以做细粒度视觉定位的问题，本文提出轻量模块 MoDA——在已对齐的视觉特征上、由语言指令通过交叉注意力生成一个 \([0,1]\) 的通道级软掩码，用 Hadamard 乘法逐通道地放大与指令相关的特征维度、抑制无关维度；它即插即用、不改 MLLM 架构、不需额外监督，在 12 个基准、3 个 MLLM 架构上一致涨点（LLaVA-1.5 上 MMVP +12.0），而开销不到 1% FLOPs。
Model-Dowser: Data-Free Importance Probing to Mitigate Catastrophic Forgetting in Multimodal Large Language Models: Model-Dowser 用"权重幅值 × 输入激活 × 输出 Jacobian"三因素给 MLLM 的每个参数打分，冻结高分参数、只更新低分参数，从而在 LLaVA/NVILA 上深层微调时既能学好下游任务又能保留预训练知识，相比 SPIDER、ModelTailor 在 H-score 上稳定领先。
Multimodal Continual Learning with MLLMs from Multi-scenario Perspectives: 针对 MLLM 在跨场景 VQA 中的视觉遗忘问题，本文构建 MSVQA（高空/水下/低空/室内 4 场景）基准，并提出 Unifier 框架——在视觉 block 里加入 CSR 多分支 + 投影器（VRE）做参数隔离，再用 KL 软约束（VCC）对齐不同分支表征，单次推理即可在 20 步持续学习上把 VQA 提升 2.70-10.62%、F1 提升 3.40-7.69%。
Neutral-Reference Prompting for Vision-Language Models: 本文将 VLM 高效迁移中的 Base-New Trade-off (BNT) 重新归因为"预训练带来的非对称类别偏好在未见类上未被消除"，提出 NeRP：用一个语义中性的文本 prompt 和"训练图均值"作为参考输入，在已训练好的 VLM 上零参数估计每个类别的先验偏移，再用贝叶斯风格的代理分数在易混淆类对之间做局部翻转，从而在不动模型参数的前提下提升未见类精度并保住基类精度。
Pair2Scene: Learning Local Object Relations for Procedural Scene Generation: Pair2Scene 把 3D 室内场景生成从「直接拟合全局联合分布」改成「学习一对一的局部物体关系（支撑 + 功能）然后按场景层级树递归装配」，配合点云几何编码、Mixture-of-Logistics 概率头和碰撞感知拒绝采样，在仅用 3D-Front 数据训练时即可生成对象数从约 4 跃升到约 14 的复杂场景，FID 和用户研究均优于 ATISS、DiffuScene、LayoutVLM 等基线。
Referring Multiple Regions with Large Multimodal Models via Contextual Latent Steering: CSteer 提出一种训练无关的 latent steering 方法,通过在错误/正确指代回答的隐藏激活差上构造"上下文向量",并在推理时分层注入到 query 早期层和 decode 中后期层,让通用 LMM (Qwen3-VL、InternVL-3.5) 在多区域视觉指代任务上反超专门微调的 region LMM。
Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?: Robust-U1 让统一架构的多模态大模型（MLLM）先把被污染的图像在像素级"自我修复"成干净图、再对照原图和恢复图联合推理，从而在真实退化与对抗退化下都拿到鲁棒理解的 SOTA。
SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning: SAME 把多模态持续指令微调里 MoE-LoRA 的"灾难性遗忘"明确拆成 router drift 和 expert drift 两个独立来源，分别用谱感知的子空间约束更新路由器、用历史输入协方差做 Riemannian 预条件保护专家、再用任务级自适应冻结去掉冗余更新，在 CoIN / UCIT 及作者自建的 TriGap 长序列基准上稳定打过现有 MoE 持续学习 SOTA。
ScreenParse: Moving Beyond Sparse Grounding with Complete Screen Parsing Supervision: 针对 GUI agent 普遍使用"稀疏 grounding"标注、丢失整屏结构的问题，本文用全自动 Webshot 流水线构建了 771K 截图 / 21M 元素 / 55 类的稠密屏幕解析数据集 ScreenParse，并训练出仅 316M 参数的 ScreenVLM 把整屏解析为 ScreenTag 结构序列，在密集解析与稀疏 grounding 多个 benchmark 上击败 8B 级别的基础 VLM 同时把延迟降到 \(\sim 1/4\)。
Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs: 作者把 decoder-only MLLM 里的因果注意力掩码改一个"洞"，让排在前面的图像 token 反过来去看后面的文本问题 token——这一行掩码修改不加任何参数、不改训练数据，在 3 个 LLM backbone 与 12 个多模态基准上平均涨 6.2 个点。
Self-Captioning Multimodal Interaction Tuning: Amplifying Exploitable Redundancies for Robust Vision Language Models: 本文借助 Pointwise Partial Information Decomposition 量化视觉-文本模态交互，并提出 Multimodal Interaction Gate：自动挑出「图像独有信息占主导」的样本让 VLM 自我生成 caption 灌入文本侧，从而把 unique 视觉信号转成 redundant 共享信号，使 VLM 在模糊或被污染输入下的视觉幻觉下降 38.3%、一致性提高 16.8%。
Self-Prophetic Decoding to Unlock Visual Search in LVLMs: SeProD 让经过视觉搜索后训练的 LVLM 与其未微调的预训练版本配对，把预训练模型当作"先知"在每一步生成单步草稿前缀，再由后训练模型按概率阈值选择性接受这些前缀，从而在不训练、零额外计算的前提下同时保住单步基础能力与多步推理连贯性。
SLQ: Bridging Modalities via Shared Latent Queries for Retrieval with Frozen MLLMs: SLQ 把一小组"共享潜在查询" \(\mathbf{Q}\) 追加到图像/文本 token 序列尾部，借助 MLLM 自身的因果注意力聚合全局上下文，只训练几千个查询参数就让冻结的 MLLM 变成检索器，在 COCO/Flickr30K 上胜过全量微调和 LoRA，并配套发布了考验"隐式知识推理"能力的 KARR-Bench。
Smoothing Slot Attention Iterations and Recurrences: 针对 Slot Attention 在图像与视频对象中心学习中"冷启动查询信息不足"和"首帧/非首帧聚合变换被强行统一"两个长期被忽视的痛点，作者提出 SmoothSA：用一个自蒸馏的小预热模块给查询注入样本信息，同时让首帧跑完整三次迭代、非首帧只跑一次，从而在图像和视频两个 OCL 基准上同时刷新 SOTA。
SOLAR: Self-supervised Joint Learning for Symmetric Multimodal Retrieval: SOLAR 提出第一套面向"对称 MM2MM 检索"（查询和文档都是 image+text 对、且角色可互换）的两阶段自监督学习框架——第一阶段通过全局-局部对齐 + QDA 自适应阈值学习出"交集 mask"以解耦图文的共享/独有信息，第二阶段利用该 mask 通过对图文不同区域分别掩码构造正/硬负样本做对比学习，并配套发布 214 个人工校验的 sym-MM2MM benchmark；最终以 0.2B 参数和 768 维嵌入超过最强 7.75B VLM 基线 7.08 个百分点。
Task-Aware Structured Memory for Dynamic Multi-modal In-Context Learning: 针对多模态多示例上下文学习里 KV cache 爆炸的问题，TASM 提出一个免训练框架：用"任务向量"而非样本特定注意力来打分（去样本偏差），用二部图匹配做语义感知的 token 合并而非硬剪枝（保住视觉拓扑），再用 JS 散度触发的分层动态检索（让被压掉的细节在需要时还能召回），在压掉最多 80% 显存的同时把性能拉到接近全上下文。
Text-Conditional JEPA for Learning Semantically Rich Visual Representations: 本文提出 TC-JEPA，把 I-JEPA 的 mask 特征预测器额外条件化在图像 caption 上，通过多层稀疏跨注意力让 patch 表示在文本"提示"下变得可预测，从而在不用对比损失的前提下学到语义更丰富、对密集预测尤其友好的视觉表征。
TGV-KV: Text-Grounded KV Eviction for Vision-Language Models: TGV-KV 通过"用文本注意力来支配视觉 KV"的三件套——按 text-vision 注意力分层预算、用主导文本 token 加权重排视觉重要性、并在驱逐时优先保住文本 KV——把为纯文本 LLM 设计的 KV eviction 思路成功迁移到 VLM，在 LLaVA-NeXT/Qwen3-VL 上 5% 保留率下仍能保住接近满 KV 的精度，吞吐量提升 52.6%。
The Truth Stays in the Family: Enhancing Contextual Truthfulness via Inherited Heads in Model Lineages: 作者发现「编码语境忠实度的注意力头」在同一基座衍生出来的 LLM/MLLM 之间会被遗传下来，于是提出 TruthProbe——一种用头级 Truth Score 做软门控的即插即用机制，从基座 LLM 探出的分数可以直接迁移给它的微调 LLM 和多模态后代，在 HaluEval / POPE / CHAIR 上同时降低幻觉。
TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings: 作者构建了一个覆盖 80 个国家、1,455 张真实地面图像的 TimeSpot 基准，强制 VLM 同时给出"何时（季节/月份/分钟级本地时间/日相）"与"何地（洲/国/气候带/环境类型/经纬度）"九字段结构化预测，结果显示即便最强模型 Gemini-2.5-Flash-Thinking 也只达到 77.59% 国家准确率、892.54 km 中位地理距离误差，分钟级时间准确率不到 34%，说明 VLM 严重缺乏基于物理线索的地理-时间联合推理能力。
Toward Structural Multimodal Representations: Specialization, Selection, and Sparsification via Mixture-of-Experts: 本文提出 S3 框架，用 MoE 把多模态表征分解为概念级专家（Specialization）、按任务路由激活相关专家（Selection）、并在推理时按路由分数剪枝低贡献路径（Sparsification），在四个 MultiBench 基准上揭示了一条"性能在中间稀疏度达峰"的反 U 型曲线，给出对比学习/InfoMax 之外第三种多模态表征范式。
TRAP: 用对抗 patch 劫持 VLA 的 CoT 推理实现目标行为攻击: TRAP 是第一个针对 reasoning VLA 的目标行为劫持攻击——通过桌布大小的物理对抗 patch 劫持 VLA 的 CoT 推理（边界框/轨迹/子任务），让机器人在用户指令保持「拿苹果」时改为「拿刀给人」；在 MolmoAct/GraspVLA/InstructVLA 三种 CoT 范式上平均 ASR 52.54%，真实世界打印 patch 在 GraspVLA 上 occlusion-free 部署 86.7% 干扰成功率、33.3% 完全控制率。
TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization: TUR-DPO 在 DPO 的偏好 logit 上同时叠加一个"语义+拓扑结构"塑形奖励差和一个"按每对样本不确定性"动态降权的实例权重，让模型在保持 RL-free 训练简洁性的同时，显式奖励推理过程的结构合理性并削弱脆弱偏好对的影响，从而在 GSM8K / MATH / BBH / QA 等推理类任务上系统超过 DPO 与 IPO，并在多数任务上追平 PPO。
通用骨架理解：可微渲染与 MLLMs: 通过将骨架序列渲染为图像让 MLLMs 能够理解多种格式的骨架数据——实现通用骨架理解，解决跨模态和格式异构问题。
揭示视觉-语言模型中的视觉计数瓶颈: 通过将视觉计数分解为三个认知阶段——发现 VLM 的计数失败根源不在视觉感知或数量理解，而在符号映射阶段无法将视觉表征投影到正确的文本标记，反映出模型缺乏统一的跨模态数字表示空间。
V-LynX: Token Interface Alignment for VideoX LLMs: V-LynX 通过发现 Video LLM 内部的连续 token interface（流形）——视觉编码器 + 投影层雕刻出的与 LLM 内部操作空间兼容的几何先验——仅用轻量级 LoRA（68.7M 参数）和未配对的单模态数据就能将新模态（音频、3D、高帧率视频）高效集成到预训练 Video LLM 中，AVSD 上 CIDEr 145.7 vs PAVE 134.5（参数减少 46%）。
Very Efficient Listwise Multimodal Reranking for Long Documents: ZipRerank 同时砍掉 VLM 列表式重排的两大瓶颈——「视觉 token 序列过长」和「自回归解码逐 token 输出排名」——用 query-aware token 剪枝 + 单 logit 排序在 MMDocIR 上把 LLM 推理延迟降一个数量级，同时匹配或超越当前 SOTA 的 MM-R5。
Vision Language Models 无法推理物理变换: 本文通过 ConservationBench 基准测试揭示——112 个 VLM 虽然声称具有强大的感知和推理能力，但在判断物理变换中的守恒性（如倒水体积不变）时系统性失败，仅依赖文本先验而非真正的视觉理解。
VisionPulse：多模态推理中的动态视觉稀疏化: VisionPulse 提出训练无关的步级视觉令牌动态剪枝框架——根据每个解码步骤中变化的视觉依赖性自适应调整保留令牌数，仅保留 5% 视觉令牌的同时维持推理精度，将推理长度缩短 11.2%。
视觉说服力：什么影响了视觉-语言模型的决策？: 本论文通过系统使用图像编辑模型修改视觉属性（保持语义不变），发现 VLM 存在显著视觉偏好；提出三种视觉提示优化方法揭露这些偏好，开发自动可解释性管道理解驱动决策的视觉主题，并通过视觉归一化缓解风险。
VLA-Arena：评估视觉语言动作模型的开源框架: VLA-Arena 提出结构化 VLA 基准——通过任务结构、语言命令和视觉观察三个正交维度系统量化难度，用 170 个任务揭示现有 VLA 模型在泛化、视觉感知和安全性上的关键缺陷。
VLANeXt：构建强大 VLA 模型的配方: 本文系统探索 VLA 模型的设计空间，通过 500+ 对照实验提炼出 12 条关键设计原则——构建高效强大的 VLANeXt 模型，在 LIBERO 基准上超越 SOTA，并在真实机器人任务中验证了设计原则的有效性。
WeatherSyn: An Instruction Tuning MLLM For Weather Forecasting Report Generation: WeatherSyn 把气象预报员的报告写作流程拆解成"看图→列要点→出稿"的多模态指令任务，先建了首个覆盖 31 个美国城市、8 类天气要素的 WSInstruct 数据集，再用 SFT→RFT→DPO 三段式微调 Qwen3-VL-8B，让一个 8B 开源模型在多种评测指标上稳定打过 GPT-5-Nano、Claude-3.7-Sonnet 等闭源大模型，并对未见城市有零样本泛化能力。