跳转至

📷 CVPR2026 论文汇总

4062篇CVPR2026论文解读,涵盖 3D 视觉(751篇)、图像生成(490篇)、多模态 VLM(418篇)、视频理解(187篇)、视频生成(182篇)、医学图像(172篇)、自动驾驶(157篇)、人体理解(151篇)等 46个方向。每篇含一句话总结、核心思想、方法详解、实验结果与局限性分析,5分钟读懂一篇论文核心思想。


💡 LLM Reasoning (16)

Agile Deliberation: Concept Deliberation for Subjective Visual Classification

针对"健康食物""标题党"这类边界模糊的主观概念,提出 Agile Deliberation 人在回路框架:先把概念分解成正/负子概念层级,再迭代地检索"语义边界样本"让用户标注与反思、并自动把反馈编译成 VLM 提示,使图像分类器逐轮对齐用户不断演化的意图,18 场真人实验中 F1 比自动分解基线高 7.5%、比手动审议高 3%+。

APPO: Attention-guided Perception Policy Optimization for Video Reasoning

APPO 发现「视频推理瓶颈在感知而非推理」,于是用模型自身对视频帧的注意力把稀疏 outcome reward 转成 token 级稠密奖励——让不同回答里聚焦同一关键帧的「组内感知 token」按高/低奖励差异化加权学习,在 Qwen2.5-VL-3/7B 上稳定超过 GRPO 和 DAPO(0.5%∼4%)。

Dynamic Important Example Mining for Reinforcement Finetuning

DIEM 在 RFT(GRPO/PPO 等)的每一步训练里,用「单样本梯度与 batch 总梯度的内积」实时估计每条样本对当前策略改进的边际贡献,再解一个保持梯度模长不变的约束优化问题给样本重加权,几乎零额外开销(+1.3% 时间)就让多模态推理 benchmark 平均提升 1–6 个点。

E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

构建首个面向中文电商海报的多维度质量评估框架 E-comIQ-ZH,包含18K专家标注数据集(含CoT推理链)、专用评估模型 E-comIQ-M(SFT+GRPO训练)和标准化基准 E-comIQ-Bench。

EagleVision: A Dual-Stage Framework with BEV-grounding-based Chain-of-Thought for Spatial Intelligence

提出EagleVision双阶段框架,宏观感知阶段用语义-视角融合DPP(SPF-DPP)在SE(3)空间联合优化语义相关性和视角多样性选择关键帧,微观验证阶段让模型在BEV平面上主动查询新视角帧进行迭代空间CoT推理(假设→查看→验证闭环),查询策略纯RL训练无需人工标注,在VSI-Bench和SQA3D上达开源SOTA。

FireScope: Wildfire Risk Raster Prediction with a Chain-of-Thought Oracle

用一个 GRPO 微调、会写思维链的 VLM(Oracle)先把卫星图+气候推理成一个标量野火风险分,再用 FiLM 把这个分喂给轻量视觉 Encoder-Decoder 去生成高分辨率连续风险栅格——在「美国训练、欧洲测试」的跨洲设定下,显式语言推理显著提升了分布外泛化,且推理痕迹可被野火专家复原、可解释。

Hilbert-Geo: Solving Solid Geometric Problems by Neural-Symbolic Reasoning

Hilbert-Geo 是首个面向立体几何的统一形式化语言框架(含谓词库 + 定理库),用"先解析后推理"的 Parse2Reason 方法——先让多模态大模型把文字题面和 3D 图示翻译成形式化的条件描述语言(CDL),再用专门的符号推理引擎做严格的定理搜索,从而把 MLLM 在立体几何上 50% 出头的准确率提到 77.3%,逼近人类水平。

Human-like Abstract Visual Reasoning via Understanding and Solving Reasoning Loop

把人类"理解—求解—再理解"的迭代认知拆成可循环交互的理解模块(UM)与求解模块(SM),辅以表征同构约束和自适应停止机制,让一个仅 7M 参数的小模型在 ARC-AGI-1 上达到 47.2% 准确率,超过 TRM 与一众通用大模型。

Latent Chain-of-Thought World Modeling for End-to-End Autonomous Driving

LCDrive 提出潜在链式思考(Latent CoT)框架,用动作提议token和世界模型预测token替代自然语言CoT进行推理,通过冷启动+RL后训练实现更低延迟、更好轨迹质量的端到端自动驾驶。

Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought

发现现有LVLM在CoT推理时实际上忽略了中间rationale的内容,提出 RED (Rationale-Enhanced Decoding)——将图像条件和rationale条件的next-token分布在logit层面相乘,理论上等价于KL约束奖励最大化的最优解,无需训练即可显著提升多模态推理准确率。

查看全部16篇「LLM Reasoning」论文 →


🦾 LLM Agent (42)

AdapAction: Adaptive Target Action Backdoor Attack against GUI Agents

针对 MLLM 驱动的 GUI 智能体,把传统"触发器→固定动作"的后门换成"触发器→情境自适应恶意动作":用一个对抗教师 LLM 生成结构化恶意推理轨迹、通过 SFT 蒸馏进目标智能体,使其在被触发时根据当前界面和指令自主挑选一个看起来完全合理的恶意操作,从而在保持正常任务效用的同时把攻击成功率推到 100%,并躲过多原则 LLM 防御。

AeroAgent: A Vision-Physics-Decision Framework for Aerodynamic Vehicle Design

AeroAgent 把"文本/图像生成 3D 车形 → 用 Transformer 代理模型 AeroFormer 秒级预测阻力和流场 → 规划器在预算内做 propose-evaluate-refine 闭环编辑"串成一个统一框架,只在最后用少量高保真 CFD 确认 top-K 候选,5 步迭代即可平均降阻 2–12%、把高保真 CFD 调用减少 50–80%。

Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection

用一套 LLM 驱动的多智能体系统去"扮演"造假者和社交网络上的吃瓜群众,模拟人脸伪造从创作到传播的完整生命周期,合成出带文图一致性标注的训练数据,让 deepfake 检测器在跨域、跨伪造算法的真实场景下涨点显著(如 Celeb-DF AUC 从 70% 级提到 87.1%)。

BAMI: Training-Free Bias Mitigation in GUI Grounding

本文先用 MPD 归因法诊断出 GUI grounding 的错误主要来自两类归纳偏差(精度偏差 + 歧义偏差),再提出免训练的 BAMI 推理框架,用「由粗到精聚焦」消除精度偏差、用「候选选择」消除歧义偏差,把 TianXi-Action-7B 在 ScreenSpot-Pro 上的准确率从 51.9% 提到 57.8%。

BridgeEQA: Virtual Embodied Agents for Real Bridge Inspections

本文把基础设施巡检抽象成一类新的具身问答任务(Inspection EQA),发布了 2,200 条专家标注的桥梁巡检问答基准 BridgeEQA,并提出 EMVR 方法——把"一次性塞全部图片"的长上下文问答重构成"智能体在以图片为节点的场景图上按 MDP 主动导航取证",从而缓解长上下文"中间信息丢失",在条件评级准确率、图像引用相关性、答案正确率上都显著超过非导航基线。

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

针对 GUI agent 在 app 频繁更新下"学新忘旧"的问题,本文发现 SFT 学得快但会覆写旧知识、RL(GRPO)抗遗忘但学得慢,于是提出 CGL 框架——用"错误感知路由 + 熵调控加权 + 条件梯度手术"把 SFT 和 GRPO 拧成一股绳,在自建的 AndroidControl-CL 基准上同时拿到最高准确率和近乎为零的遗忘度。

DRAMA: Next-Gen Dynamic Orchestration for Resilient Multi-Agent Ecosystems in Flux

DRAMA 把具身多智能体系统里的 agent 和 task 统一抽象成"资源实体",用亲和度矩阵 + 改造版匈牙利算法做事件触发的动态调度,再加一条"信任链"做去中心化故障接管,让团队在 agent 中途掉线/加入/恢复时仍能不间断完成任务,在 VirtualHome-Social 上比 SOTA 平均步数更少、冲突率更低、吞吐更高。

Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

提出 Ego2Web,首个将第一人称视频感知与 Web 代理执行相结合的基准测试,配套半自动数据构建流程和 Ego2WebJudge 自动评测框架,实验揭示当前最强 Agent 在真实视觉感知到在线行动的跨模态迁移上仍有巨大差距,最高仅 48.2% 成功率。

EpiAgent: An Agent-Centric System for Ancient Inscription Restoration

EpiAgent是首个面向古代铭文修复的Agent系统,通过LLM中央规划器协调多模态分析、专用修复工具和迭代自我优化,在文字真实性和视觉保真度上超越现有方法。

Experience Transfer for Multimodal LLM Agents in Minecraft Game

本文提出 Echo——一个面向"迁移"的记忆框架,把可复用知识显式拆成结构/属性/过程/功能/交互五个迁移维度,封装进统一的上下文状态描述符(CSD),再用上下文类比学习(ICAL)主动地从记忆库里推断并验证新任务,在 Minecraft 从零学习场景里把物品解锁速度提升 1.3×–1.7×,并出现"链式爆发解锁"现象。

查看全部42篇「LLM Agent」论文 →


⚖️ 对齐 / RLHF (12)

Anchoring the Mind of Multimodal Reasoners: Cognitive Bias as a Vector for Jailbreak Attacks

本文发现多模态大推理模型(MLRM)的安全判断存在"锚定效应"——会被最先看到的信息严重带偏,据此提出 RA-Attack:先用一张"看起来安全"的结构化思维导图加教育语境文本把模型的推理链锚定到安全基调,再顺势把有害意图包装成这条推理链的自然延伸,在 7 个主流 MLRM 上把越狱成功率(ASR)刷到 92%(Gemini-2.5-Pro)、82%(GPT-4o)的 SOTA。

Bridging Human Evaluation to Infrared and Visible Image Fusion

针对红外-可见光图像融合(IVIF)长期只优化手工指标、与人眼审美脱节的问题,本文构建了首个大规模 IVIF 人类反馈数据集,训练了一个"融合导向奖励模型"来量化感知质量,再用 SAM 辅助的 GRPO 把融合网络对齐到人类偏好,在主流基准上取得 SOTA 且融合结果更"好看"。

DRM: Diffusion-based Reward Model With Step-wise Guidance

本文把预训练扩散模型本身当作奖励模型骨干(DRM),利用它能给任意去噪步的噪声潜变量打分这一独特能力,分别设计了密集逐步奖励的 Step-GRPO(训练)和"探索-择优"的 Step-wise Sampling(推理),在不增参数的前提下显著提升 SD3.5-Medium 的生成质量,且收敛速度快 2.5–3.5 倍。

EcoAlign: An Economically Rational Framework for Efficient LVLM Alignment

EcoAlign 把视觉语言大模型(LVLM)的推理时对齐重新框定为"有限算力预算下的最优路径搜索"问题:在动态构建的思维图上用一个类似净现值(NPV)的前瞻函数给每个候选动作打分,权衡安全、效用与成本,并用"最弱环节"原则定义路径安全,从而在更低算力下达到甚至超过现有方法的安全与效用。

From Pixel to Precision: Enhancing Handwritten Mathematical Expression Recognition with Image-Level Reward

针对手写数学公式识别中"LaTeX 文本相似 ≠ 渲染图像相似"的根本错位,本文提出图像匹配分数 IMS(基于列投影编码 + Levenshtein 距离的轻量图像级奖励),并用它驱动一个去掉 value 网络的 GRPO 强化学习框架 IMPO,在 CROHME / HME100K / M2E 三套基准上把 ExpRate 平均提升约 1.1%、最高 1.37%,刷新 SOTA。

MorphSeek: Fine-grained Latent Representation-Level Policy Optimization for Deformable Image Registration

MorphSeek 把可变形医学图像配准重新定义为「在编码器隐空间里做策略优化」——在 U-Net 编码器顶层接一个高斯策略头把隐特征当作可采样的动作,先无监督 warm-up 稳定隐空间,再用 GRPO 做多轨迹多步弱监督微调,配合 LDVN 让上万维隐空间里的策略梯度稳定下来,在三个 3D 配准基准上用极少标签把 Dice 提了 2–4%、把折叠率(NJD)降了 30–60%。

Principled Steering via Null-space Projection for Jailbreak Defense in Vision-Language Models

提出 NullSteer,一种基于零空间投影的激活转向防御框架,通过将转向操作限制在良性激活的零空间中,在不损害模型通用能力的前提下有效抵御视觉越狱攻击。

SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

SafeGRPO 把"可验证的规则化奖励"塞进 GRPO,让多模态大模型在无需人工偏好标注的情况下自奖励地学会"先按视觉/文本/组合三层逐步推理安全性、再决定回答还是拒答",在多个安全基准上同时提升越狱防御、安全意识与稳定性,且几乎不损伤通用能力、不引入过度拒答。

Thinking with Frames: Generative Video Distortion Evaluation via Frame Reward Model

REACT 是一个面向生成视频「结构失真」的帧级奖励模型:先建一套八类失真分类体系并标注 1.5 万对帧偏好数据,用 grounding 重构 + Gemini-2.5-Pro 低成本合成 6K 条 CoT,再以「掩码 SFT + GRPO 成对奖励」两阶段训练 Qwen2.5-VL-7B,推理时用动态采样聚焦最可能失真的帧,在偏好对齐和失真识别两项任务上都显著超过现有视频/图像评估器。

Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models

UE-DPO 把多模态大模型(MLLM)幻觉抑制的优化重心,从"模型已经看得懂的视觉敏感 token"挪向"模型看不懂、却很关键的认知盲区 token"——用 token 级认识不确定性(epistemic uncertainty)量化这些盲区,再按不确定性给 preferred / dispreferred 两支非对称地调节 DPO 梯度强度,在多个幻觉 benchmark 上以更小数据量超过 TPO/V-DPO 等同类方法。

查看全部12篇「对齐 / RLHF」论文 →


🔒 LLM 安全 (12)

AutoDebias: An Automated Framework for Detecting and Mitigating Backdoor Biases in Text-to-Image Models

提出 AutoDebias——首个同时检测和缓解 T2I 模型中恶意后门偏见的统一框架,利用 VLM 开放集检测发现触发词-偏见关联并构建查找表,再通过 CLIP 引导的分布对齐训练消除后门关联,在 17 种后门场景中将攻击成功率从 90% 降至接近 0 且保持图像质量。

The Blind Spot of Adaptation: Quantifying and Mitigating Forgetting in Fine-tuned Driving Models

系统研究 VLM 微调到自动驾驶场景时的灾难性遗忘问题,构建 180K 场景大规模基准 FidelityDrivingBench,并提出 Drive Expert Adapter (DEA) 通过提示空间路由在不腐蚀基础参数的前提下增强驾驶任务性能。

Designing to Forget: Deep Semi-parametric Models for Unlearning

提出"Designing to Forget"理念,设计了一族深度半参数模型 (SPM),在推理时通过简单删除训练样本即可实现遗忘(无需修改模型参数),在 ImageNet 分类上将与重训基线的预测差距减少 11%,遗忘速度提升 10 倍以上。

Elastic Weight Consolidation Done Right for Continual Learning

本文从梯度视角系统分析了 EWC 及其变体在权重重要性估计上的根本缺陷(EWC 的梯度消失和 MAS 的冗余保护),并提出了一个极其简单的 Logits Reversal 操作来修正 Fisher 信息矩阵的计算,在无样例类增量学习和多模态持续指令微调任务上大幅超越原始 EWC 及其所有变体。

Learning from Oblivion: Predicting Knowledge-Overflowed Weights via Retrodiction of Forgetting

提出KNOW prediction:通过在逐步缩小的数据子集上sequential fine-tuning诱导结构化遗忘过程,收集权重转变轨迹,然后用meta-learned hyper-model(KNOWN)反转forgetting方向,预测"仿佛在更大数据集上训练"的虚拟知识增强权重。跨多数据集(CIFAR/ImageNet/PACS等)和多架构(ResNet/PVTv2/DeepLabV3+)持续超越naive fine-tuning及多种weight prediction基线,在图像分类、语义分割、图像描述、域泛化等下游任务上均有显著提升。

Machine Unlearning via Adaptive Gradient Reweighting and Multi-stage Objective Optimization

针对机器遗忘里"对所有样本/类别一视同仁"和"遗忘目标与保留目标梯度互相打架"两大问题,本文提出自适应梯度重加权(按样本记忆深度/类别脆弱度给不同权重)+ 三阶段目标优化(方向纠偏 → 时间平滑 → 自适应组合),在 CIFAR-10/100、Tiny-ImageNet 上把随机遗忘的 Avg Gap 从 SOTA 的 0.85 压到 0.19。

Omni-Attack: Adversarial Attacks on Open-Ended VQA in Black-Box Multimodal LLMs

针对"开放式 VQA/OCR 任务没有显式攻击目标、现有对抗鲁棒性评测各用各的协议"两大空白,本文先建了统一的定向攻击基准 AdvRobustBench(1000 题,VQA+OCR),再提出迁移式黑盒攻击 Omni-Attack(用 LLM 生成"问题条件化"的文本/视觉目标 + OCR 位置感知扰动 + 四种迁移正则),在 GPT-4.1 上 \(\epsilon=8/255\) 就把定向攻击成功率打到 71.8%。

⊘ Source Models Leak What They Shouldn't ↛: Unlearning Zero-Shot Transfer in Domain Adaptation Through Adversarial Optimization

发现无源域自适应(SFDA)方法会不经意地将源域独有类别的知识泄漏到目标域(零样本迁移现象),提出 SCADA-UL 框架通过对抗生成遗忘样本和重缩放标签策略,在域自适应过程中同时完成类别遗忘,达到接近从头训练的遗忘效果。

pH-Strips for Selective Forgetting: A Blunt but Fast Diagnostic Baseline for Machine Unlearning

提出 MUpHT——一个免训练、无需保留集、闭式求解的机器遗忘方法:把待遗忘概念在特征空间张成的低维子空间从权重里"投影掉",几秒内(CIFAR-100 上 0.004 分钟、SD 去除裸露概念约 0.7 秒)就得到一个对该概念"失明"的模型,定位是给机器遗忘领域提供一张"试纸"式的快速诊断基线,效果却能和动辄训练数小时的 SalUn 打平甚至超过。

Revisiting Learning with Noisy Labels: Active Forgetting and Noise Suppression

针对噪声标签学习长期依赖"挑干净样本"导致的过拟合瓶颈,本文提出即插即用框架 FINE:用基于机器遗忘的负交叉熵损失"主动遗忘"早期已吸收的噪声知识,再用基于负学习的互补标签损失"抑制"后期对噪声的过拟合,挂在 SED / ACT 等现有 SOTA 上即可稳定提升鲁棒性与泛化。

查看全部12篇「LLM 安全」论文 →


👻 幻觉检测 (33)

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

针对"放大图像注意力虽能压幻觉、却让模型重复啰嗦"的痛点,本文发现真实物体 token 比幻觉 token 对已生成文本 \(T_p\) 的注意力更高,于是改为增大对 \(T_p\) 的注意力(IAT),并进一步用逐层阈值控制"何时干预"、用逐头放大矩阵控制"放大多少"(AdaIAT),在 LLaVA-1.5/Janus-Pro/Qwen2.5-VL 上把幻觉率(CS/CI)显著降低的同时几乎不损失文本多样性。

Beyond the Global Scores: Fine-Grained Token Grounding as a Robust Detector of LVLM Hallucinations

提出基于 patch 级别的 LVLM 幻觉检测框架,发现幻觉 token 表现出弥散注意力模式和低语义对齐两个特征标志,据此设计注意力弥散分数(ADS)和跨模态接地一致性(CGC)两个轻量指标,检测准确率达 90%。

CausalLens: Sensitivity-Guided Multi-Head Causal Intervention for Hallucination Mitigation in Large Vision-Language Models

CausalLens 通过把解码器每个注意力头拆成"视觉/文本/系统提示"三条通路,用一个视觉敏感度分数挑出真正看图的头,在中层(L10–L20)单次前向里直接放大它们的视觉贡献并做投影对齐修正,从而在不训练、不多次解码的前提下显著降低大视觉语言模型的幻觉。

COPO: Causal-Oriented Policy Optimization for Hallucinations of MLLMs

作者发现 MLLM 用 GRPO(只看最终答案对错的 outcome reward)后训练时会过度关注图像背景、形成"背景→答案"的虚假相关进而产生幻觉,于是提出 COPO:给每个推理 token 算一个"因果完备性"奖励(充分性 + 必要性),把它注入 GRPO 的优势函数,逼模型只奖励真正决定答案对错的 token,从而在 CHAIR/POPE 等多个幻觉基准上稳定降低幻觉率。

Cross-Modal Attention Calibration for LVLM Hallucination Mitigation

针对 LVLM 幻觉,本文提出免训练的跨模态注意力校准框架 CMAC:用 IMD 模块在注意力层"外科手术式"地遮蔽跨模态高权重的 value 向量来构造更精准的幻觉分布做对比解码,并用 CMPC 模块缩放图像 token 的位置索引来缓解 RoPE 带来的位置偏置,在 POPE/CHAIR/MME 上全面超过现有对比解码方法。

Envision, Attend, Then Respond: Counterfactual Hallucination Mitigation in Large Vision-Language Models

EnAR 是一个训练无关框架,用扩散模型为输入图像生成一张"它本该长什么样"的视觉印象,再通过比对原图与印象的视觉注意力差异定位出违反常识的反事实元素(如五条腿的羊驼),把这些 token 屏蔽掉做对比解码,从而让 LVLM 把回答锚定在真实像素而非语言先验上——在反事实基准 VLMBias 上提升 10.82%、在通用幻觉 POPE 上平均提升 6.9%。

Evaluating and Easing Hallucinations for GUI Grounding

本文首次系统研究 GUI grounding 中的幻觉问题,把它拆成"认错相似元素"的混淆幻觉和"凭空捏造坐标"的虚构幻觉,构建了双语、双子集的 GUI-HalluBench 来诊断幻觉与 parsing 能力的关联,并给出一个免训练的"先解析后定位"提示(PGP)和一个基于幻觉数据微调(HFT)的缓解方案,实验证明 parsing 越强幻觉越少、HFT 最高带来约 7% 的绝对提升。

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

提出 CIPHER,一种无需训练的测试时幻觉抑制方法:离线阶段用扩散模型生成反事实图像构建 OHC-25K 数据集,通过 SVD 提取视觉幻觉子空间;推理阶段将隐状态投影到该子空间的正交补空间,在不修改模型参数、不增加推理开销的前提下显著降低 LVLM 的视觉幻觉。

Fine-Grained Multi-Image Object Hallucination Benchmark

MIOH 是首个面向多图场景的细粒度物体幻觉诊断基准,把"4 类物体任务 × 3 种多图推理模式"交叉出 26 种题型,再叠加"图像数量 / 感知难度 / 上下文偏置"三种可控对抗压力,对 29 个模型评测后发现即便 GPT-5、Gemini-2.5-Pro 的整体准确率也分别只有 63.1% / 64.4%,全场平均仅 36.1%,并定位出幻觉主要来自跨图整合阶段而非单纯感知失败。

FINER: MLLMs Hallucinate under Fine-grained Negative Queries

发现 MLLM 在细粒度负查询(涉及多个对象/属性/关系的查询中仅有一个细微错误)下幻觉率急剧上升,提出 FINER 基准和 FINER-Tuning 方法(基于 DPO),在 InternVL3.5-14B 上最高提升 24.2%。

查看全部33篇「幻觉检测」论文 →


⚡ LLM 效率 (8)

E\(^2\)-SCI: Elastic Edge-Cloud Speculative Decoding via Credit Inertia

本文发现边云投机解码中相邻窗口的 token 接受率存在强时序一致性(称为"信用惯性"),据此用历史接受率动态调节验证阈值,再配合异步流水线(PLC)把草稿生成与云端验证并行起来,在 DeepSeek-R1-Distill-Qwen (1.5B/32B) 上达到 9.4+ tokens/s、相对 FSD 基线提速 88.5% 且不损精度。

Few-Shot Hybrid Incremental Learning: Continually Learning under Data Scarcity and Task Uncertainty

本文提出"小样本混合增量学习(FSHIL)"这一更贴近现实的新范式——数据稀缺且任务类型(新类/新域/二者皆有)随机出现,并用「条件元扩展混合专家(CME-MoE)」在特征层调和稳定与可塑、用「自扩展原型分类器(SEPC)」在分类层建模多分布边界,在 5 个数据集、3 种增量设定上全面超过现有 FSIL 与 HIL 方法。

Gated KalmaNet: A Fading Memory Layer Through Test-Time Ridge Regression

把线性状态空间模型(SSM)的状态更新重新解释成"对全部历史做一次测试时岭回归",用卡尔曼滤波的精确增益替代现有 SSM 的一步梯度近似,并通过自适应正则 + Chebyshev 迭代解决低精度数值不稳与并行训练两大障碍,在短/长上下文及 ImageNet 上都超过 Mamba2、Gated DeltaNet 等线性 SSM。

Generalizable Video Quality Assessment via Weak-to-Strong Learning

不依赖任何人工打分标签,用现成 VQA 模型当"弱老师"去监督一个高容量多模态大模型"强学生",再把学生回收成下一轮老师做迭代,最终在域内持平、在 OOD 上大幅超越所有老师,把 VQA 的 OOD 整体 SRCC 从 0.59 推到 0.745。

JUMP-Hand: Learning Joint-wise Uncertainty to Gate Mixture of View Experts for Multi-View 3D Hand Reconstruction

JUMP-Hand 把多视图 3D 手部重建重新表述成"每个视图是一个专家"的 MoE 问题,用逐关节、逐视图的概率不确定性当显式门控信号——既驱动粗阶段的不确定性加权三角测量,又驱动精修阶段的不确定性门控跨注意力,从而在严重遮挡下自适应地放大可靠视图、压制噪声视图,在三个多视图基准上取得 SOTA。

ParallelVLM: Lossless Video-LLM Acceleration with Visual Alignment Aware Parallel Speculative Decoding

针对 Video-LLM 投机解码在长视频上"draft 和 target 互相干等"以及"提速比和模型对齐相互掣肘"两大瓶颈,ParallelVLM 把预填充和解码都做成 draft/target 并行流水线,并用基于视觉-文本相似度变化(而非注意力分数)的无偏剪枝 UV-Prune 扩大草稿窗口,在 LLaVA-OneVision-72B / Qwen2.5-VL-32B 上分别取得 3.36× / 2.42× 的无损加速,且免训练、即插即用。

QuietPrune: Query-Guided Early Token Pruning for Vision-Language Models

QuietPrune 提出查询引导的早剪枝:在 ViT 前向过程中、而非传统的 ViT 之后,就把与文本查询无关的视觉 token 剪掉——通过把 VLM 投影器做逆变换得到的轻量适配器,把文本查询转成一个视觉域的 [Q-CLS] token 来提供文本指导,再以 2×2 分组的半结构化方式剪枝并聚合冗余 token,在 Qwen3-VL / InternVL3 上把 prefill 延迟最多降 19.0%、同时比现有晚剪枝方法精度高 4.2%。

Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference

ReMix 在扩散语言模型(DLLM)的「掩码态→词元态」离散解码之间插入一个可迭代刷新的「连续混合态」,让并行解码的多个位置在落子前先在连续空间里互相协调、并用一条拒绝规则把不稳定的位置打回掩码重算,从而在不训练、不掉点的前提下把推理提速 2–8×,很多任务上准确率还反而上升。


📚 预训练 (5)

Exploring Visual Pretraining for Learning Language Intelligence

这篇论文提出 MAPLE:不把 PDF 抽成文本喂给 LLM,而是直接拿文档页面图像做掩码自回归预训练,让 LLM 通过"为遮挡区域生成隐式假设"来学语言智能,在四个数学推理基准上相对纯文本预训练平均提升至多 40.2%。

Linking Modality Isolation in Heterogeneous Collaborative Perception

提出 CodeAlign 框架,通过码本构建离散代码空间和跨模态 Feature-Code-Feature (FCF) 翻译,首次解决异构协同感知中不同模态从未在训练数据中共现的"模态隔离"问题,仅需 HEAL 8% 训练参数、通信量降低 1024 倍,同时达到 SOTA 感知性能。

Reconstructing CLIP for Open-Vocabulary Dense Perception

DenseRC 针对"如何为 CLIP 构建好的密集特征"这一被忽视的问题,揭示 cls token 的泛化语义其实来自多层 value embedding、而空间聚合会放大语义错位,于是用多层 value 作基底、配一个轻量的头选择门控(HSG)只在 head 维重加权,造出与全局语义对齐的密集表示,在开放词汇检测和分割多个基准上刷新 SOTA。

Unlocking Pre-trained Weights: Parameter Inheritance for Zero-Shot Initialization

PITH 用图超网络给目标网络动态生成「投影矩阵」,把预训练大模型的内部权重直接投影到任意尺寸的目标 ViT 上完成初始化,使得初始化后的网络无需任何训练就能直接用——在 ImageNet-1K 上 ViT-Base 零样本精度 53.35%,比上一代 SOTA(TAL)高 6.54%。

Watch and Learn: Learning to Use Computers from Online Videos

提出 Watch & Learn (W&L) 框架,通过逆动力学模型 (IDM) 将互联网上的人类计算机操作视频自动转化为可执行的 UI 轨迹数据,生成 53K+ 高质量轨迹,作为 ICL 示例或 SFT 训练数据显著提升各类 CUA 性能。


🎨 图像生成 (490)

2ndMatch: Finetuning Pruned Diffusion Models via Second-Order Jacobian Matching

提出2ndMatch微调框架,通过对齐剪枝模型与原始模型的二阶Jacobian矩阵 \(J^\top J\)(灵感来自有限时间Lyapunov指数),匹配两者对输入扰动的时间敏感性,从而显著缩小剪枝扩散模型与原始模型的生成质量差距。

3D Space as a Scratchpad for Editable Text-to-Image Generation

本文提出把一个可编辑的 3D 场景当作文生图的"空间草稿本":用一组 LLM 智能体把文本 prompt 解析成主体网格、在 3D 里规划摆放/朝向/相机,再用身份保持的深度可控生成把这个 3D 布局渲染成图,在 GenAI-Bench 上文本对齐 免训练提升 32%,且支持在 3D 里改一下就能一致地反映到成图。

A Self-Conditioned Representation Guided Diffusion Model for Realistic Text-to-LiDAR Scene Generation

T2LDM 用一个训练时辅助、推理时丢弃的"引导网络"给去噪网络注入几何重建监督(SCRG),再加一个方向位置编码(DPE)纠正环形投影带来的街道扭曲,在 Text-LiDAR 配对极度稀缺的条件下也能生成结构精细、可控的 LiDAR 场景,并配套提出可控性 benchmark T2nuScenes 和 TBR 指标。

A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

CoTyle 用一个纯数字 code 就能召唤出一种新颖且可复现的视觉风格:先训练一个离散风格码本把图像压成风格索引、再让一个 T2I 扩散模型以这些索引为条件出图,最后训练一个自回归生成器去"凭空造"新的风格索引序列,从而把"一个数字 = 一种风格"这件事在开源社区第一次实现。

A Temporal and Content Co-Awareness Latent Diffusion for Controllable Hand Image Generation

针对"可控手部图像生成里 pose/appearance 控制信号在所有去噪步用固定强度注入"这一痛点,本文提出 TCCA:用一组可学习 query 把噪声潜变量、3D 位姿、外观三类异构特征对齐到统一空间,据此逐时间步动态调整位姿与外观的注入强度,并配一个用 SVD 正交分解去掉位姿伪影的位姿不变外观编码器,在 InterHand2.6M 等数据上 FID/LPIPS/PCK 全面超过 FoundHand。

A Training-Free Style-Personalization via SVD-Based Feature Decomposition

基于尺度自回归模型 Infinity,本文发现生成过程第 3 个特征 \(F_3\)最大奇异值分量专门编码风格信息,于是免训练地用 SVD 把参考图风格注入这一步特征(Principal Feature Blending),再借内容分支的注意力图稳住结构(Structural Attention Correction),在 3.58 秒内做到与微调方法相当的风格保真度,速度快达 195 倍。

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

针对多 GPU 扩散推理"加速达不到线性、还掉画质"的痛点,本文把 Classifier-Free Guidance 天然的"条件/无条件双路"当成数据并行的切分维度(条件分区),再用一个度量两路噪声差异的指标(去噪差异 rel-MAE)自适应决定何时开/关流水线并行,在 2 张 RTX 3090 上对 SDXL / SD3 分别取得 2.31×/2.07× 加速且几乎不掉画质。

Adapter Shield: A Unified Framework with Built-in Authentication for Preventing Unauthorized Zero-Shot Image-to-Image Generation

针对 IP-Adapter / InstantID 这类「一张图就能克隆人脸或画风」的零样本图生图,本文提出 Adapter Shield:先用一对可训练的「加密器/解密器」把图像编码器输出的 embedding 按密码映射成乱码,再用多目标对抗扰动把原图「钉」向这些乱码 embedding,从而让未授权者生成失真结果,而持正确密码的授权者能解密复原正常使用——是该领域第一个把「防护」和「认证」合二为一的通用框架。

Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation

提出 Adaptive Auxiliary Prompt Blending (AAPB),通过 Tweedie 公式推导闭式自适应混合系数,在每个去噪步动态平衡辅助锚定提示与目标提示的贡献,无需训练即可显著改善稀有概念生成和零样本图像编辑的语义准确性与结构保真度。

Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration

提出 Spectrum,一种基于切比雪夫多项式的全局谱域特征预测方法,将扩散模型去噪器的中间特征视为时间函数并用岭回归拟合系数,实现误差不随步长增长的长程特征预测,在 FLUX.1 上达到 4.79× 加速、在 Wan2.1-14B 上达到 4.67× 加速而质量几乎无损。

查看全部490篇「图像生成」论文 →


🎬 视频生成 (182)

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

3DiMo 把人体运动控制从「依赖外部 SMPL 重建」改成「与视频生成器联合端到端学一套视角无关的隐式运动 token」,靠跨注意力语义注入 + 多视角富数据监督让模型从 2D 驱动帧里恢复真正的 3D 运动,从而在忠实复现动作的同时支持文本自由控制相机视角,运动保真度和画质都显著超过 2D 姿态与 SMPL 基线。

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

提出 DeltaTok 将连续帧的 VFM 特征差压缩为单个 delta token,配合 Best-of-Many 训练的 DeltaWorld 在单次前向传播中高效生成多样化未来预测,参数量仅为 Cosmos 的 1/35、FLOPs 仅为 1/2000,但在密集预测任务上表现更优。

Accelerating Autoregressive Video Diffusion via History-Guided Cache and Residual Correction

针对自回归视频扩散模型(ARDM)逐段生成时"缓存近似误差会随时间累积放大"这一致命问题,提出训练free的 ARCache:用 History-Guided Cache 根据历史 token 的变化来调度缓存时机(段内抑误差),用 Enhanced Residual Correction 借第一段干净的残差轨迹去校准后续段(段间防漂移),在三个 ARDM 上实现最高 3.13× 加速且画质几乎无损。

Accelerating Diffusion-based Video Editing via Heterogeneous Caching: Beyond Full Computing at Sampled Denoising Timestep

针对带掩码的视频编辑(MV2V)任务,提出训练无关的 HetCache:既在去噪时间步维度按累积变化量把步骤分成"全算/部分算/复用"三档,又在单步内部按掩码空间先验把 token 切成上下文/边缘/生成三类,只对最具语义代表性的上下文 token 做注意力,从而在 Wan2.1-VACE 上拿到 2.67× 加速且画质几乎不掉。

ActivityForensics: A Comprehensive Benchmark for Localizing Manipulated Activity in Videos

首次提出活动级视频伪造定位任务和ActivityForensics大规模基准数据集(6K+伪造片段),通过grounding辅助的自动化数据构造管线制造高度逼真的活动篡改,并提出Temporal Artifact Diffuser (TADiff)基线方法,通过扩散式特征正则化放大伪造线索。

AdaCluster: Adaptive Query-Key Clustering for Sparse Attention in Video Generation

AdaCluster 是一个训练无关的稀疏注意力框架,针对视频 DiT 中 query 和 key 在注意力里扮演的不同角色,分别用「角度聚类」压缩 query、用「逐层自适应多阶段 K-means」聚类 key,再配合可跑在 Tensor Core 上的 TensorQuest 快速选关键簇,在 CogVideoX-2B / HunyuanVideo / Wan-2.1 上实现 1.67×–4.31× 端到端加速且画质几乎无损(PSNR 最高 30.99)。

AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space

AdapTok 把视频编码成一段时序因果的 1D 离散 token 序列,训练时按块随机丢弃尾部 token 学到"可变长度"表征,再用一个打分器预测"某块用 N 个 token 时的重建质量",推理时用整数线性规划在固定总预算下把 token 按内容复杂度动态分配给不同帧/不同样本,从而在 UCF-101 上用更少 token 拿到 rFVD=28 的重建并显著提升自回归视频生成质量。

AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation

AlcheMinT 给主体驱动的视频生成补上了「时间维度」的控制:用同一个 VAE 把参考图直接编码成 token 拼进视频 token 流(不加任何 cross-attention),再用一种加权混合 RoPE 频率的位置编码(WeRoPE)让每个参考主体只在用户指定的时间区间里被视频 token 强烈关注,从而精确控制多个主体在视频中何时出现、何时消失,且视频质量与现有 SOTA 个性化方法持平。

Anti-I2V: Safeguarding your photos from malicious image-to-video generation

Anti-I2V 提出了一种针对恶意图像到视频生成的防御方法,通过在 L*a*b* 和频域双空间优化扰动,并设计内部表示崩塌(IRC)和锚定(IRA)损失破坏去噪网络的语义特征传播,在 CogVideoX、DynamiCrafter 和 Open-Sora 三种不同架构上实现 SOTA 防护效果。

AnyID: Ultra-Fidelity Universal Identity-Preserving Video Generation from Any Visual References

AnyID 把"身份保持视频生成"从"只能用一张脸"扩展成"可以喂任意多张人脸/半身像/视频片段",用一个预训练 VAE 把这些异构参考统一编码进 DiT,再指定一张主参考当锚点、配上只描述"变化"的差分提示词来做精确属性控制,最后用人类偏好 DPO 微调,在身份保真和提示可控性两个维度大幅领先现有单参考方法。

查看全部182篇「视频生成」论文 →


🧩 多模态 VLM (418)

4DP-QA: Scalable QA for 4D Perception in Vision Language Models

本文设计了一条可扩展的时空 QA 自动生成 pipeline,从多种真实/合成 4D 数据源造出 40 万训练样本(4DP-QA)和 2.2K benchmark(4DP-QA-Bench),并提出"真运动点轨迹"(true-motion point tracking)这一新感知任务把物体运动从相机运动中解耦出来;用这套数据微调标准 VLM 后,4D 感知准确率从 ~42% 飙到 ~84%,并能泛化到外部 benchmark VLM4D。

4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models

4DWorldBench 提出一个统一、多模态、物理感知的 3D/4D 世界生成评测框架:把 text/image/video 三种条件全部映射到统一文本空间,沿"感知质量、条件-4D 对齐、物理真实性、4D 一致性"四个维度,用「LLM-as-judge + MLLM-as-judge + 传统度量」的自适应混合策略打分,并通过人类主观实验验证其打分比现有 benchmark 更贴近人的判断。

A3: Towards Advertising Aesthetic Assessment

提出A3框架,包含理论驱动的三阶段广告美学评估范式A3-Law(感知注意力→形式兴趣→欲望影响)、12万条标注数据集A3-Dataset、经SFT+GRPO对齐的模型A3-Align以及评测基准A3-Bench,在广告美学自动评估上超越现有MLLM。

A Closed-Form Solution for Debiasing Vision-Language Models with Utility Guarantees Across Modalities and Tasks

提出VLM去偏的闭式解方法,通过在跨模态嵌入空间中对属性子空间做正交分解并利用Chebyshev标量化求解,实现Pareto最优公平性与有界效用损失,免训练、免标注,统一覆盖零样本分类、文本-图像检索和文本-图像生成三大下游任务。

A More Word-like Image Tokenization for MLLMs

DiVT 用一个基于聚类的视觉投影器替换 LLaVA 里的 MLP projector,把 ViT 的 patch 特征按语义聚成"视觉词"、每个簇生成一个 token,token 数量随图像复杂度自适应,仅靠语言建模目标训练;在 8 个多模态 benchmark 上用 1/4 甚至 1/40 的视觉 token 就追平或超过满分辨率基线。

Abstract 3D Perception for Spatial Intelligence in Vision-Language Models

针对 VLM 在 3D 空间推理上的短板,本文提出训练免费的 SandboxVLM:把单张 2D 图通过视频扩散先验补出多视角,再把关键物体抬升成稀疏的「抽象 3D 包围盒」并渲染回喂给 VLM,让 VLM 在零样本下读懂 3D 结构,SAT-Real 上比基线高 17.4%。

Activation Matters: Test-time Activated Negative Labels for OOD Detection with Vision-Language Models

提出 TANL(Test-time Activated Negative Labels),通过在测试时动态评估负标签在OOD样本上的"激活程度"来挖掘最有效的负标签,配合激活感知评分函数,在 ImageNet 基准上将 FPR95 从 17.5% 大幅降至 9.8%,且完全免训练、测试高效。

Active Perceptual Inference: A Corticothalamic-Inspired Dynamic Nested Recurrent Network for Multimodal Sentiment Analysis with Incomplete Data

针对多模态情感分析中"随机帧级缺失"问题,本文把人脑"主动知觉推理"机制搬进网络,提出双层嵌套递归网络 DNRNet:局部回路模拟皮层内的模式补全做模态内自纠错,全局回路模拟皮层-丘脑回路按模态置信度做跨模态加权补全,两路修正信号迭代回灌输入,把"单次前馈被动补全"升级为"多轮主动推理补全",在 MOSI/MOSEI/SIMS 上各缺失率平均涨点 1.5%–2.0%。

Adapting In-context Generation for Enhanced Composed Image Retrieval

本文提出 DAIG:用 32 张目标域样本对预训练 T2I 模型(Flux)做 in-context 微调(CIR-LoRA),让它批量合成"无偏、贴合目标域"的组合图像检索(CIR)三元组,再用一个两阶段训练框架(特征扰动预训练 DRSP + 角度间隔微调 FRA)把这些合成数据喂给任意现成 CIR 模型,在 CIRR/FashionIQ 上以即插即用、零额外推理成本的方式显著涨点。

Addressing Exacerbated Attention Sink for Source-Free Cross-Domain Few-Shot Learning

作者发现:在 source-free 跨域小样本(CDFSL)场景下,标准的目标域少样本微调会显著加剧 CLIP 的 attention sink——模型把注意力都堆到那些天生就和所有类都"沾边"的 simple token 上,丧失类间区分度;为此提出 TIR(Token Importance Recalibration),在 CLIP 视觉编码器的深层之间按 token 与各类文本的"跨类激活程度"(Sum score)线性重加权,压制 sink token、放大判别 token,在四个 CDFSL 基准上刷到新 SOTA。

查看全部418篇「多模态 VLM」论文 →


🧠 VLM Reasoning (150)

A Causal Marriage between VLM and IRM from Understanding to Reasoning

本文从 token 级因果表示出发,证明"词表受限的 InfoNCE"与 IRM 的不变性准则在形式上等价,据此提出无需改架构的中训范式 CLIP-IRM 提升 OOD 理解,并把它的不变对齐分数当作过程级奖励喂给 GRPO,把 IRM 的 OOD 保证一路迁移到多模态推理。

A Multi-Agent Perception-Action Alliance for Efficient Long Video Reasoning

提出 A4VL,一个无训练的多智能体感知-行动联盟框架,通过事件驱动视频分块、线索引导的关键帧选择和多轮智能体协商剪枝机制,在五个视频问答基准上以显著更低的推理延迟全面超越 28 个基线方法。

Act2See: Emergent Active Visual Perception for Video Reasoning

Act2See 通过监督微调,让视频 VLM 在文本 CoT 推理过程中自己决定何时插入一帧画面——要么从原视频里检索一帧真实证据,要么条件式地"想象生成"一帧反事实画面——从而在 VideoEspresso、ViTIB 等 5 个视频推理基准上刷新或超越同尺寸乃至更大的闭源模型。

Adversarial Style Optimization: Enhancing VLM Jailbreaks by GRPO-based Stylistic Triggers Optimization

作者发现 VLM 存在「风格不一致」漏洞——它能看懂任何画风的内容,却会被特定视觉风格触发器轻易绕过安全对齐;据此提出 ASO,用 GRPO 微调一个图像编辑模型,把最优风格叠加到现有对抗图像上,在 4 个 SOTA VLM 上一致提升各类越狱攻击的成功率(ASR)。

Agentic Video Summarization via Self-Reflecting Multimodal Understanding

把视频摘要从"一次性回归每帧重要性分数"改写成一个由 Summarizer / Verifier / Reflector 三个 MLLM 智能体组成的"预测—验证—反思"闭环工作流,让模型像人一样自我修正、找回被漏掉的关键帧,在 SumMe / TVSum 上的 Kendall's τ、Spearman's ρ 全面超过此前 SOTA。

All Roads Lead to Rome: Incentivizing Divergent Thinking in Vision-Language Models

作者发现 GRPO 训练的 VLM 虽然单次推理更深,却会在训练早期发生"多样性坍缩"、退化成一条主导策略,于是提出 MUPO——把采样回答按推理模式聚类成多个组、组内局部估计优势、组间加多样性奖励,让模型在保持深度的同时维持多种解题策略,在九个推理基准上 acc@1/acc@4 平均提升 2~7%。

ANTS: Adaptive Negative Textual Space Shaping for OOD Detection via Test-Time MLLM Understanding and Reasoning

ANTS 在测试时让多模态大模型(MLLM)"看懂"被缓存下来的疑似 OOD 图像,一路生成「描述性负句」刻画 far-OOD、生成「视觉相似负标签」刻画 near-OOD,再用一个自适应权重把两套负文本空间动态融合,在 ImageNet benchmark 上零样本、免训练地把 FPR95 降了 3.1%,刷新 SOTA。

ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

ARM-Thinker 把多模态奖励模型从"一次性打分"改造成一个会主动调工具(裁剪放大、文档检索、指令校验)去找证据的 agent,用"先鼓励调工具、再精炼准确率"的两阶段 GRPO 训练,让 7B 模型在奖励建模、think-with-images、通用推理三类基准上分别平均涨 +16.2% / +9.6% / +4.2%,并在奖励/工具基准上追平甚至超过 GPT-4o。

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

针对多模态大模型"数不清楚"的老毛病,本文一手做了 CG-AV-Counting——首个面向长视频、跨音视频模态、带细粒度"计数线索"标注的可解释计数基准;一手提出 AV-Reasoner,用 GRPO + 课程学习从定位/问答等相关任务里迁移出计数能力,在多个音视频推理基准上刷到 SOTA,但也诚实地指出语言空间里的显式推理在域外几乎没帮助。

AXG-Reasoner: Error Detection and Explanation in Long Task Videos with Vision-Language Models

针对"长任务视频里检测并解释用户操作错误"这一问题,本文用冻结 VLM + 自动构建的「动作执行图(AXG)」+ 时序动作分割,把每个动作段拆成细粒度子动作、只在子动作关键帧上查询 VLM,从而让模型聚焦于稀疏的时空错误线索,在 EgoPER 和 CaptainCook4D 上的错误解释和错误检测均显著超过 VLM 基线并达到 SOTA。

查看全部150篇「VLM Reasoning」论文 →


⚡ VLM Efficiency (63)

Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

针对流式视频大模型(streaming VideoLLM)实时部署慢的问题,提出即插即用的两级 token 压缩框架 STC:STC-Cacher 在 ViT 编码阶段缓存并复用相邻帧的静态特征、只重算动态 token,STC-Pruner 在进 LLM 之前用「时空双锚点」剪掉冗余 token,在 ReKV 上保留约 99% 精度的同时把 ViT 编码延迟降 24.5%、LLM 预填充延迟降 45.3%。

Adapting Lightweight Image-based Counting Models for Video Crowd Counting

这篇论文不给视频人群计数(VCC)加任何时序模块,而是把"相邻帧的人数变化应当有界"这一时空先验,解析地写成一个基于特征函数(ChF)频域的统计正则器,只在训练时约束一个轻量图像计数(ICC)模型,推理仍是单帧——在六个数据集上做到 SOTA 精度的同时把推理帧率拉到 99.5 fps。

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

提出 AdaptVision,通过由粗到精的主动视觉机制和强化学习训练,让 VLM 自主决定每个样本所需的最少视觉 token 数量,配合解耦式多轮策略优化 (DTPO) 实现效率与精度的最优平衡。

ApET: Approximation-Error Guided Token Compression for Efficient VLMs

从信息论角度提出基于线性近似重建误差的视觉 token 重要性评估方法,不依赖 attention 权重,天然兼容 FlashAttention,在 LLaVA-1.5 上压缩 88.9% 视觉 token 仍保持 95.2% 性能。

Attention-aware Inference Optimizations for Large Vision-Language Models with Memory-efficient Decoding

AttentionPack 利用 LVLM 的 KV cache(尤其是视觉 token)天然低秩这一观察,先用 SVD 在「合并多头 + 区分视觉/文本」的方式下把 cache 沿隐藏维压缩,再用一套基于累积注意力分数的「注意力感知部分解压」按需选秩,在几乎不掉点的前提下把显存降到原来的 1/5~1/8,从而支持更大 batch / 更长上下文、解码吞吐提升最高 74%。

Better, Stronger, Faster: Tackling the Trilemma in MLLM-based Segmentation with Simultaneous Textual Mask Prediction

STAMP 把 MLLM 分割重述为对所有图像 patch 的并行"填空"分类任务,用一次非自回归前向同时预测整张掩码,从而在不损害对话能力的前提下同时拿到高分割精度和快推理速度,破解了 MLLM 分割长期存在的"对话/性能/速度"三难。

Blink: Dynamic Visual Token Resolution for Enhanced Multimodal Understanding

提出 Blink 框架,通过在 MLLM 不同 Transformer 层动态扩展和丢弃视觉 token(模拟人类"快速眨眼"式扫描),在单次前向传播中自适应增强视觉感知能力,在多个多模态基准上提升 LLaVA-1.5 性能。

Co-Me: Confidence Guided Token Merging for Visual Geometric Transformers

Co-Me 给 VGGT、π3 这类视觉几何 Transformer 装上一个轻量的"置信度预测器",把网络自己认为不重要(低置信度)的 patch token 合并成一个 token 再送进后半段网络,从而在不重训、不改主干结构的前提下,对 attention 和 MLP 同时提速,VGGT 上最高加速 21.5×、精度几乎不掉。

CoIn: Coverage and Informativeness-Guided Token Reduction for Efficient Large Multimodal Models

把多模态大模型的视觉 token 削减重新建模成"最优子集选择"问题,用信息量(视觉显著性 + 跨模态对齐)打每个 token 的分、用覆盖度(log-det 体积)保证选出的子集张满特征空间,再用一次贪心子模优化端到端选出紧凑子集——无需训练、不依赖注意力、兼容 FlashAttention/KV cache,在 LLaVA-NeXT-7B 上削掉 94.4% 视觉 token 仍保留 86.7% 性能,prefill 提速 6.5×。

CORE: Compact Object-centric REpresentations as a New Paradigm for Token Merging in LVLMs

CORE 把 LVLM 的视觉 token 压缩从"按特征相似度逐个合并"换成"按物体合并"——用一个内置分割头给每个物体生成掩码,再把同一物体内的 token 加权平均成一个紧凑 token,配合质心排序保留空间次序;在六个基准上拿到固定率压缩 SOTA,极端压缩下仅保留 2.2% token 仍能维持基线 97.4% 性能。

查看全部63篇「VLM Efficiency」论文 →


🎵 音频/语音 (22)

AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding

本文提出 AMUSE——一个面向「多说话人、对话密集」场景的音视频 Benchmark(6 个 agentic 任务 × 零样本/引导/agentic 三种评测模式),揭示了 GPT-4o、Qwen3-Omni 等主流 MLLM 在「谁在说、何时说、跨场景因果」上的系统性短板;并配套提出 RAFT 对齐框架(反思式奖励 + 选择性参数适配),用极少标注就把开源模型在该 Benchmark 上的准确率最高提升 39.52%(相对)。

AudioStory: Generating Long-Form Narrative Audio with Large Language Models

AudioStory 把 LLM 的叙事推理和 DiT 扩散音频生成器拼成一个端到端框架,先让 LLM 把复杂指令拆成带时间戳的子事件、再逐段生成短音频拼成长篇叙事音频,靠"语义 token + 残差 token"两路解耦桥接保证段内对齐与跨段连贯,能稳定生成最长 150 秒的多场景音频故事。

BabyVLM-V2: Toward Developmentally Grounded Pretraining and Benchmarking of Vision Foundation Models

提出BabyVLM-V2框架,从婴儿第一视角的SAYCam纵向语料构建三种格式预训练数据(768K图像对+181K视频对+63K交错序列),设计基于NIH Baby Toolbox®的DevCV Toolbox(10个发育认知任务),从零训练的紧凑模型在部分数学任务上超越GPT-4o,首次系统探索人工发育智能(ADI)。

Cleaning the Pool: Progressive Filtering of Unlabeled Pools in Deep Active Learning

提出 Refine 集成主动学习方法,通过两阶段策略——渐进过滤(多策略迭代精炼无标签池)+ 覆盖选择(从精炼池中选择多样性高价值样本)——在不预知最佳策略的情况下一致超越单一 AL 策略和现有集成方法。

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

提出 MMHNet,一种基于层级结构和非因果 Mamba-2 的多模态层级网络,实现了在短片段(8秒)上训练、在长视频(5分钟以上)上生成高质量对齐音频的长度泛化能力,在 UnAV100 和 LongVale 基准上大幅超越现有方法。

EchoFoley: Event-Centric Hierarchical Control for Video Grounded Creative Sound Generation

针对现有视频配音模型「视觉主导、听不懂文本指令、做不了细粒度编辑」的问题,本文提出 EchoFoley 任务(用符号化「发声事件」表示 + 三层控制粒度),配套 6k 规模密标注 benchmark,并设计了 training-free 的 agentic 框架 EchoVidia(slow-fast thinking + 动作池),在可控性上比最强 baseline 提升约 40.7%、感知质量提升 12.5%。

FoleyDirector: Fine-Grained Temporal Steering for Video-to-Audio Generation via Structured Scripts

FoleyDirector 在预训练 DiT 类 V2A 生成器(MMAudio)上挂一个可插拔适配器,用"导演脚本"式的逐秒文本(Structured Temporal Scripts)补足视觉线索、实现按时间段精确控制声音何时出现,并用双流并行渲染画内/画外声,在 DirectorBench 上把控制力 F1 从 0.2451 提到 0.4819,同时几乎不损伤原模型音质。

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization

提出 GEM-TFL,通过两阶段分类-回归框架弥合弱监督与全监督之间的差距,用 EM 分解二元标签为多维潜在属性、训练无关的时序一致性精化、图扩散提案精化三大模块,在弱监督时序伪造定位上平均 mAP 提升 4-8%。

Hear What You See: Video-to-Audio Generation with Diffusion Transformer and Semantic-Temporal Alignment-Ranked Direct Preference Optimization

VisioSonic 用「CLIP 低帧率语义 + Synchformer 高帧率时序」双路条件喂给一个 video-text-audio 共注意力扩散 Transformer 做整流流匹配生成无声视频的配音,再用全自动、无需人工标注的 STAR-DPO 偏好优化把语义和时序对齐进一步拉满——以 151M 可训练参数(同类最少)拿到 VGGSound 上最强的分布匹配与音视频同步。

Hierarchical Codec Diffusion for Video-to-Speech Generation

HiCoDiT 把"哑视频→语音"这件事重新拆成沿 RVQ 离散 token 层级逐层生成的掩码扩散任务——低层 token 负责内容与音色、由唇动和身份引导,高层 token 负责韵律、由表情通过双尺度 AdaLN 调制,从而在 LRS2/LRS3 上跨数据集零训练就拿下自然度、可懂度和唇同步的领先成绩。

查看全部22篇「音频/语音」论文 →


🔎 AIGC 检测 (10)

Common Inpainted Objects In-N-Out of Context

作者用扩散修复(Stable Diffusion inpainting)系统性地替换 COCO 图像里的物体,造出 9.7 万张「同一物体在情境内 / 情境外」的图,再用 72B 多模态大模型三模型共识标注「位置 / 尺寸 / 共现」三维上下文标签,构建出首个带上下文标注的修复假图数据集 COinCO,并演示了细粒度上下文分类、由情境反推物体、以及无需微调就能增强 SOTA 假图定位三个下游任务。

Enabling Supervised Learning of Generative Signatures for Generalized AI-Generated Images Detection

针对"AI生成图像里的生成痕迹没有干净配对、无法监督式提取"这个死结,本文用一个随机变结构的图像重建器在真实图上人工"造痕迹"、把重建残差当伪标签去训练一个生成签名(GenSign)提取器,再用 GenSign + RGB 双流分类器做检测,在四个 benchmark 上把跨模型泛化刷到 SOTA。

Fine-grained Image Aesthetic Assessment: Learning Discriminative Scores from Relative Ranks

定义"细粒度图像美学评估"新任务,构建含32,217张图像/10,028个系列的FGAesthetics基准,提出FGAesQ模型:通过差异保留Tokenization(DiffToken)+ 对比文本辅助对齐(CTAlign)+ 排序感知回归(RankReg)从相对排序中学习判别性审美评分,在细粒度场景准确率0.779的同时保持粗粒度SRCC 0.770。

Inconsistency-aware Multimodal Schrodinger Bridge for Deepfake Localization

IaMSB 把音视频深度伪造的「时间区间定位」重新表述成一个薛定谔桥(Schrödinger Bridge)生成问题——用桥的传输代价直接读出跨模态一致性分数,再据此把计算步数非对称地分配给更可疑的那个模态,从而在严格 IoU([email protected])上比现有方法高 3~10%。

Investigating Self-Supervised Representations for Audio-Visual Deepfake Detection

这是一篇系统性"调查"论文:作者把 12 个现成的自监督编码器(音频、视觉、音视频)冻结,只在上面训一层线性探针,从「检测有效性、可解释性、跨模态互补性」三个维度横向评测它们做音视频深度伪造检测的能力,发现"音频信息驱动"的表征泛化最好(BRAVEn 的视觉编码器拿到 SOTA),而真实世界数据的难点来自数据集本身的内在难度而非特征抓了浅层捷径。

Learning Forgery-Aware Lip Representations Without Forgery Priors

针对说话人认证系统被个性化"说话人脸生成"(TFG)伪造攻破的问题,本文提出一个只用真实视频训练、完全不依赖任何伪造样本的检测器:靠真帧混合伪造 + 非对称对比 + 高斯正则把真实唇动特征压成一个紧致球面,把球外一切(伪造和冒名者)当离群点,在 8 种现代伪造、10 个 SOTA 对比下把错误率压低 10% 以上。

Learning Where to Look and How to Judge: Resolution-agnostic Image Quality Assessment with Quality-aware Saliency

针对无参考图像质量评价(NR-IQA)"为迁就预训练分辨率而暴力 resize、跨分辨率不泛化、多数据集 MOS 尺度不一难联训、超高清算力爆炸"四大通病,本文提出 ReLIQS:在原分辨率及缩放变体上采样固定尺寸 patch 并用 CLIP 编码,用轻量"感知重要性估计器(PIE)"学出 IQA 专属显著性来挑出少量关键 patch,再用"潜在质量轴模块(LQAM)"把多尺度嵌入聚合成单一分数,在真实/合成/AIGC 多种失真与分辨率上以更低算力超过 CNN、CLIP、MLLM 系强基线。

Locate-Then-Examine: Grounded Region Reasoning Improves Detection of AI-Generated Images

LTE 让视觉语言模型先"全局扫描定位可疑区域"再"放大裁剪复核给出最终判定",把一次性分类升级为两阶段的区域接地(region-grounded)推理,并配套构建带框级标注与取证解释的 TRACE 数据集,在准确率、鲁棒性和可解释性上同时获得提升。

NOWA: Null-space Optical Watermark for Invisible Capture Fingerprinting and Tamper Localization

在相机光圈处插入一块可学习的相位掩膜,把认证信号编码进成像算子的零空间(拍摄时完全不可见),再用一个保证测量一致性的零空间网络(NSN)重建高质量图像并锚定该水印;篡改会破坏零空间投影里的统计结构,从而在像素级被检测器定位,在 AIGC 编辑下 F1 超过 EditGuard(0.993 vs 0.97)且对未知伪造者天然不可伪造。

PPM-CLIP: Probabilistic Prompt Modeling for Generalizable AI-Generated Image Detection

PPM-CLIP 把"判别一条静态决策边界"的 AIGC 检测范式换成"生成式概率推理"——用归一化流为每张图生成一族自适应 prompt(多个假设),再对全部假设的余弦相似度取平均消噪做判定,并配一个频域引导的 patch 对比学习让 CLIP 编码器盯住高频伪造痕迹,在 Ojha / GenImage / DRCT 上的跨生成器泛化显著超过 SOTA。


🧊 3D 视觉 (751)

240FPS Stereo Vision from Monocular Mixed Spikes

用一台单目脉冲相机把左右两路视图光学混合到同一传感器、并对其中一路做 60 Hz 周期调制,再通过"最小二乘基线解耦 + SMS-Net 深度精修"两阶段,从混合脉冲流里重建出 240FPS 的双目视频,在保持单目硬件紧凑、数据高效的同时把深度估计精度做到接近"理论上界"。

2D-LFM: Lifting Foundation Model without 3D Supervision

只用 2D 关键点(不碰任何 3D 真值),通过在 Transformer 每一层都注入「对应关系位置编码」,训出第一个跨类别的 2D→3D 提升基础模型,在物体级几何上反而超过 VGGT 等依赖 RGB 深度的大模型(Pascal3D+ 8.1mm vs VGGT 89.4mm)。

3D-Aware Multi-Task Learning with Cross-View Correlations for Dense Scene Understanding

给标准多任务学习(MTL)网络挂一条轻量、与任务无关的"几何旁路"——跨视角模块 CvM(空间感知编码器 + 多视角 Transformer + 代价体),把相邻视角之间的几何对应作为几何一致性注入共享特征,让单网络同时预测深度/分割/法向/边界时更"懂 3D",在 NYUv2、PASCAL-Context 上即插即用地涨点(∆MTL 最高 +3.09)。

3D-Fixer: Coarse-to-Fine In-place Completion for 3D Scenes from a Single Image

提出"就地补全"(in-place completion)新范式,将预训练物体级生成先验扩展到场景级,直接在原始位置对碎片化几何进行补全,无需显式位姿对齐,同时构建110K规模场景级数据集 ARSG-110K,大幅超越 MIDI 和 Gen3DSR 等基线。

3D-IDE: 3D Implicit Depth Emergent

提出"隐式几何涌现原则"(IGEP),通过训练时的轻量级几何验证器和全局3D教师进行特权监督,使视觉编码器在仅输入RGB视频时即具备3D感知能力,推理时零延迟开销,在多个3D场景理解基准上超越同类方法。

3D-LATTE: Latent Space 3D Editing from Textual Instructions

3D-LATTE 把指令式 3D 编辑直接搬进一个原生 3D 扩散模型(DiffSplat)的潜空间里做:通过反演源物体得到噪声、再用编辑提示去噪,过程中注入源物体的 3D 自/交叉注意力图来锁住几何与结构,配合几何正则、频率退火和迭代细化,在保持多视角一致的前提下实现了大幅度且精准的几何+外观编辑,定量、GPTEval3D 和用户研究全面超过此前 SOTA。

3D-Object Perception Transformer (3PT)

3PT 用一个端到端训练、直接以 CAD 模型为条件的统一 Transformer 框架(检测 + 物体分组 + 迭代精化)替代了现有"冻结基础模型拼装 + 依赖深度"的零样本 3D 物体感知流水线,仅靠多视角 RGB 就在 BOP 系列基准的检测和 6DoF 位姿上大幅超过 SOTA(工业数据集位姿 AP-mm 相对提升 56.5%),并在 BOP Challenge 2025 的 11 个赛道中拿下 7 个第一。

3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding

3D-VCD 是首个面向 3D 具身智能体的推理时幻觉抑制框架:对物体中心的 3D 场景图施加语义/几何扰动得到一个"被破坏"的负样本上下文,让 MLLM 在原始图和扰动图上各跑一遍,再用对比解码公式把"换了场景也照样高概率"的 token 压下去——无需重训,几乎零额外开销,就在 3D-POPE / HEAL 上显著降低过度肯定与物体幻觉。

3D Gaussian Splatting at Arbitrary Resolutions with Compact Proxy Anchors

本文在 Scaffold-GS 的 anchor 框架上,用 FiLM 把"目标分辨率"注入 anchor 特征、再加一个"像素覆盖门"按采样率动态激活高斯,实现连续任意分辨率下的无锯齿渲染;同时只存约 30% 的 proxy anchor、用残差预测器在线重建其余 leaf anchor,把存储压到 Scaffold-GS 的一半左右而质量不降。

Nope-SGS:从无位姿脉冲流重建 3D 高斯

本文提出 Nope-SGS,第一个无需相机位姿先验、直接从脉冲相机(spike camera)原始脉冲流重建高速 3D 场景的框架:通过把脉冲成像重新建模成二项分布、从单帧不稳定脉冲里恢复出稳定的归一化监督信号(NBDS),再配合关键帧筛选与渐进式优化,同步求解相机轨迹与 3D 高斯,PSNR 最高比 SOTA 高 7.4dB、ATE 低 40%,且是脉冲方法里最快的。

查看全部751篇「3D 视觉」论文 →


🎯 目标检测 (99)

A Closer Look at Cross-Domain Few-Shot Object Detection: Fine-Tuning Matters and Parallel Decoder Helps

提出混合集成解码器(HED)和渐进微调策略用于跨域少样本目标检测,通过并行化部分解码层并随机初始化去噪查询引入预测多样性,在CD-FSOD/ODinW-13/RF100-VL三个基准上达到SOTA,不引入额外参数。

A Semantically Disentangled Unified Model for Multi-category 3D Anomaly Detection

提出 SeDiR 框架,通过粗到细全局标记化(CFGT)、类别条件对比学习(C3L)和几何引导解码器(GGD)三个模块实现语义解纠缠的统一3D异常检测,解决跨类别特征纠缠(ICE)问题,在 Real3D-AD 和 Anomaly-ShapeNet 上分别超出SOTA 2.8% 和 9.1% AUROC。

AKCMamba-YOLO: Selective State Space Models For Real-Time Object Detection

本文把选择性状态空间模型(Mamba/SSM)和自适应核卷积塞进 YOLOv8,用 3CAKCMamba / 4CAKCMamba 两个模块替换主干和颈部的 C2f 块,在保持 YOLO 线性复杂度、实时速度的同时补上卷积"看不远"的短板,COCO2017 上以 14.9G FLOPs 拿到 46.3% mAP(比 YOLOv8-S 高 1.4%、FLOPs 省 47.9%)。

Anomaly as Non-Conformity via Training-Free Graph Laplacian Energy Minimization

ANoCo 把异常检测从"这个 patch 像不像正常的"重新定义成"把这个 patch 拉回正常流形要花多大代价",用一个锚定的二部图 Laplacian 能量最小化把每个查询 patch 往正常流形上拉,拉动的位移幅度本身就是异常分——无需训练、无消息传递、闭式解,在 MVTec-AD / VisA 的 1/2/4-shot 上全面刷新 SOTA。

AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

AnomalyVFM 提出了一个通用框架,通过三阶段合成数据生成方案和参数高效的 LoRA 适配机制,将任意视觉基础模型(VFM)转化为强零样本异常检测器,以 RADIO 为骨干在 9 个工业数据集上达到 94.1% 图像级 AUROC,超越 SOTA 3.3 个百分点。

AR²-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

利用固定视角视频中背景结构的时不变性,构建离线 Anchor Bank + 在线 Anchor Map 作为语言-场景持久记忆,配合锚点引导的重入先验和 ReID-Gating 身份验证机制,实现目标遮挡/离场后的鲁棒重捕获,RCR 提升 10.3%、RCL 降低 24.2%。

Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

AVI-Edit 在预训练视频扩散 backbone 上做"音视频同步的实例级编辑"——用一个粒度感知掩码细化器把用户给的粗糙掩码(甚至是 bounding box)逐步细化成精确实例轮廓,再用一个自反馈音频 Agent(分离-生成-混音-返工流水线)调出与编辑后画面在时序上对齐的伴随音频,在视觉质量、条件遵循和音视频同步上全面超过现有方法。

Back to Point: Exploring Point-Language Models for Zero-Shot 3D Anomaly Detection

BTP 首次将预训练的点-语言模型(PLM,如 ULIP)应用于零样本 3D 异常检测,提出多粒度特征嵌入模块(MGFEM)融合 patch 级语义、几何描述子和全局 CLS token,配合联合表示学习策略,在 Real3D-AD 点级 AUROC 达到 84.5%,大幅超越观 VLM 渲染方案的 PointAD(73.5%)。

Balanced Hierarchical Contrastive Learning with Decoupled Queries for Fine-grained Object Detection in Remote Sensing Images

本文把遥感细粒度检测中的层级标签树嵌入 DETR 的表征空间,提出一个用可学习类原型做梯度均衡的「平衡层级对比损失」(BHCL),再配一个把分类/定位 query 解耦的策略,让对比学习只作用于分类分支而不干扰定位,在三个层级标注的遥感数据集上刷到新 SOTA。

BDNet: Bio-Inspired Dual-Backbone Small Object Detection Network

BDNet 模仿人类视觉系统的 LGN/V1–V2–V4 颜色通路和 V1–V4 边缘通路,搭了一个「颜色增强 + 边缘强化 + 分层融合」的双骨干检测网络,专门补救遥感小目标"颜色对比度低、边缘模糊"导致的特征提取不足,在 VisDrone2019、NWPU VHR-10、AI-TODv2 三个数据集上用仅 2.59M 参数刷到了 SOTA。

查看全部99篇「目标检测」论文 →


✂️ 语义分割 (122)

3M-TI: High-Quality Mobile Thermal Imaging via Calibration-free Multi-Camera Cross-Modal Diffusion

提出 3M-TI,一个无需标定的多相机跨模态扩散框架,通过在 VAE 潜空间中用跨模态自注意力(CSM)自动对齐并融合未标定的 RGB-热红外图像对,结合错位增强策略,在移动端热成像超分辨率任务上达到 SOTA,并显著提升下游目标检测与语义分割性能。

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

提出 Omnivorous Vision Encoder,通过轻量级 adapter 在冻结的 DINOv2 之上进行跨模态对齐蒸馏训练(RGB/Depth/Segmentation),使单一编码器对不同视觉模态产生一致嵌入,同时保留原始判别语义。

Annotation-Efficient Coreset Selection for Context-dependent Segmentation

针对伪装目标、医学病灶等"上下文相关"分割任务标注极贵的问题,本文用基于点标注的最优传输给每张图打"重要性分",再用最大距离熵策略挑出兼顾覆盖与多样的核心集(CostSet),在 40% 剪枝率下相对全量训练仅掉约 1% IoU。

Attack for Defense: Adversarial Agents for Point Prompt Optimization Empowering Segment Anything Model

PPD(Point Prompt Defender)把 SAM 的点提示优化建模成一个"攻—防"对抗强化学习游戏:一个攻击智能体专门激活会拖垮分割质量的提示点、一个防御智能体学着把这些坏点关掉以恢复精度,训练完后只部署防御智能体,就能在不重训的情况下即插即用地净化任意粗糙提示集,让 SAM 在自然图像和医学图像上的分割都更准、更鲁棒。

Bayesian Decomposition and Semantic Completion for Few-shot Semantic Segmentation

把小样本语义分割(FSS)按贝叶斯公式拆成「先验 + 似然 + 类一致性」三个轻量概率项,用 SAM 出结构化候选区、用一个二分类小网络(CALM)同时估似然与一致性、再用注意力补全模块(SCM)把碎片候选拼成完整 mask,在 PASCAL-5\(^i\) / COCO-20\(^i\) 上做到 SOTA 且高效。

Beyond Appearance: Camouflaged Object Detection via Geometric Structure

DepthSAM 把单目深度估计基础模型 Depth Anything v2 适配到伪装目标检测:冻结主干,用稀疏 MoE 适配器(SMEA)把"重建整个场景的几何"扭转成"只突出伪装目标的几何",再用空间-频域双流融合模块(GSFM)把几何线索和语义对齐,在 COD10K/CAMO/NC4K 三个基准上刷新 SOTA(COD10K 的 \(S_\alpha\)\(F^\omega_\beta\) 比次优分别高 3.0%、4.3%)。

Beyond Text: Visual Description Assembly by Probabilistic Model for CLIP-based Weakly Supervised Semantic Segmentation

针对 CLIP-based 弱监督分割中"文本原型与视觉特征存在模态鸿沟、且静态文本无法适配多样实例"的问题,本文用可逆神经网络把 CLIP 视觉特征建模成层级高斯混合模型,从视觉空间里显式解耦出类内属性、按实例响应动态组装成视觉描述原型替代文本查询,并用密度权重自适应回退到文本锚点,在 VOC/COCO 上把单阶段 WSSS 刷到 79.9%/51.4% mIoU 的新 SOTA。

BiPA: Bilevel Prompt Adaptation for Underwater Instance Segmentation

BiPA 把 SAM 的 dense prompt 学习重新表述为一个「prompt 在上层、模型参数在下层」的双层优化问题,再用贝叶斯优化 + 两阶段训练策略把它做成可解,配上一个前景注意力注入模块补局部细节,从而把通用 SAM 高效迁移到严重退化的水下场景,在 UIIS / USIS10K 上 mAP 全面超过此前 SOTA。

AFRO: Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

提出AFRO自监督3D视觉预训练框架,通过逆动力学模型(IDM)推断潜在动作、扩散Transformer前向动力学模型(FDM)预测未来特征、逆一致性约束保证时序对称性,在RH20T大规模数据上预训练后,MetaWorld 14任务平均成功率76.0%(vs DynaMo-3D 64.9%、PointMAE 63.9%),4个real-world任务也取得最优。

Bootstrap Your Own AV-Proxies: Adaptive Contrastive and Prototype Learning for Audio-Visual Segmentation

针对音视分割(AVS)里"单模态内部噪声 + 音视语义鸿沟"两大顽疾,本文提出 BYOAVP:用 BYOL 式无负样本对比学习(SSAE)让视觉语义去监督音频、抑制画外音/背景音,再用动量更新的动态原型(DPC)做像素级分类并跨模态强化发声区域;无需 SAM/离线原型等任何先验,在 AVSBench + VPO 两个数据集六个子任务上全面刷到 SOTA。

查看全部122篇「语义分割」论文 →


🖼️ 图像恢复 (135)

2-Shots in the Dark: Low-Light Denoising with Minimal Data Acquisition

这篇论文提出一种"两张图就够"的传感器噪声合成方法——每个 ISO 只需一张噪声图 + 一张暗帧,用傅里叶域随机相位采样把信号无关噪声当作纹理来合成,配合迭代直方图匹配修正边缘分布,从而无需大规模配对数据就能生成无限多样的训练对,让去噪网络在多个低光基准上达到物理类方法的 SOTA。

A Bit is All You Need! Efficient Video Capture via Single Bit Imaging

传感器端每个像素只采 1 比特、靠逐帧变化的阈值把强度信息"编码"进二值流,再用不含光流的视频重建网络把全比特深度视频恢复回来——既砍掉了功耗最大的高精度 ADC,又在 GoPro 上拿到 32.77 dB PSNR 的高保真重建。

AceTone: Bridging Words and Colors for Conditional Image Grading

提出AceTone,首个支持文本和参考图像多模态条件色彩调色的统一框架,通过VQ-VAE将3D-LUT压缩为64个离散token,训练VLM预测LUT token序列,再用GRPO强化学习对齐色彩相似度和美学偏好,在风格迁移和指令调色上LPIPS改善50%。

Beyond Ground-Truth: Leveraging Image Quality Priors for Real-World Image Restoration

提出IQPIR框架,引入预训练NR-IQA模型的图像质量先验(IQP)作为条件信号,通过质量条件化Transformer、双Codebook结构和离散表示空间质量优化三个机制,引导图像修复过程趋向最高感知质量,在盲人脸修复等任务上全面超越SOTA。

Beyond Strict Pairing: Arbitrarily Paired Training for High-Performance Infrared and Visible Image Fusion

本文挑战红外可见光图像融合(IVIF)必须用"严格对齐配对数据"训练的惯例,提出任意配对训练范式(APTP)——把 \(N\) 对基础数据自由重组成 \(N^2\) 个跨模态对,配上一套自适应加权的像素级自监督损失,在仅 150 对、内容不一致的数据上训练,就能逼近用 100 倍数据严格配对训练的融合性能。

Beyond the Ground Truth: Enhanced Supervision for Image Restoration

提出通过超分辨率+频域自适应混合来增强现有数据集中次优GT图像的感知质量,并训练轻量级ORNet精修模块,无需修改预训练修复模型即可提升输出的感知质量。

BHCast: Unlocking Black Hole Plasma Dynamics from a Single Blurry Image with Long-Term Forecasting

BHCast从单张模糊的EHT黑洞图像出发,通过U-Net动力学代理模型进行超分辨率+长期自回归预测(100步稳定),从预测的等离子体动力学中提取物理特征(旋转速度、螺旋角等),再通过XGBoost推断黑洞自旋和倾角,在真实M87*观测图像上也展示了有效性。

Bi-Bridge: Bidirectional Diffusion Bridges for Low-Light Image Enhancement

把"低光→正常光"的增强和"正常光→低光"的退化塞进同一个对称扩散桥里、用一张共享 U-Net 同时学,靠这个双向一致性约束当隐式正则,让低光增强在保真度(PSNR/LPIPS)上显著超过现有 SOTA。

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

针对事件相机辅助低光增强中"事件流被 BA 噪声污染、去噪与增强割裂"的痛点,BiEvLight 把事件去噪从静态预处理改写成受增强任务约束的双层优化问题,让下层增强的增益反馈去校准上层去噪,再配一个用图像梯度引导的空间自适应去噪先验,在真实噪声数据集 SDE 上平均涨 1.30dB PSNR / 0.047 SSIM。

BiProLoRA: Bilevel Prompt LoRA for Real Scene Recovery

针对扩散大模型"训练于合成、泛化到真实"时退化严重的问题,BiProLoRA 先用自监督的分布保真学习把 VAE 自编码通路校准到真实退化分布,再把"LoRA 负责结构恢复、Prompt 负责退化感知调制"写成一个双层(超参数优化)问题联合训练,只用合成数据 10% 量级的真实数据就在低光/去雾/水下五个无参考指标上全面超过 SOTA。

查看全部135篇「图像恢复」论文 →


🛰️ 遥感 (63)

ACPV-Net: All-Class Polygonal Vectorization for Seamless Vector Map Generation from Aerial Imagery

提出 ACPV-Net,首个从航空影像一次性生成拓扑一致的全类别多边形矢量地图的框架,通过语义监督条件化扩散模型生成顶点热图,并借助命题驱动的 PSLG 重建确保零间隙/零重叠。

APEX: A Decoupled Memory-based Explorer for Asynchronous Aerial Object Goal Navigation

APEX 把"无人机找目标物"这个空中目标导航任务拆成三个解耦模块——用 MLLM 动态构建 3D 时空语义地图当记忆、用 PPO 强化学习把地图翻译成动作、用开放词表检测器做最后的目标确认——再用异步并行框架让三者以不同频率同时跑,从而绕开大模型推理延迟,在 UAV-ON benchmark 上比之前 SOTA 提升 +4.2% SR 和 +2.8% SPL。

Asking like Socrates: Socrates helps VLMs understand remote sensing images

揭示遥感VLM中的"伪推理"现象(显式推理链反而导致性能下降),归因于"一瞥效应"(单次粗浅感知不足),提出RS-EoT(Evidence-of-Thought)迭代证据搜索范式,通过SocraticAgent自博弈合成推理轨迹做SFT冷启动,再用两阶段渐进RL(grounding→VQA)增强和泛化,RS-EoT-7B在多个遥感VQA和grounding基准上达SOTA。

AVION: Aerial Vision-Language Instruction from Offline Teacher to Prompt-Tuned Network

AVION 提出一种知识蒸馏框架,通过 LLM 生成语义丰富的遥感文本原型作为 Teacher 监督、同时在 Student 的视觉和文本编码器中注入可学习 prompt,实现三维度对齐蒸馏,在少样本分类和跨模态检索上显著优于现有 PEFT 方法。

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

针对城市道路模型在荒野/越野场景里频繁断裂、连错的问题,本文提出"路径中心"(path-centric)的连通性推理:不再只看两个端点的局部特征,而是沿候选边的整条测地线采样多尺度道路证据来判断该不该连边,并配套发布了首个跨洲际的矢量越野道路数据集 WildRoad,在越野基准上达到 SOTA,同时泛化到城市数据集。

Beyond Matching to Tiles: Bridging Unaligned Aerial and Satellite Views for Vision-Only UAV Navigation

Bearing-UAV 抛弃"把无人机视图匹配到某个卫星瓦片"的范式,改用相邻 4 个卫星瓦片 + 1 个无人机视图直接回归无人机的绝对坐标与航向角,在 misalignment、特征稀疏、跨视角差异下都比检索/匹配类方法误差小一个量级(UAV 视角 MLE 从 ~30 m 降到 8.6 m),并把航向预测接进端到端导航。

Beyond Tie Points: Satellite Image Block Adjustment based on Dense Feature Consistency

针对卫星影像区域网平差(PBA)长期依赖稀疏连接点、在高楼等高视差区域误差累积的痛点,本文提出"Beyond Tie Points"范式:用预训练特征提取器抽取密集特征与置信度图,把平差直接重构成"最小化同名物方点的密集特征距离"的自监督优化问题,再配合网格化由粗到精求解,在北京/广州/圣何塞三地数据上把平均误差最多降低 75.43%。

ChangeBridge: Spatiotemporal Image Generation with Multimodal Controls for Remote Sensing

提出ChangeBridge,首个遥感条件时空图像生成模型,基于漂移异步扩散桥实现从前事态图像+多模态条件(坐标文本/语义掩码/实例布局)生成后事态图像,同时建模前景事件驱动变化和背景时间演化,并可作为下游变化检测任务的数据引擎。

Cross-modal Fuzzy Alignment Network for Text-Aerial Person Retrieval and A Large-scale Benchmark

提出跨模态模糊对齐网络 CFAN,利用模糊逻辑量化 token 级可靠性实现精细对齐,并引入地面视图作为桥接代理缓解航拍图像与文本的语义鸿沟,同时构建了大规模文本-航拍行人检索基准 AERI-PEDES。

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

提出首个跨尺度全色锐化数据集PanScale和评测基准PanScale-Bench,以及ScaleFormer框架——将分辨率变化重新解释为序列长度变化,通过Scale-Aware Patchify分桶采样+解耦空间-序列建模+RoPE实现跨尺度泛化。

查看全部63篇「遥感」论文 →


🔍 异常检测 (7)

Anomaly-Related Residual Fields for Cross-domain Anomaly Detection

针对扩散模型残差里"噪声大、单看幅值无法区分异常"的难题,本文提出残差演化场(REF):从扩散反向过程的残差时空轨迹中分离出"持续不被吸收的非平稳异常信号",再用跨域场对齐(CFA)把有标签源域学到的检测器迁移到无标签目标域,在 9 个跨域迁移任务上平均 AUROC 95.22%,比最强基线高 13 个百分点。

Defect Cue-Preserved Structural Feature Refinement for Few-Shot Anomaly Detection

本文指出少样本异常检测(FSAD)的核心难点在于细微缺陷线索在深层特征提取流水线里被逐层"稀释"掉,提出 DCP-SFR:先用可学习提示词把早期弱信号"放大"成高对比异常线索图,再用这张图引导重建式定位,最后做结构感知的边界精修,在 MVTec AD / VisA 上拿到图像级 97.3%、像素级 98.2% 的 AUROC。

Dual-Prototype-Guided Multi-task Learning for Unsupervised Anomaly Detection and Classification

PG-SFD 把"无监督异常检测(像素级定位)+ 弱监督异常分类(区域级分类)"建模成一个双原型协同优化问题,用正常原型与类别原型显式解耦正常/异常语义、用差分门控把正常先验注入分类分支、用几何正则缓解多任务梯度冲突,在 MVTec-AD 上拿到 I-AUROC 99.4% 且同时支持细粒度缺陷分类。

Hunting Normality from Query Sample via Residual Learning for Generalist Anomaly Detection

针对通用异常检测(GAD)中「直接建模残差分布」会因残差与实例特征不一致而误判的问题,本文不再直接对残差分类,而是把残差当成向导:用可学习代理从残差里抽取模式(RFL),再借这些残差代理从支持集聚合查询相关的「正常性代理」(NLS),最后用正常性代理去查询特征里搜寻正常区域(HNQ)来定位异常,在工业→工业、工业→医学的跨域基准上取得有竞争力的少样本性能。

LayoutAD: Exploring Semantic-Geometric Misalignment Reasoning for Scene Layout Anomaly Detection

LayoutAD 提出"场景布局异常检测"这一新任务,用无监督方式给图像里每个物体打出对象级异常分——它把场景拆成语义图与几何图,通过跨图注意力推理两者之间的"错配",从而发现诸如"五条腿的狗""停在湖面上的车"这类像素级检测器看不见的布局级幻觉。

Multi-Prototype Compactness and Boundary-Aware Synthesis for Unsupervised Anomaly Detection

针对单原型假设在类内方差大时决策边界过松的问题,本文提出 PGBL 框架:用多原型紧凑约束(MPCC)把正常特征结构化为多个紧凑子簇,再在子簇拓扑边界处合成伪异常(BAAS),最后用判别器(DBR)精修决策面,在 MVTec-AD / VisA / Real-IAD 上的检测与定位均超越此前方法。

RAID: Retrieval-Augmented Anomaly Detection

RAID 把无监督异常检测(UAD)重新解读为检索增强生成(RAG)流程:先用一个三层向量库(类原型→语义原型→实例 token)做由粗到细的检索,再用一个"引导式 MoE 滤波器"对检索得到的匹配代价体去噪,从而抑制匹配噪声、画出边界清晰的异常图,在 MVTec/VisA/MPDD/BTAD 的全样本、少样本、多数据集设定下都拿到 SOTA。


🧑 人体理解 (151)

ActAvatar: Temporally-Aware Precise Action Control for Talking Avatars

ActAvatar 用「结构化文本提示 + 相位感知跨注意力」让说话人视频在指定时间窗口精确做出指定动作,再配合「按层深递增的音频影响」和「两阶段训练」,在不依赖姿态骨架的前提下同时保住唇音同步、动作准确度和画质,5B 模型达到 14B 级效果。

Action Motifs: Self-Supervised Hierarchical Representation of Human Body Movements

本文提出 A4Mer,一个嵌套的隐空间 Transformer,从 3D 姿态序列中完全自监督地学出「Action Atoms(原子动作)→ Action Motifs(动作母题)」两级层级表示——让语义有意义、可复用的变长动作片段自下而上"涌现"出来,并用它在动作识别、长时运动预测、运动插值三项任务上显著超越现有定长表示。

All in One: Unifying Deepfake Detection, Tampering Localization, and Source Tracing with a Robust Landmark-Identity Watermark

提出 LIDMark,首个将 deepfake 检测、篡改区域定位和源追踪统一到单一主动取证框架中的方法——通过嵌入 152 维 Landmark-Identity 水印(136D 面部关键点 + 16D 源 ID),利用内在/外在一致性实现三合一取证,PSNR/SSIM 和检测精度均超越现有方法。

AudioAvatar: Personalized Audio-driven Whole-body Talking Avatars

AudioAvatar 用一张人像照片重建一个 canonical 的 3D 高斯全身数字人,并让音频直接调制每个高斯粒子的运动轨迹(跳过"音频→参数化姿态→渲染"这条有损中间链),再借大型音频驱动视频扩散模型做特征蒸馏,从而在嘴形同步、面部微表情和手势自然度上全面超过姿态驱动的基线。

Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation

把"说话人头像生成"从单向播报升级成真正的双向对话:用因果 diffusion forcing 在运动隐空间里边收用户音频/动作、边自回归生成 avatar 头部运动,配合 KV cache 把延迟压到约 500ms(比基线快 6.8×),再用"丢掉用户条件造负样本"的免标注 DPO 让 avatar 学会点头、跟笑等富有表现力的反应,人类评测中超 80% 偏好率胜过最强基线。

AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video

提出AVATAR框架,通过离策略训练架构(分层重放缓冲区)和时间优势塑形(TAS,U形加权强调推理链首尾)两个核心组件改进GRPO,解决其数据低效、优势消失和均匀信用分配三大问题,在音视频推理基准上显著超越GRPO基线。

BarbieGait: An Identity-Consistent Synthetic Human Dataset with Versatile Cloth-Changing for Gait Recognition

针对真实世界几乎不可能采集"同一人穿上百种衣服"的步态数据这一痛点,本文把 521 个真实受试者一一映射进虚拟引擎、为每人随机生成 100 套换装,构建出身份一致的合成步态数据集 BarbieGait,并配套提出衣物不变特征基线 GaitCLIF,在 BarbieGait 及 CCPG / SUSTech1K / Gait3D / GREW 上均拿到 SOTA。

Beyond Scanpaths: Graph-Based Gaze Simulation in Dynamic Scenes

把驾驶员注视建模成一个自回归动力系统:将每一帧交通场景编码成「以注视为中心」的异构时空图,用关系亲和力 Transformer(ART)建模注视与交通物体的交互,再用对象级混合密度网络(ODN)预测下一步注视分布并自回归地展开成连续注视轨迹,从而用同一个模型同时生成 SOTA 级别的注视时间序列、扫视路径与显著图。

Beyond Single-View Sufficiency: CVBench for Cross-View Human Understanding

针对现有 MLLM 基准默认"单视角足够"、只奖励单图识别的漏洞,本文构造 CVBench——3000 道每题都被强制验证"单视角不可解、跨视角才可解"的人体理解题(12 个时空任务、4 路同步相机),评测发现最强模型也落后人类近 50 分,并诊断出贯穿所有模型的系统性失败机制"单视角偏置"。

BIT: Matching-based Bi-directional Interaction Transformation Network for Visible-Infrared Person Re-Identification

针对可见光-红外行人重识别(VI-ReID)中模态鸿沟大、红外样本稀少的问题,BIT 抛弃"把两模态特征对齐到共享空间"的老套路,改用成对匹配(matching-based)范式:先用双向交叉交互模块让一对可见-红外图像互相吸收互补信息,再用查询感知打分模块在 patch 级别挖掘可靠的互惠对应关系算出最终相似度,在 SYSU-MM01 / LLCM / RegDB 三个基准上刷到 SOTA。

查看全部151篇「人体理解」论文 →


📹 视频理解 (187)

A Stitch in Time: Learning Procedural Workflow via Self-Supervised Plackett-Luce Ranking

提出 PL-Stitch 自监督框架,利用 Plackett-Luce 概率排序模型将视频帧的时序排序作为预训练信号,学习具有"程序感知"能力的视频表示,在手术阶段识别和烹饪动作分割上全面超越现有自监督方法。

Active Intelligence in Video Avatars via Closed-loop World Modeling

针对当前视频数字人"只会被动跟随语音/姿态、缺乏自主目标驱动"的问题,本文提出 L-IVA 任务(把数字人控制建模成以 I2V 生成模型为环境模拟器的 POMDP)和 ORCA 框架——用「观察-思考-行动-反思」(OTAR) 闭环对抗生成随机性、用 System 2/System 1 双系统分层完成开放域规划与精确落地,在 100 个任务的基准上把平均任务成功率做到 71.0%,显著超过开环、反应式与无反思基线。

Adaptive Capacity Autoregressive Visual Tracking

ARTrack-AC 把自回归跟踪从"固定算力逐帧预测"扩展成"系统级自回归"——用一个轻量扩散轨迹估计器预判未来一小段视频的稳定性,再让控制器在简单段切到低算力并行模式、在困难帧切到高算力顺序模式,从而在 LaSOT 上达到 66.7% AUC 的同时比前作快 2.9 倍。

AdaSpark: Adaptive Sparsity for Efficient Long-Video Understanding

提出 AdaSpark,通过 3D 时空 cube 分区和两个协同的自适应稀疏机制(cube 级注意力选择 + token 级 FFN 选择),将长视频处理 FLOPs 降低最多 57% 同时保持性能。

AdaSpot: Spend Resolution Where It Matters for Precise Event Spotting

AdaSpot 用低分辨率整帧抓全局语义、再借显著图无训练地圈出每帧最关键的一小块区域送进高分辨率分支补细节,从而在精确事件检测(PES)中只把算力花在"刀刃"上,在 Tennis、FineDiving 等最严格的 mAP@0 帧指标上拿到 SOTA(+3.98 / +2.26 mAP),而几乎不增加计算量。

Affordance-First Decomposition for Continual Learning in Video–Language Understanding

针对视频-语言持续学习中"什么该稳定、什么该可塑"边界模糊的问题,本文提出 Affordance-First Decomposition(AFD):把视频映射成缓变的 affordance token 作为跨任务共享、稳定的"证据底座",把可塑性集中到一个按 query 路由、按冲突长秩的 LoRA 调度器里,并用仅存储问题(不存视频)的回放蒸馏来防遗忘,在 ViLCo-Bench、domain/time-incremental VideoQA 上同时拿到更高准确率与更低遗忘。

Alert-CLIP: Abnormality-aware Latent-Enhanced Representation Tuning of CLIP for Video Anomaly Detection

针对 CLIP 在文本空间里把"正常"和"异常"描述高度纠缠、导致视频对两类 prompt 给出几乎一样相似度的问题,本文用全局/区域/难负样本三级跨模态对比训练(配套自建的带框标注数据集 VAGTA)重塑 CLIP 的嵌入几何,让它成为异常感知更强的 backbone,在弱监督、零样本、开放词表三种 VAD 设定下都稳定超过原始 CLIP。

\(\alpha\)Matte4K & \(\mu\)Matting: Dataset and Model for Ultra-Micro Precision Alpha Video Matting

针对 4K 人像视频抠图,本文一边用物理渲染(PBR)造了一个像素级精确、前景背景物理自洽的大规模数据集 \(\alpha\)Matte4K,一边提出 \(\mu\)Matting——先用人像先验 MAE 出一张粗 alpha 并圈出"难点区域",再只对这些稀疏区域做 3D 卷积细化,从而首次实现不降采样的全分辨率 4K 视频抠图,精度和时序一致性都超过现有 SOTA。

An Efficient Token Compression Framework for Visual Object Tracking

针对多帧模板跟踪中视觉 token 爆炸又冗余的问题,ETCTrack 用一个可学习的自适应 token 压缩器(ATC)先把历史模板帧压成精炼子集、再用层级交互块(HIBlock)与搜索区域深度交互,在 7 个跟踪基准上同时刷新精度并降低计算量(模板 token 减 60%、MACs 减 21.4%,精度仅掉 0.4%)。

An Empirical Study on How Video-LLMs Answer Video Questions

这篇论文用"注意力 knockout"系统性地解剖了 Video-LLM 回答视频问题的内部机制,发现它们存在清晰的"前层感知、后层推理"两阶段模式、时空建模主要靠语言→视频的检索而非帧内/帧间视频自注意力、且只有少数中间层是关键层,并据此设计了一个简单的视觉 token 早退 + 时序注意力裁剪策略大幅省算力而几乎不掉点。

查看全部187篇「视频理解」论文 →


🚗 自动驾驶 (157)

ActiveAD: Planning-Oriented Active Learning for End-to-End Autonomous Driving

ActiveAD 为端到端自动驾驶设计了一套"规划导向"的主动学习策略:用几乎免费的元信息(天气/光照/驾驶指令/车速)做多样性初始化解决冷启动,再用位移误差、软碰撞、Agent 不确定性三个免标注准则挑出最该标的场景,只标 30% 数据就在 nuScenes 开环和 CARLA 闭环上追平用 100% 数据训练的 SOTA。

AdaRadar: Rate Adaptive Spectral Compression for Radar-based Perception

提出 AdaRadar——基于 DCT 频谱剪枝与零阶代理梯度的在线自适应雷达数据压缩框架,在 100× 以上压缩率下仅损失 ~1%p 检测/分割性能,有效缓解雷达传感器到计算端的带宽瓶颈。

AMap: Distilling Future Priors for Ahead-Aware Online HD Map Construction

AMap 指出现有时序高精地图方法「只增强已驶过的后方、对关键的前方道路几乎无改善」这一安全隐患,提出「从未来蒸馏」范式——用能看到未来帧的教师隐式地把前向先验灌进只看当前帧的轻量学生,在零推理开销下显著提升前向(A-mAP)建图精度。

An Instance-Centric Panoptic Occupancy Prediction Benchmark for Autonomous Driving

提出ADMesh(15K+高质量3D模型库)和CarlaOcc(10万帧、0.05m精度的全景占据数据集),首次为自动驾驶3D全景占据预测提供实例级标注和物理一致的地面真值,并引入占据质量评估指标和系统基准测试。

BEV-CAR: Enhancing Monocular Bird's Eye View Segmentation with Context-Aware Rasterization

BEV-CAR 用一个「训练时才开、推理时移除」的上下文光栅化机制,把解码器输出沿视线方向重排成一条条射线、按 Bresenham 算法离散采样后逐射线监督,再叠加深度+全局双分支 BEV 特征融合,在 nuScenes(mIoU 31.5%)和 Argoverse(29.9%)上拿到 SOTA,且推理零额外开销、43.1 FPS 实时。

BEV-SLD: Self-Supervised Scene Landmark Detection for Global Localization with LiDAR Bird's-Eye View Images

提出BEV-SLD,一种基于自监督场景地标检测(Scene Landmark Detection)的LiDAR全局定位方法,将检测与对应关系预测解耦,仅需20MB即可在多种场景下实现高精度(x, y, azimuth)位姿估计。

Beyond Rule-Based Agents: Active Markov Games for Realistic Multi-Agent Interaction in Autonomous Driving

把驾驶环境建模成"状态转移和奖励都依赖各智能体当前策略"的主动马尔可夫博弈(AMG),再用多智能体协同进化训练让自车策略和一池子风格各异的对手策略互相博弈、共同进化,从而在 CARLA 无信号灯路口和长尾场景里学到鲁棒的交互式决策,碰撞率压到 0.02、成功率到 98%。

Bezier Degradation Modeling for LiDAR-based Human Motion Capture

针对 LiDAR 点云稀疏、遮挡严重导致动捕预测抖动甚至失败的问题,本文提出 BMLiCap:先用可压缩的贝塞尔曲线把人体运动表示成"粗趋势 + 细节控制点"的多层级结构,再用一个 Time-scale Motion Transformer 在单次前向里粗到细地重建各时间尺度运动曲线,在 4 个 LiDAR 动捕基准上同时刷新精度(MPJPE)和时序连续性(加速度误差)。

BuildAnyPoint: 3D Building Structured Abstraction from Diverse Point Clouds

提出BuildAnyPoint,通过松耦合级联扩散Transformer(Loca-DiT)实现从多样分布的点云(机载LiDAR、SfM、稀疏噪声点云)到结构化3D建筑Mesh的统一重建——先用分层潜在扩散恢复底层点云分布,再用自回归Transformer生成紧凑多边形Mesh。

C-LaV: Conditional Latent Velocity Field Denoising for Weather-Robust LiDAR Place Recognition

C-LaV 把雨雪雾导致的 LiDAR 退化放到冻结 DINOv2 的 BEV 潜空间里去补偿——用条件 Flow Matching 学一个速度场、再解概率流 ODE 把"含天气噪声的潜表示"确定性地搬回"晴天潜表示",最后用 SALAD 聚类头出全局描述子做检索,在 NCLT 雪天和真实 Boreas 上 Recall@1 分别提升 17.5% 和 21.5%。

查看全部157篇「自动驾驶」论文 →


🤖 机器人/具身智能 (146)

A Cross-view Fusion Framework for Robust 6-DoF Grasp Pose Estimation

针对单视角点云在「角落视角(corner view)」因遮挡丢失几何信息、导致 6-DoF 抓取不稳的问题,本文用机械臂顺手多看一眼的辅助视角后融合(post-fusion)——用自监督对比学习把跨视角点特征拉成「空间一致 + 方向可辨」,再用一个「跨视角对齐圆柱积分」模块在抓取相关的圆柱邻域里融合两视角几何,在 GraspNet-1Billion 上 Seen 分割 AP 达 74.08(RealSense,+3.55),真实机械臂清桌成功率 96%。

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

把 VLA 的"中间推理"从语言子任务或目标图像换成动作空间里的粗粒度参考动作序列(Action Chain-of-Thought),用一个显式动作推理器生成参考轨迹、一个隐式动作推理器从 VLM 的 KV cache 里抽动作先验,两路共同给动作头做条件,在 LIBERO/LIBERO-Plus/VLABench 三个仿真基准和真机上都刷到 SOTA。

Action-Sketcher: From Reasoning to Action via Visual Sketches for Robotic Manipulation

本文提出 Action-Sketcher:让 VLA 模型在"看-想-画-做"(See-Think-Sketch-Act)循环里,先把空间意图画成一张由点、框、箭头组成的视觉草图(Visual Sketch)作为人可读、可改的中间表示,再据此生成动作;在长程、杂乱、指代模糊的真实操作任务上显著超过 π0.5、OpenVLA-OFT 等强基线,且草图允许人在回路里直接修改来进一步把成功率拉高。

ActiveGrasp: Information-Guided Active Grasping with Calibrated Energy-based Model

针对杂乱场景下机器人靠有限视角难以抓准目标的问题,ActiveGrasp 用一个校准过的能量模型直接在 SE(3) 流形上建模抓取分布,把"下一最佳视角"的信息增益定义为抓取成功熵的下降量,从而把机器人引导到"抓取最不确定"的区域,在仿真和真机上以更少视角预算取得最高成功率(仿真 79% SR)。

ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation

ActiveVLA 给 3D 视觉-语言-动作(VLA)模型加上「主动感知」:先用多视角正交投影+热图定位 3D 关键区域,再围绕该区域主动挑选最优虚拟相机视角、并对关键区做虚拟 Zoom-in 提分辨率,从而在遮挡和精细操作场景下显著提升成功率(RLBench 平均 91.8%)。

AdaDexTrack: Dynamic Modulation for Adaptive and Generalizable Dexterous Manipulation Tracking

AdaDexTrack 把"语言指令 → 灵巧手物交互"重新定义为可调制的跟踪:用一个蒸馏出来的通用跟踪器当"技能载体",再在反馈环里塞一个 RL 训练的调制器,从「参考轨迹 / 物体隐变量 / 位置目标」三个接口实时纠偏,从而把含噪的文本生成参考稳定地执行成长程、抗漂移的操作,并实现零样本 sim-to-real。

Adaptive Action Chunking at Inference-time for Vision-Language-Action Models

提出自适应动作分块(AAC)策略,利用动作熵作为线索在推理时动态确定最优分块大小,无需额外训练或架构修改,在RoboCasa和LIBERO等基准上持续提升GR00T N1.5和π0.5的任务成功率。

Affordance Field Intervention: Enabling VLAs to Escape Memory Traps in Robotic Manipulation

针对 VLA 模型在场景扰动下"照搬训练轨迹、把机械臂开向旧位置"的记忆陷阱问题,本文用一个无需训练的 3D 空间可供性场(SAF)作为即插即用插件:靠本体感受检测陷阱、回滚到安全历史位姿、再用 SAF 采样路点并对 VLA 候选轨迹按累积可供性打分重排,在真实平台 OOD 场景上平均提升 23.5%。

AffordGen: Generating Diverse Demonstrations for Generalizable Object Manipulation with Affordance Correspondence

AffordGen 把"affordance 语义对应"从在线规划信号改造成离线数据生成的先验:用 DINOv2 在大规模 3D mesh 之间建立关键点对应,把一条人类示教里的抓取段和技能段批量迁移到成百上千个新物体上,合成出覆盖全 6D 位姿、跨类别的轨迹数据集,再用这些数据训练闭环视觉运动策略,从而对真正没见过的物体实现零样本泛化。

AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions

AGENTSAFE 是首个系统评测「具身 VLM 智能体执行危险指令」安全性的 benchmark:它用一个可对接任意 agent 的对抗仿真沙盒(SAFE-THOR)+ 9,900 条按「机器人三定律」分类的危险指令(SAFE-VERSE)+ 跨「感知-规划-执行」三阶段的细粒度诊断协议(SAFE-DIAGNOSE),评测了 9 个 VLM 与 2 套 agent workflow,揭示出当前智能体「能看出危险却无法把这种认知落到规划和执行上」的系统性失效,并给出一个思维层防御模块 SAFE-AUDIT。

查看全部146篇「机器人/具身智能」论文 →


🎮 强化学习 (25)

AnyDoc: Enhancing Document Generation via Large-Scale HTML/CSS Data Synthesis and Height-Aware Reinforcement Optimization

AnyDoc 提出了一个基于统一 HTML/CSS 表示的通用文档生成框架,通过自动化数据合成管线构建 265K 文档数据集 DocHTML,结合 SFT 和高度感知强化学习(HARL)微调多模态大模型,在意图到文档、文档反渲染和元素到文档三个任务上超越 GPT-4o 等基线。

CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning

提出 CCCaption 双奖励强化学习框架,通过 completeness reward(基于多 MLLM 生成的视觉 query 集)和 correctness reward(基于 caption 分解后的子 query 幻觉检测)联合优化图像描述的完整性和正确性,2B 模型超越 32B 基线。

Cloning Deterministic Worlds: The Critical Role of Latent Geometry in Long-Horizon World Models

作者用一个"oracle"诊断实验证明:在确定性环境里,世界模型长程崩溃的瓶颈不是动力学模型而是潜在表示的几何结构,进而提出 GRWM——把时序对比学习当作几何正则项,重塑自编码器潜在空间使其对齐环境真实状态流形,作为即插即用模块显著拉长各类世界模型的保真预测视野。

CME-CAD: Heterogeneous Collaborative Multi-Expert Reinforcement Learning for CAD Code Generation

针对"从二维工程三视图直接生成可执行、可编辑 CAD 代码"这一工业场景,CME-CAD 让多个异构预训练大模型分别扮演风格各异的"专家",先用各自的推理风格做监督微调(MEFT),再在强化学习阶段(MERL)让强专家通过 KL 蒸馏把好策略传给弱专家、并用难例缓冲机制反复攻克最难的样本,最终在自建的工业级基准 CADExpert 上把 IoU 从 71.84% 提升到 80.71%、代码可执行率提到 98.25%。

Cross-modal Identity Mapping: Minimizing Information Loss in Modality Conversion via Reinforcement Learning

提出 Cross-modal Identity Mapping (CIM),通过分析用 caption 检索到的图像的表示一致性(GRC)和与源图像的相关性(QIR)来量化图像描述中的信息损失,将其作为 RL 奖励信号训练 LVLM 生成细粒度且精确的描述,无需额外标注。

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

DreamSAC 给基于像素的世界模型(DreamerV3)换上一个 SE(3) 不变的哈密顿动力学先验,并用一个"主动做功打破对称性"的内在好奇心去采集物理信息量最大的数据,让模型不再只学像素统计相关性、而是学到守恒律,从而在质量/重力/摩擦力等未见物理参数上的外推泛化比 SOTA 高 22%–163%。

EVA: Efficient Reinforcement Learning for End-to-End Video Agent

EVA 把长视频理解建模成一个"先规划、后感知"的马尔可夫决策过程,让 MLLM 智能体仅凭文本问题就决定"看哪段、看几帧、看多清",再用 SFT 冷启动 → KTO 离线纠偏 → 数据增强 GRPO 的三段式训练把它从"格式模仿者"练成"会主动探索的看视频高手",在 6 个视频基准上以约 1/10 的视觉 token 取得比通用 MLLM 高 6–12%、比已有自适应智能体高 1–3% 的精度。

GeoWorld: Geometric World Models

GeoWorld 将预测式世界模型的潜在表征从欧氏空间映射到双曲流形上,通过 Hyperbolic JEPA 保持几何结构和层级关系,并提出 Geometric Reinforcement Learning 来优化多步规划,在 CrossTask 和 COIN 上实现了约 3% SR(3步)和 2% SR(4步)的提升。

Incentivizing Generative Zero-Shot Learning via Outcome-Reward Reinforcement Learning with Visual Cues

RLVC 把生成式零样本学习里的特征生成器当成 RL 策略,用一个冻结分类器给出的"分对了没有"的结果奖励来驱动生成器自进化,再用类级视觉线索做原型蒸馏稳住训练,在 CUB / SUN / AWA2 三个基准上把生成式 ZSL 推到新的 SOTA(CUB 上 CZSL 准确率 90.1%、GZSL 调和均值 81.2%)。

JoPPO: Hierarchical Photography Assessment via Contrastive Joint Conditional Probabilistic Reinforcement Learning

JoPPO 把"用 VLM 给图打美学分"从回归单一全局分,升级成在一批图里建模"属性分与总分的联合高斯分布、推导出属性条件下的成对胜率",并把这个胜率作为 GRPO 的奖励来训练裁判,从而让模型既能给出可解释的多属性子分,又能在排序一致性上显著超过 GPT-4o。

查看全部25篇「强化学习」论文 →


🔄 自监督/表示学习 (91)

A Faster Path to Continual Learning

针对持续学习优化器 C-Flat 每步要多算三次梯度、训练太慢的问题,本文发现一阶平坦度梯度里存在「方向不变」的分量,于是把它缓存下来在后续若干步里复用、跳过冗余的扰动梯度计算,再配上一个随任务推进逐渐放大跳步间隔的线性调度器和一个基于梯度统计量的自适应触发开关,让 C-Flat Turbo 在精度持平甚至略升的同时比 C-Flat 快 1.0×~1.25×(吞吐从约 27% 拉回到约 60%)。

AdaPrior: Bayesian-Inspired Adaptive Prior Correction for Long-Tailed Continual Learning

AdaPrior 把长尾类增量学习(LTCIL)重新理解成"模型诱导先验漂移"问题,用 EMA 在线估计模型自己学到的先验 \(P_m(y)\),再在训练损失和推理后处理两处用它做贝叶斯对齐去偏,单阶段、即插即用,在 CIFAR100-LT / ImageNet-subset-LT / iNaturalist18-subset 上一致超过近期 LTCIL 基线。

An Optimal Transport-driven Approach for Cultivating Latent Space in Online Incremental Learning

提出基于最优传输理论的在线混合模型学习框架 (MMOT),通过为每个类别维护多个自适应质心来更精确地表征在线数据流的多模态特性,结合动态保持策略增强类别区分能力,在在线类增量学习 (OCIL) 中有效缓解灾难性遗忘。

Assignment-Driven Hash Learning in a Hyper-Semantic Space for On-the-Fly Category Discovery

针对在线类别发现(OCD)中"特征到哈希码级联退化"和"已知类垄断表示空间"两大顽疾,本文先构造一个含「派生子空间 + 校准子空间」的超语义空间来同时刻画类内多样性并为新类预留空间,再在该空间里做"软原型分配 + 二值哈希正则"的赋值驱动哈希学习;作为即插即用模块挂到 SMILE / PHE 上,在六个细粒度数据集上 All 准确率平均提升约 12.78%(SMILE 基础上)。

Beyond Binary Contrast: Modeling Continuous Skeleton Action Spaces with Transitional Anchors

针对自监督骨架动作识别中"二元对比"把动作切成孤立簇、边界僵硬的问题,TranCLR 在动作之间合成"过渡锚点"作为流形正则项,并用三级几何流形校准把表征空间从离散点云重塑成连续平滑流形,在 NTU/PKU-MMD 上线性评估、迁移、检索全面 SOTA,且把置信度标定误差 ECE 从 ~5.6% 砍到 0.65%。

Beyond Myopic Alignment: Lookahead Optimization for Online Class-Incremental Learning

针对在线类增量学习中"当前任务梯度与回放梯度冲突"导致遗忘的问题,本文先从理论上揭示 hypergradient 方法本质是把任务梯度对齐到共享元目标、却只看当下一步因而"短视",进而提出 LOR:在更新前先沿一组"可塑性-稳定性"权衡方向探查多个未来模型状态,再用 Log-Sum-Exp 软化的 min-max 目标优化最坏方向,把模型推向更平坦、更抗遗忘的区域,在 Seq-CIFAR10/100 与 Seq-TinyImageNet 上全面超过 SOTA。

Beyond the Static World: Continual Category Discovery under Visual Drift

针对"无标注数据流既冒出新类、又来自陌生域"的现实场景,本文提出 OCCD 任务,并用"最优传输自动分离已知/未知样本 → 对抗对齐已知类原型 → 频域增强约束类别拓扑一致性"三件套,在 DomainNet 和 SSB-C 上同时把新类发现和旧类识别拉到新 SOTA。

Can You Learn to See Without Images? Procedural Warm-Up for Vision Transformers

在 ViT 正式看图像之前,先用形式文法生成的「平衡括号」之类纯符号、无任何视觉内容的序列做一段轻量 masked-token 预训练(warm-up),逼模型内化栈式层级、长程依赖这类通用计算机制;之后再接标准图像训练,仅花 1% 训练预算就能在 ImageNet-1K 上把 top-1 提升 +1.72%,相当于替代了 28% 的图像数据。

CHEEM: Continual Learning by Reuse, New, Adapt and Skip -- A Hierarchical Exploration-Exploitation Approach

提出 CHEEM 框架,通过分层探索-利用采样的 NAS 自动学习任务感知的动态 ViT 骨干——在每一层选择 Reuse/New/Adapt/Skip 四种操作——在 MTIL 和 VDD 两个挑战性持续学习基准上显著超越提示类方法,接近全量微调上界。

Chain-of-Models Pre-Training: Rethinking Training Acceleration of Vision Foundation Models

提出 Chain-of-Models Pre-Training (CoM-PT),将视觉基础模型按大小排列形成"模型链",通过从小到大的逆向知识转移(权重初始化+特征蒸馏)逐步加速训练,实现性能无损的训练加速且效率随模型家族规模增长而提升。

查看全部91篇「自监督/表示学习」论文 →


📐 优化/理论 (22)

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

本文从理论上证明了微调参数差蕴含输入协方差信息,据此提出 ACE-Merging,通过自适应协方差估计、集体结构先验和谱精炼三步实现无数据闭式模型合并,在 GPT-2 上比之前方法平均提升 4%,在 RoBERTa-Base 上提升 5%。

BD-Merging: Bias-Aware Dynamic Model Merging with Evidence-Guided Contrastive Learning

提出 BD-Merging 框架,通过 Dirichlet 证据建模 + 邻域差异分数(ADS)+ 差异感知对比学习,训练去偏路由器来自适应分配模型合并权重,显著提升合并模型在测试时分布偏移和未见任务上的鲁棒性与泛化能力。

Beyond Single Solution: Multi-Hypothesis Collaborative Deep Unfolding Network for Image Compressive Sensing

针对压缩感知(CS)问题"欠定、解不唯一"的本质,本文提出 MHC-DUN:把传统深度展开网络(DUN)里"只重建一个解"的范式扩展成"同时重建 \(T\) 个假设解并让它们协同优化",在梯度下降步用 AlphaNet 给每个假设预测逐像素自适应步长、在近端映射步用 MHCB 挖掘假设间相关性融合,在 Set11/Urban100/CS-MRI 上全面超过现有 SOTA(Set11 平均 PSNR 比 USB-Net 高 0.45 dB)。

Conditional Factuality Controlled LLMs with Generalization Certificates via Conformal Sampling

提出 CFC(Conditional Factuality Control),一种后验保形框架,通过增广分位数回归学习特征条件化的接受阈值,为LLM/VLM采样输出提供条件覆盖率保证,在保持紧凑预测集的同时显著改善难题子群的可靠性。

DABO: Difficulty-Aware Bayesian Optimization with Diffusion-Learned Priors

DABO 把"优化难度"作为一等条件变量贯穿整条 freeze-thaw 超参数优化流水线——用三层难度刻画 + 条件扩散模型生成 100 万条带难度标注的合成学习曲线,训出难度感知的 PFN 代理与自适应采集函数,在 75 个任务上比当前 SOTA(ifBO)平均降低 11–18% 的 regret,且越难的任务收益越大。

DC-Merge: Improving Model Merging with Directional Consistency

DC-Merge 发现模型合并的关键在于保持合并后多任务向量与原始单任务向量之间奇异空间方向的一致性,通过奇异值平滑 + 共享正交子空间投影两步操作,在 Vision 和 Vision-Language 任务上均取得 SOTA 合并效果。

Defending Unauthorized Model Merging via Dual-Stage Weight Protection

提出 MergeGuard,一种主动式双阶段权重保护框架:Stage 1通过L2正则化分散任务关键权重,Stage 2注入结构化扰动破坏合并兼容性,在保持保护模型<1.5%性能损失的同时使合并模型精度下降高达90%。

Dynamic Momentum Recalibration in Online Gradient Learning

从信号处理视角揭示固定动量系数在偏差-方差权衡上的固有缺陷,提出SGDF优化器,通过在线计算最优时变增益(基于最小均方误差原则)动态平衡梯度估计的噪声抑制和信号保持,在多种视觉任务上超越SGD动量和Adam变体。

End-to-End Hyper-Relational Information Extraction for Engineering Diagrams via Dynamically Tokenized Relation Transformer

把工程图纸(管道仪表图 P&ID、电气图 ED)的解析从"多模型分别检测符号/线/文字"重构成一次性的场景图生成任务,用一个带动态令牌剪枝的视觉主干 + 一阶段关系 Transformer(DTRT)端到端输出"实体 + 连接关系 + 文字限定词"的超关系知识图谱,在 P&ID 上 SGDET R@2000 达 94.84%、计算量却只有两阶段方法的约 1/8。

Enhancing Visual Representation with Textual Semantics: Textual Semantics-Powered Prototypes for Heterogeneous Federated Learning

针对联邦原型学习中现有方法破坏类间语义关系的问题,提出FedTSP方法利用预训练语言模型构建保留语义结构的文本原型,在异构联邦学习中显著提升性能并加速收敛。

查看全部22篇「优化/理论」论文 →


🔬 可解释性 (34)

Align Once to Explain: Feature Alignment for Scalable B-cosification of Foundational Vision Transformers

ALOE 用一次性、无标签的"师生特征对齐"把冻结的 ViT 基础模型(监督 / DINOv3 / SigLIP2)转成内在可解释的 B-cos 版本,对齐一次即可作为骨干 drop-in 复用到分类、零样本、稠密预测等任务,比原始 B-cosification 在 ViT 上提升 >4.9 个百分点的精度,同时给出忠实且定位准确的解释,数据效率高 100–1000×。

Back to the Feature: Explaining Video Classifiers with Video Counterfactual Explanations

本文提出 BTTF,一个用 Image-to-Video 扩散模型为视频分类器生成反事实解释(CFE)的纯优化框架:仅靠目标分类器的梯度,反向优化初始噪声潜变量,先用"反演"把搜索锚在原视频附近、再优化到目标类别,从而生成与原视频最接近、却被分类器判成另一类的"平行视频",让人看清模型到底依赖哪些时空特征做决策。

Beyond Top Activations: Efficient and Reliable Crowdsourced Evaluation of Automated Interpretability

针对「自动神经元解释好不好」这个评测问题,本文用模型引导的重要性采样(MG-IS)挑出最有信息量的输入交给众包标注、用贝叶斯评分聚合(BRAgg)去除标注噪声,把一次可靠的全分布相关性评测成本从约 $90k 砍到 $2.16k(约 40×),并据此在多个视觉模型上系统比较了主流解释方法,发现 Linear Explanations 总体最好、反而胜过近期的 LLM-based 方法。

CIGMA: Causal Information-Gain Mechanistic Attribution of Attention Heads in Vision Transformers

CIGMA 用「遮前景 / 遮背景」两次反事实编辑量化每个注意力头对背景捷径的贡献,再按因果信息增益排序、外科式地把 top-K 个"虚假头"清零,免训练地让 ViT/VLM 把注意力从背景拉回前景物体,分类准确率提升 7.6–24.8 个百分点、背景依赖度降低约 83%。

CREward: A Type-Specific Creativity Reward Model

本文把"视觉创造力"沿图像形成管线拆成 几何 / 材质 / 纹理 三个可解释的轴,先用专家两两比较建一个人类基准 CreBench、确认大型视觉语言模型(LVLM)的创造力判断与人类高度一致,再用 LVLM 生成的偏好标签蒸馏出一个轻量级类型化奖励模型 CREward(冻结视觉骨干 + MLP 头),并把它用于创造力评估、创意样本筛选 / LoRA slider 引导生成、以及 Grad-CAM 可解释三大应用。

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

提出 CoE,一个免训练的多模态摘要框架,通过构建层次事件图(HEG)引导链式事件推理,在8个数据集上超越SOTA视频CoT基线,平均提升 +3.04 ROUGE、+9.51 CIDEr、+1.88 BERTScore。

Draft and Refine with Visual Experts

提出 DnR(Draft and Refine),一个基于问题条件视觉利用度(Visual Utilization)指标的 Agent 框架,量化 LVLM 对视觉证据的实际依赖程度,并通过外部视觉专家(检测/分割/OCR等)的渲染反馈迭代改善视觉定位,减少幻觉。

Edit-As-Act: Goal-Regressive Planning for Open-Vocabulary 3D Indoor Scene Editing

将开放词汇的3D室内场景编辑重新定义为目标回归规划问题,设计PDDL风格的EditLang符号语言,通过LLM驱动的Planner-Validator循环从目标状态逆向推导最小编辑序列,在63个编辑任务上同时实现指令忠实度(69.1%)、语义一致性(86.6%)和物理合理性(91.7%)三个指标的最佳平衡。

ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization

ERMoE 提出在正交特征基(eigenbasis)中重参数化MoE专家权重,并用特征基分数(cosine similarity)替代传统路由logits,无需辅助负载均衡损失即可实现稳定路由和可解释的专家特化。

H-Sets: Hessian-Guided Discovery of Set-Level Feature Interactions in Image Classifiers

H-Sets 用输入 Hessian 检测像素间的二阶(非可加)交互、递归合并成语义连贯的特征集合,再用集合级的 IDG-Vis(方向梯度积分 + Harsanyi 红利)给每个集合打分,最终产出比现有方法更稀疏、更忠实的显著图。

查看全部34篇「可解释性」论文 →


📦 模型压缩 (108)

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

提出4D-RGPT和感知4D蒸馏(P4D)框架,通过从冻结的4D感知专家模型中蒸馏深度和光流等知识到MLLM中增强4D感知,同时构建R4D-Bench——首个区域级4D视频问答基准。

A Unified Framework for Knowledge Transfer in Bidirectional Model Scaling

BoT 把神经网络权重看成"连续信号"、不同大小的模型只是同一信号的不同分辨率离散化,于是用 3D 离散小波变换(DWT)下采样实现大变小(L2S)、用逆变换(IDWT)零填充高频后上采样实现小变大(S2L),首次用一个免训练、无额外参数的框架统一了两个方向的跨架构知识迁移,在 DeiT/BERT/GPT 上最多省 67.1% 预训练 FLOPs。

AdaBet: Gradient-free Layer Selection for Efficient Training of Deep Neural Networks

提出 AdaBet,一种基于代数拓扑(第一 Betti 数 \(b_1\))的无梯度层选择方法,仅通过前向传播计算每层激活空间的拓扑复杂度来决定哪些层需要微调,无需标签、梯度或反向传播,在 ResNet50/VGG16/MobileNetV2/ViT-B16 上以仅 10% 层微调达到优于全量训练的准确率,同时峰值内存降低约 40%。

Adaptive Depth Lightweight RGB-T Tracking with Holistic Token Routing

ADTrack 把网络深度当作可动态分配的算力预算——给冻结的双流 ViT-T 骨干装上多层"随时可出结果"的预测头和置信度校准的早退出策略,并用一个只有 37.3K 参数的整体令牌路由模块(HTGI)做廉价跨模态融合,在 LasHeR 上拿到 70.2% PR / 56.3% SR 的同时跑到 GPU 148.3 FPS、CPU 50.2 FPS、边缘端 28.7 FPS。

Adaptive Video Distillation: Mitigating Oversaturation and Temporal Collapse in Few-Step Generation

针对视频扩散模型做 DMD(分布匹配蒸馏)时普遍出现的「颜色过饱和 + 运动坍缩」两大顽疾,本文提出自适应回归损失(用 EMA 缓存动态降权那些偏差过大的真实样本)、时序正则损失(直接惩罚帧间方差过低),再配一个高噪声步降帧率、低噪声步插值补回的推理加速策略,在 Wan2.1-1.3B/14B 上做到 4 步生成,VBench/VBench2 总分超过所有蒸馏 baseline、用户偏好甚至超过 50 步教师。

AdaSVD: Singular Value Decomposition with Adaptive Mechanisms for Large Multimodal Models

AdaSVD 用「交替最小二乘补偿被截断的奇异矩阵」+「按层重要性自适应分配压缩率」两招,把基于 SVD 的大多模态模型压缩在高压缩率(60%+)下的精度损失大幅压下来,在 LLaMA2/OPT/Mistral/Vicuna 上全面超过 SVD-LLM。

Back to Source: Open-Set Continual Test-Time Adaptation via Domain Compensation

针对"域持续漂移 + 未知新类同时出现"的开放集持续测试时自适应(OCTTA)场景,本文提出 DOCO:先把当前 batch 分成像 ID / 像 OOD 两堆,只用 ID 样本学一个把特征统计"拉回源域"的视觉 prompt,再把这个 prompt 直接复用到同 batch 的 OOD 样本上以剥离它们的语义新颖度,三步形成闭环互助,在 ImageNet-C 上 H-score 比次优方法高 4.7%。

Balanced Dataset Distillation via Modeling Multiple Visual Pattern Distribution

本文指出现有数据集蒸馏方法普遍存在「模式失衡」(要么偏重类内主流的 class-general patterns、要么偏重边缘的 marginal patterns),提出 BPS 框架:先用层次语义结构把每个类建模成多个视觉模式的分布,再从每个模式的「中心」和「边缘」各取一半 IPC 预算构成模式平衡的 coreset,最后用知识蒸馏训练学生模型——在四个 benchmark 上全面超过此前 SOTA,且天然具备跨架构泛化和「一次建模、所有 IPC 复用」的效率优势。

Batch Loss Score for Dynamic Data Pruning

提出 Batch Loss Score (BLS),一种仅用均值 batch loss(而非难以获取的逐样本 loss)来估计样本重要性的方法,通过 EMA 低通滤波的信号处理视角提供理论保证,仅需 3 行代码即可集成到现有动态剪枝框架中。

Beyond Soft Label: Dataset Distillation via Orthogonal Gradient Matching

针对现有 ImageNet-1K 数据集蒸馏方法过度依赖 BN 统计匹配、一旦丢掉软标签就崩盘的问题,本文从梯度视角指出 BN 匹配只对齐了梯度的"尺度"而忽略了真正决定训练的"方向",进而提出 Orthogonal Gradient Matching(OGM)——把真实/合成梯度做 SVD 后强制所有奇异值为 1、只对齐奇异向量,并用最小二乘损失的闭式梯度在前向传播中完成匹配;在 IPC=10 上软标签 47.0%、硬标签 16.7%,显著超过 RDED 等基线。

查看全部108篇「模型压缩」论文 →


🕸️ 图学习 (8)

Adaptive Learned Image Compression with Graph Neural Networks

GLIC 把学习图像压缩里的非线性变换从固定卷积或窗口注意力,改造成由图神经网络驱动的内容自适应连接:先用双尺度图决定“连到哪里”,再用复杂度感知机制决定“连多少”,从而更好地建模局部与远程冗余,在三个标准数据集上都显著超过传统编解码器和近期 LIC 强基线。

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

提出 Graph2Eval,一个知识图谱驱动的 agent 评估任务自动生成框架——通过从文档/网页构建结构化知识图谱、子图采样、LLM 条件生成和多阶段过滤,自动产出语义一致(+20%)且可解(+17%)的多模态 agent 任务,构建了包含 1319 个任务的 Graph2Eval-Bench。

M3KG-RAG: Multi-hop Multimodal Knowledge Graph-enhanced Retrieval-Augmented Generation

提出M3KG-RAG,通过轻量多Agent流水线构建多跳多模态知识图谱(M3KG),并设计GRASP机制进行实体定位和选择性剪枝,仅保留查询相关且有助回答的知识,大幅提升MLLM的音视觉推理能力。

Mario: Multimodal Graph Reasoning with Large Language Models

提出 Mario,针对多模态图(MMG)上的 LLM 推理,通过图条件视觉语言模型(GVLM)实现拓扑感知的跨模态对齐,再用模态自适应提示路由器(MAPR)为每个节点选择最优模态配置,在节点分类和链接预测上达到 SOTA。

Mixture-of-Experts based Feature Decoupling for Open Vocabulary Scene Graph Generation

针对开放词表场景图生成(OVSGG)里"只套用现成 VLM 特征、缺乏判别性属性、物体与关系语义割裂"的痛点,本文提出 MoE-FD:用混合专家自适应地把物体/关系特征解耦成形状、纹理、空间等子属性,再用迭代跨注意力让节点与边互相精炼,最终在 Visual Genome 全开放词表设定下把新类 R@100 大幅刷高(OvD+R 新关系 R@20 比 ACC 高 4.24%)。

R2G: A Multi-View Circuit Graph Benchmark Suite from RTL to GDSII

提出 R2G,首个标准化的多视图电路图基准套件,在 30 个 IP 核上提供 5 种阶段感知的图表示(具有信息对等性),系统研究发现图表示选择比 GNN 模型选择对性能影响更大。

Robo-SGG: Exploiting Layout-Oriented Normalization and Restitution Can Improve Robust Scene Graph Generation

针对鲁棒场景图生成(在噪声/模糊/天气等损坏图像上推理)里"视觉特征发生域偏移导致性能暴跌"的痛点,本文提出即插即用的 Robo-SGG:用实例归一化抹掉损坏带来的域特异统计、再用布局感知注意力把全局结构特征找回来(NRM),并用门控融合自适应平衡视觉与坐标特征(LEE),插到现有 SGG 模型上即在 VG-C 上把 PredCls/SGCls/SGDet 的 mR@50 相对提升 6.3% / 11.1% / 8.0%。

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning

将过程知识图(PKG)通过可微Viterbi层端到端嵌入规划模型,使神经网络只需学习发射概率而非记忆完整过程结构,在CrossTask/COIN/NIV上以仅5-7M参数(比扩散/LLM方法少1-3个数量级)达到SOTA成功率,并建立了统一的评估基准。


🤝 联邦学习 (19)

Domain Sensitive Federated Learning with Fisher-Informed Pruning

FEDFIP 用每个域的 Fisher 信息估计通道重要性,在服务器端拼出一个全局共享剪枝掩码、客户端再「重新激活」少量本地关键通道,配合域原型结构对比正则和「只聚合共享通道」的聚合策略,在多域联邦场景里既显著压小模型、又比一众 FL baseline 更准更稳。

FedAdamom: Adaptive Momentum for Improved Generalization in Federated Optimization

本文用扩散理论解释了「FedAdam 收敛快但泛化差」的根因——自适应学习率削弱了对平坦极小的偏好——并据此提出 FedAdamom:把自适应机制从学习率挪到动量系数上,从而既保住快速逃离鞍点的能力、又恢复对平坦极小的选择,在 CIFAR-10/100、Tiny-ImageNet 与 LEAF 上同时取得更快收敛和更高精度。

FedAlign: Differentially Private Distribution Alignment for Non-IID Federated Learning

FedAlign 让每个客户端把本地数据的前四阶统计矩(均值、方差、偏度、峰度)加噪上传,服务器聚合成全局参考分布再广播回去,客户端据此对齐本地采样数据的分布——在差分隐私约束下同时缓解 Non-IID 异质性和隐私泄露,CIFAR-10 上比最强基线再涨约 4%。

FedARA: Resource-adaptive Low-rank Personalized Federated Learning via Anchor-driven Representation Alignment on Heterogeneous Edge Devices

FedARA 把"共享特征提取器"做成可被服务器按客户端资源任意分解/重建的低秩结构,让异构边缘设备各取所需的秩;同时用服务器聚合后的全局特征算"一致性锚点"约束本地表示,缓解非 IID 下的特征漂移和全局知识遗忘,在三个数据集上以更低通信/计算开销超过 17 个 SOTA 基线。

FedHarmony: Harmonizing Heterogeneous Label Correlations in Federated Multi-Label Learning

针对联邦多标签学习中各客户端只见到局部标签空间、学出的标签相关性互相打架(标签相关性漂移)的问题,FedHarmony 用"多数客户端的共识相关性"当全局教师在本地训练时纠偏,并在服务器聚合时同时按数据量和相关性质量给客户端加权,在 FLAIR / COCO-80 / VOC2007 三个非 IID 联邦基准上一致超过现有 SOTA(FLAIR mAP +11.4)。

FedRAC: Rolling Submodel Allocation for Collaborative Fairness in Federated Learning

FedRAC 通过"随训练进程动态拉开的声誉计算"+"按历史频率轮转构造子模型再按声誉分配"两个模块,既让贡献高的客户端拿到更好的子模型(公平),又保证全局模型每个神经元被均匀训练(不掉精度),在公平性和准确率上同时超过现有协作公平方法。

FedRG: Unleashing the Representation Geometry for Federated Learning with Noisy Clients

针对联邦学习里"客户端标注有噪声 + 数据非独立同分布"的双重难题,FedRG 抛弃了不可靠的 small-loss 启发式,改从表征几何判断样本干净与否——先用自监督在超球面上学出与标签无关的表征,再用 vMF 混合模型把"几何证据"和"标注标签证据"在同一空间里做一致性比对来挑出噪声样本,最后用个性化噪声吸收矩阵做鲁棒优化,在多个数据集和四种噪声场景下都拿到 SOTA。

Fine-Tuning Impairs the Balancedness of Foundation Models in Long-tailed Personalized Federated Learning

本文先实证揭示「在长尾联邦场景里微调 CLIP 会破坏其天生的类别均衡性、甚至跌破 zero-shot」,再提出 FedPuReL:用 zero-shot 预测把本地梯度「净化」成不破坏均衡的方向来训一个均衡的全局模型,并把个性化重构成冻结全局模型之上的「残差修正」,从而在 8 个长尾数据集上的全局模型和个性化模型都超过现有 SOTA。

From Selection to Scheduling: Federated Geometry-Aware Correction Makes Exemplar Replay Work Better under Continual Dynamic Heterogeneity

针对联邦持续学习里"光会挑样本、不会用样本"的痛点,FEAT 不改回放策略,而是用一组所有客户端共享的固定 ETF 原型,在训练时做几何结构蒸馏拉齐各客户端的特征角度、在推理时用基于能量的几何校正把尾类特征从头类子空间里"拽回来",作为即插即用模块叠在 Re-Fed+/FedCBDR 上即可稳定涨点。

Fully Decentralized Certified Unlearning

针对"无中心协调者的去中心化网络"这一被忽视的场景,本文提出 RR-DU——一个随机游走式的认证遗忘算法:只在发起删除的客户端上对遗忘集做带噪投影梯度上升、其余客户端继续做无噪下降,配合子采样高斯噪声和信任域投影,证明了 \((\varepsilon,\delta)\) 网络遗忘证书、收敛性与删除容量边界,且噪声不随遗忘集大小 \(m\) 增长,在图像分类上把后门攻击成功率压到随机猜测水平同时保住干净精度。

查看全部19篇「联邦学习」论文 →


📈 时间序列 (7)

PFGNet: A Fully Convolutional Frequency-Guided Peripheral Gating Network for Efficient Spatiotemporal Predictive Learning

提出 PFGNet,一种纯卷积时空预测框架,通过像素级频率引导门控(PFG)动态调制多尺度大核外周响应并施加可学习中心抑制,模拟生物视觉的 center-surround 带通滤波机制,在 Moving MNIST、TaxiBJ、KTH、Human3.6M 四个基准上以极少参数和计算量达到 SOTA 或近 SOTA 性能。

Probabilistic Precipitation Nowcasting with Rectified Flow Transformers

本文提出 FREUD——一个用整流流(rectified flow)Transformer 充当"压缩第一阶段"的框架:帧级编码器独立编码每帧、联合视频解码器一次性重建所有帧,把确定性解码换成概率式解码,从而在压缩阶段就能量化不确定性;配合潜空间整流流临近预报模型,在 SEVIR 降水临近预报基准上取得 SOTA 的 CRPS(0.0190)和 SSIM。

Real-Time Long Horizon Air Quality Forecasting via Group-Relative Policy Optimization

本文针对东亚长程(48–120 小时)PM 浓度预测,先发布一套观测对齐的区域数据集 CMAQ–OBS,再用「带时间累积损失的 SFT + 带类别 AQI 奖励的 GRPO」两阶段训练(FAKER-Air),把 MSE 训练固有的「过预报、误报多」问题对齐到真实的运营成本上,在保持 F1 的同时把误报率(FAR)相对 SFT 基线降低 47.3%。

SATTC: Structure-Aware Label-Free Test-Time Calibration for Cross-Subject EEG-to-Image Retrieval

提出SATTC,一个无标签的测试时校准头,通过几何专家(被试自适应白化+自适应CSLS)和结构专家(互最近邻+双向top-k排名+类别流行度)的乘积专家融合,在冻结的EEG和图像编码器上直接操作相似度矩阵,显著改善跨被试EEG-to-image检索的Top-1精度并降低hubness效应。

Stable Spike: Dual Consistency Optimization via Bitwise AND Operations for Spiking Neural Networks

提出 Stable Spike 双一致性优化框架,利用硬件友好的 AND 位运算从多时间步脉冲图中解耦稳定脉冲骨架,并注入振幅感知脉冲噪声增强泛化,在超低延迟(T=2)下将神经形态物体识别精度提升最高 8.33%。

STCast: Adaptive Boundary Alignment for Global and Regional Weather Forecasting

提出STCast框架,通过Spatial-Aligned Attention(SAA)用可学习的全球-区域分布替代静态边界来自适应融合全球大气信息到区域预报,并用Temporal Mixture-of-Experts(TMoE)按月动态路由专家增强时序建模,在全球预报、高分辨率区域预报、台风路径预测和集合预测四个任务上全面超越现有方法。

Towards Uncertainty-aware Unsupervised Domain Adaptation for Videos and Time-Series with Causal Optimal Transport

本文提出 Causal-OT:把通道间的 Granger 因果图嵌进最优传输(OT)的代价矩阵里做跨域对齐,同时用基于熵的不确定性筛选伪标签,让时序与视频的无监督域适应既保住时间-因果结构、又不被过自信的伪标签带偏,在 6 个时序基准上平均涨 4.5% 准确率、4 个视频基准上涨 2.5%。


🏥 医学图像 (172)

A Supervised Multi-task Framework for Joint cryo-ET Restoration Enabled by Generative Physical Simulation

cryoDeRec 用一条「生成式噪声建模 + 物理成像仿真」流水线造出"含噪输入 ↔ 干净 GT"的成对断层图,把一直只能靠自监督做的 cryo-ET 去噪与缺失楔(missing wedge)修复改成全监督多任务训练,单个 U-Net 同时干两件事,在 4 个真实 + 2 个仿真数据集上全面超过 Topaz-Denoise / SC-Net / IsoNet。

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

提出 HistoSelect 框架,模拟病理学家从粗到细的推理过程,通过组织分割→Group Sampler→Patch Selector 的三级筛选机制,基于信息瓶颈(IB)理论压缩无关视觉token,在减少约70%计算量的同时实现三个数据集上的SOTA。

Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning

提出 UAAI 框架,首次将主动推理(Active Inference)引入微手势识别,通过 EFE 引导的时间帧选择 + 空间注意力 + UMIX不确定性感知增强,在SMG数据集RGB模态上达到63.47%,大幅超越传统RGB方法。

AD-GBC: Anisotropic Granular-Ball Skip-Connection Refiner for UNet-Based Medical Image Segmentation

把 UNet 里"点原型 / 各向同性球"的语义锚点升级成带各向异性向量尺度的可微粒球,以「像素集合 ↔ 粒球」的双向聚合-广播机制充当 skip-connection 的语义精炼器,再加两个几何正则防止锚点塌缩,在四个医学分割基准上对 Rolling-UNet / U-KAN 两种骨干都带来稳定涨点(平均 IoU +1.3~1.7%)。

Adaptive Anisotropic Gaussian Splatting for Multi-contrast MRI Arbitrary-Scale Super-Resolution with Anatomy Guidance

GaussM2ASR 把多对比度 MRI 的任意尺度超分从"INR 直接回归像素强度"换成"学一组各向异性 2D 高斯核的参数",用窄核拟合解剖边界的高频、宽核覆盖平滑低频区,再用三个解剖先验驱动的模块把高频信息和高分辨参考图的结构对齐,在 IXI/BraTS/fastMRI 上 PSNR/SSIM 全面超过现有 SOTA。

Adaptive Confidence Regularization for Multimodal Failure Detection

提出 ACR 框架,通过自适应置信度损失(惩罚多模态融合置信度低于单模态的"置信度退化"现象)和多模态特征交换(在特征空间合成失败样本)两个互补模块,首次系统解决多模态场景下的误分类检测问题,在四个数据集上全面超越已有方法。

Anatomica: Localized Control over Geometric and Topological Properties for Anatomical Diffusion Models

Anatomica 是一个推理期(training-free)扩散引导框架,用可任意摆放的「立方体控制域」从 3D 多类解剖分割中可微地切出子结构,再分别用几何矩持续同调度量其几何(大小/形状/位置/朝向)与拓扑(连通分量/环/空腔)属性,把偏差当势函数梯度反传回去引导无条件扩散采样——无需为每个任务重训模型,就在心脏/主动脉/脊椎/冠脉等多个解剖系统上实现了 SOTA 的几何与拓扑可控生成。

Any2Any 3D Diffusion Models with Knowledge Transfer: A Radiotherapy Planning Study

把在自然视频(Wan 2.1)或公开 CT(MAISI)上预训练好的 3D 扩散模型迁移到放疗剂量预测,用一套「Any2Any」模态条件范式让任意模态都能当生成目标,再用临床 Scorecard 设计的强化学习后训练对齐机构偏好,在 GDP-HMM 挑战赛上把体素级 MAE 从 2.07 降到 1.93、刷新 SOTA。

BackSplit: The Importance of Sub-dividing the Background in Biomedical Lesion Segmentation

论文提出 BackSplit:把病灶分割里被一锅端的「背景」拆成有语义的辅助器官/组织类、做多类 softmax 联合训练,用 Fisher 信息理论证明这比二分类训练保留更多信息、估计更稳,并在 5 个数据集上一致提升小病灶 Dice,且推理零额外开销。

Benchmarking Endoscopic Surgical Image Restoration and Beyond

构建了首个多源真实世界内窥镜手术图像复原数据集 SurgClean(3,113张图像,覆盖去烟/去雾/去飞溅三种退化类型),在其上系统评测了22种代表性图像复原方法(12种通用+10种任务特定),揭示现有方法与临床需求间仍存在显著差距,并进一步分析了手术场景退化与自然场景退化的本质差异。

查看全部172篇「医学图像」论文 →


🧬 计算生物 (21)

HINGE: Adapting a Pre-trained Single-Cell Foundation Model to Spatial Gene Expression Generation from Histology Images

提出HINGE框架,首次将预训练的表达空间单细胞基础模型(sc-FM, CellFM)改装为组织学图像条件的空间基因表达生成器,通过恒等初始化的SoftAdaLN调制轻量注入视觉上下文、表达空间掩码扩散过程对齐预训练目标、warm-start课程稳定训练,在三个ST数据集上达SOTA并保持优越的基因共表达一致性。

Advancing Cancer Prognosis with Hierarchical Fusion of Genomic, Proteomic and Pathology Imaging Data from a Systems Biology Perspective

HFGPI 把"基因 → 蛋白质 → 组织形态"的系统生物学级联显式建模成一条分层融合管线,用图感知交叉注意力刻画基因对蛋白的调控、用超图把蛋白连到病理 patch,在 5 个 TCGA 队列上把生存预测的平均 C-index 推到 0.753,超过所有 SOTA。

BiGMINT: Biologically-guided Hierarchical Multimodal Integration for Modeling Multiple Compound Activities in Drug Discovery

BiGMINT 用「化学蛋白质组学信号引导高内涵成像(HCI)特征聚合 + 外积式跨模态融合 + 蛋白互作(PPI)先验做任务级信息共享」三段式层次化融合,把分子机制信号和细胞表型信号统一起来预测化合物活性,在两份各 ~99K / ~40K 化合物-成像对的大规模私有数据集上把平均 AUCROC 比最强单模态/多模态基线提升最多 10.0% / 4.2%,高性能任务覆盖最多翻倍。

Bulk RNA-seq Guided Multi-modal Detection of Anomalous Regions in Human Cancer via Spatial Transcriptomics

BRGMAR 用一个动态多关系图刻画空间转录组(ST)里 spot 间的空间近邻 + 基因相似关系,再用基于最优传输的“基因模块对齐”把患者级 bulk RNA-seq 的诊断信息迁移到 ST,最后与病理图像跨注意力融合,在 BRCA/HCC/ccRCC 三个数据集上把肿瘤异常区域检测的 AUC/F1 显著推到新高。

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

提出 CARE,一种病理学 slide-level 基础模型,通过自适应区域生成器(ARG)将 WSI 划分为形态学相关的不规则区域(类似 NLP 中的词级 token),并结合 RNA/蛋白质表达谱的跨模态对齐进行两阶段预训练,仅用主流模型约 1/10 的数据即在 33 个下游任务上取得最优平均性能。

Cell-Type Prototype-Informed Neural Network for Gene Expression Estimation from Pathology Images

提出 CPNN,利用公开单细胞 RNA-seq 数据构建细胞类型原型(cell-type prototype),将 slide/patch 级基因表达建模为原型的加权组合,在基因表达估计任务上取得 SOTA 并提供可解释性。

Cross-Slice Knowledge Transfer via Masked Multi-Modal Heterogeneous Graph Contrastive Learning for Spatial Gene Expression Inference

提出 SpaHGC,一种基于多模态异构图的框架,通过构建目标切片内、跨切片和参考切片内三种子图,结合 masked graph 对比学习和跨节点双注意力机制,实现从 H&E 病理图像预测空间基因表达,在七个数据集上 PCC 指标提升 7.3%-27.1%。

CryoHype: Reconstructing a Thousand Cryo-EM Structures with Transformer-Based Hypernetworks

提出 CryoHype,一种基于 Transformer 超网络的冷冻电镜重建方法,通过动态调整隐式神经表示(INR)的权重来减少参数共享,首次实现了从无标签冷冻电镜图像中同时重建 1000 种不同蛋白质结构。

CryoKRAQEN: Kernel-Regularized Annealing for Quantized Embedding Networks in Cryo-EM Heterogeneous Reconstruction

CryoKRAQEN 用一个无编码器(decoder-only)的三平面 Fourier 码本来做冷冻电镜异质重建:通过 Epanechnikov 核度量粒子图与码本原型的相似度、再用温度退火把软分配逐步收紧到近硬聚类,并加三元组正则稳住码本,从而在不依赖编码器和高斯先验的情况下,把噪声 2D 投影准确归到不同 3D 构象/组分,在 CryoBench 上与 SOTA 持平、在强组分异质数据上明显更好。

cryoSENSE: Compressive Sensing Enables High-throughput Microscopy with Sparse and Generative Priors on the Protein Cryo-EM Image Manifold

提出 cryoSENSE,首个冷冻电镜压缩成像的计算框架,证明蛋白质 cryo-EM 图像在稀疏先验(DCT/小波/TV)和生成先验(扩散模型)下均可从欠采样测量中高保真重建,在保持 3D 分辨率的同时实现最高 2.5× 通量提升。

查看全部21篇「计算生物」论文 →


🛡️ AI 安全 (145)

A Combination of Noise and Bilateral Filters Achieve Supralinear and Scalable Adversarial Robustness in CNNs

本文从决策边界几何的角度证明「高斯噪声」和「图像滤波」通过两种互补机制抵御对抗攻击,因而二者组合能带来超线性(supralinear)的鲁棒性增益;据此提出一个极简预处理器(像素级高斯噪声 + 多次双边滤波,训练和推理都用),在 RobustBench 上以约 35% 的训练 FLOPs、一半参数量就逼近甚至超过 SOTA 防御。

A Provable Energy-Guided Test-Time Defense Boosting Adversarial Robustness of Large Vision-Language Models

ET3 把分类器 logit 的 LogSumExp 解释为输入的"能量",在推理时只对图像做几步梯度下降把能量压低,就能把被对抗扰动推离数据流形的样本拉回正确类别——免训练、几乎零开销,对纯分类器、CLIP 零样本、以及 LLaVA 这类大型 VLM 的对抗鲁棒性都有显著提升,并给出了二分类下"必定纠正"的可证明保证。

A Sanity Check for Multi-In-Domain Face Forgery Detection in the Real World

这篇论文先做了个"sanity check":揭示现有 deepfake 检测器在多域混合数据上看似高 AUC、实则单帧 real/fake 准确率(ACC)很低,因为"域差异"在特征空间里盖过了"真假差异";随后提出模型无关的两阶段框架 DevDet(FFDev 暴露伪造痕迹 + DAFT 自适应剂量微调),在保持原泛化能力的同时把帧级 ACC 显著拉高。

A Unified Perspective on Adversarial Membership Manipulation in Vision Models

首次揭示视觉模型成员推断攻击(MIA)面临的对抗性成员操纵漏洞——不可感知扰动可将非成员伪造为成员欺骗审计,发现伪造成员的梯度范数塌缩特征签名,并提出基于梯度几何的检测策略和对抗鲁棒推断框架。

AdvFM: Lookahead Flow-Matching Velocity-Field Attacks for Imperceptible and Transferable Adversarial Examples

把无限制对抗攻击搬到 flow-matching 的连续时间速度场里做:不直接扰动像素、也不走扩散式的"去噪—再加噪",而是把对重建图的 PGD 扰动转译成速度场的扰动并沿概率流 ODE 确定性地传播,再配一个"前瞻两点目标"修正时间错配,从而在 ImageNet 上同时拿到更强的黑盒迁移性和更高的抗净化/抗对抗训练成功率。

All Vehicles Can Lie: Efficient Adversarial Defense in Fully Untrusted-Vehicle Collaborative Perception via Pseudo-Random Bayesian Inference

提出 Pseudo-Random Bayesian Inference (PRBI) 框架,在所有车辆均不可信的协同感知场景中,利用帧间时序一致性作为自参考信号,通过伪随机分组 + 贝叶斯推断,仅需平均 2.5 次验证/帧即可高效识别并排除恶意车辆,检测精度恢复至攻击前的 79.4%–86.9%。

AntiStyler: Defending Object Detection Models Against Adversarial Patch Attacks Using Style Removal

把风格迁移(style transfer)反转成"风格移除"(style removal),用它把对抗补丁那种"随机纹理风格"从图像里抹掉、定位并 mask 掉补丁像素,做出一个不需训练、对模型/补丁/攻击全不可知的零样本防御,在保持干净图性能的同时把对抗 mAP 提升 8–15 个点,且只需 40–90ms/张、能跑 10–12 FPS 满足实时检测。

AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs

AVFakeBench 是首个覆盖「人类+通用场景、7 类音视频伪造组合、4 级标注」的综合音视频伪造检测基准(3K 片段 / 12K 问答),用一套「专有模型规划 + 专家生成模型执行」的多阶段混合伪造框架批量造假数据,并评测了 11 个音视频大模型(AV-LMM)和 2 个专家检测器,发现 AV-LMM 在二分类真伪判断上已超过专家模型,但在细粒度伪造分类与解释推理上几乎全线崩溃。

Batman: Benign Knowledge Alignment Through Malicious Null Space in Federated Backdoor Attack

针对联邦后门攻击"对齐良性知识会削弱攻击、不对齐又容易被防御识破"的两难,Batman 用 SVD 把恶意知识压进参数矩阵的主导方向、在其正交的"恶意零空间"里对齐良性知识,使隐蔽性提升而后门功能几乎不受损,在四个数据集、六种聚合/防御下都能同时拿到高 ASR 和高 ACC。

Beyond [CLS] Token: Query-Driven Token-Level Forgery Purification for Generalizable Deepfake Detection

针对 ViT 基础模型做 deepfake 检测时 [CLS] token 过度关注全局语义、忽略局部伪造痕迹的"预训练信息偏置"问题,本文提出 QTFP 框架:用一组随机初始化的可学习 query token 替代 [CLS] 去聚合局部证据,再配合"伪造似然加权对比损失"和"真实图注意力对齐"两个正则,把跨数据集平均 AUC 从 Effort 的 0.923 提到 0.947。

查看全部145篇「AI 安全」论文 →


📂 其他 (105)

A2GC: Asymmetric Aggregation with Geometric Constraints for Locally Aggregated Descriptors

针对视觉地点识别(VPR)中"特征聚合靠对称 Sinkhorn"这一假设的失效,A2GC 把最优传输求解器改成非对称(行列归一化平均 + 源/目标边缘分别校准),再叠加一个几何约束分支(用可学习坐标嵌入让空间相邻的特征更倾向分到同一簇),在 Pitts30k 上把 Recall@1 推到 95.6%。

A Debiased Reconstruction-based Framework for Training-Free Detection of AI-Generated Images

针对"基于重建误差的免训练 AI 生成图检测"会被简单背景/大范数隐变量带偏的问题,本文用旋转 + 低通滤波这类"保留偏置因子、破坏取证信息"的增强对重建误差做归一化去偏,在图像级和隐空间级各得到一个去偏分数,相乘融合成统一分数 RDD,在 GenImage、LSUN-Bedroom 等 18 个子基准上取得免训练 SOTA(平均 AUROC 0.981 / 0.940)。

A Difference-in-Difference Approach to Detecting AI-Generated Images

针对"现代扩散模型生成的图像与真图越来越像、一阶重建误差失效"这一痛点,本文把重建做两次、用「重建误差之差」这个二阶差分来抵消重建本身引入的随机扰动、放大真假图之间的微弱信号,再把一阶与二阶误差各训一个分类器联合判定,在跨数据集/跨生成器场景下比最强基线提升约 20%–30%。

Adaptive Bayesian Early-Exit Networks for Efficient Non-Transferable Learning

ENL-DEE 把"非迁移学习(NTL)"重新设计成一个贝叶斯早退网络——冻结骨干、只训练若干早退分类头,用基于熵的路由让源域样本走到深层退出(保性能)、目标域样本在浅层就被踢出(非语义特征、精度接近随机),从而在大幅省训练/推理成本的同时强化模型版权保护。

Adaptive Data Augmentation with Multi-armed Bandit: Sample-Efficient Embedding Calibration for Implicit Pattern Recognition

ADAMAB 在冻结的预训练 embedding 模型之上训练一个轻量"校准器",并用改造过的 UCB(多臂老虎机)算法按类自适应地决定该合成增强哪些数据,从而在每类只有 2–5 个初始样本的少样本长尾识别任务上把准确率提升最多约 40%,且有收敛性的理论保证。

AdaSFormer: Adaptive Serialized Transformers for Monocular Semantic Scene Completion from Indoor Environments

提出AdaSFormer,一种针对室内单目语义场景补全(MSSC)的序列化Transformer框架,通过自适应序列化注意力(可学习偏移量)、中心相对位置编码和卷积调制层归一化三个核心设计,在NYUv2和Occ-ScanNet上达到SOTA。

ALLNet: Multi-task Dense Prediction for Degraded Images

ALLNet 把"先恢复、再做密集预测"的两阶段级联拆掉,用一个 U-Net 双解码器在每个尺度上让恢复流与预测流互相喂特征,靠一个退化自适应的专家混合模块(MaE)做去退化、再靠一个跨任务协同精修模块(TCR)做双向语义对齐,在退化版 NYUD-v2 / PASCAL-Context 上四个任务全面超过现有 SOTA。

Basis-Oriented Low-rank Transfer for Few-Shot and Test-Time Adaptation

BOLT 把一批已经微调好的源模型的"任务向量"做逐层 SVD 并正交化,得到一组共享的正交谱基底;面对全新任务时冻结这组基底,只训练每层极少的对角系数(约 8k 参数),从而在不做任何元训练的前提下,给少样本、OOD 和无标签测试时自适应提供一个强初始化与参数高效微调路径。

Beyond Euclidean Gossip: KL-Barycentric Consensus on Heterogeneous and Imbalanced Images

针对完全去中心化训练在 non-i.i.d. 数据和客户端规模不均衡下崩坏的问题,本文把"邻居间平均模型参数"这个 Euclidean gossip 操作,换成在指数族期望参数空间里做线性混合——它恰好等价于一次曲率感知的 KL 重心共识(自然梯度步),无需构造或求逆 Fisher 矩阵就把单轮复杂度从 \(O(d^3)\) 降到 \(O(d)\),并给出一个开销与 Adam 几乎相同的实现 KL-consensus Adam,在 CIFAR-100 上比 Euclidean 共识基线高出约 20% 准确率。

Bi-directional Autoregressive Diffusion for Large Complex Motion Interpolation

ARVFI 把视频插帧从"一次性生成所有中间帧"改成"从两端输入帧向中间逐帧自回归生成",并用 DINOv3 特征替代光流作为运动表征,在大幅复杂运动下既显著提升插帧精度(FID 全面领先)又把采样步数压到 15 步、比 backbone Wan 快约 3 倍。

查看全部105篇「其他」论文 →


🗂 其他方向 (24)


👥 Multi-Agent (2)

AgentDet: A Shared-Blackboard Multi-Agent Framework for Zero-/Few-Shot Object Detection

AgentDet 把零/少样本目标检测拆成 Scout / Pinner / Curator / Judge 四个 LLM 智能体,通过一块"共享黑板"+一个 patch 级"知识库"协作:把视觉证据碎片化存进知识库、组合成整体文本线索喂给 LLM 做框预测,并且只训练 Judge 一个智能体,就在 PASCAL VOC / COCO 的 ZSOD/FSOD 上做到了与 SOTA 强竞争的结果。

Visual Document Understanding and Reasoning: A Multi-Agent Collaboration Framework with Agent-Wise Adaptive Test-Time Scaling

MACT 把"单模型一把梭"的视觉文档问答拆成规划、执行、判断、回答四个分工明确的智能体,并按每个智能体的认知负荷自适应分配测试时算力(而非统一堆参数),在 15 个基准上以 <30B 参数稳进前三、平均比基座模型提升 9.9–11.5%。


✏️ 知识编辑 (2)

Attribution-Guided Model Rectification of Unreliable Neural Network Behaviors

提出归因引导的动态模型纠正框架,将rank-one model editing从领域适配重定位为行为纠正,通过Integrated Gradients量化各层可编辑性自动定位嫌疑层,仅需1个清洁样本即可修复后门攻击、虚假相关和特征泄漏三类不可靠行为。

SAME: Sparse and Anchored Model Editing for Heterogeneous Incremental Learning under Limited Data

把大语言模型里的「定位—编辑 FFN 键值对」思路搬到 CLIP 这类视觉语言模型上,提出在无任务标识、跨域、少样本的「异构增量学习(HIL)」新设定下,用稀疏微调 + 双锚约束 + 闭式求解把每个新任务的知识直接写进 FFN 输出投影矩阵,不加任何额外参数,平均精度比现有持续学习方法高 6.8%、保留 oracle 性能的 95.8%。


💬 LLM 其他 (3)

LLM-Guided Probabilistic Fusion for Label-Efficient Document Layout Analysis

本文把文本预训练 LLM 当作"结构先验生成器"塞进半监督版面检测的伪标签精化环节——用 OCR+LLM 推断文档层级区域,再和教师检测器输出做逆方差概率融合(含可学习的实例自适应门控),仅用 5% 标注就在 PubLayNet 上达到 88.2 AP(轻量骨干)/89.7 AP(LayoutLMv3),并对标题/页眉等稀有版面元素提升最大。

OmniDocLayout: Towards Diverse Document Layout Generation via Coarse-to-Fine LLM Learning

针对现有文档版面生成数据「只有学术论文、样式单一」的痛点,作者先造了首个百万级、覆盖六类文档的多样化版面数据集 OmniDocLayout-1M,再用一个 0.5B 的小 LLM 通过「先在多域粗标签上学版面通则、再用少量细标签适配具体领域」的由粗到精范式,在 M6Doc 上同时超过专用版面生成模型和 GPT-4o/Gemini/Claude 等通用大模型。

Single-step Diffusion-based Video Coding with Semantic-Temporal Guidance

S2VC 把一个单步扩散生成器塞进条件视频编码框架,用从解码特征缓冲里抽取的「上下文语义引导(CSG)」替代文本 prompt、再用插进 U-Net 的「时序一致性引导(TCG)」做跨帧对齐,在 0.02 bpp 以下的极低码率下拿到 SOTA 感知质量,相比上一代感知编解码器平均省 51.62% 码率(DISTS BD-Rate)。


🔗 因果推理 (4)

A Polynomial Chaos Framework for Causal Discovery in Nonlinear Uncertain Systems

把噪声项用多项式混沌展开(PCE)嵌进结构方程,得到 PCE-LiNGAM,证明在轻度稀疏条件下因果 DAG 可唯一辨识,并用「PCE 签名污染检验 + 递归找 sink」的多项式时间算法在极端非高斯工业数据上把平均 F1 从 0.50 提到 0.756,同时顺手给出基于 Sobol 指数的不确定性量化。

CGU-Bayes: Causal Graph Uncertainty-Guided Bayesian Inference for Domain Generalization

针对"用结构因果模型(SCM)做领域泛化时、因果图在数据稀缺/含噪下估不准"的问题,本文不再点估计单一因果图,而是对因果图的后验做贝叶斯推断,从采样出的多张图里各选一套因果马尔可夫毯(CMB)特征训练预测器,再用每张图与测试样本的"对齐不确定性"当权重做加权集成,在 BLT、CMNIST 等强分布偏移数据集上拿到 SOTA。

MaskDiME: Adaptive Masked Diffusion for Precise and Efficient Visual Counterfactual Explanations

提出 MaskDiME,一个免训练的扩散框架,通过自适应双掩码机制将全局分类器引导转化为决策驱动的局部编辑,实现精确高效的视觉反事实解释,推理速度比 DiME 快 30 倍以上,GPU 内存仅为 ACE/RCSB 的十分之一。

Retrieving Counterfactuals Improves Visual In-Context Learning

提出 CIRCLES 框架,通过属性引导的 composed image retrieval 检索反事实示例,构建因果+相关性双通道 in-context demonstration,显著提升 VLM 的细粒度视觉推理能力。


🩺 医疗 LLM (1)

Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data

提出 Difficulty-Influence Quadrant (DIQ) 数据选择策略,联合考量样本难度和梯度影响力,使 VLM 语言骨干仅用 1% 精选数据即可匹配全量 SFT 性能,10% 数据则可超越全量训练。


⚛️ 物理/科学计算 (2)

AviaSafe: A Physics-Informed Data-Driven Model for Aviation Safety-Critical Cloud Forecasts

AviaSafe 把"先用掩码定位云在哪、再回归云有多浓"的层级化思路和航空气象里验证多年的"结冰条件指数(IC)"嵌进一个 Swin Transformer 预报骨干里,第一次实现了全球、逐 6 小时、可分相态(冰/液/雨/雪)的云微物理量预报,在 93.7% 的变量-时效组合上优于 FuXi 基线,并在 7 天时效的关键背景变量上追平甚至超过业务级数值预报 ECMWF HRES。

Spatial-Spectral Residuals Informed Diffusion Neural Operator for Pan-sharpening

SRINO 把全色锐化的扩散去噪骨干从注意力换成 Galerkin 型神经算子(把生成过程搬到连续函数空间、显著省 FLOPs 和显存),再在每一步反向采样里直接把像素级的空间/光谱一致性残差当条件喂进去做闭环引导,在 WV3/GF2/QB 三个数据集上既超过现有 SOTA 又比注意力扩散省好几倍算力。


🧮 科学计算 (3)

Continuous Exposure-Time Modeling for Realistic Atmospheric Turbulence Synthesis

提出曝光时间依赖的调制传递函数(ET-MTF),将曝光时间建模为连续变量,构建了大规模合成湍流数据集 ET-Turb(5083视频、200万帧),显著提升湍流复原模型在真实数据上的泛化能力。

EHETM: High-Quality and Efficient Turbulence Mitigation with Events

提出EHETM,首次利用事件相机的微秒时间分辨率突破传统多帧湍流缓解(TM)方法的精度-效率瓶颈,发现两个关键物理现象——湍流诱导事件的极性交替与清晰梯度相关、动态物体形成时空相干"事件管"——设计极性加权梯度和事件管约束两个互补模块,数据开销降低77.3%、系统延迟降低89.5%,尤其在动态物体场景显著超越SOTA。

NESTOR: A Nested MOE-based Neural Operator for Large-Scale PDE Pre-Training

提出嵌套式 MoE 神经算子 NESTOR,通过 image-level MoE 捕获不同 PDE 类型的全局特征 + token-level Sub-MoE 捕获物理场内局部相关性,在 12 个 PDE 数据集上实现大规模预训练并有效迁移到下游任务。


🌍 地球科学 (2)

PhyOceanCast: Global Ocean Forecasting with Physics-Informed Diffusion

PhyOceanCast 把全球海洋预报建模成一个残差扩散问题,用球面图注意力网络(SGAN-MOC)解决"高纬投影畸变 + 变量耦合"、用物理小波时序模块(PWTC)解决"多尺度动力学 + 守恒约束",一次预报 145 个海洋变量、36 个深度层,30 天预报 RMSE 相对最优 baseline 降低约 13.7%。

SIGMA: A Physics-Based Benchmark for Gas Chimney Understanding in Seismic Images

本文提出首个带真值标注的物理合成地震图像数据集 SIGMA——用波动方程正演+逆时偏移把含气烟囱的速度模型转成地震图像,同时给出像素级气烟囱掩码(用于检测)和"退化—干净"配对图(用于增强),并在两类任务上 benchmark 多个基线,揭示现有方法在该数据上集体吃力。


📡 信号/通信 (2)

AcTTA: Rethinking Test-Time Adaptation via Dynamic Activation

本文提出 AcTTA,一种基于动态激活函数调制的测试时自适应框架,通过将传统固定激活函数重参数化为可学习形式(包含激活中心偏移和非对称梯度斜率),在推理时自适应调整激活行为以应对分布偏移,在 CIFAR10-C/CIFAR100-C/ImageNet-C 上一致超越基于归一化层的 TTA 方法。

CLAY: Conditional Visual Similarity Modulation in Vision-Language Embedding Space

CLAY 提出免训练的条件视觉相似度计算方法,通过在 VLM 嵌入空间中构建文本条件子空间来调制相似度,无需重新计算数据库特征即可适应不同检索条件,并支持多条件检索。


👥 社会计算 (3)

Bridging Pixels and Words: Mask-Aware Local Semantic Fusion for Multimodal Media Verification

提出 MaLSF 框架,利用掩码-标签对作为语义锚点,通过双向跨模态验证(BCV)和层级语义聚合(HSA)模块实现主动式局部语义冲突检测,在 DGM4 和假新闻检测任务上取得 SOTA。

Instance-level Visual Active Tracking with Occlusion-Aware Planning

OA-VAT 用一张参考图离线构建判别性"实例原型"来对抗相似干扰物,在线 EMA 增强原型 + 置信度自适应卡尔曼滤波保持稳定跟踪,并训练一个以目标框为条件的扩散轨迹规划器在目标被遮挡时主动绕障找回——在 UnrealCV 上平均 SR 0.93、真实图像平均 CAR 90.8%、真机无人机 TSR 81.6%,且 RTX 3090 上 35 FPS 实时。

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

提出 E2OAL,一个无需额外检测器的开放集主动学习框架,通过标签引导聚类发现未知类潜在结构、Dirichlet 校准辅助头联合建模已知/未知类别,并设计两阶段自适应查询策略,在多个基准上同时实现高准确率、高查询纯度和高训练效率。