跳转至

📷 CVPR2025 论文汇总

1818篇CVPR2025论文解读,涵盖 3D 视觉(364篇)、图像生成(305篇)、多模态 VLM(136篇)、语义分割(94篇)、自动驾驶(89篇)、视频生成(84篇)、医学图像(78篇)、人体理解(73篇)等 47个方向。每篇含一句话总结、核心思想、方法详解、实验结果与局限性分析,5分钟读懂一篇论文核心思想。


💡 LLM Reasoning (7)

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

Argus 提出了一种grounded visual CoT机制,通过让MLLM先预测与问题相关的bounding box(RoI),然后重新采样/编码该区域的视觉token作为推理上下文,实现了显式的目标导向视觉注意力,在7B/8B级MLLM中取得视觉推理和目标grounding双料SOTA。

Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation

AoTD 用 LLM agent 将复杂视频问题分解为子任务、调用专家视觉模型执行并收集中间结果作为推理链(CoT),经 LLM 质量过滤后蒸馏到 Video-LLM 中,让端到端模型同时获得准确答案和可解释的多步推理能力。

Interleaved-Modal Chain-of-Thought

提出交错模态思维链(ICoT),在推理步骤中穿插图像区域 crop 作为视觉 rationale,通过无参数的 Attention-driven Selection(ADS)从输入图像中智能选取关键区域插入生成序列,在 Chameleon 和 Qwen2-VL 上相比现有多模态 CoT 提升高达 14%。

Learning-enabled Polynomial Lyapunov Function Synthesis via High-Accuracy Counterexample-Guided Framework

提出一种学习与验证结合的多项式 Lyapunov 函数合成方法,通过数据驱动的机器学习引导多项式形式选择,并利用高精度反例引导框架迭代优化,在灵活性和数学严格性之间取得平衡。

Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval

本文提出OSrCIR,一种免训练的单阶段零样本组合图像检索方法,利用多模态大语言模型直接处理参考图像和修改文本,并通过反思式链式思维推理准确理解用户隐含意图,在多个基准上比现有免训练方法提升1.80%~6.44%。

Style Evolving along Chain-of-Thought for Unknown-Domain Object Detection

提出 Chain-of-Thought 引导的风格演化方法(CGSE),通过词→短语→句子三级渐进式风格描述生成,结合特征解耦和类别原型聚类,在五种恶劣天气场景和 Real-to-Art 基准上实现了显著的域泛化检测性能提升。

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

VideoEspresso 构建了一个20万+的大规模视频CoT推理数据集(包含空间bounding box和时间grounding标注),并提出VideoQA-SC混合框架——用1.5B轻量级模型选择平均2.36个核心帧,再用8B推理模型进行两阶段证据提取+答案生成,以仅1.8%的帧数和14.7%的计算量超越了GPT-4o和所有开源LVLM。


🦾 LLM Agent (9)

ATA: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Generation

提出 ATA(Adaptive Transformation Agent)框架,在文本引导的背景生成中实现对主体位置和姿态的精确控制,通过自适应变换模块动态调整主体在背景中的放置,兼顾视觉一致性和语义合理性。

Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

提出 Feature4X,一个通用框架,从任意单目视频通过动态优化策略将多种 2D 视觉基础模型(SAM2、InternVideo2 等)的功能蒸馏到统一的 4D 高斯特征场中,首次实现基于 Gaussian Splatting 的视频基础模型 4D 特征提升,支持新视角下的 segment anything、几何/外观编辑和自由形式 VQA。

GUI-Xplore: Empowering Generalizable GUI Agents with One Exploration

提出 GUI-Xplore 数据集(312 个应用、32K+ QA 对、五层级任务)和 Xplore-Agent 框架(Action-aware GUI 建模 + GUI Transition Graph 推理),通过模拟"先探索再推理"的人类策略,在陌生应用上比 SOTA GUI Agent 提升约 10% StepSR。

RL-RC-DoT: A Block-level RL Agent for Task-Aware Video Compression

提出 RL-RC-DoT,一个基于强化学习的宏块级量化参数(QP)控制 agent,用于任务感知视频压缩。通过将 QP 选择建模为 RL 的顺序决策问题,agent 学习在给定码率约束下为任务相关区域分配更多码率,在车辆检测和 ROI 显著性编码两个任务上显著提升性能。关键优势在于推理时不需要运行下游任务模型,适合边缘设备部署。

SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation

提出 SceneAssistant,一个基于视觉反馈的闭环 agentic 框架,通过为 VLM 设计一套功能完备的 Action API(13个原子操作覆盖物体增删、6DoF空间操作、相机控制),让 VLM 以 ReAct 范式迭代生成开放词汇的 3D 场景,在室内(偏好率61.25%)和开放域(偏好率65.00%)场景中均大幅优于 Holodeck 和 SceneWeaver。

Sketchtopia: A Dataset and Foundational Agents for Benchmarking Asynchronous Multimodal Communication with Iconic Feedback

提出 Sketchtopia 大规模数据集(20K+ 游戏会话、263K 草图、916 名玩家)和三组件 Agent 框架(ActionDecider + DRAWBOT + GUESSBOT),在 Pictionary 场景下研究异步、目标驱动的多模态协作通信,引入 AAO/FRS/MATS 三个新评估指标。

SpiritSight Agent: Advanced GUI Agent with One Look

提出 SpiritSight,一个基于视觉的端到端 GUI agent,通过 573 万样本的多层级数据集 GUI-Lasagne 和 Universal Block Parsing (UBP) 方法解决动态高分辨率输入的定位歧义,SpiritSight-8B 在 Multimodal-Mind2Web 上非候选元素设置下 Step SR 达 52.7%,全面超越所有视觉/语言/混合方法。

TANGO: Training-free Embodied AI Agents for Open-world Tasks

提出 TANGO,通过 LLM 的程序组合能力编排两个最小化的导航基础原语(PointGoal Navigation + 记忆驱动探索策略),无需任何任务特定训练,仅用 few-shot 示例即可在 Open-Set ObjectGoal Navigation、Multi-Modal Lifelong Navigation 和 Open Embodied QA 三个不同的具身 AI 任务上达到 SOTA,体现了"最小原语集 + LLM 组合"的通用性。

Visual Agentic AI for Spatial Reasoning with a Dynamic API

提出 VADAR,一种 agentic 程序合成方法用于 3D 空间推理。多个 LLM agent 协作生成 Pythonic API 并在求解过程中动态扩展新函数来解决常见子问题,克服了 VisProg/ViperGPT 等先前方法依赖静态人工定义 API 的局限。同时引入涉及多步空间定位和推理的新 benchmark,在 3D 理解任务上超越现有零样本方法。


⚖️ 对齐 / RLHF (5)

Bases of Steerable Kernels for Equivariant CNNs: From 2D Rotations to the Lorentz Group

提出一种求解可转向等变 CNN 核约束方程的替代方法,通过在不动点处求解更简单的不变性条件再"转向"到任意点,绕过了计算 Clebsch-Gordan 系数的需要,为 SO(2)、O(2)、SO(3)、O(3) 及 Lorentz 群给出了显式的核基底公式。

CAD-Llama: Leveraging Large Language Models for Computer-Aided Design Parametric 3D Model Generation

本文提出 CAD-Llama 框架,通过层次化标注管线将 3D CAD 模型转化为富含语义描述的 Python 风格代码(SPCC),再用自适应预训练和指令微调将 LLaMA3-8B 转化为参数化 CAD 模型生成器,在 text-to-CAD 任务上精度超出先前方法约 14%,并支持补全、添加、删除等多种 CAD 编辑任务。

Continual SFT Matches Multimodal RLHF with Negative Supervision

通过梯度分析发现多模态 RLHF 相比持续 SFT 的核心优势在于 rejected response 中的负监督信号,据此提出 nSFT 方法,用 LLM 从拒绝回复中提取错误信息并构造纠正性对话数据,仅用 SFT loss 就能匹配甚至超越 DPO/PPO 等 RLHF 方法,且只需 1 个模型,显存效率大幅提升。

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-Modal LLMs?

探讨多模态大语言模型安全对齐是否真正需要精心策划的恶意数据,发现利用现有良性数据并结合简单的安全微调策略即可实现有效的安全对齐,大幅降低了安全对齐的数据成本。

Jailbreaking the Non-Transferable Barrier via Test-Time Data Disguising

提出 JailNTL,首个针对 Non-Transferable Learning (NTL) 模型的黑盒攻击方法,通过测试时数据伪装将未授权域的数据"变装"为授权域的数据,仅用 1% 授权样本即可将未授权域准确率提升最高 55.7%,无需修改模型。


🔒 LLM 安全 (14)

A Closed-Form Solution for Debiasing Vision-Language Models with Utility Guarantees Across Modalities and Tasks

提出一个 training-free、data-free 的 VLM 去偏方法,通过在 cross-modal 空间中推导闭式解,实现 Pareto-optimal 的公平性与效用保持,在零样本分类、text-to-image 检索和生成三个下游任务中全面超越已有方法。

Dual Consolidation for Pre-Trained Model-Based Domain-Incremental Learning

提出Duct方法,通过表征合并(累加任务向量构建统一嵌入空间)和分类器合并(利用类别语义信息通过最优传输估计旧域分类器权重),在预训练模型基础上实现无样本存储的域增量学习,在四个基准上以1~7%的优势超越SOTA。

LLM4SVG: Empowering LLMs to Understand and Generate Complex Vector Graphics

提出 LLM4SVG 框架,通过定义 55 个可学习的 SVG 语义 token 替代原始 XML 标签,结合 250K 高质量 SVG 和 580K 指令数据的 SVGX-SFT 数据集进行两阶段指令微调,使 GPT-2、Phi-2、Falcon 等开源 LLM 能高质量理解和生成复杂矢量图形,GPT-2 XL 版本达 FID 64.11、CLIPScore 0.3496,大幅超越 GPT-4o(127.78 FID)和所有现有 SVG 生成方法。

ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models

发现语义驱动的视觉 token 剪枝会丢弃 forensic 证据(篡改痕迹在低显著性区域),提出 ForensicZip 用 Birth-Death 最优传输量化帧间物理不连续性 + 高频先验保留取证信号,在 10% token 保留率下实现 2.97x 加速、90%+ FLOPs 降低且性能不降。

Hyperbolic Safety-Aware Vision-Language Models

HySAC 提出在双曲空间中构建安全感知的视觉语言模型,通过蕴含锥(entailment cone)将安全/不安全内容映射到双曲空间的不同区域(安全内容靠近原点、不安全内容远离原点),使模型具备安全内容分类和动态重定向能力,在检索安全性和NSFW检测上显著超越现有遗忘方法。

LoTUS: Large-Scale Machine Unlearning with a Taste of Uncertainty

提出 LoTUS,用 logits 温度调节+Gumbel-Softmax 平滑遗忘样本的预测,通过动态温度调度收敛到"遗忘集准确率=未见集准确率"的目标——在 ImageNet-1K 大规模设置中高效遗忘(ViT 上 Avg Gap 0.0150),且提出 RF-JSD 免重训评估指标(与 JSD Pearson 相关 0.92)。

Low-Rank Adaptation in Multilinear Operator Networks for Security-Preserving Incremental Learning

针对全同态加密(Leveled FHE)场景下多线性算子网络的灾难性遗忘问题,提出了一种结合低秩适应(LoRA)和梯度投影记忆(GPM)机制的增量学习方法,在保障数据安全的前提下实现持续学习。

MP-GUI: Modality Perception with MLLMs for GUI Understanding

MP-GUI设计了三个专用感知器分别提取GUI中的图形、文本和空间模态信息,通过空间结构精炼策略和自适应融合门控将三种模态组合,在有限训练数据下在多种GUI理解任务上取得了优于通用MLLM的表现。

Neural Gate: Mitigating Privacy Risks in LVLMs via Neuron-Level Gradient Gating

Neural Gate 发现 LVLM 中隐私相关神经元具有强跨样本不一致性——仅约 10% 的神经元一致性编码隐私信号。基于此发现,提出神经元级梯度门控编辑:仅对强一致性隐私神经元施加梯度更新,在 MiniGPT 上将 Safety EtA 从 0.48 提升至 0.89,同时 Utility 保持不降。

Protecting Your Video Content: Disrupting Automated Video-Based LLM Annotations

本文提出两类对抗性视频水印方法——Ramblings(诱导视频 LLM 生成错误描述)和 Mutes(诱导视频 LLM 生成极短或空描述),通过不可感知的对抗扰动保护个人视频免受未经授权的自动化标注,并验证了这些低质量标注会降低下游文本到视频生成模型的性能。

查看全部14篇「LLM 安全」论文 →


👻 幻觉检测 (9)

3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

构建了3D-GRAND——首个百万级密集接地的3D场景-语言数据集(40K场景、6.2M指令),并提出3D-POPE幻觉评估基准,证明密集接地的指令微调能显著提升3D-LLM的接地能力并减少幻觉,还展示了合成数据到真实场景的迁移效果。

Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception

提出Antidote——合成数据驱动的统一后训练框架,通过将事实先验注入提示实现模型自校正,将幻觉缓解解耦为偏好优化问题,在LLaVA系列上CP-Bench提升超50%,POPE提升1.8-3.3%,CHAIR/SHR降低30-50%,且无灾难性遗忘。

HalLoc: Token-Level Localization of Hallucinations for Vision Language Models

提出HalLoc,一个15.5万样本、覆盖VQA/指令跟随/图像描述三类任务的token级幻觉标注数据集,并基于此训练了轻量级幻觉检测模型HalLocalizer,可在不影响效率的前提下即插即用地集成到现有VLM中实现实时概率化幻觉检测。

Octopus: Alleviating Hallucination via Dynamic Contrastive Decoding

本文通过大量实验揭示了 LVLM 幻觉成因的混合性——不同样本和不同生成步骤面临不同类型的幻觉挑战,据此提出 Octopus 框架,利用可学习的 decision token 和 transformer block 在每个生成步自适应选择最合适的对比解码(CD)策略,通过 DPO 优化,在四个基准上全面超越现有 CD 方法。

ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models

本文提出 ODE(Open-set Dynamic Evaluation)协议,通过图结构建模现实世界物体概念及其分布关联,从中动态提取概念组合并生成合成测试图像,实现了开放集、持续更新的多模态幻觉评估,有效避免了现有静态基准可能存在的数据污染问题。

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

提出首个统一的训练无关MLLM幻觉缓解框架,围绕vision token的双重角色——增强(SVC)与抑制(CRC)——在隐表示层协同操作,在LLaVA-1.5上POPE准确率提升约2%,仅增加1.06×推理延迟。

PhD: A ChatGPT-Prompted Visual Hallucination Evaluation Dataset

本文提出 PhD,一个 ChatGPT 辅助构建的大规模视觉幻觉评估数据集,包含 14K+ 日常图片、750 张反常识图片和 102K VQA 三元组,通过 4 种评估模式×5 种视觉任务系统化评估多模态大语言模型的幻觉问题,在规模和挑战性上远超现有基准。

Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding

提出 FarSight,一种即插即用的无训练解码策略,通过在因果掩码的上三角矩阵中引入注意力寄存器来吸收异常 token 的过度注意力,并设计递减掩蔽率的位置感知编码增强远距离视觉 token 的信息传播,有效缓解多模态大模型中的初始幻觉和雪球幻觉。

Stop Learning It All to Mitigate Visual Hallucination, Focus on the Hallucination Target

提出TL-DPO(Target-Learning DPO),将传统DPO的全句级偏好学习限制到幻觉发生的目标chunk对应的图像区域,通过目标生成损失和目标条件损失排除无关信号,在LLaVA-1.5上将CHAIR_s从66.8降至20.1,同时LLaVA-Bench从63.4提升至71.2。


⚡ LLM 效率 (5)

Associative Transformer

提出 Associative Transformer (AiT),通过在 Transformer 中引入可学习的显式记忆模块和 Hopfield 网络进行 token 重建,以更少的参数实现优于 ViT 的分类和关系推理性能。

Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks

提出一种从预训练 ViT 中自动提取 MoE(Mixture-of-Experts)变体的方法:先聚类 MLP 层的输出激活模式,再据此抽取对应的子网络作为专家,无需从头训练 MoE,在 ImageNet-1k 上仅需少量微调即可恢复 98% 原始性能,同时将 FLOPs 和模型大小分别减少 36% 和 32%。

LOCORE: Image Re-ranking with Long-Context Sequence Modeling

提出 LoCoRe(Long-Context Re-ranker),首次实现基于局部描述子的列表级(list-wise)图像重排序,利用 Longformer 长上下文序列模型同时处理查询图像和整个候选列表的局部描述子,通过捕获候选图像间的传递关系显著提升重排序性能。

Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks

提出一种从预训练 ViT 中提取 MoE 变体的后训练方法,通过 HDBSCAN 聚类 MLP 隐层激活模式自动发现专家结构,无需重新训练即可在 ImageNet-1k 上减少 36% MACs 和 32% 参数的同时保留 98% 原始精度。

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

本文提出 Spatial-TTT,通过测试时训练(TTT)机制将模型的部分参数(快速权重)作为紧凑非线性记忆,配合混合架构和空间预测机制,从无界视频流中持续积累和组织3D空间证据,在视频空间理解基准上达到 SOTA。


📚 预训练 (15)

A Unified Framework for Heterogeneous Semi-supervised Learning

提出异构半监督学习(HSSL)新问题设定——标记数据和无标记数据来自不同分布的域,目标是训练能在两个域上都泛化的模型;通过将C类问题扩展为2C类分类(每个域的同一语义类视为不同类),结合WMA伪标签、跨域原型对齐和渐进式跨域Mixup三个组件统一解决。

AMO Sampler: Enhancing Text Rendering with Overshooting

提出AMO(Attention-Modulated Overshooting)采样器,一种无需训练的推理时增强方法,通过在rectified flow模型的采样过程中引入过冲-噪声补偿的Langevin动力学校正,并利用文本-图像交叉注意力分数自适应控制过冲强度,显著提升文本渲染的准确率,同时保持生成图像的整体质量。

Bridging the Vision-Brain Gap with an Uncertainty-Aware Blur Prior

首次提出"系统差距"(System GAP)和"随机差距"(Random GAP)的概念来描述脑信号与视觉刺激之间的信息不匹配,通过不确定性感知的模糊先验(UBP)动态调整图像模糊程度来缓解训练中的过拟合,在 200-way 零样本脑-图像检索任务上实现 50.9% top-1 准确率,超越前 SOTA 13.7 个百分点。

ConText-CIR: Learning from Concepts in Text for Composed Image Retrieval

提出 ConText-CIR 框架,通过 Text Concept-Consistency 损失让文本修改中的名词短语更好地关注查询图像的相关部分,配合合成数据生成管线,在多个 CIR 基准上取得 SOTA。

DreamText: High Fidelity Scene Text Synthesis

DreamText重构扩散模型训练流程,引入字符级别的均衡监督(balanced supervision)和启发式交替优化策略来校正字符注意力,结合文本编码器与生成器的联合训练学习多样化字体风格,在场景文字合成任务上大幅超越SOTA方法(SeqAcc从UDiffText的0.763提升至0.940)。

Exploration-Driven Generative Interactive Environments

开源实现 Genie 世界模型(GenieRedux),增加真实动作条件、Token 距离交叉熵(TDCE)损失和 token 跳连得到 GenieRedux-G,并提出 AutoExplore 探索智能体用世界模型的 token 预测不确定性作为内在奖励驱动多样数据收集,将仿真质量提升高达 7.4 PSNR。

Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction

提出 IAR,通过平衡 K-means 重排 VQGAN 码本使相似 embedding 具有相邻索引,配合簇导向交叉熵损失引导模型正确预测目标 token 所在的语义簇,在 LlamaGen 100M-1.4B 各规模上将训练时间减半且提升生成质量。

Influence Malleability in Linearized Attention: Dual Implications of Non-Convergent NTK Dynamics

通过 NTK 框架揭示线性化注意力机制不会收敛到无穷宽 NTK 极限(谱放大效应使 Gram 矩阵条件数立方化,需宽度 \(m = \Omega(\kappa^6)\)),并引入「影响可塑性」概念量化这一非收敛的双面后果:注意力比 ReLU 网络高 6-9 倍的可塑性既增强了任务适配能力,也加剧了对抗脆弱性。

MR-PLIP: Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation

提出 MR-PLIP,首个多分辨率病理学视觉语言预训练模型,在 TCGA 数据集的 3400 万张多分辨率图文对上预训练,通过跨分辨率视觉-文本对齐和文本引导视觉表示,在 26 个数据集上超越 SOTA。

PlanarSplatting: Accurate Planar Surface Reconstruction in 3 Minutes

本文提出 PlanarSplatting,通过直接优化可学习的 3D 矩形平面基元,利用新设计的矩形 splatting 函数将平面可微地渲染为深度和法线图,仅需 3 分钟即可从多视角图像重建精确的室内平面场景,无需任何平面标注。

查看全部15篇「预训练」论文 →


💬 LLM 其他 (15)

Building Vision Models upon Heat Conduction

提出 vHeat 视觉 backbone,将图像 patch 建模为热源,利用物理热传导方程通过 DCT/IDCT 变换实现 \(O(N^{1.5})\) 复杂度的信息传播,在 ImageNet-1K 上以 3 倍吞吐量和 80% 更少 GPU 显存达到 84.0% top-1 准确率。

Chat-based Person Retrieval via Dialogue-Refined Cross-Modal Alignment

本文提出基于对话的行人检索(ChatPR)新范式,构建了首个对话-图像配对数据集ChatPedes,并设计了DiaNA框架通过自适应属性精炼器实现对话与图像间的细粒度跨模态对齐,显著优于传统单句文本检索方法。

ComRoPE: Scalable and Robust Rotary Position Embedding Parameterized by Trainable Commuting Angle Matrices

本文提出ComRoPE,通过将RoPE推广为由可训练交换角矩阵参数化的旋转位置编码,理论证明了角矩阵的成对交换性是RoPE满足相对位置依赖性的充要条件,在ImageNet-1K上比SOTA方法LieRE提升1.6%(训练分辨率)和2.9%(更高分辨率)。

Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders

提出 Dora-VAE,通过 Sharp Edge Sampling (SES) 关注几何锐边区域、Dual Cross-Attention 分别处理均匀和显著采样点,以仅 1,280 个 latent codes(8× 小于 XCube-VAE 的 10,000+)实现更优的 3D 形状重建质量,同时建立了新的 Dora-Bench 评测基准。

Exposure-slot: Exposure-centric Representations Learning with Slot-in-Slot Attention

本文提出Exposure-slot框架,将Slot Attention算法扩展为层次化的slot-in-slot结构,通过可学习的曝光prompt引导特征聚类,实现以曝光为中心的区域感知表征学习,在欠曝/过曝图像矫正任务上取得SOTA性能。

Imagine and Seek: Improving Composed Image Retrieval with an Imagined Proxy

提出IP-CIR方法,通过大语言模型生成"想象中的目标图像描述"作为代理,将组合图像检索(CIR)转化为标准图像检索问题,在CIRR和FashionIQ等基准上达到零样本SOTA。

Learning Textual Prompts for Open-World Semi-Supervised Learning

本文提出了一种针对开放世界半监督学习(OWSSL)的新方法,通过全局-局部文本提示学习策略增强图文对齐效果,并设计前向-反向策略降低无标签样本中图文匹配的噪声,在多个细粒度数据集上显著超越SOTA。

Making Old Film Great Again: Degradation-aware State Space Model for Old Film Restoration

本文提出MambaOFR框架,针对老电影特有的复合退化问题,设计退化感知prompt引导Mamba模型动态调整修复模式,配合光流引导的掩码变形对齐模块防止结构缺陷传播,并引入首个包含合成与真实数据的老电影修复benchmark数据集。

MG-MotionLLM: A Unified Framework for Motion Comprehension and Generation across Multiple Granularities

MG-MotionLLM 提出了一个统一的多粒度动作-语言模型,通过 Motion VQ-VAE + T5 语言模型的架构和精心设计的多粒度协同预训练方案(含 28 种任务),同时支持粗粒度和细粒度的动作理解与生成,在经典任务上达到 SOTA 的同时开启了细粒度动作编辑等新应用。

Rethinking Spiking Self-Attention Mechanism: Implementing a-XNOR Similarity Calculation in Spiking Transformers

本文深入分析了点积在脉冲查询-键对中因大量"非脉冲事件"导致相似度度量失效的根本原因,提出专为脉冲序列设计的a-XNOR相似度度量,将非脉冲对的相关性重定义为特定值a,在多种脉冲Transformer架构和数据集上显著提升性能。

查看全部15篇「LLM 其他」论文 →


🎨 图像生成 (305)

3DTopia-XL: Scaling High-Quality 3D Asset Generation via Primitive Diffusion

提出基于新型原语表示PrimX和Diffusion Transformer的原生3D生成模型3DTopia-XL,能从文本或图像输入生成带有高分辨率几何、纹理和PBR材质的高质量3D资产,在质量和效率上显著超越现有方法。

A Bias-Free Training Paradigm for More General AI-generated Image Detection

提出B-Free训练范式——通过stable diffusion的自条件重构从真实图像生成语义对齐的假图,结合inpainting内容增强,消除格式/内容/分辨率等偏差,使检测器聚焦于生成器特有的伪影痕迹,在27种生成模型(含FLUX、SD 3.5等最新模型)上泛化AUC>99%,balanced accuracy达95.2%。

A Comprehensive Study of Decoder-Only LLMs for Text-to-Image Generation

系统研究了使用decoder-only LLM作为文本到图像扩散模型文本编码器的效果,发现直接使用最后一层embedding效果差于T5,但通过层归一化平均(layer-normalized averaging)聚合所有层的embedding可显著超越T5基线。

Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization

本文提出 Step-by-step Preference Optimization(SPO),在每个去噪步中从同一噪声潜变量采样多个候选,用 step-aware 偏好模型选择 win/lose 对来指导扩散模型微调,从通用偏好数据中隐式蒸馏美学信息,在 SD-1.5 和 SDXL 上显著提升美学质量且收敛速度远快于 DPO。

HOI-IDiff: An Image-like Diffusion Method for Human-Object Interaction Detection

AniDoc: Animation Creation Made Easier

AniMer: Animal Pose and Shape Estimation Using Family Aware Transformer

本文提出 AniMer,首次将高容量 ViT 骨干引入四足动物 SMAL 参数估计,通过动物科级监督对比学习区分不同物种的形状分布,配合基于 ControlNet 的合成数据集 CtrlAni3D(10k图像),在 Animal3D/CtrlAni3D/跨域 Animal Kingdom 上全面超越现有方法。

SPAI: Any-Resolution AI-Generated Image Detection by Spectral Learning

提出 SPAI,通过掩码频谱学习(Masked Spectral Learning)建模真实图像的频率分布,引入频谱重建相似度(SRS)和频谱上下文注意力(SCA)检测 AI 生成图像作为分布外样本,在 13 种生成模型上平均 AUC 达 91.0%,比次优方法绝对提升 5.5%,且支持任意分辨率图像检测。

Arbitrary-Steps Image Super-Resolution via Diffusion Inversion

本文提出InvSR,通过训练一个噪声预测网络来实现扩散反演(Diffusion Inversion),利用预训练扩散模型的图像先验进行超分辨率,支持1-5步任意步数采样,即使单步采样也能达到或超过现有SOTA方法的效果。

ArtiFade: Learning to Generate High-quality Subject from Blemished Images

本文提出ArtiFade,首个解决"瑕疵主题驱动生成"问题的方法,通过构建瑕疵-无瑕疵配对数据集、部分微调扩散模型的cross-attention权重并优化artifact-free embedding,使得现有主题驱动方法(Textual Inversion、DreamBooth)能从带水印/贴纸/对抗噪声等瑕疵的图像中生成高质量无伪影的主题图像。

查看全部305篇「图像生成」论文 →


🎬 视频生成 (84)

4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion

提出4Real-Video,一种基于双流架构的4D视频生成框架,通过将视频token分为时间流和视角流并行处理,引入hard/soft同步层协调两流信息,约1分钟即可生成8×8的高质量时空视频网格,在视觉质量和多视角一致性上超越现有方法。

AnimateAnything: Consistent and Controllable Animation for Video Generation

提出两阶段可控视频生成框架:第一阶段将不同控制信号(相机轨迹、用户拖拽标注、参考视频)统一转化为逐帧光流表示,第二阶段用统一光流引导基于DiT的视频扩散模型生成最终视频,并引入频域稳定模块抑制大运动下的闪烁问题。

Articulated Kinematics Distillation from Video Diffusion Models

本文提出AKD框架,通过骨骼关节参数化将3D资产的运动自由度从全空间降维到少量关节角度,再利用视频扩散模型(CogVideoX)的SDS梯度蒸馏出文本对齐的关节运动序列,并可通过物理仿真进一步确保物理合理性。

BF-STVSR: B-Splines and Fourier—Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution

提出 BF-STVSR 框架,用 B-spline Mapper 建模时间运动插值、Fourier Mapper 捕获空间高频细节,无需外部光流网络即可实现连续时空视频超分辨率的 SOTA 性能。

Can Text-to-Video Generation Help Video-Language Alignment?

提出 SynViTA 框架探索文本到视频生成模型产生的合成视频能否改善视频-语言对齐(VLA),通过基于对齐质量的样本加权和语义一致性正则化解决合成视频的语义不一致和外观偏差问题,在时序挑战性任务上提升 4+ 个点。

ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer

ConMo提出了一种零样本运动迁移框架,通过将参考视频中的复合运动解耦为独立的主体运动和背景(相机)运动,再在目标视频生成时可控地重组这些运动,实现了多主体运动迁移、语义/形状变换、主体去除、相机运动模拟等多种应用,在运动保真度和文本对齐上显著超越现有方法。

Dynamic Camera Poses and Where to Find Them

提出DynPose-100K——一个包含10万个动态互联网视频及其相机位姿标注的大规模数据集,通过专用模型组合+VLM的视频过滤管线和集成最新点跟踪+动态掩码+全局BA的位姿估计管线实现。

DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

提出 DynamicScaler,一个无需训练的统一框架,通过偏移移位去噪器和全局运动引导,实现任意分辨率/宽高比的全景动态场景生成,支持 360° 视场、长时长和可循环视频。

DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

DynamicScaler 提出了一个无需微调的统一框架,通过偏移移位去噪器(OSD)和全局运动引导(GMG)实现任意分辨率/宽高比的全景动态场景合成,支持常规全景和 360° 视野视频生成,同时保持恒定 VRAM 消耗。

Exploring Temporally-Aware Features for Point Tracking

提出 Chrono,一个为点跟踪设计的时序感知特征骨干网络,通过在 DINOv2 的 Transformer 块间插入时序适配器(2D 卷积下采样 + 1D 局部时序注意力 + 2D 卷积上采样),仅通过简单的特征匹配(soft-argmax)即可在无精炼器设定下达到 SOTA 表现。

查看全部84篇「视频生成」论文 →


🧩 多模态 VLM (136)

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

提出4D LangSplat,通过多模态大语言模型生成逐物体视频caption来构建4D语言场,结合状态可变形网络建模语义的时间连续演变,首次实现动态场景中时间敏感和时间无关的开放词汇查询。

Active Data Curation Effectively Distills Large-Scale Multimodal Models

提出 ACID(主动数据筛选即隐式蒸馏)和 ACED(结合显式蒸馏),证明用大模型作为参考来主动筛选训练数据是一种比传统知识蒸馏更有效的多模态模型压缩方式,两者互补结合后在 27 个零样本任务上以更少推理 FLOPs 达到 SOTA。

ASAP: Advancing Semantic Alignment Promotes Multi-Modal Manipulation Detecting and Grounding

提出ASAP框架,通过大模型辅助对齐(LMA)、篡改引导交叉注意力(MGCA)和补丁篡改建模(PMM)三个核心模块,系统性地推进图文语义对齐以提升多模态篡改检测与定位性能——在DGM4基准上AUC达94.38%,文本定位F1达76.52%,显著超越现有方法。

ASAP: Advancing Semantic Alignment for Multi-Modal Manipulation Detection

Beyond Words: Augmenting Discriminative Richness via Diffusions in Unsupervised Prompt Learning

提出AiR(Augmenting discriminative Richness)方法,利用LoRA微调的Stable Diffusion生成合成图像构建辅助分类器,与文本分类器互补融合,将无监督prompt learning中的文本-图像匹配扩展为图像-图像匹配,显著提升细粒度/遥感等困难数据集上的分类准确率。

Calico: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models

提出 Calico——首个面向部件级语义共分割的大视觉语言模型,通过对应关系提取模块(CEM)和对应关系适配模块(CAM)在多图像间建立部件级语义对应,仅微调 0.3% 参数就在新构建的 MixedParts 基准上全面超越现有方法,mIoU 提升 6.3%、推理加速 51.3%。

Can Large Vision-Language Models Correct Semantic Grounding Errors By Themselves?

系统研究了VLM在语义定位任务中的自我纠错能力,发现内在自我纠错(无外部反馈)反而损害性能(-7至-17点),但通过同一VLM作为二值验证器提供反馈的迭代纠错最多可提升8.4个百分点,揭示了反馈质量是自我纠错的关键瓶颈。

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

通过 scaling 分析发现 STEM 视觉推理的真正瓶颈是感知而非推理,提出用可执行 Python 代码作为精确感知媒介——构建 ICC-1M 数据集(Image-Caption-Code 三元组)训练模型,在 STEM 感知基准上 CodePercept-8B 比 Qwen3-VL-8B 提升 +3.0%-12.3%。

CoLLM: A Large Language Model for Composed Image Retrieval

提出 CoLLM——利用大语言模型进行组合图像检索(CIR)的一站式框架,通过从图文对即时生成训练三元组、用 LLM 生成联合多模态嵌入,以及构建 340 万样本的 MTCIR 大规模数据集,在多个 CIR 基准上取得 SOTA 性能,MTCIR 最高带来 15% 的性能提升。

CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation

针对现有交错图文数据集(MMC4/OBELICS)叙事连贯性差、实体风格不一致的核心问题,构建 CoMM 数据集(227K 文档、2.28M 图片),通过定向采集指令型内容 + 三维质量过滤策略确保文本连贯、图像一致、图文对齐,并提出 4 个交错生成评测任务。

查看全部136篇「多模态 VLM」论文 →


🧠 VLM Reasoning (13)

Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation

提出 CRYSTAL benchmark(6372 实例),通过 Match F1 和 Ordered Match F1 两个指标在中间推理步骤层面评估 MLLM,揭示了普遍的 cherry-picking 行为和推理顺序混乱问题,并提出 CPR-Curriculum 训练策略改善推理质量。

Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Models

本文提出Coarse Correspondences,一种轻量级的training-free视觉提示方法,通过在图像帧上叠加目标跟踪得到的粗粒度实例对应关系标记,显著增强MLLM的空间时序推理能力,在ScanQA上提升+20.5%、OpenEQA上+9.7%、EgoSchema上+6.0%和R2R导航上+11%。

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

本文提出Critic-V框架,将VLM推理过程解耦为Reasoner(推理器)和Critic(评价器),通过DPO训练的Critic模型提供自然语言反馈迭代优化推理路径,在8个基准上的5个超越GPT-4V,数学推理任务提升尤为显著(MathVista +11.8%)。

Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents

提出 DocHaystack 和 InfoHaystack 两个大规模文档检索基准(每个问题对应 1000+ 文档),以及 V-RAG——一个视觉中心的检索增强生成框架,在 Recall@1 上比最佳基线提升 9%-11%。

ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

提出 Espire,一个基于仿真环境的具身空间推理诊断基准,将 VLM 评估分解为定位和执行两阶段,通过全生成式范式系统评估 VLM 在多种空间推理维度和粒度上的能力。

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

Insight-V 提出一个包含数据生成 pipeline 和多智能体推理系统的视觉推理增强方案:通过渐进式生成+多粒度评估构建高质量长链推理数据,设计推理Agent和总结Agent协作解题,配合迭代DPO进一步提升推理质量,在7个视觉推理基准上实现平均7%的提升。

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

MM-CondChain 是首个针对视觉基础深层组合推理的 MLLM 基准,通过可验证程序中间表示(VPIR)自动构建多层条件链和链式硬负样本,最强模型仅获 53.33 Path F1,揭示深层组合推理是根本挑战。

MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts

本文提出 MV-MATH 基准,包含 2,009 道高质量多图数学题(来自真实 K-12 场景),系统评估了 25 个多模态大模型在多图数学推理场景下的能力,发现所有模型远低于人类水平(最佳 Claude 仅 33.9%),揭示了多图数学推理仍是 MLLM 的重大挑战。

Reasoning over Video: Evaluating How MLLMs Extract, Integrate, and Reconstruct Spatiotemporal Evidence

提出 VAEX-Bench 基准,首次系统评估 MLLM 的"抽象时空推理"能力——不是从单帧提取信息,而是需要跨房间/跨时间整合观察来推断全局空间布局、跨场景计数等,发现所有 SOTA 模型(包括 GPT-5.2、Gemini-3 Pro)在抽象推理上表现远低于人类。

SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model

提出 Sequential 3D Affordance Reasoning 任务,构建180K指令-点云对基准,通过在3D MLLM中引入 <SEG> token 和多粒度语言-点云融合模块,从复杂人类指令中推理并分割出序列化的affordance区域。

查看全部13篇「VLM Reasoning」论文 →


⚡ VLM Efficiency (3)

COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection

MBQ: Modality-Balanced Quantization for Large Vision-Language Models

发现大型VLM中视觉token和语言token对量化误差的敏感度差异超过10倍,提出MBQ方法在量化校准过程中引入基于梯度的模态平衡因子,在W3A16和W4A8设置下分别提升精度最高4.4%和11.6%,并实现1.4倍端到端加速。

Quantization without Tears

提出 QwT(Quantization without Tears)方法,通过在量化网络的每个 block 后添加一个轻量级线性补偿层来弥补量化信息损失,该补偿层参数可通过闭式解在2分钟内求得,在视觉、语言、多模态等多种任务上均显著提升了 PTQ 精度。


🎵 音频/语音 (19)

Contextual AD Narration with Interleaved Multimodal Sequence

提出 Uni-AD 统一框架,以交错多模态序列(视频特征+文本+角色库+上下文)作为输入,通过视觉映射网络对齐特征 + 角色精化模块识别主要角色 + 对比损失增强上下文一致性,在 MAD-eval-Named 上达到 SOTA。

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

提出统一音视频场景理解模型 Crab,通过构建带显式推理过程的 AV-UIE 数据集(200K 样本)阐明跨任务协作关系,结合交互感知 LoRA(多头 LoRA)学习不同音视频交互模式,在多个任务上超越专用模型。

DistinctAD: Distinctive Audio Description Generation in Contexts

生成上下文中有区分度的音频描述(AD),避免生成泛化无特色的描述,通过对比学习鼓励与前后AD的差异性

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

提出 DualTalk——首个统一建模说话者和倾听者行为的多轮双人交互 3D 说话人头生成框架,配套构建了包含 50 小时、1000+ 身份的双人对话数据集。

EMoVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

提出 EMoVA,首个端到端的全模态 LLM,通过语义-声学解耦的语音 tokenizer 同时实现视觉理解、语音识别和情感可控的语音合成,在视觉语言基准上超越 GPT-4o,语音识别 WER 达 2.9%。

Enhancing Dance-to-Music Generation via Negative Conditioning Latent Diffusion Model

提出 PN-Diffusion,利用正向播放和反向播放的舞蹈视频分别提取正负节奏条件,设计双向扩散与反向过程来联合训练 U-Net,增强生成音乐与舞蹈动作的节奏一致性和音乐质量,在 AIST++ 和 TikTok 数据集上 BCS 提升 1.80/3.85、BHS 提升 4.22/5.90。

HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation

本文提出 HOP,一种基于异构拓扑的多模态纠缠方法,通过将音频作为桥梁,利用重编程模块对齐音频-文本语义、利用时空图网络对齐音频-动作节奏,实现更自然连贯的语音伴随手势生成,在 FGD、BC 和多样性指标上达到 SOTA。

Improving Sound Source Localization with Joint Slot Attention on Image and Audio

提出联合槽注意力机制将图像和音频同时分解为目标/非目标表示,通过跨模态注意力匹配和对比学习实现精确声源定位,在 Flickr-SoundNet 上达到 65.16% AUC、86.00% cIoU SOTA。

ImViD: Immersive Volumetric Videos for Enhanced VR Engagement

构建首个沉浸式体积视频数据集——用 46 台同步 GoPro 的移动多视角系统拍摄 7 个场景(含室内/室外),提出 STG++ 增加可学习仿射颜色变换解决跨相机颜色不一致,实现 110.47 FPS 渲染/387MB 存储,并集成 HRTF 空间音频。

Learning to Highlight Audio by Watching Movies

提出视觉引导的声学高亮任务(visually-guided acoustic highlighting),利用电影中精心制作的音视频数据作为免费监督,通过基于Transformer的多模态框架VisAH,将"混音不佳"的音频转换为视觉语义对齐的高亮音频,在所有指标上显著超越基线方法。

查看全部19篇「音频/语音」论文 →


🔎 AIGC 检测 (3)

Enhancing Few-Shot Class-Incremental Learning via Training-Free Bi-Level Modality Calibration

提出 BiMC(Bi-level Modality Calibration)框架,基于冻结 CLIP 模型,通过模态内校准(结合 LLM 生成的细粒度类别描述与视觉原型)和模态间校准(融合预训练语言知识与任务特定视觉先验),在无需任何参数训练的情况下实现 FSCIL SOTA,在 CIFAR-100 上超越最优对比方法 4.25%。

ProAPO: Progressively Automatic Prompt Optimization for Visual Classification

提出 ProAPO,一种基于进化算法的渐进式自动提示优化方法,在仅需 one-shot 监督且无需人工参与的条件下,从任务级模板逐步优化到类别级描述,解决 LLM 生成描述中的幻觉和缺乏区分度问题,在 13 个数据集上超越现有文本提示方法。

SGC-Net: Stratified Granular Comparison Network for Open-Vocabulary HOI Detection

提出分层粒度比较网络SGC-Net,通过粒度感知对齐(GSA)模块聚合CLIP多层视觉特征,并利用层级分组比较(HGC)模块借助LLM递归生成区分性描述,解决开放词汇HOI检测中的特征粒度不足和语义混淆问题。


🧊 3D 视觉 (364)

3D-GSW: 3D Gaussian Splatting for Robust Watermarking

提出3D-GSW,首个专为3D Gaussian Splatting设计的鲁棒数字水印方法,通过频率引导致密化(FGD)移除冗余高斯并在高频区域分裂高斯来增强鲁棒性,结合梯度掩码和小波子带损失保持渲染质量,在Blender/LLFF/Mip-NeRF 360数据集上同时实现了最优的水印鲁棒性和渲染质量。

3D-HGS: 3D Half-Gaussian Splatting

提出3D Half-Gaussian (3D-HGS)核函数——用一个分割平面将3D高斯分成两半,每半有独立不透明度,作为即插即用的重建核替换标准高斯核,在不牺牲渲染速度的前提下显著提升形状和颜色不连续处的渲染质量,在Mip-NeRF360/T&T/Deep Blending上全面超越所有SOTA方法。

3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint Transformer

提出3D-LLaVA,一个极简架构的通用3D大语言多模态模型,核心是Omni Superpoint Transformer (OST)作为多功能视觉连接器,同时充当视觉特征选择器、视觉提示编码器和分割掩码解码器,仅用点云输入就在ScanQA(92.6 CiDEr)、ScanRefer(43.3 mIoU)等5个基准上全面达到SOTA。

3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning

提出3D-Mem——基于"记忆快照"的3D场景记忆框架,用少量精选多视角图像紧凑表示已探索区域,结合Frontier Snapshot表示未探索区域,配合VLM实现高效的具身探索与推理。

3D-SLNR: A Super Lightweight Neural Representation for Large-scale 3D Mapping

提出 3D-SLNR,一种超轻量神经 3D 表示——基于锚定在点云支撑点上的带限局部 SDF 集合定义全局 SDF,每个局部 SDF 仅由一个共享的微型 MLP 参数化(无隐特征向量),通过可学习的位置/旋转/缩放几何属性调制 MLP 输出适应不同区域的复杂几何,配合并行查找算法和剪枝-扩展策略,以不到先前方法 1/5 的内存实现 SOTA 重建质量。

3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

用3D光滑凸体(Smooth Convex)替代高斯基元进行辐射场渲染,通过点集定义凸包+LogSumExp平滑化+自定义CUDA光栅化器,在T&T和Deep Blending上超越3DGS,且所需基元更少。

3D Dental Model Segmentation with Geometrical Boundary Preserving

提出 CrossTooth,通过基于曲率先验的选择性下采样(边界区域顶点密度提升 10-15%)和多视角渲染图像的跨模态边界特征融合,在 3DTeethSeg'22 公开数据集上实现 95.86% mIoU 和 82.05% boundary IoU,分别比之前 SOTA(ToothGroupNet)提升 2.3% 和 5.7%。

3D Gaussian Head Avatars with Expressive Dynamic Appearances by Compact Tensorial Representations

提出一种紧凑张量表示的3D高斯头部头像方法——用三平面存储中性表情的静态外观,用轻量1D特征线存储每个blendshape的动态纹理(不透明度偏移),仅需10MB存储即可实现300FPS实时渲染和准确的动态面部细节捕捉,在Nersemble数据集上PSNR和存储效率全面超越GA、GBS和GHA。

3D Gaussian Inpainting with Depth-Guided Cross-View Consistency

提出3DGIC,通过深度引导的跨视角一致修复框架实现3D高斯场景中的物体移除与修补——利用渲染深度图从其他视角发现被掩码区域中的可见背景像素来精化修补掩码,再用参考视角的2D修补结果通过3D投影约束其他视角的一致性,在SPIn-NeRF数据集上FID和LPIPS全面超越现有方法。

3D Student Splatting and Scooping (SSS)

提出SSS(Student Splatting and Scooping),用前所未有的三重创新改进3DGS范式:(1) 用Student-t分布替代高斯分布作为混合组件(可学习的尾部厚度,从Cauchy到Gaussian连续变化);(2) 引入负密度组件(scooping减去颜色)扩展到非单调混合模型;(3) 用SGHMC采样替代SGD解耦参数优化,在Mip-NeRF360/T&T/Deep Blending上6/9指标取得最优,且参数效率极高——用最少18%的组件数即可匹配或超越3DGS。

查看全部364篇「3D 视觉」论文 →


🎯 目标检测 (38)

AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP

提出 AA-CLIP,通过两阶段训练策略(先适配文本编码器建立异常感知锚点,再对齐 patch 级视觉特征),在保留 CLIP 泛化能力的前提下增强其异常判别力,仅需极少训练样本即可在工业和医学多个数据集上达到 SOTA 零样本异常检测性能。

ABRA: Teleporting Fine-Tuned Knowledge Across Domains for Open-Vocabulary Object Detection

提出 ABRA(Aligned Basis Relocation for Adaptation),通过在权重空间中进行 SVD 分解与正交旋转对齐,将源域的类别特定检测知识"传送"到无标注数据的目标域,实现零样本跨域目标检测。

AnomalyNCD: Towards Novel Anomaly Class Discovery in Industrial Scenarios

提出 AnomalyNCD,首个基于自监督的工业多类异常分类方法:MEBin 提取主要异常区域 → 掩码引导 ViT 聚焦弱语义异常 → 区域融合策略实现灵活的区域/图像级分类,MVTec AD 上 F1 提升 10.8%,NMI 提升 8.8%。

BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs

提出BACON提示方法,将VLM生成的冗长图像描述解构为物体、关系、风格、主题等解耦结构化元素(JSON字典格式),使下游模型无需强文本编码能力即可高效利用描述信息,在开放词汇目标检测中帮助GroundingDINO实现1.51倍的召回率提升。

Boosting Domain Incremental Learning: Selecting the Optimal Parameters Is All You Need

发现在域增量学习中选择最优参数子集比微调全部参数更有效,提出参数选择策略解决域增量目标检测的灾难性遗忘

DEIM: DETR with Improved Matching for Fast Convergence

通过两个简单改进加速 DETR 训练收敛——Dense O2O(用数据增强增加每图目标数实现稠密一对一匹配)和 MAL(替代 VFL 更好地优化低质量匹配),训练 epoch 减半同时性能提升(COCO AP 56.5 with D-FINE-X)。

Distribution Prototype Diffusion Learning for Open-set Supervised Anomaly Detection

提出DPDL方法,通过学习多高斯分布原型并用Schrödinger桥将正常样本扩散映射到原型空间(同时推开异常样本),结合超球空间上的离散特征学习增强泛化性,在9个公开异常检测数据集上取得SOTA(如AITEX上超越AHL 5.0%、ELPV上超越8.7%)。

Efficient Event-Based Object Detection: A Hybrid Neural Network with Spatial and Temporal Attention

提出首个面向大规模基准的混合 SNN-ANN 目标检测模型,设计注意力桥接模块(ASAB)将 SNN 的稀疏脉冲表示通过时空注意力转换为 ANN 可处理的密集特征,在 Gen1/Gen4 数据集上以仅 6.6M 参数大幅超越 SNN 方法并接近 ANN/RNN 方法的精度,同时 SNN 部分可部署在 Intel Loihi 2 神经形态芯片上实现低功耗推理。

Efficient Test-Time Adaptive Object Detection via Sensitivity-Guided Pruning

提出一种高效的持续测试时自适应目标检测(CTTA-OD)方法,发现源模型中某些特征通道对域偏移敏感且会损害跨域性能,通过在图像级和实例级度量通道敏感性来引导加权稀疏正则化实现选择性剪枝,辅以随机通道重激活机制防止误剪,在减少 12% 计算量的同时超越 SOTA 方法的自适应精度。

Generalized Diffusion Detector: Mining Robust Features from Diffusion Models for Domain-Generalized Detection

本文首次将扩散模型引入域泛化目标检测,通过提取扩散过程的多时间步中间特征构建域不变的检测器,并设计特征级+目标级对齐的知识迁移框架将泛化能力蒸馏到轻量检测器中,在6个DG基准上平均提升14.0% mAP,甚至超越大多数域适应方法。

查看全部38篇「目标检测」论文 →


✂️ 语义分割 (94)

2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification

提出2DMamba,首个具有高效并行算法的原生2D选择性状态空间模型,通过保持2D空间连续性(而非展平为1D序列)来建模WSI中的patch间关系,在10个公共病理数据集上全面超越1D Mamba方法,并在ImageNet分类和ADE20K分割上也有提升。

A Distractor-Aware Memory for Visual Object Tracking with SAM2

提出SAM2.1++的干扰物感知记忆模型(DAM),将SAM2的记忆拆分为近期外观记忆(RAM,确保分割精度)和干扰物解析记忆(DRM,确保跟踪鲁棒性),通过内省式更新策略检测干扰物并自动存储锚帧,在7个基准上设立新SOTA。

Assessing and Learning Alignment of Unimodal Vision and Language Models (SAIL)

提出 SAIL 框架——先通过 alignment probing 评估单模态视觉和语言模型的对齐潜力(发现 k-NN 聚类质量比线性可分性更重要),再用轻量级 GLU 对齐层 + Sigmoid 损失 + 多正样本策略高效对齐 DINOv2 和预训练语言模型,仅用 6% 的 CLIP 训练数据即超越 CLIP。

SAIL: Assessing and Learning Alignment of Unimodal Vision and Language Models

Audio-Visual Instance Segmentation

G2HFNet: GeoGran-Aware Hierarchical Feature Fusion Network for Salient Object Detection in Optical Remote Sensing Images

提出 G2HFNet,通过多尺度细节增强 (MDE)、双分支几何-粒度互补 (DGC)、深层语义感知 (DSP) 和局部-全局引导融合 (LGF) 四个模块,针对不同层级特征设计差异化优化策略,在三个遥感显著性检测数据集上全面超越 SOTA。

Comparative Evaluation of Traditional Methods and Deep Learning for Brain Glioma Imaging

本文系统综述了脑胶质瘤 MRI 图像分割与分类中传统方法与深度学习方法的表现,通过全面对比评估得出 CNN 架构在分割精度和鲁棒性上显著优于传统技术的结论。

Condensing Action Segmentation Datasets via Generative Network Inversion

Continuous Locomotive Crowd Behavior Generation

生成连续的人群运动行为,实现轨迹和动作的联合合成,产生自然且多样的群体运动模式

COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training

COSMOS 提出了一种跨模态自蒸馏框架,通过文本裁剪策略和交叉注意力模块在学生-教师结构中学习细粒度的跨模态表征,在仅使用 30M 数据预训练的情况下,在零样本检索、分类和语义分割任务上全面超越 CLIP 类基线,甚至超越在数十亿数据上训练的 OpenCLIP。

查看全部94篇「语义分割」论文 →


🖼️ 图像恢复 (41)

A Flag Decomposition for Hierarchical Datasets

本文提出Flag Decomposition (FD),一种将层次结构数据分解为保持层级关系的flag流形表示(Stiefel坐标)的算法,在去噪、聚类和少样本学习任务中展示了相比SVD等标准方法的优势。

A Physics-Informed Blur Learning Framework for Imaging Systems

提出基于物理的 PSF 学习框架,设计新型波前基(每个基仅影响单一 SFR 方向)消除梯度冲突,结合课程学习(中心→边缘),无需镜头参数即可精确估计成像系统的空间变化 PSF。

EQ-Reg: A Regularization-Guided Equivariant Approach for Image Restoration

AdcSR: Adversarial Diffusion Compression for Real-World Image Super-Resolution

提出对抗扩散压缩(ADC)框架,将一步扩散模型 OSEDiff 蒸馏为精简的扩散-GAN 混合模型,实现 73% 推理时间压缩、78% 计算量削减、74% 参数缩减,同时保持生成质量,达到 34.79 FPS 实时超分。

Augmenting Perceptual Super-Resolution via Image Quality Predictors

利用无参考图像质量评估(NR-IQA)模型代替人工标注,通过加权采样和直接优化两种方式提升感知超分辨率的图像质量,在无需人工数据的条件下超越依赖人工反馈的 SOTA 方法。

Classic Video Denoising in a Machine Learning World: Robust, Fast, and Controllable

重新审视经典视频去噪方法并与现代ML工具结合,实现鲁棒、快速且噪声级别可控的视频去噪

Complexity Experts are Task-Discriminative Learners for Any Image Restoration

提出 MoCE-IR,用具有不同计算复杂度和感受野大小的"复杂度专家"替代传统均匀 MoE 的统一架构,配合偏向低复杂度的弹簧式路由机制,意外地实现了任务判别性分配——不同退化类型自动路由到适当复杂度的专家,可在推理时跳过无关专家。

DarkIR: Robust Low-Light Image Restoration

DarkIR 提出一种高效 CNN 多任务低光照图像恢复方法,编码器用 SpAM+FreMLP(频域幅值增强)处理光照,解码器用 Di-SpAM(空洞空间注意力)处理模糊,不对称设计仅 3.31M 参数在 LOLBlur 上达 27.30dB PSNR。

Degradation-Aware Feature Perturbation for All-in-One Image Restoration

本文提出DFPIR框架,通过退化类型引导的通道打乱扰动和注意力选择性掩码扰动两种机制,在编解码器之间调整特征空间以适配统一参数空间,在去噪/去雾/去雨/去模糊/低光增强五个任务上取得SOTA。

Detail-Preserving Latent Diffusion for Stable Shadow Removal

本文提出两阶段Stable Diffusion微调方案用于阴影去除:第一阶段在latent空间微调去噪器完成主要阴影消除,第二阶段通过阴影感知的Detail Injection模块从VAE编码器提取特征调制解码器,恢复第一阶段丢失的高频细节,实现高质量且泛化性强的阴影去除。

查看全部41篇「图像恢复」论文 →


🛰️ 遥感 (11)

Dense Dispersed Structured Light for Hyperspectral 3D Imaging of Dynamic Scenes

提出 Dense Dispersed Structured Light(DDSL)方法,利用廉价衍射光栅薄膜(<$20)+ 立体 RGB 相机 + RGB 投影仪,设计光谱复用 DDSL 图案大幅减少所需投影帧数,实现 6.6fps 实时高光谱 3D 成像,光谱分辨率 15.5nm FWHM,深度误差 4mm。

DiSciPLE: Learning Interpretable Programs for Scientific Visual Discovery

提出 DiSciPLE 框架,利用 LLM 引导的进化算法自动合成可解释的 Python 程序来分析视觉数据,在人口密度估计等科学任务上以比最近基线低 35% 的误差实现了 SOTA,且程序完全可解释。

EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues

提出 EarthDial,一个专为地球观测 (EO) 数据设计的对话式视觉语言模型,支持多光谱 (SAR/NIR/红外)、多时序和多分辨率遥感影像的统一理解,基于 1111 万条指令微调数据集,在 44 个下游数据集上超越现有遥感 VLM。

Hierarchical Dual-Change Collaborative Learning for UAV Scene Change Captioning

提出 UAV 场景变化描述(UAV-SCC)新任务及 HDC-CL 框架,通过动态自适应布局 Transformer 建模移动视角下的图像对重叠/非重叠区域,结合层级跨模态方向一致性校准增强视角偏移方向感知,并构建了专用基准数据集。

Joint and Streamwise Distributed MIMO Satellite Communications with Multi-Antenna Ground Users

研究多 LEO 卫星联合服务多天线地面用户的分布式 MIMO 下行通信,提出联合传输与流式传输两种模式:前者通过 WMMSE 迭代优化预编码器最大化和频谱效率,后者通过匈牙利算法的流-卫星关联减少前传开销,实现性能与前传负载的灵活权衡。

Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking

提出 ORTrack 框架,通过基于空间 Cox 过程的随机遮罩来学习遮挡鲁棒的 ViT 特征表征(训练时加遮罩约束、推理时零开销),并设计自适应特征蒸馏方法将大模型压缩为轻量级学生模型 ORTrack-D,在多个无人机跟踪基准上实现 SOTA 精度与实时速度的最佳平衡。

Meta-Learning Hyperparameters for Parameter Efficient Fine-Tuning

MetaPEFT提出了一种元学习框架,将PEFT中的离散位置选择和连续缩放因子统一为可微分的调制器(modulator),通过双层优化自动搜索最优的PEFT超参数配置,在遥感和自然图像的长尾分布适应任务上取得SOTA。

MetaSpectra+: A Compact Broadband Metasurface Camera for Snapshot Hyperspectral+ Imaging

提出 MetaSpectra+,一种基于超表面-折射混合光学的紧凑多功能相机,通过双层超表面独立控制各通道色散/曝光/偏振,在约 250nm 可见光带宽内实现快照式高光谱+HDR 或高光谱+偏振联合成像,重建精度在基准数据集上达到 SOTA。

MFogHub: Bridging Multi-Regional and Multi-Satellite Data for Global Marine Fog Detection and Forecasting

MFogHub 构建了首个多区域(15个沿海区域)多卫星(6颗地球同步卫星)的全球海雾检测与预测数据集,包含超过68000个高分辨率样本和11600+像素级标注,通过16个基线模型的大规模实验揭示了区域差异和卫星变化对模型泛化能力的影响。

SGFormer: Satellite-Ground Fusion for 3D Semantic Scene Completion

首次将卫星影像引入 3D 语义场景补全(SSC)任务,提出双分支框架 SGFormer,通过地面视角引导的卫星特征校正和自适应融合策略,有效解决因视觉遮挡导致的场景补全不完整问题。

查看全部11篇「遥感」论文 →


🧑 人体理解 (73)

3D Face Reconstruction From Radar Images

首次从毫米波雷达图像进行3D人脸重建:用物理雷达渲染器生成合成数据集训练CNN编码器估计BFM参数,再通过学习一个可微分雷达渲染器构建model-based autoencoder,在合成数据上实现2.56mm平均点距精度,并可在推理时无监督优化参数。

3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation

提出跨任务少样本2D视线估计——利用预训练3D视线模型作为先验,通过基于物理的可微投影模块(6个可学习屏幕参数)将3D视线方向投影到2D屏幕坐标,仅需10张标注图像即可在未知设备上适配2D视线估计,在MPIIGaze/EVE/GazeCapture上比EFE和IVGaze提升超25%。

Analyzing the Synthetic-to-Real Domain Gap in 3D Hand Pose Estimation

首次系统研究3D手势估计中合成数据到真实数据的域差距,通过可控数据合成管线分解并分析了前臂、频谱统计、手势分布、物体遮挡四个关键因素的影响,证明合理整合这些因素后纯合成数据可达到与真实数据同等的精度。

Any6D: Model-free 6D Pose Estimation of Novel Objects

提出 Any6D 框架,仅从单张 RGB-D 锚点图像即可估计未知物体的 6D 位姿和尺寸,通过 InstantMesh 3D 重建 + 朝向包围盒粗对齐 + 联合尺寸-位姿精细化,在 HO3D 上 ADD-S 达 98.7% 远超 GEDI 的 71.9%。

ChatGarment: Garment Estimation, Generation and Editing via Large Language Models

Co-op: Correspondence-based Novel Object Pose Estimation

本文提出 Co-op,一个基于对应关系的新物体6DoF位姿估计框架,在粗估计阶段用混合表示(patch级分类+偏移回归)仅42个模板即可快速准确估计初始位姿,在精细化阶段用概率流回归+可微PnP端到端优化,在BOP Challenge七个核心数据集上大幅超越现有方法。

ControlFace: Harnessing Facial Parametric Control for Face Rigging

提出 ControlFace,利用双分支 U-Net(FaceNet + 去噪 U-Net)结合 3DMM 渲染条件,实现无需微调即可灵活编辑人脸姿态、表情和光照,同时精确保留身份和语义细节。

CRISP: Object Pose and Shape Estimation with Test-Time Adaptation

提出 CRISP,一个类别无关的物体姿态与形状估计 pipeline,核心创新在于基于 active shape model 的优化校正器和 correct-and-certify 自训练策略,可在测试时自适应弥合大的域差距。

CryptoFace: End-to-End Encrypted Face Recognition

提出 CryptoFace,首个端到端全同态加密(FHE)人脸识别系统,通过混合浅层 patch CNN 架构(CryptoFaceNet)大幅降低乘法深度,实现比 SOTA FHE 网络快 7 倍的加密推理,同时提升验证精度。

D3-Human: Dynamic Disentangled Digital Human from Monocular Video

D3-Human 提出了一种从单目视频重建解耦(服装+人体)数字人几何的方法,通过定义人体流形上的有符号距离场(hmSDF)在无需3D服装先验的条件下实现了可见区域的服装-人体精确分割,约20分钟生成解耦模板并支持换装和动画应用。

查看全部73篇「人体理解」论文 →


📹 视频理解 (69)

Anomize: Better Open Vocabulary Video Anomaly Detection

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

提出 BehaviorVLM,一个统一的无需微调的视觉语言框架,通过多阶段结构化推理管线同时解决动物姿态估计和行为理解两大任务,仅需 3 帧人工标注即可实现可靠的关键点追踪,并通过深度嵌入聚类 + VLM 描述 + LLM 语义合并实现可解释的多动物行为分割。

Beyond Single-Sample: Reliable Multi-Sample Distillation for Video Understanding

提出 R-MSD(Reliable Multi-Sample Distillation),通过对每个输入采样多个教师响应并结合任务自适应质量匹配,解决视频 LVLM 黑盒蒸馏中单样本教师监督不可靠的问题,4B 学生模型在 VideoMME (+1.5%)、Video-MMMU (+3.2%)、MathVerse (+3.6%) 等基准上取得一致提升。

BiM-VFI: Bidirectional Motion Field-Guided Frame Interpolation for Video with Non-uniform Motions

BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

本文提出 BIMBA,基于 Mamba selective scan 的时空 token 选择器,将长视频的 10万+ token 序列压缩 16 倍至 6400 个包含关键信息的 token,在 7 个长视频 VQA 基准上取得 SOTA。

Bootstrap Your Own Views: Masked Ego-Exo Modeling for Fine-Grained View-Invariant Video Representations

通过掩码建模在自我中心和外部视角之间学习细粒度视图不变表示,无需配对标注即可从两种视角的关联中自监督学习

Context-Enhanced Memory-Refined Transformer for Online Action Detection

本文揭示了现有在线动作检测(OAD)方法中的训练-推理不一致问题——短时记忆帧的不均衡上下文暴露和伪未来引入的非因果信息泄漏导致学习偏向中间帧——并提出CMeRT通过近过去上下文增强编码器和基于近未来的记忆精炼解码器来解决该问题,在THUMOS'14、CrossTask和EK100上实现SOTA。

Cross-modal Causal Relation Alignment for Video Question Grounding

通过因果干预消除视频问答定位(VideoQG)中的虚假跨模态关联,引入高斯平滑定位、跨模态对齐和显式因果干预三个模块,在 NextGQA 上同时提升定位(+2.2 Acc@GQA)和问答(+0.9 Acc@VQA)性能。

DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos

提出DeCafNet,通过delegate-and-conquer双编码器策略(轻量sidekick encoder密集提特征+生成显著性图,expert encoder仅处理top-c%关键clip),配合DeCaf-Grounder统一不同时序分辨率特征,在长视频时序定位任务上以减少47% TFLOPs的代价超越所有先前方法。

DivPrune: Diversity-Based Visual Token Pruning for Large Multimodal Models

将视觉token剪枝问题重新建模为Max-Min Diversity Problem (MMDP),通过精确求解使保留token集合的最小pair-wise距离最大化,实现无需训练/校准的即插即用剪枝方案,在16个多模态基准上实现SOTA,特别是在≥80%极端剪枝率下显著优于所有基线。

查看全部69篇「视频理解」论文 →


🚗 自动驾驶 (89)

3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation

提出3D-AVS,首个针对LiDAR点云的自动词表分割方法:无需用户指定目标类别,系统自动从图像和点云中识别场景中存在的语义实体并生成词表,再用开放词表分割器完成逐点语义分割,在nuScenes和ScanNet200上展示了生成精细语义类别的能力。

ProtoOcc: 3D Occupancy Prediction with Low-Resolution Queries via Prototype-aware View Transformation

提出ProtoOcc,通过原型感知视角变换将2D图像聚类原型映射到3D体素查询空间来增强低分辨率体素的上下文信息,配合多视角占用解码策略从增强的体素中重建高分辨率3D占用场景,用75%更小的体素分辨率仍能达到与高分辨率方法竞争的性能(Occ3D mIoU 37.80 vs PanoOcc 38.11)。

A Dataset for Semantic Segmentation in the Presence of Unknowns

提出了 ISSU 异常分割数据集,首次同时支持已知类别(closed-set)和未知异常(open-set)的联合评估,规模是现有异常分割数据集的两倍,涵盖多域、多传感器、多光照条件,基准测试揭示了当前 SOTA 方法在域泛化与大/小物体分割上的显著不足。

A Neuro-Symbolic Framework Combining Inductive and Deductive Reasoning for Autonomous Driving Planning

本文提出首个将 ASP 符号推理决策以可学习嵌入形式直接嵌入端到端规划器轨迹解码的神经-符号框架,用 LLM 动态提取场景规则、Clingo 求解器进行逻辑仲裁、可微 KBM 生成物理可行轨迹并配合神经残差修正,在 nuScenes 上 L₂ 误差 0.57m、碰撞率 0.075%、TPC 0.47m 全面超越 MomAD。

PAP: A Prediction-as-Perception Framework for 3D Object Detection

PAP 受人脑"预测性感知"启发,将上一帧轨迹预测结果作为当前帧感知模块的 query 输入替代部分随机 query,在 UniAD 上实现 AMOTA 提升 10%(0.359→0.395)、推理速度提升 15%(14→16 FPS)和训练时间缩短 14%。

CAWM-Mamba: A Unified Model for Infrared-Visible Image Fusion and Compound Adverse Weather Restoration

CAWM-Mamba 首次提出端到端统一处理红外-可见光图像融合与复合恶劣天气(如雾+雨、雨+雪)场景的框架,通过天气感知预处理、跨模态特征交互和小波域频率-SSM 解耦多频退化,在 AWMM-100K 和标准融合数据集上全面超越 SOTA。

Certified Human Trajectory Prediction

首次将随机平滑(Randomized Smoothing)认证技术引入人类轨迹预测任务,通过mean/median聚合函数和扩散去噪器为轨迹预测模型提供保证性鲁棒性——即无论输入噪声如何扰动(在半径R内),输出始终保持在认证边界内。

ClimbingCap: Multi-Modal Dataset and Method for Rock Climbing in World Coordinate

构建了首个大规模攀岩运动多模态数据集 AscendMotion(412K帧,RGB+LiDAR+IMU),并提出 ClimbingCap 方法通过分离坐标解码、后处理优化和半监督训练,在世界坐标系中精确恢复攀岩者的3D运动。

Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models

CompoSIA: Composing Driving Worlds through Disentangled Control for Adversarial Scenario Generation

CompoSIA 提出一种基于 Flow Matching DiT 的组合式驾驶视频生成框架,通过解耦结构(3D bbox)、身份(单参考图像)和自车动作(相机轨迹)三类控制信号的注入方式,实现精细独立控制和组合编辑,用于系统化合成对抗性驾驶场景,FVD 提升 17%,碰撞率增加 173%。

查看全部89篇「自动驾驶」论文 →


🤖 机器人/具身智能 (40)

3D-MVP: 3D Multiview Pretraining for Robotic Manipulation

提出3D-MVP,将Masked Autoencoder预训练从2D扩展到3D多视角设定——在Objaverse的200K个3D物体上预训练RVT的多视角Transformer编码器,下游微调后在RLBench上平均成功率从62.9%提升到67.5%,在COLOSSEUM上显著提升对纹理、大小、光照等环境变化的鲁棒性。

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

通过系统评估发现DINO/iBOT在机器人任务上优于MAE但在非物体中心(NOC)数据上性能退化,原因是丧失了物体中心表示能力。提出SlotMIM方法,通过语义瓶颈(减少原型数量促进objectness涌现)和跨视图一致性正则+slot级对比学习,使模型在NOC数据上也能学到物体中心表示,仅用241K样本即超越用>1M样本的MVP/VC-1。

CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

利用互联网上超过 2000 小时的城市步行和驾驶视频,通过视觉里程计 (VO) 自动提取动作标签进行大规模模仿学习,训练出能在复杂动态城市环境中导航的具身智能体,真实部署成功率达 77.3%,显著超越现有方法。

Coordinated Manipulation of Hybrid Deformable-Rigid Objects in Constrained Environments

本文提出基于应变参数化 Cosserat 杆模型(GVS)的准静态轨迹优化框架,用于双臂机器人在约束环境中协调操纵混合变形-刚性线性物体(hDLO),利用解析梯度实现比有限差分快 33 倍的求解速度,并在真实双臂平台上验证了 ~3cm 的变形误差。

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

提出 CoT-VLA,将视觉思维链推理引入视觉-语言-动作模型,通过两阶段推理——先预测子目标图像再生成动作序列——结合混合注意力和动作分块策略,在 LIBERO 基准上实现 81.13% 平均成功率,显著超越现有方法。

Decision SpikeFormer: Spike-Driven Transformer for Decision Making

提出 DSFormer,首个用于离线强化学习的脉冲驱动 Transformer,设计了时序脉冲自注意力 (TSSA) 和位置脉冲自注意力 (PSSA) 来捕获 RL 中的时序/位置依赖,并引入渐进式阈值依赖批归一化 (PTBN) 解决归一化与脉冲特性的冲突,在 D4RL 基准上超越 ANN 对手且节省 78.4% 能耗。

DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness

本文提出 DexGrasp Anything,将三种物理约束力集成到扩散模型的训练和采样阶段,实现几乎所有开放数据集上 SOTA 的灵巧手抓取姿态生成,并构建了包含 15K+ 物体、340万+ 抓取姿态的最大规模灵巧抓取数据集。

DRAWER: Digital Reconstruction and Articulation with Environment Realism

提出 DRAWER 框架,从静态场景视频自动构建可交互数字孪生,结合 SDF + 高斯泼溅双场景表示实现高保真渲染和精细几何,支持铰接体识别与仿真、Unreal Engine 游戏创建、以及 real-to-sim-to-real 机器人策略迁移。

g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks

本文提出g3D-LF,通过在约5K室内3D场景和近100万语言描述上进行多级对比学习预训练,构建了可泛化到未知环境的3D-语言特征场,在VLN(单目/全景)、零样本物体导航和情境问答四种具身任务上均取得SOTA或接近SOTA表现。

GigaHands: A Massive Annotated Dataset of Bimanual Hand Activities

GigaHands 是迄今为止最大的双手活动数据集,通过设计"指令-标注"程序化采集策略和 51 相机无标记捕捉系统,收集了 34 小时、56 名被试、417 个物体的双手活动数据,包含 1.83 亿帧 RGB 图像和 84K 条详细文本标注,在文本驱动手部动作生成和动作描述任务上展示了数据规模的价值。

查看全部40篇「机器人/具身智能」论文 →


🎮 强化学习 (5)

CALF: Communication-Aware Learning Framework for Distributed Reinforcement Learning

本文提出 CALF 框架,通过在 RL 训练中注入可配置的网络延迟、抖动和丢包模型,使策略在部署到真实分布式边缘设备时性能退化降低约 3-4 倍,揭示网络条件是 sim-to-real 转移中被忽视的重要维度。

Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging

提出Visual Forager(VF)模型,通过目标特征调制、目标价值调制和ViT-based Actor-Critic决策网络模拟人类混合视觉搜索任务中的眼动策略,在归一化得分上达到72.6%(人类87.4%),扫视大小仅差0.01°(4.06° vs 人类4.05°),首次揭示目标价值和出现率如何联合影响人类搜索决策。

GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill

本文提出GROVE框架,利用LLM生成物理约束+VLM评估动作语义的互补方式构建广义奖励函数,并通过Pose2CLIP轻量映射器跳过渲染直接将姿态投影到语义空间,实现了开放词汇物理技能学习,比现有方法训练速度快8.4倍同时动作自然度提升22.2%。

SkillMimic: Learning Basketball Interaction Skills from Demonstrations

提出 SkillMimic,一个纯数据驱动的框架,通过统一的 HOI 模仿奖励(特别是创新的接触图奖励)从动捕数据中学习多样的篮球交互技能,并通过高层控制器组合技能实现连续得分等复杂长程任务。

ThinkStream: Thinking in Streaming Video

提出 ThinkStream,采用 Watch-Think-Speak 范式实现流式视频的实时连续推理,通过 RCSM(推理压缩流式记忆)将推理 trace 作为紧凑语义锚点替代旧视觉 token,配合 Streaming RLVR 训练策略,在保持低延迟/低内存的同时超越现有在线视频模型。


🎁 推荐系统 (1)

FineVQ: Fine-Grained User Generated Content Video Quality Assessment

构建了首个大规模细粒度 UGC 视频质量评估数据库 FineVD(6104 视频、80 万+评分、6 个维度),并提出基于大型多模态模型的 FineVQ 方法,以一个模型同时实现质量评级、质量评分和质量归因三种能力,在 FineVD 和其他 UGC-VQA 数据集上达到 SOTA。


🔄 自监督/表示学习 (26)

AutoSSVH: Automated Frame Sampling for Self-Supervised Video Hashing

BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning

提出BoSS——一种可扩展的主动学习oracle策略,通过集成多种选择策略生成候选批次、冻结backbone仅重训最后一层来评估性能增益,选择最优批次;在ImageNet等大规模数据集上首次展示了oracle性能,揭示SOTA主动学习策略仍有显著提升空间。

Breaking the Tuning Barrier: Zero-Hyperparameters Yield Multi-Corner Analysis Via Learned Priors

用预训练的Foundation Model(TabPFN)替代传统手工先验,实现零超参数调优的电路Yield Multi-Corner Analysis:冻结backbone做in-context learning,自动跨corner迁移知识,结合自动特征选择(1152D→48D),在SRAM benchmarks上达到SOTA精度(MRE低至0.11%)且验证成本降低10倍以上。

CheXWorld: Image World Modeling for Radiograph Representation Learning

Do Your Best and Get Enough Rest for Continual Learning

受Ebbinghaus遗忘曲线理论启发,提出View-Batch Model(VBM)——通过将batch中多个不同样本替换为同一样本的多个增强视图(replay),延长回忆间隔V倍至最优范围,同时用one-to-many KL散度自监督损失从单样本中学习更多知识(do your best),作为drop-in替代方案在多种持续学习方法上一致提升性能。

Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces

Few-Shot Implicit Function Generation via Equivariance

通过等变性约束从少量样本生成隐式函数(NeRF/SDF),利用对称性先验减少对数据的需求

From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling

提出原型驱动的 MAE 课程学习——用 K-means 聚类识别数据集中的"原型"样本(靠近聚类中心的代表性图像),通过温度控制的采样策略从原型逐步过渡到全分布训练,实现 8× 训练加速(200 epoch 原型课程 ≈ 800 epoch 标准 MAE)。

Hyperbolic Category Discovery

提出HypCD框架,将广义类别发现(GCD)中的表示学习从欧氏/球面空间迁移到双曲空间(Poincaré球模型),利用双曲空间指数级体积增长天然适合编码层次结构的特性,通过距离-角度混合相似度学习和双曲分类器,在CUB上将SelEx从69.1%提升到71.8%,在ImageNet-100上从87.1%提升到88.3%。

Learning to Normalize on the SPD Manifold under Bures-Wasserstein Geometry

本文提出 GBWBN,首个基于广义 Bures-Wasserstein 几何的 SPD 流形批归一化方法,引入可学习的度量参数和矩阵幂非线性变形来有效处理病态协方差矩阵,在骨骼动作识别和脑电分类上取得 SOTA。

查看全部26篇「自监督/表示学习」论文 →


📐 优化/理论 (11)

Automatic Joint Structured Pruning and Quantization for Efficient Neural Network Training and Compression

提出 GETA 框架实现自动联合结构化剪枝和量化感知训练:量化感知依赖图(QADG)构建通用剪枝搜索空间 + 部分投影 SGD 保证逐层比特约束 + 可解释的联合学习策略,在 CNN 和 Transformer 上均达到竞争力或领先的压缩性能。

Conformal Prediction for Zero-Shot Models

将保形预测(Conformal Prediction)应用于零样本模型,为 CLIP 等模型的预测提供有理论保证的不确定性量化和校准预测集

Convex Relaxation for Robust Vanishing Point Estimation in Manhattan World

GlobustVP 首次将凸松弛技术引入曼哈顿世界消失点估计问题,通过将联合估计消失点位置与直线-消失点关联的问题转化为 QCQP 再松弛为 SDP,实现了全局最优且对 70% 外点鲁棒的高效求解器(~50ms/图)。

Federated Learning with Domain Shift Eraser

提出FDSE方法,将每层网络分解为域无关特征提取器(DFE,全局聚合增强共识)和域特异偏移消除器(DSE,个性化聚合保留本地特性),结合BN一致性正则化,在DomainNet上达到76.77%(超Ditto 1.6%),在Office-Caltech10上达到91.58%(超FedBN 4.6%)。

How to Merge Your Multimodal Models Over Time?

本文提出 TIME(Temporal Integration of Model Expertise)框架,系统研究了多模态专家模型随时间渐进融合的问题,通过初始化策略、部署策略和融合技术三个轴定义搜索空间,在 FoMo-in-Flux 基准上揭示了时序模型融合的关键设计原则。

Mind the Gap: Confidence Discrepancy Can Guide Federated Semi-Supervised Learning

提出 TABASCO,一个两阶段二维样本选择框架解决同时存在标签噪声和长尾分布的联邦半监督学习:用加权 JSD(WJSD)和自适应质心距离(ACD)两个互补指标识别干净样本,GMM 聚类后以半监督方式利用剩余噪声数据,在 CIFAR-10(0.1 不平衡+0.4 噪声)上达 85.53%。

Model Poisoning Attacks to Federated Learning via Multi-Round Consistency

发现现有联邦学习模型投毒攻击因跨轮次方向不一致导致效果自相抵消,提出 PoisonedFL 通过固定随机方向向量 + 动态幅度调节 + 假设检验机制实现多轮一致性攻击,在无需任何真实客户端信息的前提下击穿 8 种 SOTA 防御。

SCOPE: Semantic Coreset with Orthogonal Projection Embeddings for Federated Learning

SCOPE 提出了一种面向联邦学习的语义 coreset 选择框架,利用 VLM(MobileCLIP-S2)零样本提取三种标量指标(表示分数、多样性分数、边界接近度),通过服务器聚合全局共识后指导客户端进行两阶段剪枝(异常过滤+冗余消除),在 128-512× 上行带宽减少和 7.72× 加速的同时保持竞争精度。

Stop Walking in Circles! Bailing Out Early in Projected Gradient Descent

发现 PGD 攻击在 L∞ 球上对鲁棒样本会产生循环行为,通过哈希检测循环实现提前终止(PGD_CD),在保持完全相同鲁棒性评估结果的前提下实现最高 96% 的迭代次数减少。

Test-Time Augmentation Improves Efficiency in Conformal Prediction

发现测试时数据增强(TTA)可以系统性地提升共形预测的效率——通过在校准集上学习增强权重来优化增强聚合策略,在 ImageNet ResNet-50 上将预测集大小减少 10-17%,同时严格保持覆盖率保证。

查看全部11篇「优化/理论」论文 →


🔬 可解释性 (21)

Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and Scalability

本文提出ALBM(属性形成的语言瓶颈模型),通过构建属性引导的类特异概念空间避免虚假线索推理问题,并利用视觉属性提示学习提取细粒度属性特征,结合描述-摘要-补充(DSS)策略自动生成高质量概念集,在9个基准上实现了更好的可解释性和可扩展性。

Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and Scalability

提出 ALBM 模型,用属性化的类特定概念空间(ACCS)取代现有语言瓶颈模型的类共享概念空间,避免虚假线索推理问题并支持跨类泛化,配合视觉属性提示学习(VAPL)提取细粒度属性特征,在 9 个 few-shot 基准上全面超越现有可解释分类方法。

Differentiable Inverse Rendering with Interpretable Basis BRDFs

提出基于可解释基 BRDF 的可微逆渲染方法,将材质分解为有物理意义的基函数组合,实现可解释的材质估计

Geometry-Guided Camera Motion Understanding in VideoLLMs

提出一个从基准构建、诊断到注入的完整框架,通过 3D 基础模型(VGGT)提取相机运动线索并以结构化提示注入 VideoLLM,实现无需训练的相机运动感知增强。

Interpretable Image Classification via Non-parametric Part Prototype Learning

本文提出一种基于非参数原型学习的可解释图像分类框架,通过对自监督ViT特征进行最优传输聚类来发现语义上不同的物体部件原型,解决了现有ProtoPNet方法中原型重复冗余的问题,同时引入了Distinctiveness和Comprehensiveness两个新指标来量化解释质量。

KVQ: Boosting Video Quality Assessment via Saliency-Guided Local Perception

KVQ 受人类视觉系统启发,将视频全局质量显式解耦为视觉显著性和局部纹理两个因素,通过 Fusion-Window Attention 提取跨区域显著性、Local Perception Constraint 增强独立区域的纹理感知,在五个 VQA benchmark 上显著超越 SOTA。

L-SWAG: Layer-Sample Wise Activation with Gradients Information for Zero-Shot NAS on Vision Transformers

本文提出L-SWAG(Layer-Sample Wise Activation with Gradients),一种新型通用零代价代理,通过结合层级和样本级的激活值与梯度信息来评估网络架构质量,首次将零代价NAS系统性地扩展到Vision Transformer搜索空间,并在Autoformer搜索空间的6个任务上建立了新的benchmark。

Language Guided Concept Bottleneck Models for Interpretable Continual Learning

本文将语言引导的概念瓶颈模型(CBM)引入持续学习,用 ChatGPT 生成人类可理解的概念、CLIP 编码概念嵌入构建概念瓶颈层,在缓解灾难性遗忘的同时提供透明的决策解释,在 ImageNet-subset 上超越 SOTA 3.06%。

Learning on Model Weights using Tree Experts

发现公开模型大多属于少数 Model Tree(从共同祖先微调而来),在同一 Tree 内学习权重远比跨 Tree 简单;提出 ProbeX——首个针对单隐藏层权重的轻量 probing 方法,通过 Tucker 张量分解实现参数量 30 倍压缩,并首次实现了将模型权重与文本表示对齐的零样本模型分类(89.8% 准确率)。

Learning Visual Composition through Improved Semantic Guidance

本文提出通过改善训练数据的语义监督信号(使用基础模型重新生成高质量描述+使用预训练文本编码器替代从头训练)来大幅提升标准 CLIP 模型的视觉组合理解能力,在 ARO 基准上从CLIP的59%/63%提升到92%/94%,在DOCCI图像检索上从58.4%提升到94.5% recall@1,且无需任何架构改动。

查看全部21篇「可解释性」论文 →


📦 模型压缩 (66)

Adapter Merging with Centroid Prototype Mapping for Scalable Class-Incremental Learning

提出ACMap框架,通过将每个任务独立训练的adapter增量平均合并为单一adapter(保持O(1)推理复杂度),结合centroid prototype mapping对齐旧任务原型在新子空间中的表示,在5个基准上实现与SOTA EASE相当的精度同时推理速度快39倍。

Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks

提出基于交替梯度流(AGF)的统一效用度量,将特征空间总变差作为结构化剪枝指标,并结合置信度级联路由实现离线拓扑构建与在线动态推理的解耦,在ImageNet-1K极端压缩下避免传统指标导致的结构崩溃,在ImageNet-100动态推理中以0.92x计算代价匹配全模型精度。

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

首次提出JPEG XS帧内模式复制(IPC)中位移向量(DV)搜索模块的FPGA架构实现,采用四级流水线设计和优化的存储组织方式,在Xilinx Artix-7上实现38.3 Mpixels/s吞吐量和277 mW功耗,为IPC实际硬件部署和ASIC转化奠定基础。

ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation

提出ARCHE端到端学习型图像压缩框架,在统一概率架构中整合分层Hyperprior、掩码空间自回归上下文、通道条件化和SE激励通道重校准,无需Transformer或循环组件,在Kodak上相对Ballé基线BD-Rate降低约48%,相对VVC Intra降低约5.6%,仅95M参数和222ms解码时间。

AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing

提出AutoSSVH方法,通过对抗式自动帧采样网络(Grade-Net)选择最具挑战性的帧子集作为训练信号,并设计P2Set(Point-to-Set)哈希对比学习范式,实现了高效的自监督视频哈希检索,在UCF101和HMDB51上大幅超越现有方法。

BHViT: Binarized Hybrid Vision Transformer

针对 ViT 二值化性能严重下降的问题,提出专为二值化设计的混合 ViT 架构 BHViT,包含多尺度分组空洞卷积 token mixer、量化分解注意力矩阵二值化、shift 增强的 MLP 和正则化损失,在 ImageNet-1K 上达到 1-bit 二值化模型的 SOTA 性能。

Binarized Mamba-Transformer for Lightweight Quad Bayer HybridEVS Demosaicing

提出BMTNet——一个结合二值化Mamba和Swin Transformer的轻量级混合架构,用于Quad Bayer HybridEVS传感器的RAW图像去马赛克,通过保留核心Selective Scan的全精度、结合全局视觉信息补偿精度损失,在大幅降低计算复杂度的同时保持高质量的去马赛克效果。

Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs

Charm: The Missing Piece in ViT Fine-Tuning for Image Aesthetic Assessment

CL-LoRA: Continual Low-Rank Adaptation for Rehearsal-Free Class-Incremental Learning

提出 CL-LoRA,设计双适配器架构(任务共享 + 任务特定 LoRA),结合知识蒸馏与梯度重分配以及可学习块级权重,在仅 0.3% 可训练参数下实现 SOTA 持续学习性能。

查看全部66篇「模型压缩」论文 →


🕸️ 图学习 (7)

Coeff-Tuning: A Graph Filter Subspace View for Tuning Attention-Based Large Models

将多头注意力重新解释为图卷积滤波器子空间,通过学习一组极小的子空间组合系数(\(H \times H\) 矩阵)来线性组合预训练的注意力图,突破 softmax 造成的凸包约束从而扩展特征空间,以几乎零参数量的代价即插即用地提升各种 PEFT 方法的性能。

DVHGNN: Multi-Scale Dilated Vision HGNN for Efficient Vision Recognition

提出 DVHGNN,一种利用多尺度膨胀超图捕获图像 patch 间高阶相关性的视觉骨干网络,通过聚类+膨胀超图构造 (DHGC) 获取多尺度超边、动态超图卷积实现自适应特征交换,在 ImageNet-1K 上以 30.2M 参数达到 83.1% top-1 准确率,超越 ViG-S 1.0% 和 ViHGNN-S 0.6%。

Hypergraph Vision Transformers: Images are More than Nodes, More than Edges

提出HgVT,将层次化二部超图结构嵌入ViT中,通过主图像patch顶点和虚拟顶点的分离处理、动态余弦邻接构建和超边通信池三层注意力机制,无需聚类即可捕获patch间高阶语义关系,在ImageNet-1K上HgVT-Ti以7.7M参数达到76.2%准确率(超ViHGNN-Ti 1.9%),并在图像检索中达到73.23% mAP@10。

Knowledge Bridger: Towards Training-Free Missing Modality Completion

本文提出 Knowledge Bridger,一个免训练的缺失模态补全框架,通过利用大型多模态模型(LMM)自动挖掘多模态知识、构建知识图谱来指导缺失模态的生成与排序,在通用场景和医学OOD场景下均超越了现有方法。

NN-Former: Rethinking Graph Structure in Neural Architecture Representation

NN-Former 提出混合 GNN-Transformer 架构预测器,发现现有方法忽略了"兄弟节点"(共享父/子节点)的拓扑信息,通过 Adjacency-Sibling Multihead Attention (ASMA) 和 Bidirectional Graph Isomorphism FFN (BGIFFN) 在 NAS-Bench-101/201 上 Kendall's Tau 达 0.877/0.890,延迟预测 MAPE 降低 48-64%。

Unbiased Video Scene Graph Generation via Visual and Semantic Dual Debiasing

提出 VISA 框架,从视觉(记忆引导序列建模 MGSM 降低特征方差)和语义(迭代关系生成器 IRG 引入层次上下文减少对偏置先验的依赖)双重角度对视频场景图生成进行去偏置,在 Action Genome 等数据集上大幅提升尾部类别性能。

Universal Scene Graph Generation

本文提出 Universal Scene Graph(USG)表示及其解析器 USG-Par,通过跨模态对象关联器和文本中心场景对比学习,从任意模态组合(图像、文本、视频、3D)输入中生成统一的场景图,同时刻画模态不变和模态特有的场景语义。


📈 时间序列 (5)

Competition-Aware CPC Forecasting with Near-Market Coverage

将付费搜索CPC预测重构为"部分可观测竞争下的预测"问题,通过语义邻域(Transformer嵌入)、行为邻域(DTW对齐)和地理意图三类竞争代理逼近不可观测的竞争状态,在1811个关键词×127周的Google Ads数据上显示竞争感知增强在中长期预测(6/12周)上显著优于单变量和弱上下文baseline。

DejaVid: Encoder-Agnostic Learned Temporal Matching for Video Classification

提出 DejaVid,一种编码器无关的轻量级视频分类增强方法:将视频表示为变长时序嵌入序列 (TSE) 而非单个嵌入,通过学习每个时间步、每个特征维度的重要性权重,结合改进的可微分 DTW 算法做时序对齐分类,仅增加 <1.8% 参数就在 SSV2 达到 77.2%、K400 达到 89.1% 的 SOTA。

FLAVC: Learned Video Compression with Feature Level Attention

提出 FLAVC,在学习型视频压缩(LVC)框架中引入 Feature-level Attention(FLA)模块,通过将高层局部 patch embedding 转换为一维批次向量并替换传统注意力权重为全局上下文矩阵,实现全帧级全局感知,配合 Dense Overlapping Patcher 和 Transformer-CNN 混合编码器,在四个视频压缩数据集上取得 SOTA 率失真性能。

L2GTX: From Local to Global Time Series Explanations

L2GTX 提出一种完全模型无关的时间序列分类全局解释方法,通过聚合 LOMATCE 产生的参数化时间事件原语(PEPs)构建类级全局解释,在六个基准数据集上保持稳定的全局忠实度(R²)。

Learning Extremely High Density Crowds as Active Matters

本文将极端高密度人群(≥5人/m²)建模为主动物质(active matter),提出一种结合新型"人群材料"应力模型与Toner-Tu主动力的神经随机微分方程系统,通过混合欧拉-拉格朗日的CrowdMPM框架直接从野外视频光流中学习并预测人群动力学。


🏥 医学图像 (78)

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

提出结合 VLM 无训练伪标签生成(外观描述 prompt 驱动 Grounding DINO + SAM)和双教师不确定性融合精炼的半监督乳腺超声分割框架,仅用 2.5% 标注数据即达到接近全监督的性能。

Accelerating Stroke MRI with Diffusion Probabilistic Models through Large-Scale Pre-training and Target-Specific Fine-Tuning

借鉴基础模型范式,在大规模公开脑 MRI 数据上预训练扩散概率模型(DPM),再在仅 20 例中风患者数据上微调,实现数据受限场景下加速 MRI 重建,临床读者研究证实 2× 加速图像质量不劣于标准治疗。

Adaptation of Weakly Supervised Localization in Histopathology by Debiasing Predictions

提出 SFDA-DeP 方法,受机器遗忘启发,通过识别并纠正源模型在目标域的预测偏差(over-predict 某些类别),解决组织病理学中弱监督定位模型跨器官/跨中心域适应时预测偏差被放大的问题。

Addressing Data Scarcity in 3D Trauma Detection through Self-Supervised and Semi-Supervised Learning with Vertex Relative Position Encoding

提出两阶段标签高效学习框架:先在 1206 例无标注 CT 上用 Masked Image Modeling 自监督预训练 3D U-Net 编码器,再结合 VDETR + Vertex RPE 和 Mean Teacher 半监督学习,仅用 144 例标注数据实现腹部创伤 3D 检测 [email protected] 达 45.30%(+115%)。

Are General-Purpose Vision Models All We Need for 2D Medical Image Segmentation?

通过统一训练与评估协议,在三个异构医学数据集上对比11种专用/通用视觉模型,发现通用视觉模型(GP-VM)在分割精度和可解释性上均可超越多数专用医学分割架构(SMA),挑战了"医学分割必须用专用架构"的传统认知。

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

在两个大规模肺癌筛查队列(NLST 7980 例、SUMMIT 8561 例)中验证了基于深度学习自动量化的 PPFE(胸膜肺实质纤维弹性组织增生)进展与全因死亡率独立相关,提出 PPFE 纵向变化可作为筛查人群中识别高呼吸发病风险个体的影像生物标志物。

Automated Detection of Malignant Lesions in the Ovary Using Deep Learning Models and XAI

使用 15 种 CNN 变体(LeNet、ResNet、VGG、Inception)在组织病理学图像上检测卵巢癌及亚型,选择 InceptionV3(ReLU)作为最优模型(平均 94.58%),并使用 LIME、SHAP、Integrated Gradients 三种 XAI 方法解释模型预测。

BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation

BiCLIP 提出了一种双向一致性视觉-语言分割框架,通过双向多模态融合(BMF,让视觉特征反向精炼文本嵌入)和图像增强一致性(IAC,跨弱/强扰动正则化),在 COVID-19 CT 分割上以仅 1% 标注数据即可保持鲁棒性能,且对临床图像退化(噪声/模糊)具有容忍力。

Boltzmann Attention Sampling for Image Analysis with Small Objects

提出BoltzFormer——一种新型transformer decoder架构,通过玻尔兹曼分布动态采样稀疏注意力区域来聚焦小目标,结合退火温度调度(早期层探索、后期层利用)和PiGMA多query聚合模块,在占图像面积<0.1%的小目标分割上比SOTA提升3-12% Dice分数,同时减少一个数量级的注意力计算。

Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD

提出 CBCTRepD——首个面向口腔颌面 CBCT 的双语报告生成系统,通过构建 7408 例高质量 CBCT-报告配对数据集和多层次临床评估框架,实现了跨经验层级放射科医生的报告质量提升,尤其在减少遗漏病灶和规范化报告结构方面表现突出。

查看全部78篇「医学图像」论文 →


🧬 计算生物 (7)

DiffVsgg: Diffusion-Driven Online Video Scene Graph Generation

提出 DiffVsgg 将视频场景图生成(VSGG)建模为沿时间轴的迭代去噪问题——用共享特征嵌入统一目标分类、框回归和关系预测三个任务,通过潜在扩散模型做空间推理+用前帧预测作条件做时序推理,首次实现在线VSGG且在 Action Genome 三个评估协议上全面 SOTA,R@10 超越 DSG-DETR 3.3 个点。

Multimodal Protein Language Models for Enzyme Kinetic Parameters: From Substrate Recognition to Conformational Adaptation

提出 ERBA 适配器,将酶动力学预测建模为"底物识别→构象适应"的分阶段条件化过程,通过 MRCA 注入底物语义、G-MoE 融合活性位点3D几何、ESDA 保持 PLM 先验,在 kcat/Km/Ki 三个动力学端点上一致超越现有方法。

Semantic and Expressive Variation in Image Captions Across Languages

系统性证明了不同语言的图像描述在语义内容(对象、关系、属性)和表达方式(具象度、语调、真实性)上存在显著的分布差异,多语言描述集相比单语言提供更丰富的视觉信息(+46% 对象、+66.1% 关系、+66.8% 属性),为多语言数据训练视觉模型提供了实证支撑。

SHREC: A Spectral Embedding-Based Approach for Ab-Initio Reconstruction of Helical Molecules

提出 SHREC 算法,利用图拉普拉斯算子的谱嵌入技术,从冷冻电镜二维投影图像中直接恢复螺旋分子的投影角度,无需预知螺旋对称参数(rise/twist),仅需已知轴对称群 \(C_n\),在多个公开数据集上实现了接近原子分辨率的从头螺旋结构重建。

Synthetic Visual Genome

提出SVG(Synthetic Visual Genome)数据引擎,通过GPT-4在已有人工标注基础上补全缺失关系(Stage 1)和Robin自蒸馏+GPT-4编辑(Stage 2/SG-Edit)两阶段管道,生成146K图像、2.6M物体、5.6M关系的密集场景图数据集,训练的Robin-3B模型仅用<3M实例即超越300M实例训练的同尺寸模型,在指代表达理解上达到88.9的SOTA。

Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos

本文提出 World Scene Graph Generation (WSGG) 任务和 ActionGenome4D 数据集,将视频场景图从以帧为中心的 2D 表示升级为以世界为中心的 4D 表示,要求模型对所有物体(包括被遮挡或离开视野的不可见物体)在世界坐标系中进行 3D 定位和关系预测,并提出三种互补方法(PWG/MWAE/4DST)探索不同的不可见物体推理归纳偏置。

Unsupervised Foundation Model-Agnostic Slide-Level Representation Learning

提出 Cobra,一种无监督的基础模型无关 (FM-agnostic) 全切片图像 (WSI) 级别表征学习框架:将来自多个预训练 patch 级基础模型的嵌入作为特征空间增广,通过 Mamba-2 编码器和对比学习训练 slide 编码器,仅用 3048 张 WSI 预训练即在 15 个下游任务上平均 AUC 超过现有 slide 编码器至少 +4.4%。


⚛️ 物理/科学计算 (7)

Accurate Differential Operators for Hybrid Neural Fields

揭示混合神经场(如 Instant NGP)中自动微分产生的梯度和曲率存在严重高频噪声问题,提出基于局部多项式拟合的后处理微分算子和自监督微调方法,将梯度误差降低 4 倍、曲率误差降低 4 倍,在渲染和物理模拟中显著消除伪影。

ATP: Adaptive Threshold Pruning for Efficient Data Encoding in Quantum Neural Networks

提出 ATP(Adaptive Threshold Pruning),在量子数据编码前自适应地剪除低信息量的数据特征,通过 L-BFGS-B 优化阈值,在 MNIST/FashionMNIST/CIFAR/PneumoniaMNIST 四个数据集的二分类任务上取得最高准确率的同时显著降低纠缠熵。

DiffFNO: Diffusion Fourier Neural Operator

提出 DiffFNO,将加权傅里叶神经算子(WFNO)与扩散框架结合用于任意尺度超分辨率,通过模式再平衡(Mode Rebalancing)保留关键高频分量,门控融合机制融合频域和空间域特征,自适应步长 ODE 求解器加速推理,在多个基准上超越现有方法 2-4 dB PSNR。

Improve Representation for Imbalanced Regression through Geometric Constraints

本文首次研究深度不平衡回归(DIR)中的表征空间均匀性问题,提出包络损失(enveloping loss)和同质性损失(homogeneity loss)两种几何约束来确保回归表征在超球面上均匀分布,并设计代理驱动表征学习(SRL)框架将全局几何约束整合到mini-batch训练中,在年龄估计等多个DIR任务上达到SOTA。

KAC: Kolmogorov-Arnold Classifier for Continual Learning

首次将 Kolmogorov-Arnold Network (KAN) 应用于持续学习,通过将 B-spline 替换为径向基函数 (RBF) 构建分类器 KAC,仅增加 0.23M 参数即可在多种持续学习方法上获得一致且显著的性能提升(CUB200 40-step 最高 +20.70%)。

Learning Phase Distortion with Selective State Space Models for Video Turbulence Mitigation

提出 MambaTM——首个基于 Mamba 的视频大气湍流消除网络,通过 VAE 将传统 Zernike 多项式表示的相位畸变重参数化为潜在相位畸变(LPD),用 LPD 引导 SSM 的状态转移;在保持线性复杂度和全局感受野的同时,实现了 SOTA 恢复质量和接近 2× 的推理加速(55.4 FPS vs 32.7 FPS)。

Towards Faithful Multimodal Concept Bottleneck Models

提出 f-CBM,一个基于 CLIP 的忠实多模态 Concept Bottleneck Model 框架,通过可微分的 leakage 损失和 Kolmogorov-Arnold Network 预测头联合解决概念检测准确性和信息泄漏问题,在任务精度、概念检测和 leakage 三者间达到最优权衡。


📡 信号/通信 (5)

ABC-Former: Auxiliary Bimodal Cross-domain Transformer with Interactive Channel Attention

提出 ABC-Former,通过引入 CIELab 色彩空间和 RGB 直方图作为辅助双模态信息,利用跨域 Transformer 和交互通道注意力(ICA)模块实现全局色彩知识的跨模态迁移,在 sRGB 白平衡矫正任务上取得 SOTA 效果;同时扩展为 ABC-FormerM 处理混合光照场景。

Breaking the Low-Rank Dilemma of Linear Attention

从理论上揭示线性注意力性能不及 Softmax 注意力的根本原因是输出特征的低秩问题,提出秩增强线性注意力(RALA),通过增强 KV 缓存秩和输出特征秩两种互补策略,在保持线性复杂度的同时追平甚至超越 Softmax 注意力的表现。

Continuous Space-Time Video Resampling with Invertible Motion Steganography

提出可逆运动隐写模块(IMSM),在视频时间下采样过程中将运动信息隐写到低帧率帧中,上采样时通过逆变换精确恢复运动细节,同时支持连续(非整数)的时空重采样因子,在保持下采样帧视觉质量的同时显著提升重建质量。

DiTASK: Multi-Task Fine-Tuning with Diffeomorphic Transformations

提出 DiTASK,利用连续分段仿射 (CPAB) 微分同胚变换对预训练权重矩阵的奇异值进行平滑变换而保持奇异向量不变,以每层仅约 32 个参数实现全秩更新的多任务微调,在 PASCAL MTL 上以 75% 更少的参数超越 MTLoRA 26.27%。

Neural Video Compression with Context Modulation

提出 DCMVC 框架,通过流定向(flow orientation)和上下文补偿(context compensation)两步调制时序上下文,在像素域和特征域充分利用参考信息,实现比 H.266/VVC 平均节省 22.7% 码率、比前 SOTA DCVC-FM 节省 10.1% 码率的压缩性能。


👥 社会计算 (5)

As Language Models Scale, Low-order Linear Depth Dynamics Emerge

将 Transformer 的深度方向视为离散时间动力系统,发现在给定上下文内可以用仅 32 维的线性状态空间代理模型高精度预测层间灵敏度曲线(Spearman 达 0.99),而且令人惊讶的是:模型越大,低阶线性代理越准确——这是一条新的 scaling law。

Classifier-guided CLIP Distillation for Unsupervised Multi-label Classification

提出 Classifier-guided CLIP Distillation(CCD),通过 CAM 引导的局部视图标签聚合和 CLIP 预测去偏两项核心技术,在完全无标注的条件下达到与全监督方法持平的多标签分类性能(VOC12 上 90.1% mAP)。

Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers

提出 C2B(Classifier-to-Bias),首个仅依靠分类任务的文本描述(无需任何标注数据)即可自动发现预训练视觉分类器偏差的框架,通过 LLM 生成类特定偏差候选、生成检索标题收集图像数据集、最后计算偏差分数,在 CelebA 和 ImageNet-X 上超越需要监督的 SOTA 偏差检测方法。

Learning from Neighbors: Category Extrapolation for Long-Tail Learning

发现更细粒度的类别划分天然减轻长尾不平衡的影响,提出用 LLM 发现与现有类别相关的细粒度辅助类 + 网络爬虫收集图像 + 邻近静默损失防止辅助类喧宾夺主,在 ImageNet-LT 上 Few 类提升 16 个百分点(41.4→57.4)。

Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness

提出 PPA(Project-Probe-Aggregate)三步方法,通过投影去除类代理信息放大偏差、以组先验校正探测组标签、聚合组权重,仅需不到 0.01% 可训练参数即可在无组标注情况下提升基础模型的群组鲁棒性。


🛡️ AI 安全 (27)

A Simple Data Augmentation for Feature Distribution Skewed Federated Learning

提出FedRDN——一种极其简单的联邦学习数据增强方法,在训练时随机使用其他客户端的通道级均值/标准差做数据归一化(而非固定用本地统计),仅需几行代码即可显著缓解特征分布偏移问题,在多种FL方法上一致提升性能。

Data-free Universal Adversarial Perturbation with Pseudo-Semantic Prior

提出 PSP-UAP,一种无需训练数据的通用对抗扰动生成方法,通过从 UAP 自身提取伪语义先验、输入变换增强和样本重加权策略,在白盒平均 89.95% 愚弄率、黑盒也大幅超越现有方法,且无需任何训练数据。

DEAL: Data-Efficient Adversarial Learning for High-Quality Infrared Imaging

提出 DEAL(Data-Efficient Adversarial Learning),一种仅需 50 张清晰红外图像训练的对抗学习框架,通过动态对抗退化合成和双通道交互网络(Scale Transform + Spiking Neurons),以 0.96M 超轻量参数同时处理条纹噪声、低分辨率和低对比度三种红外退化。

DeDe: Detecting Backdoor Samples for SSL Encoders via Decoders

Detecting Backdoor Attacks in Federated Learning via Direction Alignment Inspection

提出 AlignIns 防御方法,通过双粒度方向对齐检测(全局方向 + 细粒度符号分析)识别联邦学习中的恶意模型更新,在 IID 和 non-IID 设置下均优于现有防御方法。

Detecting Out-of-Distribution through the Lens of Neural Collapse

从 Neural Collapse 理论出发,发现中心化后的 ID 特征聚集在预测类别的权重向量附近且远离原点(形成 simplex ETF),据此设计 NCI 检测器——结合特征与权重向量的角度近邻度(pScore)和特征范数过滤,在 CIFAR-10/100 和 ImageNet 多架构上实现最佳综合 OOD 检测性能且推理延迟与 softmax 基线持平。

Dynamic Integration of Task-Specific Adapters for Class Incremental Learning

通过动态集成任务特定适配器实现类增量学习,每个任务训练轻量适配器,推理时动态选择和组合相关适配器

FedAWA: Adaptive Optimization of Aggregation Weights in Federated Learning Using Client Vectors

提出 FedAWA,受任务算术(task arithmetic)启发,用客户端向量(本地参数与全局参数的差值)来自适应优化联邦学习中的聚合权重——与全局优化方向一致的客户端获得更高权重,在 non-IID 场景下稳定提升 FedAvg 1-4 个点。

Forensics Adapter: Adapting CLIP for Generalizable Face Forgery Detection

提出 Forensics Adapter,一个仅 5.7M 参数的轻量适配器网络,与冻结 CLIP 并行学习人脸伪造的融合边界特征,通过掩码边界预测+逐块对比+样本级对比三重目标实现跨数据集的高泛化性人脸伪造检测,CDF-v1 上 AUC 达 0.914。

Geometric Knowledge-Guided Localized Global Distribution Alignment for Federated Learning

在联邦学习中通过从局部协方差矩阵精确重建全局协方差来获取全局嵌入分布的几何形状,沿全局主方向生成增强样本本地化全局分布信息,在 CIFAR-100 极端异质场景(β=0.01)下提升 17 个百分点。

查看全部27篇「AI 安全」论文 →


📂 其他 (58)

BenDFM: A taxonomy and synthetic CAD dataset for manufacturability assessment in sheet metal bending

提出一个面向板金弯曲工艺的可制造性度量分类法(按配置依赖性×可行性/复杂度两个维度划分为四象限),并构建首个包含20,000个零件(含可制造与不可制造样本)的合成数据集BenDFM,基准测试表明图结构表示(UV-Net)优于点云(PointNext),配置依赖性指标的预测更具挑战性。

Bounds on Agreement between Subjective and Objective Measurements

通过仅假设投票均值收敛于真实质量,推导出主观测试(MOS)与客观估计器之间PCC(上界)和MSE(下界)的数学界限,并提出基于二项分布的投票模型BinoVotes,使得即使在投票方差不可用时也能计算这些界限,18个主观测试数据的验证表明BinoVotes界限与全数据驱动界限高度吻合。

CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction

本文提出CARE Transformer,通过非对称特征解耦将局部归纳偏置和长距离依赖的学习分离,并设计动态记忆单元和双交互模块充分利用特征互补性,实现了移动端友好的线性复杂度视觉Transformer,在ImageNet上以仅0.7 GMACs达到78.4% top-1精度。

Deconstructing the Failure of Ideal Noise Correction: A Three-Pillar Diagnosis

通过提供完美的oracle噪声转移矩阵T,证明Forward Correction在理想条件下仍会训练崩塌(先升后降最终与无校正基线收敛),从宏观(收敛终态)、微观(梯度动力学)、信息论(噪声信道不可逆信息损失)三个层面系统诊断了失败的根本原因——这不是T估计不准的问题,而是有限样本下高容量网络的结构性缺陷。

Do ImageNet-trained Models Learn Shortcuts? The Impact of Frequency Shortcuts on Generalization

提出层次化频率捷径搜索方法(HFSS),首次在ImageNet-1K规模上高效发现CNN和Transformer学到的频率捷径(仅5%频率即可正确分类),揭示频率捷径在保留纹理的OOD测试中反而有益但在风格化测试(IN-R/IN-S)上有害,指出现有OOD评估框架忽视了频率捷径的影响。

EBS-EKF: Accurate and High Frequency Event-based Star Tracking

本文提出 EBS-EKF,通过建模事件相机在低光条件下的电路行为来获得亮度依赖的质心偏移校正,结合 3D 扩展卡尔曼滤波进行星跟踪,在真实夜空数据上比现有方法精确一个数量级。

EDM: Equirectangular Projection-Oriented Dense Kernelized Feature Matching

提出EDM,首个基于学习的等距柱状投影(ERP)全景图像密集特征匹配方法,通过球面空间对齐模块(SSAM,使用3D笛卡尔坐标的球面位置编码+高斯过程回归)和测地线流细化处理ERP的极区畸变,在Matterport3D上AUC@5°超越DKM 26.72%、在Stanford2D3D上超越42.62%。

Effortless Active Labeling for Long-Term Test-Time Adaptation

提出EATTA方法,在长期测试时适应(TTA)中通过特征扰动敏感度每批次仅标注1个最有价值样本(而非多个),结合梯度范数去偏策略平衡监督和无监督损失的梯度,在ImageNet-C上以极低标注代价实现50.9%的平均错误率(超过标注3倍的SimATTA 3.9%)。

Event Ellipsometer: Event-based Mueller-Matrix Video Imaging

首个实现 30fps 视频级穆勒矩阵成像的系统——用事件相机捕捉快速旋转 QWP 产生的光强调制,将事件时间差映射到穆勒矩阵比值,通过 SVD 估计+时空传播重建物理有效的穆勒矩阵视频。

EVOS: Efficient Implicit Neural Training via EVOlutionary Selector

提出EVOS方法,通过进化选择范式(稀疏适应度评估+频率引导交叉+增强无偏变异)对INR训练样本进行智能稀疏采样,在保持甚至提升重建质量(PSNR 37.81 vs 标准37.10)的同时将训练时间减少48-66%(180秒→97秒)。

查看全部58篇「其他」论文 →


🗂 其他方向 (28)


👥 Multi-Agent (3)

Collaborative Tree Search for Enhancing Embodied Multi-Agent Collaboration

提出 Cooperative Tree Search (CoTS) 框架,将修改版蒙特卡洛树搜索与 LLM 驱动的奖励函数结合,引导多个具身智能体进行长期战略规划和高效协作,并通过计划评估模块避免频繁计划更新带来的行为混乱,在 CWAH 和 TDW-MAT 环境上显著超越现有方法。

ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems

ComfyBench 提出了首个评估LLM Agent在ComfyUI中自主设计协作AI系统能力的综合性Benchmark(200个任务、3205个节点文档、20个课程工作流),并提出ComfyAgent框架通过代码化工作流表示和多Agent协作,达到了与o1-preview相当的解决率,但在创意任务上仅解决15%,揭示了LLM Agent在自主系统设计上的巨大差距。

NADER: Neural Architecture Design via Multi-Agent Collaboration

NADER 将神经架构设计建模为多 LLM Agent 协作任务——Reader 读论文提炼知识、Proposer 生成改进方案、Modifier 用 DAG 图实现修改、Reflector 从失败中学习经验,仅 10 次试验即突破 NAS-Bench-201 搜索空间的准确率上限,在 CIFAR-100 上达 74.51%(搜索空间最优 73.51%)。


📊 LLM 评测 (4)

Erase Diffusion: Empowering Object Removal Through Calibrating Diffusion Pathways (EraDiff)

本文提出EraDiff,通过链式校正优化范式(CRO)建立从"含物体"到"纯背景"的渐进扩散路径,并用自校正注意力机制(SRA)在采样时抑制伪影,使扩散模型真正理解"擦除意图",在OpenImages V5上取得SOTA的Local FID(3.799),在复杂真实场景中显著优于SD2-Inpaint和LaMa。

PosterO: Structuring Layout Trees to Enable Language Models in Generalized Content-Aware Layout Generation

提出 PosterO,将海报版面结构化为 SVG 布局树,通过设计意图向量化和层次节点表示实现与 LLM 的对接,利用意图对齐的上下文学习生成高质量内容感知版面,在多个基准上达到 SOTA 并引入首个支持多用途和多形状元素的 PStylish7 数据集。

RoadSocial: A Diverse VideoQA Dataset and Benchmark for Road Event Understanding from Social Video Narratives

本文提出RoadSocial,一个来源于社交媒体的大规模多样化VideoQA数据集(13.2K视频、260K问答对),覆盖全球多地域多视角的道路事件场景,通过半自动标注框架和12类QA任务系统性评测了18种Video LLM的道路事件理解能力。

UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

提出 UniGoal 统一零样本目标导航框架,通过将场景和目标统一表示为图结构,结合图匹配驱动的多阶段探索策略,在单一模型中实现对象类别、实例图像和文本描述三种目标类型的零样本导航,性能超越任务专用方法。


✏️ 知识编辑 (1)

MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization

提出 MoKus 框架,发现并利用"跨模态知识迁移"现象——在 LLM 文本编码器中更新知识会自动传递到视觉生成端——实现知识感知的概念定制,两阶段设计:先学视觉锚点表示,再秒级更新文本知识绑定。


✍️ 文本生成 (2)

ArtFormer: Controllable Generation of Diverse 3D Articulated Objects

提出ArtFormer框架,通过树结构参数化和条件扩散Shape Prior,从文本/图像描述生成高质量、多样化且运动学关系准确的3D关节物体,在生成质量和多样性上显著超越现有方法。

Dense Match Summarization for Faster Two-view Estimation

本文提出一种稠密匹配摘要方案,通过聚类和代表性匹配选取将10000+稠密匹配压缩为约1%的代表匹配,并用9×9矩阵编码每个簇的几何约束,实现RANSAC鲁棒估计10-100倍加速且精度损失极小。


🌐 多语言/翻译 (1)

SMTPD: A New Benchmark for Temporal Prediction of Social Media Popularity

构建首个时间对齐的社交媒体流行度时序预测基准SMTPD(282K YouTube样本,30天连续观测),并提出基于多模态特征提取+LSTM时序回归的baseline框架,发现早期流行度(EP)是准确预测后续流行度的关键。


🔍 信息检索/RAG (12)

Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training

将CLIP从传统的一对一(image, text)对比学习升级为多对多(multi-image-embeddings, multi-texts)对比学习范式,通过VLM生成多视角多层次的描述文本、多分支视觉编码器输出多种视觉embedding,实现更全面的视觉语言对齐,在检索/分类/密集任务上大幅超越baseline。

ChatHuman: Chatting about 3D Humans with Tools

提出 ChatHuman,一个基于 LLM 的语言驱动系统,通过自动选择和集成专门的 3D 人体分析工具(3D 姿态估计、形状恢复、接触检测、人物交互分析、情感识别等),利用学术论文作为工具使用说明和 RAG(检索增强生成)创建 in-context 示例以管理新工具,在工具选择准确率和整体 3D 人体任务性能上超越现有 LLM 模型。

COBRA: COmBinatorial Retrieval Augmentation for Few-Shot Adaptation

提出 COBRA——基于组合互信息(CMI)的检索增强少样本适配方法,通过同时考虑检索样本与目标任务的相似性和样本间的多样性,从 LAION-2B 中检索高质量辅助数据,在多个图像分类基准上一致性超越传统最近邻检索方法,且计算开销可忽略。

EZSR: Event-based Zero-Shot Recognition

提出 EZSR 框架用于事件相机数据的零样本物体识别,通过标量级调制(scalar-wise modulation)策略解决事件嵌入与 CLIP 文本嵌入之间的语义错位问题,并通过从静态 RGB 图像大规模合成事件数据来突破训练数据稀缺限制,在 N-ImageNet 上以 ViT-B/16 达到 47.84% 零样本准确率。

Few-Shot Recognition via Stage-Wise Retrieval-Augmented Finetuning

本文首次将检索增强学习(RAL)扩展到少样本识别(FSR),揭示了检索数据的分布不平衡和域差距两大挑战,提出两阶段方法 SWAT(先在混合数据上微调视觉编码器、再在少量标注数据上重训分类器),在 9 个基准上以 >6% 的优势超越所有先前方法。

GOAL: Global-Local Object Alignment Learning

提出GOAL方法,通过局部图-句匹配(LISM)和Token相似性学习(TSL)两个模块增强CLIP对长文本描述的理解能力,在全局对齐的基础上引入局部语义对齐,大幅提升图文检索性能。

LotusFilter: Fast Diverse Nearest Neighbor Search via a Learned Cutoff Table

提出LotusFilter,通过离线预计算每个向量的邻近关系构建截断表(cutoff table),在线阶段用贪心集合删除实现多样化过滤,将传统 \(O(DS^2)\) 的多样化搜索降至 \(O(T+S+KL)\),过滤仅需0.02ms/query,内存仅为传统方法的1/40。

Preserving Clusters in Prompt Learning for Unsupervised Domain Adaptation

提出 CRPL 框架,通过源域增强的伪标签和基于最优传输的聚类保持策略,改进 CLIP 在无监督域适应(UDA)中的 prompt 学习,使得目标域 prompt 的文本嵌入能更好地覆盖视觉嵌入的聚类结构。

RANGE: Retrieval Augmented Neural Fields for Multi-Resolution Geo-Embeddings

提出RANGE,通过检索增强策略将高分辨率视觉信息近似注入地理位置嵌入,解决了对比学习(如SatCLIP)丢弃模态特有信息的问题,在分类任务上提升高达13.1%,回归任务上提升0.145 \(R^2\)

Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis

RAG-Gesture 提出了一种基于检索增强生成(RAG)的手势合成框架,利用显式语言学知识从手势数据库中检索语义相关的示例动作,并通过 DDIM 反演和检索引导在推理时注入扩散模型生成过程,无需训练即可产生语义丰富且自然的共语手势。

查看全部12篇「信息检索/RAG」论文 →


🔗 因果推理 (4)

Adventurer: Optimizing Vision Mamba Architecture Designs for Efficiency

提出 Adventurer 系列视觉模型,通过"头部平均池化 token"和"层间翻转"两个简单设计将图像输入适配到单向因果扫描框架中,使 Mamba 架构在视觉任务上实现 4-6 倍于现有 Vision Mamba 的训练速度,同时保持与 ViT 相当甚至更优的精度。

Image Quality Assessment: Investigating Causal Perceptual Effects with Abductive Counterfactual Inference

将全参考图像质量评估(FR-IQA)形式化为反事实推断问题,通过结构因果模型(SCM)区分深度特征中与感知质量因果相关的成分和噪声成分,实现无需训练、可跨骨干网络的鲁棒质量预测,在多个基准数据集上取得竞争性性能。

Joint Scheduling of Causal Prompts and Tasks for Multi-Task Learning

提出 JSCPT(Joint Scheduling of Causal Prompts and Tasks)框架,首先设计多任务视觉语言提示(MTVLP)并通过因果干预消除提示中的虚假相关特征,然后通过自适应任务调度器根据训练过程中任务关系的动态变化调整学习顺序和权重,在多个多任务视觉识别基准上取得显著提升。

FG-VCE: Towards Fine-Grained Interpretability — Counterfactual Explanations for Misclassification with Saliency Partition

提出 FG-VCE(Fine-Grained Visual Contrastive Explanation)框架,通过 Shapley 值计算特征点贡献度、显著性分区模块隔离局部特征、以及迭代反事实生成策略,首次实现了对象级和部件级的细粒度反事实解释,揭示模型误分类的具体原因——"哪些细粒度特征导致了错误"以及"哪些局部区域主导了预测改变"。


🌍 地球科学 (1)

GeoChemAD: Benchmarking Unsupervised Geochemical Anomaly Detection for Mineral Exploration

提出 GeoChemAD 开源基准数据集(8 个子集,覆盖多区域/多采样源/多目标元素)和 GeoChemFormer 框架,通过空间上下文自监督预训练和元素依赖建模实现无监督地球化学异常检测,在所有子集上取得最优 AUC。