跳转至

🎞️ ECCV2024 论文汇总

868篇ECCV2024论文解读,涵盖 3D 视觉(181篇)、图像生成(117篇)、人体理解(54篇)、自动驾驶(53篇)、语义分割(53篇)、视频理解(51篇)、多模态 VLM(44篇)、图像恢复(32篇)等 42个方向。每篇含一句话总结、核心思想、方法详解、实验结果与局限性分析,5分钟读懂一篇论文核心思想。


📊 LLM 评测 (19)

ColorMNet: A Memory-based Deep Spatial-Temporal Feature Propagation Network for Video Colorization

提出 ColorMNet,一种基于记忆机制的时空特征传播网络,通过预训练大视觉模型引导的特征提取(PVGFE)、基于记忆的特征传播(MFP)和局部注意力(LA)三个模块,在显著降低 GPU 显存消耗(仅需 1.9G)的同时实现了优于 SOTA 的视频上色效果。

Deep Cost Ray Fusion for Sparse Depth Video Completion

本文提出 RayFusion 框架,通过在 cost volume 上沿射线方向施加 self-attention 和 cross-attention 实现时序融合,以仅 1.15M 参数在 KITTI、VOID、ScanNetV2 三个数据集上全面超越或持平 SOTA 稀疏深度补全方法。

Distribution Alignment for Fully Test-Time Adaptation with Dynamic Online Data Streams

提出分布对齐(DA)损失将测试时特征分布拉回源域分布,配合域偏移检测机制,在非 i.i.d. 动态数据流和连续域偏移场景下大幅超越现有 TTA 方法。

Eliminating Warping Shakes for Unsupervised Online Video Stitching

定义了视频拼接中的"warping shake"新问题(图像拼接扩展到视频时非重叠区域的时域抖动),提出StabStitch首个无监督在线视频拼接框架,通过拼接轨迹生成与平滑同时实现视频拼接和稳定,达到实时28.2ms/帧。

EvSign: Sign Language Recognition and Translation with Streaming Events

首次构建面向连续手语识别(CSLR)和手语翻译(SLT)任务的事件相机基准数据集 EvSign,并提出基于稀疏Transformer的高效框架,在仅0.34% FLOPs和44.2%参数量下达到与SOTA RGB方法可比或更优的性能。

Gradient-Regularized Out-of-Distribution Detection

提出 GReg/GReg+,通过正则化 OOD 评分函数的输入梯度范数来学习评分流形的局部平滑性,并结合基于能量评分的聚类采样策略选取高信息量辅助样本,在 CIFAR 和 ImageNet OOD 检测基准上取得 SOTA。

Image-Feature Weak-to-Strong Consistency: An Enhanced Paradigm for Semi-Supervised Learning

本文提出 IFMatch,在传统图像级弱到强一致性范式基础上引入特征级扰动并构建三分支结构,通过置信度策略区分朴素/困难样本,在多个 SSL 基准上显著提升已有方法(如 FixMatch、FreeMatch 等)的性能。

Imaging Interiors: An Implicit Solution to Electromagnetic Inverse Scattering Problems

提出基于隐式神经表示(INR)的电磁逆散射问题(EISP)求解方案,通过将散射体的相对介电常数建模为连续隐式表示并在前向框架中优化,有效避免了逆估计的困难和离散化导致的低分辨率问题。

Instance-dependent Noisy-label Learning with Graphical Model Based Noise-rate Estimation

本文提出一种基于概率图模型的噪声率估计方法,可自动估计训练集标签噪声率,并利用估计值指导样本选择策略的课程设计,可无缝集成到 DivideMix、InstanceGM 等 SOTA 噪声标签学习方法中,在合成和真实世界基准上提升其分类精度。

Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence

提出 LFTL(Learn from the Learnt)框架,通过对比主动采样(CAS)和视觉持久性引导适应(VPA)两个核心模块,在无源数据、极少量目标标注(≤5%)的条件下实现高效域适应,在 VisDA-C 上仅用 1% 标注即达到 87.4% 准确率。

查看全部19篇「LLM 评测」论文 →


📚 预训练 (8)

Cross-Domain Learning for Video Anomaly Detection with Limited Supervision

提出弱监督跨域学习(CDL)框架,通过不确定性驱动的伪标签机制将无标注外部视频整合到训练中,显著提升视频异常检测的跨域泛化能力。

DragAPart: Learning a Part-Level Motion Prior for Articulated Objects

DragAPart 提出了一种以拖拽为交互接口的图像生成器,能够响应部件级别的交互(如开关抽屉/门),而非仅仅移动整个物体。通过新的合成数据集 Drag-a-Move、多分辨率拖拽编码和域随机化策略,模型在仅用合成数据训练的情况下能良好泛化到真实图像和未见类别。

I Can't Believe It's Not Scene Flow!

揭示现有场景流方法在行人等小目标上的灾难性失败被现有评估指标所掩盖,提出类别感知且速度归一化的Bucket Normalized EPE评估协议,以及一个简单但SOTA的TrackFlow基线(检测器+跟踪器生成场景流),在行人运动描述上实现1.5倍提升。

Learning to Obstruct Few-Shot Image Classification over Restricted Classes

提出 Learning to Obstruct (LTO) 算法,通过类似 MAML 的元学习方式修改预训练 backbone 参数,使其成为特定受限类别的"差初始化",从而阻碍少样本分类方法在受限类上的微调效果,同时保持其他类别的正常性能。

Plan, Posture and Go: Towards Open-Vocabulary Text-to-Motion Generation

本文提出 PRO-Motion 分治框架,将文本到动作生成分解为三个阶段:LLM 驱动的动作规划(Plan)、基于脚本的姿态扩散生成(Posture)、以及全身平移旋转估计(Go),通过降低各阶段的复杂度实现了开放词汇的高质量动作生成。

PreLAR: World Model Pre-training with Learnable Action Representation

本文提出PreLAR,在无动作标签的视频上进行世界模型预训练时,通过从相邻帧编码隐式动作表示并设计动作-状态一致性损失来弥合无动作预训练与有动作微调之间的差距,显著提升了下游视觉控制任务的样本效率。

Prompting Language-Informed Distribution for Compositional Zero-Shot Learning

本文提出 PLID 方法,利用 LLM 生成的句子级类别描述构建语言知识驱动的高斯分布,配合视觉-语言原语分解和随机 logit 融合,在组合零样本学习(CZSL)任务上取得 SOTA。

Scaling Backwards: Minimal Synthetic Pre-training?

提出 1p-frac——仅用单个分形图像的微小扰动即可实现与 ImageNet-1k 级别可比的预训练效果,挑战了"预训练需要大规模数据集"的常规认知,揭示预训练本质可能更接近权重初始化而非视觉概念学习。


💬 LLM 其他 (11)

AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection

在CLIP中同时引入静态(全局共享)和动态(逐图生成)两种可学习提示,用辅助异常检测数据训练后,在14个工业+医学异常检测数据集上实现零样本SOTA,核心在于"任务级+实例级"双层自适应的混合提示设计。

APL: Anchor-based Prompt Learning for One-stage Weakly Supervised Referring Expression Comprehension

本文提出锚框提示学习方法 APL,通过设计锚框提示编码器(APE)生成位置、颜色、类别三类判别性提示,动态融入锚框特征以丰富视觉语义,再配合文本重构损失和视觉对齐损失实现精确的视觉-语言对齐,在四个 REC 基准上超越现有弱监督方法(如 RefCOCO 上比 RefCLIP 高 6.44%)。

Cultural Value Differences of LLMs: Prompt, Language, and Model Size

本文使用 Hofstede 文化维度问卷系统性地研究 LLM 表达文化价值观的行为模式,发现提示语言(中文 vs 英文)和模型规模对文化价值差异的影响远大于模型架构差异和问题顺序变化。

FreestyleRet: Retrieving Images from Style-Diversified Queries

提出首个风格多样化查询图像检索(Style-Diversified QBIR)任务及数据集DSR,设计了轻量即插即用的FreestyleRet框架,通过Gram矩阵提取查询的纹理/风格特征,构建风格空间并以此初始化prompt token,使冻结的视觉编码器能适配文本、草图、低分辨率、艺术画等多种查询风格的检索。

FunQA: Towards Surprising Video Comprehension

构建了大规模反直觉视频问答基准 FunQA(4.3K 视频、312K QA 对),覆盖幽默/创意/魔术三类令人惊讶的视频,并提出 FunMentor 智能体通过多轮对话增强 VLM 的反常识推理能力。

PromptIQA: Boosting the Performance and Generalization for No-Reference Image Quality Assessment via Prompts

提出 PromptIQA,通过少量"图像-分数对"(ISP)作为 prompt 的方式,使 NR-IQA 模型训练完成后无需微调即可自适应适配新的质量评估需求,在 12 个数据集、5 类 IQA 任务上均达到 SOTA 性能和泛化能力。

Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos

VidAssist提出"提议-评估-搜索"三步框架,利用LLM作为知识库和评估工具,结合广度优先搜索算法,在教学视频的目标导向规划任务中以零/少样本方式超越全监督SOTA,few-shot在COIN上比全监督VLaMP高+7.7% SR。

Reprojection Errors as Prompts for Efficient Scene Coordinate Regression

本文提出 EGFS(Error-Guided Feature Selection)机制,利用低重投影误差区域作为 SAM 的 point prompts 扩展为语义掩码,迭代地筛选可靠训练样本,在 Cambridge Landmarks 和 Indoor6 数据集上以更小模型和更少训练时间超越现有无 3D 信息依赖的 SCR 方法。

RoadPainter: Points Are Ideal Navigators for Topology Transformer

提出 RoadPainter,通过先回归车道中心线点再利用实例 mask 精炼的两阶段策略,结合混合注意力机制和真实-虚拟车道分离策略,在 OpenLane-V2 数据集上实现 SOTA 的拓扑推理性能。

Stripe Observation Guided Inference Cost-Free Attention Mechanism

本文通过深入分析Transformer中注意力权重矩阵的条纹(stripe)模式现象,提出一种推理阶段完全无额外计算开销的注意力增强机制——仅在训练阶段通过辅助模块学习条纹引导的注意力修正,并在推理时将其重参数化融入标准注意力权重中,实现"免费午餐"式的性能提升。

查看全部11篇「LLM 其他」论文 →


🎨 图像生成 (117)

2S-ODIS: Two-Stage Omni-Directional Image Synthesis by Geometric Distortion Correction

2S-ODIS通过两阶段结构利用预训练VQGAN(无需微调)合成全景图像:第一阶段生成低分辨率粗略ERP图,第二阶段通过生成26个NFoV局部图像并融合来校正几何畸变,训练时间从14天缩短到4天且图像质量更优。

A Closer Look at GAN Priors: Exploiting Intermediate Features for Enhanced Model Inversion Attacks

提出 IF-GMI,将预训练 StyleGAN2 的生成器拆解为多个 block,在中间特征层逐层优化(配合 \(\ell_1\) 球约束防止图像崩塌),把模型反演攻击的搜索空间从潜码扩展到中间特征,在 OOD 场景下攻击准确率提升高达 38.8%。

A Diffusion Model for Simulation Ready Coronary Anatomy with Morpho-skeletal Control

用潜在扩散模型(LDM)可控生成3D多组织冠状动脉分割图,通过拓扑交互损失保证解剖合理性,通过形态-骨架双通道条件化实现对截面形态和分支结构的解耦控制,并提出自适应空条件引导(ANG)以非可微回归器高效增强条件保真度,最终支持面向有限元仿真的反事实解剖结构编辑。

A High-Quality Robust Diffusion Framework for Corrupted Dataset

提出 RDUOT 框架,首次将非平衡最优传输(UOT)融入扩散模型(DDGAN)中,通过学习 \(q(x_0|x_t)\) 而非 \(q(x_{t-1}|x_t)\) 来有效过滤训练数据中的离群值,在污染数据集上实现鲁棒生成的同时,在干净数据集上也超越了 DDGAN 基线。

AccDiffusion: An Accurate Method for Higher-Resolution Image Generation

提出AccDiffusion,通过将全局文本prompt解耦为patch级别的内容感知prompt(利用cross-attention map判断每个词汇是否属于某patch),并引入带窗口交互的膨胀采样来改善全局一致性,在无需额外训练的情况下有效解决patch-wise高分辨率图像生成中的目标重复问题,在SDXL上实现了从2K到4K分辨率的无重复高质量图像外推。

AdaDiffSR: Adaptive Region-Aware Dynamic Acceleration Diffusion Model for Real-World Image Super-Resolution

观察到扩散模型超分中不同图像区域所需去噪步数差异巨大(背景区域早已收敛而前景纹理仍需迭代),提出基于多指标潜在熵(MMLE)感知信息增益来动态跳步的策略,将子区域分为稳定/增长/饱和三类给予不同步长,并通过渐进特征注入(PFJ)平衡保真度与真实感,在DRealSR等数据集上取得与StableSR可比的质量但推理时间和FLOPs分别减少1.5×和2.7×。

AdaGen: Learning Adaptive Policy for Image Synthesis

将多步生成模型(MaskGIT/AR/Diffusion/Rectified Flow)的步级参数调度(温度、mask ratio、CFG scale、timestep等)统一建模为MDP,用轻量RL策略网络实现样本自适应调度,并提出对抗奖励设计防止策略过拟合,在四种生成范式上一致提升性能(VAR FID 1.92→1.59,DiT-XL推理成本降3倍同时性能更优)。

AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation

提出AdaNAT,将非自回归Transformer(NAT)的生成策略配置建模为MDP,通过轻量策略网络+PPO强化学习+对抗奖励模型自动为每个样本定制生成策略(重掩码比例、采样温度、CFG权重等),在ImageNet-256上仅用8步达到FID 2.86,相比手工策略实现约40%的相对提升。

AFreeCA: Annotation-Free Counting for All

利用 Stable Diffusion 生成合成排序/计数数据,通过先学排序再学计数的两阶段策略 + 密度引导的图像分块,实现了首个适用于任意类别物体的无标注计数方法,在人群计数上超越已有无监督方法。

AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation

提出 AnyControl,通过 Multi-Control Encoder(fusion + alignment 交替块结构)支持任意组合的多种空间控制信号(深度、边缘、分割、姿态),在 COCO 多控制基准上 FID 44.28 全面超越现有方法。

查看全部117篇「图像生成」论文 →


🎬 视频生成 (14)

BlazeBVD: Make Scale-Time Equalization Great Again for Blind Video Deflickering

提出 BlazeBVD,利用经典 Scale-Time Equalization (STE) 在光照直方图空间提取 deflickering 先验(滤波光照图、曝光图、闪烁帧索引),将复杂的视频时空学习简化为 2D 空间网络逐帧处理 + 轻量 3D 时序一致性网络,在盲视频去闪烁任务上实现 SOTA 质量且推理速度比基线快 10 倍以上。

DragAnything: Motion Control for Anything using Entity Representation

提出DragAnything,利用扩散模型的隐空间特征作为实体表征(Entity Representation)来实现实体级运动控制,解决了现有轨迹驱动方法仅拖拽像素而无法精确控制目标对象运动的问题,在VIPSeg上实现SOTA的FVD/FID指标,用户研究中运动控制投票超出DragNUWA 26%。

DreamMotion: Space-Time Self-Similar Score Distillation for Zero-Shot Video Editing

提出基于分数蒸馏(Score Distillation)的零样本视频编辑框架DreamMotion,通过时空自相似性正则化在注入目标外观的同时保持原始视频的结构和运动完整性,适用于级联和非级联视频扩散模型。

Evaluating Text-to-Visual Generation with Image-to-Text Generation

提出VQAScore,利用VQA模型替代CLIP来评估文本-视觉生成质量,在复杂组合性提示上大幅超越CLIPScore,并发布GenAI-Bench基准。

Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation

本文首次探索预训练文本到视频(T2V)扩散模型的视觉特征用于视频理解任务,提出 VD-IT 框架,通过文本引导的图像投影和视频特定噪声预测两项关键设计,从固定的 T2V 扩散模型中提取具有优越时序语义一致性的视觉特征,在 R-VOS 四大基准上超越了使用判别式预训练视频骨干网络(如 Video Swin Transformer)的 SOTA 方法。

FreeInit: Bridging Initialization Gap in Video Diffusion Models

发现视频扩散模型存在训练-推理初始化差异(训练时低频信息泄露导致初始噪声具有时序相关性,而推理时使用无相关的高斯噪声),提出 FreeInit 通过迭代精炼初始噪声的时空低频成分来弥合该差异,显著提升视频生成的时序一致性。

Kalman-Inspired Feature Propagation for Video Face Super-Resolution

本文提出 KEEP 框架,借鉴卡尔曼滤波原理在隐空间中递归融合前帧先验与当前帧观测,实现视频人脸超分辨率中面部细节的高保真恢复与时序一致性,在 VFHQ 数据集上 PSNR 超过此前最优方法 0.8 dB。

MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing

提出首个统一视频生成与编辑的多对齐扩散模型 MagDiff,通过主体驱动对齐、自适应提示对齐和高保真对齐三种策略,在单一无微调框架中同时实现高质量视频生成与编辑。

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

提出 MOFA-Video,通过设计多个领域感知运动场适配器(MOFA-Adapter)为冻结的视频扩散模型(SVD)添加可控运动能力,支持手绘轨迹、人脸关键点等多种控制信号及其组合,实现开放域可控图像动画。

PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation

利用视频生成模型中隐含的物理动力学先验,为静态3D高斯对象估计空间变化的杨氏模量材料场,从而实现物理合理的交互式3D动力学合成。

查看全部14篇「视频生成」论文 →


🧩 多模态 VLM (44)

A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis

构建了包含13.7万张作物病害图像和100万问答对的CDDM数据集,并提出同时对视觉编码器、adapter和语言模型施加LoRA微调的策略,使Qwen-VL-Chat和LLaVA在作物病害诊断准确率上从个位数跃升至90%以上。

AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting

提出AdaShield框架,通过精心设计的静态防御提示(AdaShield-S)和基于LLM的自适应迭代优化框架(AdaShield-A),在不微调MLLM或训练额外模块的前提下,有效防御结构化越狱攻击,将攻击成功率从75%以上降至15%以下并保持正常任务性能。

AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization

提出 AddressCLIP 框架,通过图像-文本对齐(地址+场景描述的对比学习)和图像-地理匹配(基于GPS距离的流形学习)两大核心组件,将图像地址定位(IAL)问题建模为端到端的视觉-语言对齐任务,在自建的三个IAL数据集上取得最高85.92%的Top-1准确率。

ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling

本文提出将视觉属性识别问题重新建模为基于图像条件的前缀语言模型(PrefixLM)下的句子生成概率问题,通过"生成式检索"(Generative Retrieval)替代传统的"对比式检索"(Contrastive Retrieval),显式建模物体-属性间的条件依赖关系,在VAW和新提出的VGARank数据集上显著超越对比检索方法。

Attention Prompting on Image for Large Vision-Language Models

提出Attention Prompting on Image(API),通过辅助VLM(CLIP或LLaVA)根据文本查询生成注意力归因图,将其作为热力图叠加到原始图像上引导LVLM聚焦相关区域,在MM-Vet上提升LLaVA-1.5达3.8%,跨多种LVLM(包括GPT-4V)通用有效。

BLINK: Multimodal Large Language Models Can See but Not Perceive

提出BLINK——一个包含14个经典计算机视觉感知任务的多模态评测基准(3807道选择题),这些任务人类可以"眨眼间"解决(95.7%准确率),但最强的GPT-4V仅达51.26%(仅高于随机猜测13.17%),揭示了当前MLLM在核心视觉感知能力上的严重缺失。

BRAVE: Broadening the Visual Encoding of Vision-Language Models

本文系统性地分析了不同视觉编码器(CLIP、DINOv2、EVA-CLIP等)对VLM性能的影响,发现没有单一编码器能在所有任务上最优,基于此提出BRAVE方法,通过轻量级的MEQ-Former将多个冻结编码器的特征融合为紧凑表示,以仅116M可训练参数在captioning和VQA任务上取得SOTA,并显著降低视觉幻觉。

CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios

提出 CAT 模型,通过设计问题相关线索聚合器(Clue Aggregator)捕获细粒度音视频特征,结合混合多模态训练策略和 AI 辅助的模糊感知直接偏好优化(ADPO)策略,显著提升 MLLM 在动态音视频场景中的问答准确性,在多个 AVQA 基准上达到 SOTA。

CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts

从因果生成模型视角出发,提出 CLAP(Contrastive Learning with Augmented Prompts),通过文本 prompt 增强 + 对比学习训练一个轻量解耦网络,将 CLIP 预训练特征中的 content 与 style 分离,仅用文本训练即可同时提升图像和文本两侧的表征质量,在 zero-shot、few-shot 分类和对抗鲁棒性上均取得一致提升。

Dataset Growth (InfoGrowth)

提出 InfoGrowth,一种高效的在线数据清洗与选择算法,通过近邻搜索估计每个样本的信息增益,实现数据集的持续增长,同时保证清洁度和多样性,在 CC3M 上仅用 1/6 数据即超过全量训练效果。

查看全部44篇「多模态 VLM」论文 →


🧠 VLM Reasoning (1)

NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models

NavGPT-2通过将冻结LLM的隐层表征作为视觉-语言特征输入拓扑图导航策略网络,在保留LLM可解释性导航推理能力的同时,消除了基于LM的智能体与VLN专用模型之间的性能差距,并展现出优异的数据效率。


⚡ VLM Efficiency (4)

Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding

提出 ClassAct/ActiveCLIP 方法,利用小型廉价代理模型为数据点计算"可学习性"评分来优先选择训练数据,使大规模视觉分类器和多模态模型分别减少46%和51%的训练更新量,且总计算量节省高达25%,是首个在大规模预训练中实现计算正收益的主动学习方法。

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

Groma提出了将定位能力嵌入视觉tokenization过程的新范式——通过region proposer发现感兴趣区域并编码为region token,使MLLM无需依赖LLM输出坐标或外部模块即可实现高精度的referring和grounding,同时利用GPT-4V+visual prompting构建了首个视觉-文本双prompt的grounded chat数据集Groma Instruct。

IVTP: Instruction-Guided Visual Token Pruning for Large Vision-Language Models

IVTP提出在大型视觉语言模型的推理过程中,利用文本指令(instruction)信息动态评估各视觉token的重要性并剪枝冗余token,实现与任务相关的自适应视觉信息压缩,在大幅减少计算量的同时保持甚至提升模型性能。

Quantized Prompt for Efficient Generalization of Vision-Language Models

将量化误差视为一种正则化噪声,对VLM的可学习prompt进行极低比特量化(最低1-bit),在大幅减少存储开销(最高16倍压缩)的同时显著提升模型在未见类别上的泛化能力,QCoOp仅需0.26KB即超越大量SOTA方法。


🎵 音频/语音 (8)

Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos

提出 AV-LDM,通过在训练时引入同一视频不同时间段的音频作为环境音条件,隐式解耦前景动作声和背景环境音,结合检索增强生成(RAG)在推理时选择合适的环境音条件,在 Ego4D 和 EPIC-KITCHENS 上大幅超越已有方法。

Beat-It: Beat-Synchronized Multi-Condition 3D Dance Generation

提出 Beat-It 框架,通过将节拍条件从音乐中解耦并设计层次化多条件融合机制,实现了节拍同步且关键帧可控的 3D 舞蹈生成,在 AIST++ 上大幅领先现有方法。

CoLeaF: A Contrastive-Collaborative Learning Framework for Weakly Supervised Audio-Visual Video Parsing

提出 CoLeaF 双分支学习框架,通过事件感知对比学习显式优化跨模态上下文的整合,在弱监督音视频解析任务上平均提升 1.9% F-score。

ControlLLM: Augment Language Models with Tools by Searching on Graphs

提出 ControlLLM 框架,通过在预构建的工具图(Tool Graph)上进行图搜索(Thoughts-on-Graph)来规划多模态工具调用,显著提升了复杂任务中工具选择和参数赋值的准确性。

Label-Anticipated Event Disentanglement for Audio-Visual Video Parsing

提出 LEAP(Label semantic-based Projection)解码范式,利用事件类别的标签文本嵌入作为语义锚点,通过跨模态注意力机制将音频/视觉隐特征中潜在重叠的事件语义解耦到独立的标签嵌入中,配合基于 EIoU 的音视觉语义相似度损失,在 AVVP 任务上取得 SOTA。

Latent-INR: A Flexible Framework for Implicit Representations of Videos with Discriminative Semantics

提出 Latent-INR 框架,通过为视频每帧学习一个隐式 latent code 并结合 hypernetwork 进行低秩权重调制,将视频 INR 的空间与时间建模解耦,在保持压缩性能的同时赋予表征语义判别能力,支持检索、视频插帧和任意分辨率推理等多种下游任务。

Listen to Look into the Future: Audio-Visual Egocentric Gaze Anticipation

提出 CSTS(Contrastive Spatial-Temporal Separable)音视频融合方法,首次将音频信号引入第一人称注视预测任务,通过空间和时间分离融合模块分别建模音视频的空间共现和时序相关性,并用后融合对比学习增强表示,在 Ego4D 和 Aria 数据集上超越 SOTA。

Siamese Vision Transformers are Scalable Audio-Visual Learners

提出AVSiam框架,使用单个共享权重的ViT backbone同时处理音频和视觉输入,结合多比例随机掩码策略和对比+重建双目标预训练,以极低成本(比MAViL快28.9倍)在音视觉分类和检索上达到SOTA性能。


🧊 3D 视觉 (181)

3D Congealing: 3D-Aware Image Alignment in the Wild

3D Congealing将一组语义相似的无标注互联网图像对齐到共享的3D canonical空间,通过结合预训练扩散模型的SDS指导获得3D形状 + DINO语义特征匹配估计位姿和坐标映射,无需模板、位姿标注或相机参数。

3D Reconstruction of Objects in Hands without Real World 3D Supervision

提出HORSE框架,通过从野外视频中提取多视角2D mask监督(以手部姿态作为物体姿态代理)和从合成3D形状集合中学习2D切片对抗形状先验,训练occupancy网络从单张RGB图像重建手持物体3D形状,在不使用任何真实世界3D标注的情况下,在MOW数据集上超越使用3D监督的方法11.6%。

3D Single-Object Tracking in Point Clouds with High Temporal Variation

HVTrack首次探索高时间变化场景下的3D单目标跟踪,通过相对位姿感知记忆模块(RPM)、基础-扩展特征交叉注意力(BEA)和上下文点引导自注意力(CPA)三个模块,分别解决点云形状剧变、相似物体干扰和背景噪声问题,在KITTI-HV 5帧间隔下比SOTA提升11.3%/15.7% Success/Precision。

3DEgo: 3D Editing on the Go!

3DEgo将传统三阶段3D编辑流程(COLMAP位姿估计→未编辑场景初始化→迭代编辑更新)压缩为单阶段框架:先用自回归噪声混合模块对视频帧进行多视角一致的2D编辑,再用COLMAP-free的3DGS从编辑后帧直接重建3D场景,速度提升约10倍且支持任意来源视频。

3iGS: Factorised Tensorial Illumination for 3D Gaussian Splatting

3iGS 用基于张量分解的连续入射光照场替代 3DGS 中每个高斯体独立优化的球谐系数,结合可学习 BRDF 特征和轻量神经渲染器来建模出射辐射,在保持实时渲染速度的同时显著提升了镜面反射等视角依赖效果的渲染质量。

3×2: 3D Object Part Segmentation by 2D Semantic Correspondences

提出了一种无需训练的3D物体部件分割方法3-By-2,利用扩散模型(DIFT)的2D语义对应关系从已标注2D数据集或少量3D标注对象中迁移部件标签到3D,在zero-shot和few-shot设置下均达到SOTA。

4Diff: 3D-Aware Diffusion Model for Third-to-First Viewpoint Translation

本文提出 4Diff,一个结合3D几何先验的 transformer-based 扩散模型,通过自中心点云光栅化和3D感知旋转交叉注意力两个机制,将第三人称(外视角)图像转换为第一人称(自中心视角)图像,在 Ego-Exo4D 数据集上达到 SOTA 并展现出对新环境的强泛化能力。

6DGS: 6D Pose Estimation from a Single Image and a 3D Gaussian Splatting Model

提出6DGS,通过反转3DGS渲染流程——从椭球体表面均匀发射光线(Ellicell),利用注意力机制将光线与目标图像像素绑定,再用加权最小二乘闭式求解相机位姿,无需迭代和初始位姿,在真实场景上旋转精度提升12%、平移精度提升22%,达到15fps近实时性能。

A Compact Dynamic 3D Gaussian Representation for Real-Time Dynamic View Synthesis

将3DGS中的位置和旋转参数建模为时间的函数(位置用Fourier逼近、旋转用线性逼近),使动态场景的存储复杂度从O(TN)降低到O(LN),在D-NeRF/DyNeRF/HyperNeRF三个数据集上实现了与NeRF方法匹敌的渲染质量,同时保持118+ FPS的实时渲染速度。

A Direct Approach to Viewing Graph Solvability

本文对视图图(Viewing Graph)可解性问题提出了一种比以往更直接的新形式化方法,引入了新概念用于理解实际 SfM 图的可解性,并给出了更高效的不可解情况检测与分解算法。

查看全部181篇「3D 视觉」论文 →


🎯 目标检测 (31)

Adaptive Bounding Box Uncertainties via Two-Step Conformal Prediction

本文提出一种两步共形预测框架用于多目标检测的不确定性量化:第一步生成类别标签的共形预测集合以处理分类错误,第二步基于集成和分位数回归生成自适应的边界框不确定性区间,在保证覆盖率的同时提供实际可用的紧致预测区间。

Adaptive Multi-task Learning for Few-Shot Object Detection

本文提出了一种自适应多任务学习方法(MTL-FSOD),通过精度驱动的梯度平衡器动态调整分类和定位任务的梯度比例来缓解两者的冲突,并引入基于 CLIP 的知识蒸馏和分类精化方案来增强各任务的能力,在多个小样本检测基准上取得了一致的性能提升。

AugDETR: Improving Multi-scale Learning for Detection Transformer

本文提出 AugDETR(Augmented DETR),通过混合注意力编码器(Hybrid Attention Encoder)扩大可变形编码器的感受野并引入全局上下文特征增强特征表示,再通过编码器混合交叉注意力(Encoder-Mixing Cross-Attention)自适应利用多层编码器信息加速收敛,在 COCO 上为 DINO、AlignDETR、DDQ 分别带来 1.2/1.1/1.0 AP 的提升。

BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sentence Grounding in Videos

提出边界对齐的时刻检测 Transformer(BAM-DETR),用 anchor-boundary 三元组 \((p, d_s, d_e)\) 替代传统的 center-length 二元组 \((c, l)\) 来建模时刻,配合双路径解码器和基于质量的排序机制,有效解决了中心模糊导致的定位不精确问题。

Bridge Past and Future: Overcoming Information Asymmetry in Incremental Object Detection

提出 Bridge Past and Future (BPF) 方法,通过伪标签桥接过去阶段、注意力机制排除未来潜在物体,并结合双教师蒸馏(Distillation with Future),解决增量目标检测中跨阶段信息不对称导致的优化目标不一致问题。

Can OOD Object Detectors Learn from Foundation Models?

SyncOOD 提出一种自动化数据策展方法,利用 LLM 想象语义新颖的 OOD 概念,通过 Stable Diffusion Inpainting 在 ID 图像上进行区域级编辑合成场景级 OOD 样本,再经 SAM 精炼框和特征相似度过滤后训练轻量 MLP 分类器,在多个 OOD 检测基准上以极少量合成数据大幅超越 SOTA。

DAMSDet: Dynamic Adaptive Multispectral Detection Transformer

DAMSDet 提出一种基于 DETR 架构的动态自适应红外-可见光目标检测方法,通过模态竞争 Query 选择(为每个目标动态选择主导模态特征作为初始 query)和多光谱可变形交叉注意力(在多语义层级上自适应采样和聚合双模态特征),同时解决互补信息融合和模态未对齐两大挑战,在 4 个公开数据集上显著超越 SOTA。

DSPDet3D: 3D Small Object Detection with Dynamic Spatial Pruning

提出动态空间剪枝(DSP)策略,在多级 3D 检测器的解码器中逐级移除已检测到大物体区域的体素特征,使检测器能以高空间分辨率处理场景、大幅提升小目标检测精度(ScanNet 小目标 [email protected] 从 27.5% 提升到 44.8%),同时通过剪枝将显存降低为同分辨率方法的 1/5。

GRA: Detecting Oriented Objects Through Group-Wise Rotating and Attention

提出轻量级的 Group-wise Rotating and Attention (GRA) 模块,通过将卷积核分组旋转并施加分组空间注意力,在参数量减少近 50% 的同时超越了此前 SOTA 方法 ARC,在 DOTA-v2.0 上取得新的最优性能。

LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction

提出 LaMI-DETR,通过利用 GPT 生成视觉概念描述和 T5 挖掘类间视觉相似性关系,解决开放词汇目标检测中概念表示不足和基类过拟合两大问题,在 OV-LVIS 上以 43.4 的 rare AP 超越前最佳方法 7.8 个点。

查看全部31篇「目标检测」论文 →


✂️ 语义分割 (53)

A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties

ProLab 用 LLM 生成类别的常识性描述,通过句子嵌入和 K-Means 聚类将其压缩为 256 个可解释的描述性属性,构建属性级多热标签空间替代传统 one-hot 类别标签来监督分割模型,在五个经典基准上一致超越类别级监督且涌现出域外泛化能力。

A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting

基于Stable Diffusion构建了一个极简的潜在扩散分割框架LDMSeg,通过浅层自编码器将分割mask压缩到潜空间、再训练图像条件扩散模型来生成全景分割结果,避免了传统方法中的目标检测模块、匈牙利匹配和复杂后处理,并天然支持mask inpainting和多任务扩展。

ActionVOS: Actions as Prompts for Video Object Segmentation

提出ActionVOS——一种以人类动作叙述作为额外语言提示的Referring Video Object Segmentation新设定,通过无参数的动作感知标注模块生成伪标签,并设计动作引导的focal loss来抑制假阳性,在VISOR上将非活跃物体的误分割降低35.6% mIoU,同时在VOST/VSCOS上对状态变化物体的分割提升3.0% mIoU。

Active Coarse-to-Fine Segmentation of Moveable Parts from Real Images

提出首个面向真实室内场景RGB图像中可运动部件实例分割的主动学习框架,通过姿态感知masked attention网络实现由粗到细的分割,仅需人工标注11.45%的图像即可获得全量验证的高质量分割结果,相比最优非AL方法节省60%人工时间。

Attention Decomposition for Cross-Domain Semantic Segmentation

本文提出 ADFormer,一种用于跨域语义分割的新型 Transformer 架构,通过将解码器中的交叉注意力分解为域无关和域特定两部分,结合梯度反转对抗学习,有效缩小源域和目标域之间的分布差异,在 GTA→Cityscapes 和 SYNTHIA→Cityscapes 两个基准上以显著更低的复杂度超越了现有无 proposal 方法。

CoLA: Conditional Dropout and Language-Driven Robust Dual-Modal Salient Object Detection

提出 CoLA 框架,通过语言驱动的质量评估(LQA)和条件性 Dropout(CD)两个核心模块,首次在双模态显著性目标检测中同时解决噪声输入和模态缺失两大鲁棒性问题。

ColorMAE: Exploring Data-Independent Masking Strategies in Masked AutoEncoders

提出 ColorMAE,通过对随机噪声施加不同频域滤波器生成具有空间与语义先验的数据无关遮罩模式,在不增加任何参数和计算开销的前提下,显著提升 MAE 的下游任务表现,尤其在语义分割任务上相比随机遮罩提升 2.72 mIoU。

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

提出 ControlNet++,通过像素级循环一致性损失显式优化条件可控生成质量:用预训练判别模型从生成图像中提取条件并与输入条件对齐,并设计高效单步去噪 reward 策略避免多步采样的巨大显存开销,在分割掩码、边缘、深度等多种条件控制下显著提升可控性(如分割 mIoU +11.1%)。

CoReS: Orchestrating the Dance of Reasoning and Segmentation

提出 CoReS(Chains of Reasoning and Segmenting),一种双链结构的多模态思维链框架,通过推理链和分割链的层次化协作,结合 in-context 引导策略,实现对复杂推理文本中目标物体的渐进式精确分割,在 ReasonSeg 数据集上超越 LISA 6.5%。

CPM: Class-Conditional Prompting Machine for Audio-Visual Segmentation

提出 CPM(Class-conditional Prompting Machine),通过结合类无关查询与基于 GMM 采样的类条件查询来增强 Mask2Former 在音视频分割中的二部图匹配稳定性和跨模态注意力效力,同时设计音频条件提示(ACP)、视觉条件提示(VCP)和提示对比学习(PCL)三个辅助任务,在 AVSBench 和 VPO 基准上达到 SOTA。

查看全部53篇「语义分割」论文 →


🖼️ 图像恢复 (32)

A New Dataset and Framework for Real-World Blurred Images Super-Resolution

针对现有盲超分方法在处理含模糊(散焦/运动模糊)图像时过度纹理化、破坏模糊区域感知质量的问题,构建了包含近3000张模糊图像的ReBlurSR数据集,并提出PBaSR框架,通过双分支解耦训练(CDM)和基于权重插值的跨分支融合(CFM),在不增加任何推理开销的前提下,同时提升模糊图像和普通图像的超分效果,LPIPS提升0.02~0.10。

Accelerating Image Super-Resolution Networks with Pixel-Level Classification

提出PCSR——首个像素级计算资源分配的超分方法,用轻量MLP分类器逐像素判断恢复难度并分配到不同容量的上采样器,在PSNR几乎不掉的情况下将FLOPs压低至原始模型的18%~57%,大幅优于现有patch级方法ClassSR和ARM。

Asymmetric Mask Scheme for Self-supervised Real Image Denoising

提出非对称掩码方案 AMSNet,训练时用单掩码、推理时用多掩码互补,突破了 blind spot network 对网络感受野的结构限制,在真实图像自监督去噪任务上取得 SOTA。

BAMM: Bidirectional Autoregressive Motion Model

提出 BAMM(双向自回归运动模型),通过统一生成掩码建模和自回归建模的混合注意力掩码策略,在一个框架中同时实现高质量运动生成、自适应长度预测和零样本运动编辑,在 HumanML3D 和 KIT-ML 上全面超越 SOTA。

Blind Image Deblurring with Noise-Robust Kernel Estimation

本文提出一种基于噪声鲁棒核估计函数和深度图像先验(DIP)的盲去模糊方法,通过设计能在强噪声下仍能准确估计模糊核的核估计函数,结合多核估计方案处理未知噪声水平,在模拟和真实图像上取得了优越的去模糊性能。

BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed Dual-Branch Diffusion

提出 BrushNet,一种即插即用的双分支扩散模型图像修复架构,通过将遮罩图像特征提取与图像生成解耦到独立分支,实现逐层像素级特征注入,在图像质量、遮罩区域保持和文本对齐三方面全面超越已有方法。

Contourlet Residual for Prompt Learning Enhanced Infrared Image Super-Resolution

针对红外图像超分辨率的特殊挑战,提出 CoRPLE 框架,利用 Contourlet 变换进行多尺度多方向的红外频谱残差增强,并引入基于视觉语言模型的提示学习范式来捕获红外图像的固有特征,在红外 SR 任务上达到 SOTA 性能。

DenoiSplit: A Method for Joint Microscopy Image Splitting and Unsupervised Denoising

提出 DenoiSplit,首个将语义图像分解(image splitting)和无监督去噪(unsupervised denoising)联合解决的方法,通过在层次化 VAE 中整合像素噪声模型和改进的 KL 散度损失加权策略,在荧光显微镜图像上实现了端到端的去噪+分解,性能显著优于先去噪再分解的串行方案。

Domain-Adaptive Video Deblurring via Test-Time Blurring

提出基于扩散模糊模型的测试时域适应方法,通过从模糊视频中检测相对清晰区域作为伪清晰图像,并生成域自适应的模糊条件来合成训练对,实现在未知域上对去模糊模型的微调,在 5 个真实数据集上最高提升 7.54dB。

EDformer: Transformer-Based Event Denoising Across Varied Noise Levels

EDformer 提出了一种基于 Transformer 的逐事件去噪模型,通过学习事件之间的时空相关性来处理不同噪声水平下的事件相机噪声,并首次构建了包含 21 个噪声等级的真实世界事件去噪数据集 ED24。

查看全部32篇「图像恢复」论文 →


🛰️ 遥感 (6)

Adapting Fine-Grained Cross-View Localization to Areas without Fine Ground Truth

针对细粒度跨视角定位模型在新区域部署时精度下降的问题,提出基于知识自蒸馏的弱监督学习方法——通过模式化伪GT生成、粗粒度监督和离群值过滤三个策略,仅使用目标区域的地面-航拍图像对(无需精确GT),即可在VIGOR和KITTI上将定位误差降低12%~20%。

ConGeo: Robust Cross-View Geo-Localization Across Ground View Variations

提出 ConGeo,一种模型无关的单视图+跨视图对比学习框架,通过强制同一地点不同地面视角变体之间的特征一致性,使单一模型即可在任意朝向和任意视场角(FoV)下实现鲁棒的跨视图地理定位。

Cross-Platform Video Person ReID: A New Benchmark Dataset and Adaptation Approach

构建首个地面-无人机跨平台视频行人重识别数据集G2A-VReID,并提出VSLA-CLIP方法,通过视觉-语义对齐和参数高效的Video Set-Level-Adapter将CLIP适配到视频ReID任务。

Learning Representations of Satellite Images From Metadata Supervision

本文提出了 SatMIP(Satellite Metadata-Image Pretraining),将卫星图像的元数据(如时间、地理位置、传感器信息等)表示为文本描述,通过图像-元数据对比学习任务在共享嵌入空间中对齐图像和元数据,学习到既包含视觉特征又编码语义信息的卫星图像表征,并进一步提出 SatMIPS(结合图像自监督和元数据监督),在多个遥感下游任务上超越了 SimCLR 等纯视觉自监督方法。

Masked Angle-Aware Autoencoder for Remote Sensing Images

提出 MA3E,在 MAE 预训练中显式引入角度变化(通过 scaling center crop 构建旋转裁剪),并用最优传输损失自动分配重建目标,使模型感知遥感目标的多样角度,学习旋转不变表示。

Weakly-Supervised Camera Localization by Ground-to-Satellite Image Registration

提出首个弱监督的地面-卫星图像配准定位方法,通过卫星-卫星自监督训练旋转估计器、对比学习训练平移估计器,在无需精确GT姿态标签的条件下实现最佳跨区域泛化能力,超越大多数全监督SOTA方法。


🧑 人体理解 (54)

3D Hand Pose Estimation in Everyday Egocentric Images

通过系统研究裁剪输入、相机内参感知位置编码(KPE)、辅助监督(手部分割+抓握标签)和多数据集联合训练这四个实践,提出WildHands系统,在仅用ResNet50和少量数据的条件下,实现了对野外第一人称图像中3D手部姿态的鲁棒估计,零样本泛化超过FrankMocap全部指标且与10倍大的HaMeR竞争。

3DFG-PIFu: 3D Feature Grids for Human Digitization from Sparse Views

本文提出 3DFG-PIFu,通过引入3D特征网格(3D Feature Grids)在整个 pipeline 中全局融合多视图特征,替代传统逐点局部融合方式,并结合迭代网格精炼机制和基于 SDF 的 SMPL-X 特征,显著超越现有稀疏视图人体数字化 SOTA 方法。

3DGazeNet: Generalizing 3D Gaze Estimation with Weak-Supervision from Synthetic Views

提出将视线估计重新表述为密集3D眼球网格回归,并通过从大规模野外人脸图像中自动提取伪标签+HeadGAN合成多视图进行弱监督训练,在跨域场景下比SOTA提升最多30%。

3DSA: Multi-view 3D Human Pose Estimation With 3D Space Attention Mechanisms

本文提出3D空间注意力模块(3DSA),通过3D空间细分算法将特征体积划分为多个区域并为其分配基于视角的注意力权重,解决多视图3D人体姿态估计中不同视角对不同空间区域贡献不均的问题,在 CMU Panoptic Studio 数据集上达到 SOTA。

A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars

提出首个基于3D Avatar输出的Spoken2Sign翻译基线系统,通过三步流程(字典构建→SMPLSign-X 3D手语估计→检索-连接-渲染翻译)将口语文本翻译为3D手语动画,在Phoenix-2014T上back-translation BLEU-4达25.46,同时其3D手语副产品(关键点增强和多视角理解)显著提升了手语理解任务性能。

AdaDistill: Adaptive Knowledge Distillation for Deep Face Recognition

提出AdaDistill,将知识蒸馏概念嵌入margin penalty softmax loss中,通过基于EMA的自适应类中心(早期用sample-sample简单知识、后期用sample-center复杂知识)和困难样本感知机制,无需额外超参数即可提升轻量级人脸识别模型的判别能力,在IJB-B/C和ICCV21-MFR等挑战性基准上超越SOTA蒸馏方法。

Adaptive High-Frequency Transformer for Diverse Wildlife Re-Identification

提出自适应高频Transformer(AdaFreq),通过频域混合增强、目标感知的高频token动态选择、特征均衡损失三大策略,将高频信息(毛皮纹理、轮廓边缘等)统一用于多种野生动物的重识别,在8个跨物种数据集上超越现有ReID方法。

ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation

提出ADen框架,通过生成器输出多个位姿假设+判别器评分选择最佳的方式,统一了位姿回归和概率估计范式,仅需500个自适应样本即超越需要500K均匀采样的方法,同时实现实时推理。

Alignist: CAD-Informed Orientation Distribution Estimation by Fusing Shape and Correspondences

提出 Alignist,首个利用 CAD 模型信息(SDF + SurfEmb 对应特征)训练隐式分布网络来推断 SO(3) 上姿态分布的方法,通过 product of experts 融合几何和特征对齐,在低数据场景下显著优于对比学习方法。

Audio-Driven Talking Face Generation with Stabilized Synchronization Loss

提出 AVSyncNet、stabilized synchronization loss 和 silent-lip generator 三项改进,系统性地解决音频驱动说话人脸生成中 SyncNet 不稳定和嘴唇泄漏两大核心问题,在唇形同步和视觉质量上均达到 SOTA。

查看全部54篇「人体理解」论文 →


📹 视频理解 (51)

ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Streaming Videos

提出 ActionSwitch——首个无需类别信息即可检测流式视频中重叠动作实例的在线时序动作定位(On-TAL)框架,核心将多动作检测建模为有限状态机的状态分类问题,并辅以 conservativeness loss 减少碎片化误检,在 THUMOS14、FineAction、Epic-Kitchens 100 等数据集上在 OAD 扩展方法中达到 SOTA。

Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts

提出 Adapt2Reward,通过可学习的失败提示(failure prompts)将预训练视频语言模型适配为可泛化的语言条件奖励函数,仅需少量单一环境的机器人数据即可泛化到新环境和新任务,在 MetaWorld 上比前方法高出约 28%。

AMEGO: Active Memory from Long EGOcentric Videos

提出 AMEGO,一种从长第一人称视频中在线构建结构化"活跃记忆"的方法,通过 HOI tracklet + 位置分段 + 语义无关的视觉查询,在新提出的 AMB benchmark 上超越 Video QA baselines 12.7%。

Bayesian Evidential Deep Learning for Online Action Detection

本文提出 BEDL(Bayesian Evidential Deep Learning)框架,通过贝叶斯教师-证据学生架构,在在线动作检测任务中实现了准确高效的推理与可靠的不确定性量化,并设计了基于贝叶斯互信息的注意力模块用于主动特征选择。

Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects

基于 HANDS23 挑战赛(AssemblyHands + ARCTIC 数据集),系统性地对第一人称视角下手-物体交互的 3D 姿态估计方法进行了基准测试和深入分析,揭示了畸变校正、高容量 Transformer 和多视角融合的有效性,以及快速运动、遮挡和窄视角下物体重建等仍未解决的挑战。

Boosting 3D Single Object Tracking with 2D Matching Distillation and 3D Pre-training

本文提出了一个统一的3D单目标跟踪(SOT)框架,通过3D生成式预训练和2D预训练基础跟踪器的匹配知识蒸馏,解决了点云数据稀缺和LiDAR扫描稀疏不完整的问题,在KITTI、Waymo和nuScenes上达到SOTA性能。

Classification Matters: Improving Video Action Detection with Class-Specific Attention

提出类别专属查询(class queries)机制,通过为每个动作类别分配独立的可学习查询,让模型动态关注与各类别相关的上下文区域,显著提升视频动作检测中的分类性能。

CrossGLG: LLM Guides One-Shot Skeleton-Based 3D Action Recognition in a Cross-Level Manner

提出CrossGLG框架,利用LLM生成的文本描述以"全局→局部→全局"的方式引导骨架特征学习,在单样本3D动作识别中以仅2.8%的SOTA模型参数量大幅超越对手。

Data Collection-Free Masked Video Modeling

提出基于伪运动生成器(PMG)从静态图像递归生成伪运动视频,结合掩码视频建模(VideoMAE)进行自监督预训练,完全摆脱真实视频数据的采集成本和隐私/版权顾虑,甚至可用合成图像实现有效的视频Transformer预训练。

DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single Video

提出DINO-Tracker,将预训练DINOv2的语义特征与测试时单视频优化相结合,通过Delta-DINO残差微调和多源自监督损失实现长程稠密点追踪,在自监督方法中达到SOTA且可媲美有监督追踪器,尤其在长期遮挡场景中大幅领先。

查看全部51篇「视频理解」论文 →


🚗 自动驾驶 (53)

4D Contrastive Superflows are Dense 3D Representation Learners

提出SuperFlow框架,通过视图一致性对齐、稠密-稀疏一致性正则化、和基于流的时空对比学习三个模块,利用连续LiDAR-相机对建立4D预训练目标,在11个异构LiDAR数据集上全面超越了之前的Image-to-LiDAR预训练方法。

Accelerating Online Mapping and Behavior Prediction via Direct BEV Feature Attention

提出直接将在线地图估计模型内部的BEV特征暴露给下游轨迹预测模型(而非仅传递解码后的矢量化地图),通过三种BEV特征注入策略实现推理加速最高73%、预测精度提升最高29%。

Adaptive Human Trajectory Prediction via Latent Corridors

将prompt tuning思想引入行人轨迹预测,通过在预训练轨迹预测器的输入端添加可学习的低秩图像prompt(称为latent corridors),以不到0.1%的额外参数实现对部署场景特定行为模式的高效自适应,在合成和真实数据上分别取得最高23.9%和26.8%的ADE提升。

Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene

提出 LiSe 方法,将 2D 图像信息引入无监督 3D 目标检测,通过自步学习(self-paced learning)中的自适应采样和弱模型聚合策略,大幅提升远距离和小目标的检测能力。

CarFormer: Self-Driving with Learned Object-Centric Representations

提出 CarFormer,首次将自监督 slot attention 学到的 object-centric 表征用于自动驾驶,在 CARLA Longest6 基准上超越了使用精确物体属性的 PlanT,同时具备世界模型预测未来状态的能力。

CSOT: Cross-Scan Object Transfer for Semi-Supervised LiDAR Object Detection

提出 CSOT(Cross-Scan Object Transfer)范式,通过 Transformer 网络预测语义一致的物体放置位置和适配度,首次在 LiDAR 半监督目标检测中成功实现了 object copy-paste 增强,配合空间感知分类损失,仅用 1% 标注数据即可达到全监督基线的检测性能。

Detecting As Labeling: Rethinking LiDAR-camera Fusion in 3D Object Detection

本文从数据标注过程中总结出"回归任务不应使用图像特征"的基本原则,提出 DAL 范式——将检测过程类比为标注过程,用点云特征独立完成回归预测、用融合特征完成分类预测,结合简洁的训练流程,在 nuScenes 上以 74.0 NDS(val)和 74.8 NDS(test)大幅刷新 SOTA。

DVLO: Deep Visual-LiDAR Odometry with Local-to-Global Feature Fusion and Bi-directional Structure Alignment

提出基于聚类的 Local-to-Global 融合网络 DVLO,通过双向结构对齐(图像→伪点云 + 点云→伪图像)解决视觉与 LiDAR 的数据结构不一致问题,在 KITTI 里程计和 FlyingThings3D 场景流任务上均取得 SOTA。

DySeT: A Dynamic Masked Self-distillation Approach for Robust Trajectory Prediction

DySeT 提出了一种动态掩码自蒸馏方法,通过强化学习驱动的信息性 token 优先采样和从完整到掩码表示的知识蒸馏,显著提升了自动驾驶场景下轨迹预测模型的泛化能力和鲁棒性。

Enhancing Vectorized Map Perception with Historical Rasterized Maps

提出 HRMapNet,通过维护一张低成本的全局历史栅格化地图(historical rasterized map),为在线矢量化地图感知提供互补先验信息,在 BEV 特征聚合和 query 初始化两个层面增强现有方法,在 nuScenes 和 Argoverse 2 上取得显著提升。

查看全部53篇「自动驾驶」论文 →


🤖 机器人/具身智能 (13)

AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation

提出 STAformer 架构和两个基于 affordance 的模块(环境 affordance 数据库 + 交互热点),将第一人称视频中的短期物体交互预测(STA)在 Ego4D 和 EPIC-Kitchens 上提升了 30-45% 的相对性能。

An Economic Framework for 6-DoF Grasp Detection

提出EconomicGrasp框架,通过发现密集监督中的歧义问题(ambiguity problem)是性能与资源矛盾的根源,设计经济监督范式(保留所有视角但裁剪角度/深度)和焦点表示模块(交互式抓取头+复合评分),在GraspNet-1Billion上以1/4训练时间、1/8内存成本超越SOTA约3AP。

Decomposed Vector-Quantized Variational Autoencoder for Human Grasp Generation

提出 Decomposed VQ-VAE (DVQ-VAE),通过将手部分解为六个部分分别编码到独立码本,并设计双阶段解码策略(先姿态后位置),在四个基准数据集上质量指标相对提升约14.1%。

DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-Level Control

提出 DISCO 框架,通过可微分场景语义表示和双层粗-细动作控制,在 ALFRED 基准上实现具身导航与交互的显著性能提升(未见场景成功率超越 SOTA +8.6%,且无需逐步指令)。

GraspXL: Generating Grasping Motions for Diverse Objects at Scale

提出 GraspXL,一个基于强化学习的抓取动作生成框架,仅用58个物体训练即可泛化到50万+未见物体,同时支持多运动目标(抓取区域、朝向、手腕旋转、手部位置)控制和多种灵巧手平台。

Hierarchically Structured Neural Bones for Reconstructing Animatable Objects from Casual Videos

提出层次化神经骨骼(Hierarchical Neural Bones)框架,通过树状结构的骨骼系统以粗到细的方式分解物体运动,从随手拍摄的视频中重建可操控的高质量 3D 模型。

Learning Cross-Hand Policies of High-DOF Reaching and Grasping

提出一种两阶段层次化框架,通过语义关键点和交互等分面(IBS)作为手型无关的状态表示,结合Transformer策略网络和手型特定的适配模型,实现了灵巧抓取策略在不同高自由度机械手之间的零样本迁移。

LLM as Copilot for Coarse-Grained Vision-and-Language Navigation

本文提出VLN-Copilot框架,让视觉语言导航智能体在粗粒度(简短模糊)指令下遇到困惑时主动向LLM求助,LLM作为副驾驶实时生成细粒度导航指导,在两个粗粒度VLN数据集上显著提升导航成功率。

Prioritized Semantic Learning for Zero-shot Instance Navigation

提出Prioritized Semantic Learning (PSL)方法,通过语义增强的Agent架构、优先语义训练策略和语义扩展推理方案,显著提升零样本目标/实例导航中Agent的语义感知能力,在ObjectNav和新提出的InstanceNav任务上实现SOTA。

QUAR-VLA: Vision-Language-Action Model for Quadruped Robots

首次提出四足机器人视觉-语言-动作(QUAR-VLA)范式,构建 259K episode 的多任务数据集 QUARD 和基于预训练多模态大模型的 QUART 模型,实现感知、导航、全身操作等多任务统一控制。

查看全部13篇「机器人/具身智能」论文 →


🎮 强化学习 (3)

AdaGlimpse: Active Visual Exploration with Arbitrary Glimpse Position and Scale

提出AdaGlimpse,利用Soft Actor-Critic强化学习从连续动作空间中选择任意位置和尺度的glimpse,结合弹性位置编码的ViT编码器实现多任务(重建/分类/分割)的主动视觉探索,以仅6%像素超越了使用18%像素的SOTA方法。

Octopus: Embodied Vision-Language Programmer from Environmental Feedback

提出 Octopus,一个具身视觉-语言编程模型,通过生成可执行代码来连接高层规划与底层操控,并引入 Reinforcement Learning with Environmental Feedback (RLEF) 训练方案来提升决策质量。

Visual Grounding for Object-Level Generalization in Reinforcement Learning

利用视觉语言模型 (MineCLIP) 的 visual grounding 能力生成目标物体的 confidence map,通过奖励设计和任务表征两条路径将 VLM 知识迁移到强化学习中,实现对未见物体和指令的零样本泛化。


🎁 推荐系统 (1)

AID-AppEAL: Automatic Image Dataset and Algorithm for Content Appeal Enhancement and Assessment Labeling

首次提出图像内容吸引力评估(ICAA)任务,区别于传统美学评估(IAA),设计了一套自动化数据集生成 + 吸引力估计 + 吸引力增强的完整 pipeline,用 Stable Diffusion + Textual Inversion 实现零人工标注的大规模数据集构建。


🔄 自监督/表示学习 (16)

Adaptive Multi-head Contrastive Learning

本文提出AMCL(Adaptive Multi-head Contrastive Learning),通过多个投影头产生不同特征视角,配合基于MLE推导的自适应温度机制为每对样本独立加权,有效解决了多种数据增强下正负样本相似度分布重叠的问题,一致提升SimCLR、MoCo和Barlow Twins的性能。

COHO: Context-Sensitive City-Scale Hierarchical Urban Layout Generation

提出基于图掩码自编码器 (GMAE) 的城市级 2.5D 布局生成方法,通过规范图表示捕获建筑-街区-社区的多层语义上下文,结合优先级调度的迭代采样,在 330 个美国城市上实现了兼具真实感、语义一致性和正确性的大规模城市布局生成。

Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders

提出CropMAE——用同一图像的两个随机裁剪视图替代视频帧对来训练孪生掩码自编码器,在98.5%的极高掩码率下仅用2个可见patch即可学习物体边界感知表征,训练速度比SiamMAE提升最高23.8倍,同时在视频传播任务上达到竞争性能。

Exemplar-Free Continual Representation Learning via Learnable Drift Compensation

提出可学习漂移补偿(LDC),通过训练一个前向投影器将旧特征空间映射到新特征空间,在无需存储旧样本的情况下有效补偿类原型的语义漂移,首次实现了无样本半监督持续学习。

FlowCon: Out-of-Distribution Detection using Flow-Based Contrastive Learning

提出FlowCon,一种基于密度估计的OOD检测方法,创新性地将正规化流(normalizing flow)与监督对比学习结合——在流模型的潜在空间中使用基于Bhattacharyya系数的对比损失学习类别条件高斯分布,无需外部OOD数据或重训分类器即可实现高效的OOD检测。

InfMAE: A Foundation Model in the Infrared Modality

提出 InfMAE——首个红外模态基础模型,构建了 30 万张红外图像数据集 Inf30,设计信息感知掩码策略和多尺度编码器,在红外语义分割、目标检测和小目标检测三个下游任务上超越现有方法。

MarineInst: A Foundation Model for Marine Image Analysis with Instance Visual Description

本文提出MarineInst,一个面向海洋图像分析的基础模型,能够同时输出实例掩码和语义描述;并构建了MarineInst20M——迄今最大的海洋图像数据集(2000万张),支持从图像级场景理解到区域级实例理解的多层次海洋视觉分析任务。

PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer

提出位置森林 Transformer(PosFormer),通过将数学表达式的 LaTeX 序列编码为位置森林结构,显式建模符号间的层级与位置关系,并设计隐式注意力校正模块,在不增加推理开销的前提下,在单行/多行/复杂表达式数据集上全面超越 SOTA。

PromptCCD: Learning Gaussian Mixture Prompt Pool for Continual Category Discovery

提出PromptCCD框架,利用高斯混合模型(GMM)作为提示池,实现在无标签数据流中的持续新类别发现,同时缓解灾难性遗忘。

Rethinking Unsupervised Outlier Detection via Multiple Thresholding

提出 Multi-T(多阈值)模块,通过生成两个阈值分别隔离目标数据集中的 inlier 和 outlier,利用识别出的 inlier 训练干净的正常流形、利用 outlier 进行特征去噪,从而大幅提升已有离群值评分方法的性能。

查看全部16篇「自监督/表示学习」论文 →


🔬 可解释性 (5)

DetailSemNet: Elevating Signature Verification through Detail-Semantic Integration

提出DetailSemNet用于离线签名验证,通过Detail-Semantics Integrator将特征解耦为细节和语义两个分支分别处理,并引入基于EMD的局部结构匹配,在多个多语言签名数据集上取得SOTA。

EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding

提出 EgoExo-Fitness 数据集,包含同步的第一人称和第三人称健身视频,提供两级时间边界标注和创新性的可解释动作评判标注(技术关键点验证、自然语言评论、质量评分),并构建五个基准任务。

Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models

本文发现 Concept Bottleneck Models (CBMs) 中人工干预效率低下的原因在于干预时各概念独立处理、忽视了概念间关联,提出了一个轻量级的 Concept Intervention Realignment Module (CIRM),在干预后自动重新对齐相关概念的预测值,将达到目标性能所需的干预次数最多减少 70%。

PLOT: Text-based Person Search with Part Slot Attention for Corresponding Part Discovery

提出 PLOT 框架,利用基于 Slot Attention 的 Part Discovery Module 自动发现跨模态(图像-文本)对应的人体部件,结合 Text-based Dynamic Part Attention(TDPA)动态调整各部件重要性,无需部件级标注即可在三个 benchmark 上全面超越 SOTA。

POA: Pre-training Once for Models of All Sizes

POA 提出在自监督自蒸馏框架中引入弹性学生分支,通过参数共享和随机子网络采样,一次预训练即可同时产出上百个不同大小的预训练模型(如从 ViT-L 直接提取 ViT-S/B),各子网络在 k-NN、线性探测和下游任务上均达到 SOTA 水平。


📦 模型压缩 (24)

A Simple Low-bit Quantization Framework for Video Snapshot Compressive Imaging

首个面向视频快照压缩成像(Video SCI)重建任务的低比特量化框架Q-SCI,通过高质量特征提取模块、精确视频重建模块和Transformer分支的query/key分布偏移操作,在4-bit量化下实现7.8倍理论加速且性能仅下降2.3%。

AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer

提出自适应对数底量化器AdaLog,通过可搜索的对数底替代固定log₂/log√2量化器来处理ViT中post-Softmax和post-GELU激活的幂律分布,并设计快速渐进组合搜索(FPCS)策略高效确定量化超参,在极低比特(3/4-bit)下显著优于现有ViT PTQ方法。

Adaptive Compressed Sensing with Diffusion-Based Posterior Sampling

本文提出 AdaSense,利用预训练扩散模型的零样本后验采样能力来量化重建不确定性,从而自适应地选择最优测量矩阵,在人脸图像、MRI 和 CT 等多个领域实现了无需额外训练的自适应压缩感知,性能超越非自适应方法甚至基于 PCA 的最优非自适应方案。

Adaptive Selection of Sampling-Reconstruction in Fourier Compressed Sensing

本文提出"自适应选择采样-重建对"(\(\mathcal{H}_{1.5}\))框架,利用超分辨率空间生成模型量化高频贝叶斯不确定性,为每个输入数据选择最佳的采样掩码-重建网络对,在理论和实验上同时优于非自适应联合优化方法(\(\mathcal{H}_1\))和自适应采样方法(\(\mathcal{H}_2\)),在人脸图像和多线圈 MRI 重建中取得显著 SSIM 提升。

Adversarially Robust Distillation by Reducing the Student-Teacher Variance Gap

本文提出了一种基于特征分布统计对齐的对抗鲁棒知识蒸馏方法,通过减小 student 和 teacher 模型在对抗样本和干净样本之间的特征方差差距(variance gap)来提升 student 模型的对抗鲁棒性,发现鲁棒精度与方差差距存在强负相关线性关系。

Anytime Continual Learning for Open Vocabulary Classification

提出 AnytimeCL 框架,通过部分微调 CLIP 最后一个 transformer block 并动态加权融合微调模型与原始模型的预测,实现任意时刻接收样本、任意标签集推理的开放词汇持续学习。

Auto-DAS: Automated Proxy Discovery for Training-free Distillation-aware Architecture Search

本文提出 Auto-DAS,一个基于进化算法的自动化代理发现框架,用于免训练的蒸馏感知架构搜索(DAS),通过在由学生内在统计量和师生交互统计量构成的搜索空间中自动发现最优代理指标,避免了手工设计代理的局限性,在 ResNet、ViT、NAS-Bench-101/201 等多种架构和搜索空间上达到了 SOTA 的排序相关性和搜索精度。

BaSIC: BayesNet Structure Learning for Computational Scalable Neural Image Compression

本文提出 BaSIC 框架,通过学习神经图像压缩(NIC)系统的贝叶斯网络结构,同时控制骨干网络复杂度和自回归单元的并行计算能力,首次实现了对 NIC 全流程的计算可扩展性控制。

Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model

提出双向对称的立体图像压缩框架 BiSIC,采用 3D 卷积联合编解码器和跨维度熵模型,在 PSNR 和 MS-SSIM 上均超越传统标准和已有学习方法,同时消除了单向方法中左右视图压缩质量不平衡的问题。

Category Adaptation Meets Projected Distillation in Generalized Continual Category Discovery

提出 CAMP 方法,通过可学习投影器蒸馏与类别中心适应网络的协同组合,在广义持续类别发现(GCCD)场景中显著提升了新类别学习与旧知识保持之间的平衡。

查看全部24篇「模型压缩」论文 →


🏥 医学图像 (28)

A Cephalometric Landmark Regression Method Based on Dual-Encoder for High-Resolution X-Ray Image

本文提出 D-CeLR,一种基于双编码器(Dual-Encoder)的端到端回归方法,仅利用 Transformer 编码器设计特征提取+参考编码器+精调编码器的三阶段架构,实现从粗到细的头影测量标志点检测,在 Mean Radical Error (MRE) 和 2mm Success Detection Rate (SDR) 指标上显著超越现有 SOTA。

A Rotation-Invariant Texture ViT for Fine-Grained Recognition of Esophageal Cancer Endoscopic Ultrasound Images

本文提出 SRRM-ViT,通过在 ViT 中引入统计旋转不变性增强机制(SRRM),自适应选择关键区域并融合直方图统计特征,实现了对食管癌内镜超声图像中任意径向位置病灶的无偏细粒度分类,在临床和公开数据集上取得了显著性能提升。

Adaptive Correspondence Scoring for Unsupervised Medical Image Registration

针对医学图像无监督配准中噪声、遮挡等干扰因素导致的虚假重建误差问题,提出了一个自适应对应关系评分框架(AdaCS),通过学习像素级的对应置信度图来重新加权误差残差,以即插即用方式一致提升三种主流配准架构在三个数据集上的性能。

Alternate Diverse Teaching for Semi-supervised Medical Image Segmentation

提出 AD-MT(Alternate Diverse Mean Teacher),通过随机周期性交替更新两个教师模型 + 基于熵的冲突调和策略,在半监督医学分割中解决 confirmation bias 问题,在 ACDC/LA/Pancreas 上全面超越 SOTA。

Architecture-Agnostic Untrained Network Priors for Image Reconstruction with Frequency Regularization

提出三种与架构无关的频率正则化技术(带宽受限输入、带宽可控上采样、Lipschitz 正则化卷积层),统一解决 untrained network prior 的架构敏感性、过拟合和运行效率问题,在 MRI 重建任务中显著缩小不同架构间的性能差距。

Brain-ID: Learning Contrast-agnostic Anatomical Representations for Brain Imaging

本文提出 Brain-ID,一种对比度无关的脑解剖表征学习模型,通过"轻度到重度"的受试者内图像合成策略,在全合成数据上训练获得对MRI对比度、分辨率、方向和伪影鲁棒的解剖特征,仅需一层适配即可在四种下游任务和六个公开数据集上达到 SOTA。

Brain Netflix: Scaling Data to Reconstruct Videos from Brain Signals

本文提出了一种从功能磁共振成像(fMRI)信号重建视频的新方法,通过多数据集多被试训练和三阶段pipeline,利用预训练的文本到视频和视频到视频模型,实现了跨数据集和跨被试的SOTA视频重建能力。

CardiacNet: Learning to Reconstruct Abnormalities for Cardiac Disease Assessment from Echocardiogram Videos

提出基于重建的心脏疾病评估框架 CardiacNet,通过 Consistency Deformation Codebook (CDC) 和 Consistency Deformation Discriminator (CDD) 学习正常与异常心脏超声视频之间的结构和运动差异,在射血分数预测、肺动脉高压和房间隔缺损分类三个任务上达到 SOTA。

Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild

提出 Chameleon,一个基于 meta-learning 和 token matching 的数据高效视觉通才模型,仅需几十张标注图像即可适应全新的密集预测任务(包括医学图像、视频、3D 等),在六个下游基准上显著超越现有通才方法。

CheX: Interactive Localization and Region Description in Chest X-rays

提出ChEX——一个同时支持文本提示和边界框查询的交互式胸部X光解释模型,通过DETR风格的prompt检测器和多任务联合训练,在9个胸部X光任务上与SOTA竞争,同时提供独特的定位可解释性和用户交互能力。

查看全部28篇「医学图像」论文 →


📡 信号/通信 (6)

Defect Spectrum: A Granular Look of Large-Scale Defect Datasets with Rich Semantics

本文构建了 Defect Spectrum 数据集,在四个工业基准之上提供精细的、语义丰富的、大规模的多类缺陷标注(125种缺陷类别,3518+1920张),并提出两阶段扩散生成器 Defect-Gen 在少样本条件下合成高质量多样性缺陷图像,合成数据将缺陷分割 mIoU 最高提升 9.85。

Optimizing Illuminant Estimation in Dual-Exposure HDR Imaging

本文提出从双曝光 HDR 图像对中提取一种简洁的双曝光特征(DEF),并基于此构建了两个超轻量级光源估计器 EMLP 和 ECCC,在仅使用几百到几千个参数的情况下即可达到或超越需要数十万参数的先前方法的性能。

PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation

本文提出 PYRA,通过并行生成解耦的自适应调制权重并以 re-activation 策略调节待合并 token 的特征,实现了 Vision Transformer 在下游任务适配时同时兼顾训练效率(仅调 0.4% 参数)和推理效率(约 1.7-3.2 倍加速),性能与不压缩的 PEFT 方法持平甚至更优。

QueryCDR: Query-based Controllable Distortion Rectification Network for Fisheye Images

提出QueryCDR网络,通过可学习查询机制(DLQM)和两种可控调制模块(CCMB/CAMB),首次实现不同畸变程度的鱼眼图像在不重训的情况下进行高质量可控矫正。

RAW-Adapter: Adapting Pre-trained Visual Model to Camera RAW Images

提出 RAW-Adapter,通过输入级适配器(可学习 ISP 阶段)和模型级适配器(ISP 中间特征注入骨干网络),以极小参数量(0.2-0.8M)将 sRGB 预训练模型高效适配到 Camera RAW 图像,在正常光/暗光/过曝等多种光照条件下的检测和分割任务上达到 SOTA。

Unsupervised Exposure Correction

提出首个无监督曝光校正(UEC)方法,利用ISP管线自由生成的多曝光序列让图像互为ground truth进行训练,设计仅含19K参数的像素级变换函数保留图像细节,在曝光校正和下游边缘检测上超越有监督SOTA。


🛡️ AI 安全 (13)

Any Target Can Be Offense: Adversarial Example Generation via Generalized Latent Infection

提出 GAKer,首个可泛化到未知目标类别的定向对抗攻击生成器,通过在 UNet 中间层注入目标特征(latent infection)+ 余弦距离损失替代交叉熵实现类别无关训练,在未知类上的攻击成功率比 HGN 高 14.13%。

Bi-TTA: Bidirectional Test-Time Adapter for Remote Physiological Measurement

提出 Bi-TTA 框架,首次将 Test-Time Adaptation 引入远程光电容积脉搏波 (rPPG) 任务,通过时空一致性自监督先验和前瞻-回溯双向适应策略,在推理时仅用无标注单实例数据即可完成模型域适应。

CLIP-Guided Generative Networks for Transferable Targeted Adversarial Attacks

提出 CGNC,利用 CLIP 文本编码器为条件生成网络注入目标类别语义信息,结合交叉注意力模块和 masked fine-tuning,大幅提升多目标/单目标定向对抗攻击的黑盒迁移成功率。

Fisher Calibration for Backdoor-Robust Heterogeneous Federated Learning

本文提出Self-Driven Fisher Calibration(SDFC),利用Fisher信息度量参数对不同分布的重要程度差异,在异质联邦学习场景中有效区分恶意后门客户端并进行参数校准,突破了现有防御方法依赖数据同质性和恶意节点少数假设的局限。

Event Trojan: Asynchronous Event-based Backdoor Attacks

提出 Event Trojan 框架,首次针对异步事件数据流设计后门攻击方法,包含不可变触发器和可变触发器两种模式,直接在事件流层面注入恶意事件实现隐蔽高效的后门攻击。

Noise-Assisted Prompt Learning for Image Forgery Detection and Localization

本文提出 CLIP-IFDL,一种基于 CLIP 的图像篡改检测与定位模型,通过实例感知的双流提示学习和伪造增强噪声适配器来弥补 CLIP 在篡改检测领域的提示缺失和伪造感知不足问题,将 CLIP 的开放世界泛化能力迁移到篡改检测任务中。

One-stage Prompt-based Continual Learning

提出 OS-Prompt 框架,通过直接使用 ViT 中间层 token embedding 作为 prompt query(而非额外的 query ViT 前向传播),将 Prompt-based Continual Learning 的计算成本降低约 50%,并通过 Query-Pool Regularization (QR) loss 补偿表征能力损失,在 CIFAR-100、ImageNet-R、DomainNet 上超越 CodaPrompt 约 1.4%。

Operational Open-Set Recognition and PostMax Refinement

本文提出了一种面向实际部署场景的开放集识别评估指标 OOSA(Operational Open-Set Accuracy)以及后处理算法 PostMax,通过对最大类别 logit 进行深度特征幅度归一化和广义 Pareto 分布映射,将 logit 转化为合理的概率估计,在大规模评估中取得了统计显著的 SOTA 性能。

Preventing Catastrophic Overfitting in Fast Adversarial Training: A Bi-level Optimization Perspective

从双层优化视角分析快速对抗训练中灾难性过拟合的成因,提出 FGSM-PCO 方法,通过自适应融合历史与当前对抗样本并配合定制正则化损失,有效防止并纠正内层优化崩溃。

Resilience of Entropy Model in Distributed Neural Networks

首次系统研究分布式 DNN 中熵编码模型在有意干扰(对抗攻击)和无意干扰(天气变化、运动模糊等)下的鲁棒性,发现熵模型学习的压缩特征与分类特征截然不同,并提出基于目标感知全变差去噪的防御方法,可将攻击后的传输开销降低至低于干净数据水平,准确率仅下降约 2%。

查看全部13篇「AI 安全」论文 →


📂 其他 (42)

A Framework for Efficient Model Evaluation through Stratification, Sampling, and Estimation

提出一个统计框架,通过分层(stratification)、采样设计(sampling)和估计器(estimation)三个组件的协同设计,在仅标注少量测试样本的情况下精确估计CV模型准确率,最高可实现10倍的效率增益(即用1/10的标注量达到同等精度)。

ABC Easy as 123: A Blind Counter for Exemplar-Free Multi-Class Class-Agnostic Counting

提出首个无需样例图像即可同时计数图像中多类未知物体的方法ABC123,通过ViT回归多通道密度图+匈牙利匹配训练+SAM示例发现机制,在自建合成数据集MCAC上大幅超越需要样例的方法,且能泛化到FSC-147真实数据集。

Active Generation for Image Classification

本文提出ActGen,将主动学习思想融入扩散模型的图像生成过程,通过识别模型误分类的验证样本作为引导图像、结合注意力引导和基于梯度的生成控制,仅用10%的合成图像即可在ImageNet上实现+2.26%的准确率提升,超过了使用94%合成数据的先前方法。

AddMe: Zero-Shot Group-Photo Synthesis by Inserting People Into Scenes

本文提出 AddMe,一个基于扩散模型的零样本人像生成器,通过身份解耦适配器和增强型人像注意力模块,能够将给定的人像自然地插入到现有场景图像的指定位置,同时保持身份一致性和群体交互的合理性。

ADMap: Anti-disturbance Framework for Vectorized HD Map Construction

本文提出 ADMap 框架,通过多尺度感知颈部(MPN)、实例交互注意力(IIA)和矢量方向差异损失(VDDL)三个模块,从实例间和实例内两个层面级联式监控点序列预测过程,有效缓解了矢量化高精地图构建中的点序列抖动/锯齿问题,在 nuScenes 和 Argoverse2 上取得了 SOTA 性能。

Align before Collaborate: Mitigating Feature Misalignment for Robust Multi-Agent Perception

提出NEAT——一种模型无关的轻量级插件,通过重要性引导的查询提议、可变形特征对齐和区域交叉注意力增强三个模块,显式解决协同感知中因位姿误差和通信延迟导致的特征级空间错位问题,在四个协同3D检测数据集的噪声设置下为多种基线方法带来一致性增益。

An Incremental Unified Framework for Small Defect Inspection

提出增量统一框架IUF,首次将增量学习集成到统一重建式缺陷检测方法中,通过目标感知自注意力(OASA)建立语义边界、语义压缩损失(SCL)压缩非主要语义空间、以及基于SVD的权重更新策略保护旧对象特征,在MVTec-AD和VisA上实现图像级和像素级的SOTA增量缺陷检测性能。

AttnZero: Efficient Attention Discovery for Vision Transformers

本文提出 AttnZero,首个自动发现高效注意力模块的框架,通过构建包含六类计算图和丰富算子的搜索空间、利用进化算法进行多目标搜索,自动发现了适用于多种 ViT 的线性注意力公式,在 DeiT/PVT/Swin/CSwin 上分别达到 74.9%/78.1%/82.1%/82.9% 的 ImageNet top-1 准确率,并构建了包含 2000 种注意力变体的 Attn-Bench-101 基准。

Auto-GAS: Automated Proxy Discovery for Training-Free Generative Architecture Search

本文提出 Auto-GAS,首个面向生成模型(GAN)的免训练架构搜索框架,通过自动发现并优化零成本代理指标来替代传统训练式搜索,实现 110 倍搜索加速,同时保持与训练式方法相当的生成质量。

Bidirectional Uncertainty-Based Active Learning for Open-Set Annotation

提出 BUAL 框架,通过 Random Label Negative Learning 将未知类样本推向高置信区域、已知类样本推向低置信区域,结合双向不确定性采样策略,在开放集场景下有效选出高信息量的已知类样本。

查看全部42篇「其他」论文 →


🗂 其他方向 (30)


💡 LLM Reasoning (1)

Controllable Navigation Instruction Generation with Chain of Thought Prompting

提出 C-Instructor,利用 LLM 的思维链提示实现风格和内容可控的导航指令生成,通过 CoTL(带地标的思维链)、STMT(空间拓扑建模)和 SMT(混合风格训练)三大机制,在四个室内外导航数据集上全面超越已有方法。


🦾 LLM Agent (3)

Agent3D-Zero: An Agent for Zero-shot 3D Understanding

Agent3D-Zero 提出一个基于 VLM 的零样本 3D 场景理解 Agent 框架,通过鸟瞰图上的 Set-of-Line 视觉提示引导 VLM 主动选择观察视角,并综合多视角图像进行 3D 推理,在 ScanQA 等任务上超越了需要微调的 3D-LLM 方法。

HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning

(注:基于摘要的简要笔记)提出 HYDRA,一种多阶段动态组合式视觉推理框架,通过规划器(Planner)、强化学习认知控制器(RL Agent)和推理器(Reasoner)三模块协作,实现可靠且渐进式的视觉推理,在 RefCOCO/RefCOCO+、OK-VQA、GQA 等多个数据集上取得 SOTA。

VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

提出 VideoAgent,一个记忆增强的多模态 Agent,通过构建结构化记忆(temporal memory 存储事件描述 + object memory 存储物体跟踪状态)并利用 4 个工具与记忆交互,零样本完成长视频问答任务,在 NExT-QA 上平均 +6.6%、EgoSchema 上 +26.0%,接近 Gemini 1.5 Pro 的性能。


🔒 LLM 安全 (1)

MAGR: Manifold-Aligned Graph Regularization for Continual Action Quality Assessment

提出 MAGR 方法,通过流形对齐投影器和 Intra-Inter-Joint 图正则化器,解决持续动作质量评估(CAQA)中特征回放导致的旧特征与当前特征流形不对齐问题,在四个数据集上显著超越现有基线。


👻 幻觉检测 (2)

BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-Language Models

BEAF提出"前-后对比"的幻觉评估范式:通过图像编辑移除物体后观察VLM回答的变化,引入TU/IG/SB/ID四个变化感知指标,揭示了传统文本轴评估无法发现的幻觉行为。

LiDAR-Event Stereo Fusion with Hallucinations

提出将LiDAR稀疏深度点与事件立体相机融合的首个框架,通过在事件堆叠表示(VSH)或原始事件流(BTH)中"幻觉"(插入虚构事件)来弥补事件相机在无运动/无纹理区域的信息缺失,大幅提升事件立体匹配精度。


📖 NLP 理解 (1)

SLIMER: Show Less, Instruct More - Enriching Prompts with Definitions and Guidelines for Zero-Shot NER

SLIMER 通过在提示中注入实体定义和标注指南来增强 LLM 的零样本命名实体识别能力,仅用 391 个实体类别训练即可在从未见过的实体标签上达到与使用 13000+ 实体类别训练的 SOTA 方法相当的性能。


🗣️ 对话系统 (1)

BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation

提出 BI-MDRG 框架,通过桥接图像历史信息来增强多模态对话中文本回复的图像 grounding 能力和连续图像回复中物体的一致性。


🔍 信息检索/RAG (3)

Multi-Label Cluster Discrimination for Visual Representation Learning

提出多标签聚类判别方法 MLCD,通过为每张图像分配多个聚类伪标签并设计消歧多标签分类损失,在 LAION-400M 上预训练的 ViT 在 linear probe、zero-shot 分类和检索任务上全面超越 OpenCLIP、FLIP 和 UNICOM。

OneRestore: A Universal Restoration Framework for Composite Degradation

提出 OneRestore,一种基于 Transformer 的通用图像复原框架,通过场景描述符引导的交叉注意力机制和复合退化复原损失,能在单一模型中自适应地处理低光照、雾、雨、雪及其任意组合的复合退化场景,并支持文本/视觉双模式的可控复原。

Towards Open-Ended Visual Recognition with Large Language Model

提出 OmniScient Model (OSM)——一个基于冻结 CLIP-ViT + 可训练 MaskQ-Former + 冻结 LLM (Vicuna-7B) 的生成式 mask 分类器,将视觉识别从"从预定义词表中选择类别"转变为"直接生成类别名称",消除了训练和测试时对预定义词表的依赖,在 COCO 全景分割上超越 DaTaSeg +4.3 PQ。


💻 代码智能 (1)

DreamStruct: Understanding Slides and User Interfaces via Synthetic Data Generation

提出利用代码生成合成结构化视觉数据(幻灯片和UI),用于训练理解模型,减少人工标注需求。


📐 优化/理论 (2)

Fine-Grained Scene Graph Generation via Sample-Level Bias Prediction

提出样本级偏置预测方法 SBP,通过 Bias-Oriented GAN 利用物体对 union region 的上下文信息预测样本特异性纠偏向量,将粗粒度关系修正为细粒度关系,在 VG/GQA/VG-1800 上相比数据集级纠偏方法平均提升 5.6%/3.9%/3.2% 的 Average@K。

Handling the Non-smooth Challenge in Tensor SVD: A Multi-objective Tensor Recovery Framework

提出基于可学习张量核范数的多目标张量恢复框架 (MOTC),通过引入可学习酉矩阵替代固定变换来解决 t-SVD 方法在非光滑张量数据上的性能退化问题,并通过多目标优化有效利用张量各维度的低秩性。


🔗 因果推理 (4)

Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation

提出双层数据剪枝策略 BiLP,通过经验损失静态剪枝和基于因果效应 (ITE) 的动态剪枝,高效选择对数据集蒸馏最有价值的真实样本,以即插即用方式一致性提升现有蒸馏方法性能并降低计算开销。

Integrating Markov Blanket Discovery into Causal Representation Learning for Domain Generalization

提出 CMBRL 框架,在隐空间中发现马尔可夫毯(Markov Blanket)特征——目标变量的最小充分统计量——代替现有方法中仅选择因果/反因果变量的做法,构建不变预测机制实现跨域泛化。

Learning Chain of Counterfactual Thought for Bias-Robust Vision-Language Reasoning

本文提出了反事实偏差鲁棒推理数据集(CoBRa)和反事实思维链方法(CoCT),通过构造编辑后的知识图谱和图像内容来评估和缓解大型视觉语言模型(LVLM)中的知识偏差,使模型能够逐步推理而非依赖偏见知识,在需要知识偏差下推理的任务上显著优于现有方法。

Understanding Physical Dynamics with Counterfactual World Modeling

本文提出反事实世界建模(Counterfactual World Modeling, CWM),通过时序分解的遮蔽策略训练视频掩码预测器,并设计"反事实提示"机制从单一预训练模型中无需微调即可提取光流、分割、关键点等多种视觉结构,在物理动力学理解任务Physion基准上达到最优性能。


🕸️ 图学习 (4)

Confidence Self-Calibration for Multi-Label Class-Incremental Learning

针对多标签类增量学习(MLCIL)中部分标签导致的过度自信预测和假阳性错误问题,提出 Confidence Self-Calibration (CSC) 框架,通过类增量图卷积网络(CI-GCN)校准标签关系 + 最大熵正则化校准置信度,在 MS-COCO 和 VOC 上大幅超越 SOTA。

GKGNet: Group K-Nearest Neighbor Based Graph Convolutional Network for Multi-Label Image Recognition

提出首个全图卷积多标签识别模型 GKGNet,通过 Group KNN 机制动态构建标签与图像区域间的图结构,在 MS-COCO 和 VOC2007 上以更低计算量取得 SOTA。

SENC: Handling Self-collision in Neural Cloth Simulation

提出 SENC,通过基于 Global Intersection Analysis (GIA) 的自碰撞损失和自碰撞感知图神经网络,首次在自监督神经布料模拟中有效解决布料自碰撞问题。

Synchronous Diffusion for Unsupervised Smooth Non-Rigid 3D Shape Matching

提出同步扩散正则化方法用于无监督非刚性3D形状匹配,核心思想是"在两个形状上同步地扩散同一函数应产生一致输出",通过这一简单而高效的正则化可以显著提升现有深度功能映射方法的匹配平滑性,在FAUST、SCAPE、TOPKIDS等多个数据集上达到SOTA。


📈 时间序列 (3)

Multi-person Pose Forecasting with Individual Interaction Perceptron and Prior Learning

本文提出 IAFormer(Interaction-Aware Pose Forecasting Transformer),通过设计交互感知模块(IPM)来评估每个人与事件的交互程度,并引入交互先验学习模块(IPLM)来积累高频交互模式的先验知识,从而实现语义层面的多人姿态预测,在多个多人场景数据集上显著超越现有方法。

OmniSat: Self-Supervised Modality Fusion for Earth Observation

提出OmniSat统一框架,通过模态特异编码器+跨模态对比自监督预训练,将多光谱时序(S2)、SAR时序(S1)、高分辨率单时相(SPOT/Aerial)等异构遥感数据融合为统一表示,在语义分割和作物分类上超越所有单模态和多模态基线。

Semantically Guided Representation Learning For Action Anticipation

提出 S-GEAR 框架,通过学习视觉动作原型并利用语言模型的语义关联来引导原型之间的几何关系,使模型理解动作间的语义互联性,从而提升动作预测性能,在 Epic-Kitchens 55/100、EGTEA Gaze+、50 Salads 四个基准上取得 SOTA 或极具竞争力的结果。


⚛️ 物理/科学计算 (1)

Robust Fitting on a Gate Quantum Computer

首次在真实门量子计算机(IonQ Aria)上实现鲁棒拟合:提出用于一维 \(\ell_\infty\) 可行性检验的量子电路,填补了 Bernstein-Vazirani(BV)电路计算 Boolean influence 的关键空缺,并展示如何将一维 influence 累积到高维非线性模型(如基础矩阵估计)。


🌍 地球科学 (1)

Semi-supervised Video Desnowing Network via Temporal Decoupling Experts and Distribution-Driven Contrastive Regularization

提出首个半监督视频去雪框架 SemiVDN,通过物理先验引导的时序解耦专家模块和分布驱动的对比正则化,利用无标签真实雪景视频缩小合成-真实域差距,在合成与真实数据集上均超越现有方法。


👥 社会计算 (2)

Distribution-Aware Robust Learning from Long-Tailed Data with Noisy Labels

提出 DaSC 框架,通过分布感知的类中心估计(DaCC)和置信度感知的对比学习(SBCL + MIDL),同时解决长尾分布和噪声标签的联合问题,在 CIFAR 和真实噪声数据集上达到 SOTA。

GRACE: Graph-Based Contextual Debiasing for Fair Visual Question Answering

提出 GRACE(GRAph-based Contextual DEbiasing),一种基于图结构的上下文去偏方法,通过无监督上下文图学习和基于图的多样化 in-context example 选择,解决知识增强 VQA 系统中大语言模型继承的数据偏差问题。