📹 ICCV2025 论文汇总¶
1315篇ICCV2025论文解读,涵盖 3D 视觉(267篇)、图像生成(213篇)、多模态 VLM(119篇)、自动驾驶(91篇)、语义分割(73篇)、视频理解(56篇)、模型压缩(52篇)、视频生成(49篇)等 44个方向。每篇含一句话总结、核心思想、方法详解、实验结果与局限性分析,5分钟读懂一篇论文核心思想。
🔒 LLM 安全 (10)¶
- Adversarial Robust Memory-Based Continual Learner
-
揭示持续学习与对抗训练结合时的双重挑战(加速遗忘 + 梯度混淆),提出抗遗忘 Logit 校准(AFLC)和鲁棒感知经验回放(RAER)两个即插即用模块,在 Split-CIFAR10/100 和 Split-Tiny-ImageNet 上有效提升对抗鲁棒性达 8.13%。
- Asynchronous Event Error-Minimizing Noise for Safeguarding Event Dataset
-
提出首个面向异步事件数据的不可学习样本生成方法(UEvs),设计了事件误差最小化噪声(E²MN)及自适应投影机制,使事件数据集在保持合法使用功能的同时阻止未授权模型从中学习。
- Cooperative Pseudo Labeling for Unsupervised Federated Classification
-
FedCoPL 首次将无监督联邦学习扩展到分类任务,通过协作伪标签策略(全局分配伪标签确保类别平衡)和部分 prompt 聚合协议(仅聚合视觉 prompt、保留文本 prompt 本地化)有效应对 CLIP 固有偏差和标签偏移挑战。
- Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling
-
提出Gradient-Guided Sampling (GGS)内迭代采样策略,通过使用上一内迭代的梯度方向引导采样,在平衡Exploitation(攻击强度/损失极大值)和Exploration(跨模型泛化/平坦损失面)的困境中取得突破,在CNN/ViT/MLLM等多架构上显著超越现有迁移攻击方法。
- Forgetting Through Transforming: Enabling Federated Unlearning via Class-Aware Representation Transformation
-
提出 FUCRT 方法,通过类感知表征变换实现联邦遗忘:将遗忘类的表征“变换”到语义最近的保留类,而非直接消除,配合双重对比学习对齐跨客户端的变换一致性,在四个数据集上实现 100% 遗忘保障的同时保持甚至提升剩余类性能。
- Geminio: Language-Guided Gradient Inversion Attacks in Federated Learning
-
本文提出Geminio,首个利用视觉语言模型(VLM)实现自然语言引导的梯度反转攻击(GIA),使联邦学习中的恶意服务器可以用自然语言描述想要窃取的数据类型,并从大batch梯度中精准定位和重建匹配的隐私样本,同时不影响正常的FL模型训练。
- LATTE: Collaborative Test-Time Adaptation of Vision-Language Models in Federated Learning
-
提出 Latte 框架,在联邦学习的去中心化场景下,通过本地记忆与外部记忆的协同机制,实现视觉语言模型(如 CLIP)的协作式测试时自适应,兼顾跨客户端知识共享与个性化。
- MUNBa: Machine Unlearning via Nash Bargaining
-
将机器遗忘(Machine Unlearning)建模为双玩家合作博弈问题,利用 Nash 讨价还价理论推导闭式解来同时解决遗忘目标与保留目标之间的梯度冲突和梯度支配问题,在分类和生成任务上实现遗忘与保留的最优平衡。
- SAUCE: Selective Concept Unlearning in Vision-Language Models with Sparse Autoencoders
-
SAUCE 利用稀疏自编码器(SAE)在 VLM 的中间表征中识别并选择性抑制与目标概念相关的特征,实现了无需权重更新的细粒度概念遗忘,在 60 个概念的测试中遗忘质量超越 SOTA 18%。
- Temporal Unlearnable Examples: Preventing Personal Video Data from Unauthorized Exploitation
-
本文首次研究防止视频数据被深度跟踪器未授权使用的问题,提出基于 DiT 的生成式框架生成时序不可学习样本(TUE),通过时间对比损失使跟踪器依赖扰动噪声进行时序匹配而非学习真实数据结构,实现了跨模型、跨数据集和跨任务的强可迁移性。
👻 幻觉检测 (5)¶
- ChartCap: Mitigating Hallucination of Dense Chart Captioning
-
构建了包含56.5万张真实图表-描述对的大规模数据集ChartCap,通过类型特定的描述模式排除无关信息、强调结构与关键洞察,并提出无参考的Visual Consistency Score评估指标,有效减少VLM在图表描述中的幻觉问题。
- DASH: Detection and Assessment of Systematic Hallucinations of VLMs
-
提出DASH自动化流水线,通过LLM生成文本查询(DASH-LLM)和扩散模型优化图像查询(DASH-OPT)两种策略,在ReLAION-5B中系统性地发现VLM的假阳性对象幻觉聚类,共发现19k+聚类和950k+图像,并构建了更具挑战性的DASH-B基准。
- Mitigating Object Hallucinations via Sentence-Level Early Intervention
-
本文提出SENTINEL框架,基于"幻觉在生成早期出现并向后传播"的关键观察,通过域内候选引导、双检测器交叉验证构建句子级偏好数据,使用上下文感知DPO(C-DPO)实现早期干预,在Object HalBench上减少92%幻觉且保持通用能力。
- ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models
-
提出ONLY,一种training-free的单层干预解码方法——通过Text-to-Visual Entropy Ratio(TVER)选择偏向文本的attention head生成textually-enhanced logits,然后与原始logits做自适应对比/协作解码,仅增加1.07×推理时间就在POPE上比VCD/M3ID高3.14%,在CHAIR上降低CHAIR_S 6.2个点。
- Why LVLMs Are More Prone to Hallucinations in Longer Responses: The Role of Context
-
深入探究 LVLM 长文本生成中幻觉频发的根本原因——不是长度本身,而是上下文的连贯性(coherence)和完备性(completeness)需求驱动模型外推产生幻觉,并据此提出 HalTrapper 的"诱导-检测-抑制"三阶段框架。
📊 LLM 评测 (27)¶
- 3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark
-
提出首个全面的3D空间推理基准3DSRBench,包含2,772个人工标注的VQA对(12种问题类型),通过平衡数据分布和新型FlipEval策略实现鲁棒评估,揭示SOTA LMM(包括GPT-4o、Gemini)在3D空间推理上远落后于人类水平(≈52% vs 95.7%),且在非常规视角下性能显著退化。
- A Conditional Probability Framework for Compositional Zero-shot Learning
-
提出条件概率框架(CPF),将组合识别概率分解为对象似然 p(o|x) 和属性条件似然 p(a|o,x) 两部分,通过文本增强对象学习和对象引导属性学习两个模块显式建模属性-对象依赖关系,在三个 CZSL 基准上全面超越 SOTA。
- A Real-world Display Inverse Rendering Dataset
-
本文构建了首个基于LCD显示器-相机系统的真实世界逆渲染数据集,包含16个不同材质物体在OLAT照明模式下的立体偏振图像及高精度几何真值,并提出了一个简单有效的显示器逆渲染基线方法,超越了现有逆渲染方法。
- BATCLIP: Bimodal Online Test-Time Adaptation for CLIP
-
提出BATCLIP,一种针对CLIP的双模态在线测试时自适应(TTA)方法,通过同时适应视觉编码器和文本编码器的LayerNorm参数,引入投影匹配损失和类间可分性损失来增强图文特征对齐和类别区分度,在CIFAR-10C/100C/ImageNet-C上达到SOTA效果。
- Combinative Matching for Geometric Shape Assembly
-
提出组合匹配(Combinative Matching)方法,同时建模互锁部件的"表面形状一致性"和"体积占用相反性"两大属性,通过等变网络学习方向对齐、形状匹配与占用匹配三个目标,大幅减少几何组装中的局部歧义。
- Degradation-Modeled Multipath Diffusion for Tunable Metalens Photography
-
提出DMDiff框架,利用预训练扩散模型的自然图像先验,通过正/中/负三路径多提示扩散策略和空间变化退化感知注意力(SVDA)模块,实现毫米级超透镜相机的高保真可调图像重建,在多项指标上超越现有方法。
- Discontinuity-aware Normal Integration for Generic Central Camera Models
-
提出一种支持显式不连续性建模和通用中心相机模型的法线积分新方法,通过局部平面性假设建立法线与光线方向之间的约束,在标准法线积分基准上达到 SOTA,并首次直接处理通用中心相机(如鱼眼、全景相机)。
- DisCoPatch: Taming Adversarially-driven Batch Statistics for Improved Out-of-Distribution Detection
-
提出DisCoPatch框架,利用对抗性VAE中BatchNorm对批统计量的内在偏向性来区分ID和OOD样本,通过推理时将同一图像的多个patch组成batch来保证分布一致性,在协变量偏移OOD检测(ImageNet-1K(-C) 95.5% AUROC)和近分布OOD检测(95.0% AUROC)上达到SOTA,模型仅25MB且延迟低一个数量级。
- DISTA-Net: Dynamic Closely-Spaced Infrared Small Target Unmixing
-
DISTA-Net提出动态深度展开网络,将ISTA稀疏重建中的非线性变换和阈值参数从静态改为根据输入自适应生成,实现密集红外小目标的首个深度学习解混方法,并建立了包含数据集、评估指标和工具包的首个开源生态。
- Few-Shot Pattern Detection via Template Matching and Regression
-
本文提出TMR方法,通过经典模板匹配结合支持条件化边界框回归,实现了对任意模式(包括非物体级模式)的小样本检测,同时引入RPINE数据集覆盖更广泛的重复模式,在多个基准上超越现有FSCD方法并展现出强大的跨数据集泛化能力。
📚 预训练 (9)¶
- ACE-G: Improving Generalization of Scene Coordinate Regression Through Query Pre-Training
-
将场景坐标回归器拆分为「场景无关的Transformer」和「场景特定的map code」,通过在数万场景上进行交替的mapping/query预训练,显著提升SCR方法在光照、视角变化下的泛化能力,同时保持轻量化的计算开销。
- ConstStyle: Robust Domain Generalization with Unified Style Transformation
-
提出ConstStyle框架,通过构建一个理论驱动的"统一域"(Unified Domain),在训练时将所有样本风格对齐到该统一域,测试时将未见域样本部分投影到统一域,有效缩小域间差距并提升泛化性能。
- Dataset Ownership Verification for Pre-trained Masked Models
-
DOV4MM 提出了首个针对掩码预训练模型的数据集所有权验证方法,通过比较"见过"与"未见过"样本在嵌入空间中遮掩信息重构难度的差异,利用配对 t 检验判断黑盒模型是否使用了特定数据集进行预训练,在 10 种掩码图像模型和 4 种掩码语言模型上均实现 p 值远低于 0.05 的准确验证。
- ETA: Energy-based Test-time Adaptation for Depth Completion
-
提出ETA方法,利用能量模型量化深度预测属于源域分布的可能性,并在测试时通过最小化目标域预测的能量值来引导预训练深度补全模型适配到新环境,在室外和室内场景平均比先前SOTA分别提升6.94%和10.23%。
- FlowMo: Flow to the Mode — Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization
-
提出 FlowMo,一种基于 Transformer 的扩散自编码器 (diffusion autoencoder),通过两阶段训练(mode-matching 预训练 + mode-seeking 后训练),首次实现扩散自编码器在 ImageNet-1K 离散图像 tokenization 上的 SOTA 性能,无需使用卷积、对抗损失、2D 空间对齐 latent 或从其他 tokenizer 蒸馏。
- Image Intrinsic Scale Assessment: Bridging the Gap Between Quality and Resolution
-
本文定义了图像内在尺度(IIS)这一新概念——即图像展现最高感知质量的最大缩放比例,并提出 IISA 任务、构建了 785 张图像的数据集,以及基于弱标签的 WIISA 训练策略,在多个 NR-IQA 方法上一致提升了 IIS 预测性能。
- Make Your Training Flexible: Towards Deployment-Efficient Video Models
-
本文提出Flux——一种使视频模型训练灵活化的数据增强工具,通过灵活采样网格+组动态token选择,使单一模型在不同计算预算下都能高效工作;并提出Token Optimization新测试范式,在1/4 token下即可匹配前SOTA性能,节省约90%计算。
- Synchronization of Multiple Videos
-
提出 Temporal Prototype Learning (TPL),一个基于原型的视频同步框架,从预训练模型提取的高维嵌入中构建共享的紧凑1D表征,通过学习统一的原型序列锚定关键动作阶段来对齐多个视频,首次解决了生成式AI视频的同步问题。
- SynCity: Training-Free Generation of 3D Worlds
-
SynCity 提出了一种无需训练/优化的方法,通过精心设计的 prompt engineering 策略组合预训练的语言模型、2D图像生成器和3D生成器(TRELLIS),以 tile-by-tile 的方式自回归生成大规模、高质量、可自由导航的3D世界。
💬 LLM 其他 (6)¶
- Any-SSR: How Recursive Least Squares Works in Continual Learning of Large Language Models
-
提出Analytic Subspace Routing(Any-SSR)框架,通过为每个任务分配独立的LoRA子空间消除任务间干扰,并利用递归最小二乘(RLS)闭式解训练一个零遗忘的解析路由器,实现LLM的无回放持续学习。
- Any-SSR: How Recursive Least Squares Works in Continual Learning of Large Language Models
-
提出Analytic Subspace Routing (Any-SSR),为每个新任务分配独立的LoRA子空间以消除知识干扰,同时使用基于递归最小二乘(RLS)闭式解的分析路由器动态选择子空间,在理论上保证不遗忘先前任务知识,实现LLM的无重放持续学习。
- FW-Merging: Scaling Model Merging with Frank-Wolfe Optimization
-
将模型合并形式化为约束优化问题,引入Frank-Wolfe优化启发的FW-Merging方法,通过迭代选择最相关模型并局部合并,实现在大规模黑盒模型池中的可扩展、鲁棒合并,合并20个ViT模型时超越数据感知方法Adamerging 8.39%。
- ShadowHack: Hacking Shadows via Luminance-Color Divide and Conquer
-
提出ShadowHack框架,将阴影去除分解为亮度恢复和颜色修复两个子任务,通过带有纠偏外展注意力的LRNet恢复亮度和纹理,再用跨注意力驱动的CRNet重建准确颜色,在ISTD+和SRD数据集上取得SOTA。
- VA-GPT: Aligning Effective Tokens with Video Anomaly in Large Language Models
-
提出 VA-GPT,一个面向视频异常事件理解的多模态大模型,通过空间有效token选择(SETS)和时间有效token生成(TETG)两个模块,让MLLM在空间和时间维度上精准对齐异常相关信息,在域内和跨域异常检测基准上均达到SOTA。
- VIM: Versatile Interactive Motion-Language Model
-
提出 VIM,首个能在统一框架内同时理解和生成双人交互运动与文本的多模态大模型,配合82.7K多轮交互运动指令数据集 Inter-MT²,支持文本到运动、运动到文本、反应生成、运动编辑和运动推理等多种任务。
🎨 图像生成 (213)¶
- A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation
-
提出 A₀,一个可供性感知的分层扩散模型,通过将操作任务分解为高层空间可供性理解(预测接触点和轨迹)和低层动作执行,在100万接触点数据上预训练后仅需少量任务数据微调即可跨平台(Franka/Kinova/Realman/Dobot)部署,在擦白板等复杂轨迹任务中成功率达45%。
- A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation
-
提出 A0,一个层次化可供性感知扩散模型,通过预测以物体为中心的接触点和后接触轨迹(Embodiment-Agnostic Affordance Representation),将操控任务分解为高层空间理解和低层动作执行,在 100 万接触点数据上预训练后可跨 Franka/Kinova/Realman/Dobot 四种平台泛化。
- A Unified Framework for Motion Reasoning and Generation in Human Interaction
-
提出 MoLaM,一个统一的交互式动作-语言模型,通过三阶段训练和新构建的 Inter-MT² 数据集(82.7K 多轮指令),首次在单一框架内同时实现双人交互动作的理解、生成、编辑和推理。
- Accelerating Diffusion Sampling via Exploiting Local Transition Coherence
-
提出 LTC-Accel,一种基于"局部转移一致性"(Local Transition Coherence) 现象的免训练扩散采样加速方法,通过利用相邻去噪步之间转移算子的强相关性来近似替代当前步的计算,在 Stable Diffusion v2 上实现 1.67× 加速,与蒸馏模型结合可在视频生成中达到 10× 加速。
- Adaptive Routing of Text-to-Image Generation Requests Between Large Cloud Models and Small Edge Models
-
提出 RouteT2I,首个面向文本到图像生成的边缘-云模型路由框架,通过多维质量度量、Pareto 相对优越性和双门控 token 选择 MoE 架构,在控制成本的同时最大化图像生成质量。
- Adaptive Routing of Text-to-Image Generation Requests Between Large Cloud Model and Light-Weight Edge Model
-
提出RouteT2I框架,通过多维质量评估指标和双门控token选择MoE路由模型,动态将文本到图像生成请求分配到边缘轻量模型或云端大模型,在50%路由率下实现云端全用83.97%的质量提升。
- Addressing Text Embedding Leakage in Diffusion-Based Image Editing
-
揭示了基于扩散模型的文本图像编辑中属性泄露的根本原因——自回归文本编码器中 EOS 嵌入的语义纠缠,并提出 ALE 框架(ORE + RGB-CAM + BB),从嵌入解耦、注意力遮罩和背景混合三个层面彻底消除属性泄露。
- ADIEE: Automatic Dataset Creation and Scorer for Instruction-Guided Image Editing Evaluation
-
本文提出 ADIEE,一种自动化构建指令引导图像编辑评估数据集的方法,并基于超过 10 万样本微调 LLaVA-NeXT-8B 模型作为评分器,在多个基准上超越所有开源 VLM 和 Gemini-Pro 1.5,同时可作为奖励模型提升图像编辑模型性能。
- ADIEE: Automatic Dataset Creation and Scorer for Instruction-Guided Image Editing Evaluation
-
提出ADIEE,通过自动化方法构建超过10万样本的图像编辑评估训练数据集,微调LLaVA-NeXT-8B作为编辑质量评分模型,在多个基准上超越开源VLM和Gemini-Pro 1.5,并可作为奖励模型提升编辑模型性能。
- Aether: Geometric-Aware Unified World Modeling
-
Aether 提出一个几何感知的统一世界模型框架,通过在合成 4D 数据上联合训练重建、预测和规划三大能力,基于 CogVideoX 后训练实现零样本泛化到真实场景。
🎬 视频生成 (49)¶
- Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis
-
本文提出对抗分布匹配(ADM)框架,通过基于扩散模型的判别器以对抗方式对齐真假分数估计器的潜在预测,替代DMD中预定义的KL散度,结合对抗蒸馏预训练(ADP),在SDXL上实现一步生成超越DMD2,并在SD3和CogVideoX上刷新多步蒸馏基准。
- Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis
-
提出对抗式分布匹配(ADM)框架,用基于扩散模型的判别器以隐式、数据驱动的方式对齐真假分数估计器的潜在预测,取代DMD中预定义的KL散度,结合对抗蒸馏预训练(ADP)形成DMDX管线,在SDXL一步生成上超越DMD2,并扩展到SD3和CogVideoX视频生成。
- Aligning Moments in Time using Video Queries
-
本文提出MATR(Moment Alignment TRansformer),通过双阶段序列对齐(soft-DTW)将目标视频表示条件化于查询视频特征,实现视频到视频的时刻检索(Vid2VidMR),并设计自监督预训练策略,在ActivityNet-VRL上R@1提升13.1%、mIoU提升8.1%。
- BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation
-
首次提出针对文本到视频(T2V)生成模型的后门攻击框架BadVideo,利用视频中固有的静态和动态冗余信息(如未被文本指定的环境元素、运动轨迹等),通过时空组合和动态元素转换两类策略隐蔽地嵌入恶意内容,在LaVie和Open-Sora上实现高达93.5%的人类评估攻击成功率,同时有效规避现有内容审核系统。
- Causal-Entity Reflected Egocentric Traffic Accident Video Synthesis
-
本文提出Causal-VidSyn扩散模型,通过事故原因问答(ArA)模块和驾驶员注视条件的视觉token选择机制实现因果实体定位,并构建了包含154万帧注视数据的Drive-Gaze数据集,在事故视频编辑、正常到事故视频扩散、文本到视频生成三个任务中超越SOTA。
- D3: Training-Free AI-Generated Video Detection Using Second-Order Features
-
本文从牛顿力学的二阶控制系统出发,发现真实视频和 AI 生成视频在二阶时序特征("加速度")上存在本质差异——真实视频波动大而生成视频平坦,据此提出 D3,一种完全免训练的 AI 生成视频检测方法,仅需计算帧间特征的二阶差分标准差即可判别,在 40 个测试子集上达到 SOTA。
- DACoN: DINO for Anime Paint Bucket Colorization with Any Number of Reference Images
-
提出DACoN,利用DINOv2基础模型的语义特征与U-Net的高分辨率空间特征融合,实现支持任意数量参考图像的动画线稿自动上色,在关键帧和连续帧上色任务中均超越现有方法。
- Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer
-
针对 DiT 模型中 3D 全注意力机制导致的运动-外观难以解耦问题,提出共享时序核(Shared Temporal Kernel)和稠密点跟踪损失(Dense Point Tracking Loss),同时建立了更全面的运动迁移基准 MTBench 和混合运动保真度指标。
- DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation
-
推出 DH-FaceVid-1K,一个包含 1,200+ 小时、270,043 个视频片段、20,000+ 个人身份的大规模高质量人脸视频数据集,重点解决现有数据集中亚洲人脸严重不足的问题,并通过系统实验验证了数据规模与模型参数的缩放定律。
- Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning
-
提出DisWM框架,通过从"干扰视频"中预训练解纠缠表示,然后通过离线到在线的潜空间蒸馏将语义知识迁移到下游世界模型,提升视觉强化学习在环境变化下的样本效率和鲁棒性。
🧩 多模态 VLM (119)¶
- A Quality-Guided Mixture of Score-Fusion Experts Framework for Human Recognition
-
提出 Quality-guided Mixture of score-fusion Experts (QME) 框架,通过质量引导的 MoE 策略对来自不同生物特征模态(人脸、步态、身体)的相似度分数进行可学习融合,配合伪质量损失和分数三元组损失,在多个全身生物特征识别基准上达到 SOTA。
- Acknowledging Focus Ambiguity in Visual Questions
-
首次定义并系统研究视觉问答中的焦点歧义(focus ambiguity)问题——当问题中的语言描述可能指向图像中多个合理区域时,现有 VQA 系统完全忽略了这种歧义。作者构建了 VQ-FocusAmbiguity 数据集(5,500 样本 + 12,880 实例分割),并证明现代模型在识别和定位焦点歧义方面表现很差。
- Adaptive Prompt Learning via Gaussian Outlier Synthesis for Out-of-Distribution Detection
-
提出 APLGOS 框架,利用 ChatGPT 标准化 Q&A 对来初始化可学习 ID 提示,并在类条件高斯分布的低似然区域合成虚拟 OOD 提示和图像,通过对比学习对齐文本-图像嵌入,实现更紧凑的 ID/OOD 决策边界。
- Adaptive Prompt Learning via Gaussian Outlier Synthesis for Out-of-distribution Detection
-
提出APLGOS框架,利用视觉语言模型的提示学习能力,通过在类条件高斯分布的低概率区域合成虚拟OOD提示和图像,以更紧凑的决策边界区分已知和未知类别,在四个主流数据集上取得SOTA。
- Advancing Textual Prompt Learning with Anchored Attributes
-
本文提出 ATPrompt,通过在文本 prompt 中嵌入通用属性 token(如颜色、形状),将软 prompt 的学习空间从一维类别级别拓展到多维属性级别,作为即插即用的模块可无缝集成到现有文本 prompt 学习方法中,在 11 个数据集上一致性提升基线性能。
- AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?
-
提出AdvDreamer框架从单张图像生成物理可复现的对抗性3D变换(Adv-3DT)样本,通过零样本单目姿态操作+自然度奖励模型+逆语义概率损失,揭示当前VLM(包括GPT-4o)在3D变化下性能下降高达50-80%,并建立首个3D变化鲁棒性VQA基准MM3DTBench。
- AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models
-
提出 AIGI-Holmes,通过构建包含解释性标注的 Holmes-Set 数据集和精心设计的三阶段训练流程(视觉专家预训练 → SFT → DPO),将 MLLM 改造为既能准确检测 AI 生成图像又能提供人类可验证解释的"福尔摩斯"检测器,推理阶段通过协同解码策略进一步增强泛化能力。
- AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models
-
提出AIGI-Holmes,通过构建包含解释性标注的Holmes-Set数据集、三阶段训练管线(视觉专家预训练→SFT→DPO)和协同解码策略,实现可解释且可泛化的AI生成图像检测,在三个基准上达到SOTA检测精度同时提供人类可验证的解释。
- Aligning Information Capacity Between Vision and Language via Dense-to-Sparse Feature Distillation for Image-Text Matching
-
提出D2S-VSE,通过两阶段训练——先用LLaVA生成的稠密文本与图像预训练对齐以增强信息容量,再将稠密文本嵌入蒸馏到稀疏文本嵌入——解决图文匹配中信息密度不对称问题,在MS-COCO和Flickr30K上超越SOTA。
- Analyzing Finetuning Representation Shift for Multimodal LLMs Steering
-
提出一个无需训练的框架,通过概念级别分析揭示多模态大语言模型微调时的表征偏移,并利用偏移向量实现模型行为的轻量级引导(去偏、安全控制)。
🧠 VLM Reasoning (15)¶
- Boosting MLLM Reasoning with Text-Debiased Hint-GRPO
-
揭示GRPO在MLLM推理中的两大问题——低数据利用率(难题上所有输出均错误导致梯度无效)和文本偏差(模型忽视图像仅依赖文本推理),提出Hint-GRPO(自适应提供推理提示)和文本偏差校准(测试时增强图像条件)两套方案,在3个基座MLLM上的11个数据集上显著提升推理能力。
- ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning
-
提出PointCoT方法,将反思性视觉定位(bounding box)集成到图表推理的思维链中,使MLLM在每个推理步骤都能与图表视觉内容交互验证,并构建了包含19.2K高质量样本的ChartPoint-SFT-62k数据集,在ChartBench上实现+5.04%的提升。
- DWIM: Towards Tool-aware Visual Reasoning via Discrepancy-aware Workflow Generation & Instruct-Masking Tuning
-
本文提出 DWIM 框架,通过差异感知的工作流生成策略筛选高质量训练数据,以及指令掩码微调策略只克隆有效动作,使 LLM 在组合式视觉推理中具备工具感知能力,在多个 VR 基准上取得 SOTA。
- FinMMR: Make Financial Numerical Reasoning More Multimodal, Comprehensive, and Challenging
-
提出 FinMMR,一个双语(中英文)多模态金融数值推理基准,包含 4300 道题目和 8700 张图像,覆盖 14 个金融子领域,要求模型进行多步精确数值计算;评测了 15 个 SOTA MLLM,最好模型在 Hard 子集仅达 53% 准确率,揭示了当前 MLLM 在专业领域多模态推理中的核心瓶颈。
- From Easy to Hard: The MIR Benchmark for Progressive Interleaved Multi-Image Reasoning
-
提出 MIR 基准,包含 22,257 个多图像交错推理问答对及五阶段推理步骤,并设计渐进式课程学习策略,从"简单到困难"逐步提升 MLLM 的多图像交错推理能力。
- LLaVA-CoT: Let Vision Language Models Reason Step-by-Step
-
LLaVA-CoT 提出了一种让视觉语言模型自主进行多阶段结构化推理的方法——通过构建 LLaVA-CoT-100k 结构化推理标注数据集训练模型依次执行"总结→视觉解读→逻辑推理→结论生成"四个阶段,并提出阶段级回溯搜索(SWIRES)实现测试时缩放,使 11B 模型超越 Gemini-1.5-pro 和 GPT-4o-mini。
- MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning
-
提出首个百万规模的多模态agent调优数据集MMAT-1M,通过四阶段数据引擎(基础数据→推理轨迹生成→反思纠错→格式整合)为MLLM注入CoT推理、工具调用和反思能力,在InternVL2.5-8B上平均提升2.7%,RAG任务上提升8.8%。
- Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation
-
提出 Abstract Perspective Change (APC) 框架,通过利用视觉基础模型构建场景抽象表示并执行透视变换,使 VLM 能够从任意视角进行空间推理,在合成与真实图像基准上大幅优于现有 VLM 和微调模型。
- Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models
-
提出 Physics Context Builders (PCBs),一种模块化框架,通过微调小型专用 VLM 从仿真数据中学习生成详细的物理场景描述,作为物理上下文增强大型基础 VLM(如 GPT-4o)的物理推理能力,无需修改大模型本身。
- R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization
-
提出 StepGRPO,一种新的在线强化学习框架,通过两种无需过程奖励模型的规则化步级推理奖励(StepRAR 步级推理准确性奖励 + StepRVR 步级推理有效性奖励),解决 MLLM 在 RL 训练中的稀疏奖励问题,使 MLLM 能够自主探索和改进推理能力。
⚡ VLM Efficiency (11)¶
- AirCache: Activating Inter-Modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference
-
提出 AirCache,一种面向 LVLM 的 KV Cache 压缩方法,通过精英观察窗口(Elite Observation Window)评估视觉 token 重要性,结合基于重要性分数分布强度与偏度的自适应层级预算分配,在仅保留 10% 视觉 KV Cache 时性能损失不超过 1%,解码延迟降低 29%-66%。
- AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference
-
提出AirCache,通过精英观测窗口(利用文本自注意力筛选关键文本token评估视觉token重要性)和自适应层间预算分配(基于重要性分数分布的强度和偏度),实现仅保留10%视觉KV缓存即可保持模型性能,解码延迟降低29%-66%。
- Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM
-
提出 Dynamic-VLM,通过动态视觉Token压缩器根据视频长度灵活调整每帧Token数量,配合200万级高质量合成视频QA数据集,在 VideoMME 上比 LLaVA-OneVision 提升 2.7%,在 MuirBench 上提升 10.7%。
- Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration
-
揭示了 VLM 中早期视觉 token 剪枝存在系统性位置偏差(RoPE 导致倾向保留图像底部 token),并提出 FEATHER 方法通过去除 RoPE + 均匀采样 + 多阶段剪枝解决该问题,在定位任务上实现 5× 以上性能提升。
- FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance
-
提出 FOLDER——一种即插即用的视觉 token 压缩模块,通过系统分析信息损失的三个关键因素(压缩影响、传播效应、聚合方式),在视觉编码器的最后几层进行激进的 token 合并,实现最多 70% 的 token 削减,同时保持甚至提升模型性能。
- Growing a Twig to Accelerate Large Vision-Language Models
-
提出 TwigVLM,通过在 VLM 早期层上"生长"一个轻量级 twig 模块,同时实现 twig 引导的视觉 token 剪枝(TTP,prefilling 加速)和自推测解码(SSD,decoding 加速),在 LLaVA-1.5-7B 上剪枝 88.9% 视觉 token 后保留 96% 精度,长回答生成速度提升 154%,在精度和速度上均大幅超越现有方法。
- LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models
-
利用视觉编码器中CLS token与空间token之间注意力分数的稀疏性,自适应地剪枝和合并视觉token,在仅保留5.5%视觉token的情况下维持LMM的可比性能。
- MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling
-
提出MaTVLM,将预训练VLM中部分Transformer层替换为Mamba-2层并通过单阶段知识蒸馏训练,在保持竞争性性能的同时实现3.6倍推理加速和27.5%显存降低。
- METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models
-
METEOR 提出首个面向多编码器 MLLM 的三阶段渐进式 token 剪枝框架:在编码阶段用特征秩分配各编码器的稀疏比例,在融合阶段通过协同剪枝消除跨编码器冗余,在解码阶段根据文本提示自适应调整剪枝比例,将视觉 token 减少 76% 而性能仅降 0.3%。
- ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers
-
发现 MLLM 中存在显著的层级冗余——多数层对视觉 token 的变换贡献极小,据此提出 ShortV:在约 60% 的层中冻结视觉 token(跳过其注意力和 FFN 计算),在 LLaVA-NeXT-13B 上实现 50% FLOPs 减少,性能几乎无损。方法免训练,且与 token 剪枝方法正交可叠加。
🎵 音频/语音 (11)¶
- 2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining
-
从YouTube收集2.5年(22,000课时)的教学视频,通过LLM驱动的多级抽取与过滤管线构建高质量交错图文"多模态教科书"语料(6.5M关键帧 + 0.75B文本token),显著提升VLM在知识密集型和推理任务上的预训练效果,尤其在ScienceQA和MathVista上带来大幅提升。
- Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation
-
提出Danceba框架,通过基于相位的节奏提取(PRE)、时序门控因果注意力(TGCA)和并行Mamba运动建模(PMMM)三个核心模块,实现音乐驱动的高节奏对齐、高多样性舞蹈生成,在AIST++数据集上FIDk提升48.68%、BAS提升12%。
- Everything is a Video: Unifying Modalities through Next-Frame Prediction
-
本文将多模态学习中的文本、图像、音频、视频等不同模态任务统一重构为下一帧预测问题(所有输入输出都渲染为 64×64 视频帧序列),用单一 Transformer 模型无需模态特定编码器即可处理跨模态任务,验证了"everything is a video"这一激进但可行的统一表征范式。
- How Would It Sound? Material-Controlled Multimodal Acoustic Profile Generation for Objects
-
提出材质可控的声学特征生成任务(M-CAPA),给定室内场景的音视觉观测和用户定义的新材质配置,生成反映材质变化的目标房间脉冲响应(RIR),并构建了配套的 Acoustic Wonderland 数据集。
- Latent Swap Joint Diffusion for 2D Long-Form Latent Generation
-
提出SaFa(Swap Forward),一种模态无关的高效方法,通过两种潜空间交换算子(Self-Loop Latent Swap和Reference-Guided Latent Swap)替代传统联合扩散中的均值化操作,解决频谱混叠问题并保持跨视图一致性,在长音频和全景图生成中显著优于现有方法。
- Learning to See Inside Opaque Liquid Containers using Speckle Vibrometry
-
本文提出了一种基于激光散斑振动测量的非接触式系统,通过 2D 网格同时感知多个不透明容器表面的微小振动,再用 Vibration Transformer 从振动频谱中推断容器类型和隐藏液位,开创了"透视不透明容器内部液位"这一全新计算机视觉任务。
- Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition
-
提出Lyra,一个以语音为中心的全模态MLLM框架,通过三大核心组件(DTW-based跨模态正则化器、多模态LoRA、Latent多模态提取器)和首个12K长语音SFT数据集,在仅用2.7M数据和少量训练的情况下,同时在视觉-语言、视觉-语音、语音-语言benchmark上达到SOTA,并能处理长达2小时的语音输入。
- MUG: Pseudo Labeling Augmented Audio-Visual Mamba Network for Audio-Visual Video Parsing
-
提出MUG框架,通过伪标签增强的跨模态随机组合数据增强策略和音视频Mamba网络,同时提升弱监督音视频解析任务中段级和事件级的预测性能。
- Understanding Co-speech Gestures in-the-wild
-
本文提出 JEGAL——一个联合手势-语音-文本的三模态嵌入空间,通过全局短语对比损失和局部手势-词耦合损失在弱监督条件下学习共语手势表征,定义了三个新的手势理解任务和基准,超越了包括大型视觉语言模型在内的多种方法。
- VGGSounder: Audio-Visual Evaluations for Foundation Models
-
针对 VGGSound 数据集在多标签缺失、类别重叠和模态错位方面的局限性,构建了 VGGSounder——一个带有模态标注的多标签音视频分类基准,并提出"模态混淆"度量来揭示基础模型在多模态融合上的不足。
🧊 3D 视觉 (267)¶
- TRAN-D: 2D Gaussian Splatting-based Sparse-view Transparent Object Depth Reconstruction via Physics Simulation for Scene Update
-
提出TRAN-D,一种基于2D Gaussian Splatting的稀疏视角透明物体深度重建方法,通过分割引导的object-aware损失优化遮挡区域Gaussian分布,并利用物理仿真(MPM)实现物体移除后的场景动态更新,仅需单张图像即可完成场景刷新。
- 3D Gaussian Map with Open-Set Semantic Grouping for Vision-Language Navigation
-
提出基于3D高斯溅射的场景地图表示(3D Gaussian Map),结合开放集语义分组机制,为视觉-语言导航(VLN)构建兼顾几何结构与丰富语义的3D环境表示,并设计多层级动作预测策略(Multi-Level Action Prediction)融合多粒度空间-语义线索辅助导航决策。
- 3D Mesh Editing using Masked LRMs
-
提出MaskedLRM,将3D形状编辑重构为条件重建问题——训练时随机生成3D遮挡物遮盖多视角输入,用一张干净条件视图引导被遮挡区域的补全;推理时用户定义编辑区域并提供单张编辑图像,模型在<3秒单次前传中完成3D网格编辑,比优化方法快2-10倍,能执行拓扑变化编辑(加孔/加把手),重建质量与SOTA持平。
- 3D Test-time Adaptation via Graph Spectral Driven Point Shift
-
提出GSDTTA,首次将3D点云的测试时适应从空间域转移到图谱域,通过仅优化最低10%频率分量(减少约90%参数)实现全局结构调整,并结合特征图引导的自训练策略生成伪标签,在ModelNet40-C和ScanObjectNN-C上显著超越现有3D TTA方法。
- 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
-
本文提出3DGraphLLM,将3D场景中物体间的语义关系编码为可学习的图表示并输入LLM,在object grounding、场景描述和视觉问答等多个3D视觉-语言任务上显著超越不使用语义关系的基线方法,同时推理速度比LVLM方法快5倍。
- 3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt
-
本文提出 3DGS-LM,通过将 3D Gaussian Splatting 的 ADAM 优化器替换为定制的 Levenberg-Marquardt (LM) 二阶优化器,并设计了高效的 GPU 并行化方案和梯度缓存结构,在保持相同重建质量的前提下实现了 20% 的训练加速。
- 3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt
-
将3D Gaussian Splatting的ADAM优化器替换为定制化的Levenberg-Marquardt(LM)二阶优化器,通过高效CUDA并行化的PCG算法和梯度缓存结构实现Jacobian-向量积加速,在保持相同重建质量的前提下将优化时间缩短约20%。
- 4D Gaussian Splatting SLAM
-
提出首个完整的4D Gaussian Splatting SLAM系统,在动态场景中同时进行相机位姿跟踪和4D高斯辐射场重建——将高斯原语分为静态/动态集合,通过稀疏控制点+MLP建模动态物体运动,并创新性地设计2D光流图渲染算法来监督动态高斯的运动学习。
- 4D Visual Pre-training for Robot Learning
-
FVP提出将3D视觉预训练建模为"下一帧点云预测"问题,用条件扩散模型从历史帧点云预测未来帧点云来学习3D视觉表示,在12个真实世界操作任务中将DP3的平均成功率提升28%,达到SOTA水平。
- 7DGS: Unified Spatial-Temporal-Angular Gaussian Splatting
-
将3DGS扩展到7维(空间3D+时间1D+方向3D),通过条件切片机制将7D高斯投影为与3DGS管线兼容的3D高斯,在具有视角依赖效果的动态场景上PSNR提升最高7.36dB,同时维持401 FPS实时渲染。
🎯 目标检测 (28)¶
- 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection
-
提出首个端到端的单目开放集3D目标检测器3D-MOOD,通过将开放集2D检测"提升"到3D空间,结合几何感知3D query生成与canonical image space设计,在Omni3D闭集和Argoverse 2/ScanNet开集基准上均达到SOTA。
- Adversarial Attention Perturbations for Large Object Detection Transformers
-
本文提出 AFOG(Attention-Focused Offensive Gradient),一种架构无关的对抗攻击方法,通过可学习注意力机制聚焦扰动到图像脆弱区域,仅需 10 次迭代即可在视觉不可察觉的扰动下将 12 种检测 Transformer 的 mAP 最高降低 37.8 倍,同时在 CNN 检测器上也优于现有方法。
- Augmenting Moment Retrieval: Zero-Dependency Two-Stage Learning
-
提出 AMR 框架,通过 Splice-and-Boost 数据增强策略和冷启动-蒸馏两阶段训练,在不依赖任何外部数据/预训练模型的前提下,大幅提升视频时刻检索的边界感知能力和语义辨别力,在 QVHighlights 上超越 SOTA +5%。
- Automated Model Evaluation for Object Detection via Prediction Consistency and Reliability
-
本文提出PCR(Prediction Consistency and Reliability),一种无需人工标注即可估计目标检测模型性能的自动化评估方法,通过分析NMS前后边界框的空间一致性和置信度可靠性来估计mAP,并构建了基于图像腐蚀的元数据集以实现更现实和可扩展的评估。
- Diffusion Curriculum: Synthetic-to-Real Data Curriculum via Image-Guided Diffusion
-
利用扩散模型的图像引导强度控制生成从合成到真实的连续谱系数据,设计"扩散课程学习(DisCL)"策略在训练不同阶段自适应选择最优引导级别的合成数据,有效解决长尾分类和低质量数据学习问题。
- DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion
-
DISTIL 提出一种无需干净数据的木马触发器反演方法,通过在预训练引导扩散模型的潜空间中搜索触发器模式(而非像素空间),并注入均匀噪声正则化,有效区分真实后门触发器和对抗扰动,在 BackdoorBench 上精度最高提升 7.1%。
- Dynamic-DINO: Fine-Grained Mixture of Experts Tuning for Real-time Open-Vocabulary Object Detection
-
首次将Mixture of Experts引入实时开放词汇目标检测器,通过MoE-Tuning将Grounding DINO 1.5 Edge从dense模型扩展为动态推理框架,提出细粒度专家分解和预训练权重分配策略,仅用1.56M开源数据超越使用20M私有数据训练的原版模型。
- EvRT-DETR: Latent Space Adaptation of Image Detectors for Event-based Vision
-
提出I2EvDet框架,通过在冻结的RT-DETR检测器的潜空间中插入轻量级RNN时序模块,以最小的架构修改将主流图像检测器适配为事件相机视频检测模型,在Gen1和1Mpx基准上分别取得+2.3和+1.4 mAP的SOTA。
- From Easy to Hard: Progressive Active Learning Framework for Infrared Small Target Detection with Single Point Supervision
-
提出渐进式主动学习(PAL)框架,通过"模型预启动→模型增强→模型精炼"三阶段训练策略,驱动红外小目标检测网络从易到难地主动识别和学习困难样本,在单点监督条件下显著缩小了与全监督方法之间的性能差距(IoU 提升 8.53%–29.1%)。
- Intervening in Black Box: Concept Bottleneck Model for Enhancing Human-Neural Network Mutual Understanding
-
提出 CBM-HNMU 框架,通过概念瓶颈模型(CBM)逼近黑盒模型的推理过程,自动识别并修正有害概念,再将修正后的知识蒸馏回黑盒模型,实现超越样本级别的系统性模型干预与准确率提升。
✂️ 语义分割 (73)¶
- 2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos
-
本文提出从人类活动视频中自动提取精确的双手可操作区域(affordance)数据集 2HANDS,并训练基于 VLM 的 2HandedAfforder 模型,实现根据文本提示预测双手抓握的精确物体区域分割,在新提出的 ActAffordance 基准上显著优于现有方法。
- A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions
-
提出即插即用的物理运动修复框架,通过Mask条件运动校正模块(MCM)修复视频运动捕捉中的缺陷帧,结合基于RL测试时适应的物理运动传输模块(PTM),首次实现对野外高难度运动(如体操、武术后空翻)的物理仿真修复。
- Advancing Visual Large Language Model for Multi-granular Versatile Perception
-
本文提出 MVP-LM,一个基于视觉大语言模型的多粒度通用感知框架,通过创新的多粒度解码器和 CoT 启发的数据统一策略,首次在单一模型中同时支持词级/句级指令下的框/掩膜预测四种感知组合,在全景分割、目标检测、视觉定位和指示表达分割等任务上取得有竞争力的性能。
- AnimalClue: Recognizing Animals by their Traces
-
提出 AnimalClue,首个大规模动物痕迹识别数据集,包含 159,605 个边界框覆盖 968 个物种的五类间接线索(脚印、粪便、蛋、骨骼、羽毛),并建立了分类、检测、实例分割和特征预测四项基准。
- Auto-Vocabulary Semantic Segmentation
-
本文提出 Auto-Vocabulary Semantic Segmentation (AVS) 新任务,通过 AutoSeg 框架自动从图像中发现目标类别并分割,无需人为指定词汇表,在 PASCAL VOC 上达到 87.1 mIoU,远超唯一同类方法 ZeroSeg (20.1),甚至超越部分需要指定类别的开放词汇方法。
- Beyond Single Images: Retrieval Self-Augmented Unsupervised Camouflaged Object Detection
-
本文提出 RISE——一种检索自增强的无监督伪装目标检测范式,通过从训练集本身构建前景/背景原型库并利用 KNN 检索生成伪标签,在无任何标注的条件下大幅超越现有无监督和基于提示的方法。
- Can Generative Geospatial Diffusion Models Excel as Discriminative Geospatial Foundation Models?
-
提出SatDiFuser框架,将生成式地理空间扩散模型(DiffusionSat)转化为判别式遥感基础模型,通过系统分析多阶段多时间步扩散特征并设计三种融合策略(全局加权、局部加权、MoE联合融合),在语义分割和分类任务上优于现有SOTA遥感基础模型,最高提升+5.7% mIoU和+7.9% F1。
- CAVIS: Context-Aware Video Instance Segmentation
-
提出CAVIS,通过引入上下文感知实例追踪器(CAIT)融合物体边界周围的上下文信息来增强实例关联,并设计原型化跨帧对比损失(PCC)保证跨帧特征一致性,在VIS和VPS任务上全面刷新SOTA。
- CLOT: Closed Loop Optimal Transport for Unsupervised Action Segmentation
-
提出闭环最优传输(CLOT)框架,通过三级循环特征学习(帧嵌入→段嵌入→交叉注意力精化帧嵌入)联合求解三个OT问题,在帧级和段级表征之间建立显式反馈循环,显著提升无监督动作分割的边界检测和聚类质量。
- ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction
-
提出ConformalSAM框架,利用Conformal Prediction校准基础分割模型SEEM在目标域的输出不确定性,筛除不可靠像素标签后作为未标注数据的监督信号,配合后期自依赖训练策略,在PASCAL VOC上1/16标注设定下达到81.21 mIoU。
🖼️ 图像恢复 (31)¶
- AFUNet: Cross-Iterative Alignment-Fusion Synergy for HDR Reconstruction via Deep Unfolding Paradigm
-
将多曝光HDR重建从MAP估计视角建模,通过空间对应先验将问题分解为对齐和融合两个交替子问题,再展开为端到端可训练的AFUNet(含SAM空间对齐+CFM通道融合+DCM数据一致性模块),在三个HDR基准上取得SOTA,PSNR-μ达44.91dB(Kalantari数据集)。
- Benchmarking Burst Super-Resolution for Polarization Images: Noise Dataset and Analysis
-
本文针对偏振图像 burst 超分辨率的缺乏数据集和噪声模型的问题,构建了两个专用数据集 PolarNS(噪声统计)和 PolarBurstSR(超分基准),提出了偏振噪声传播分析模型,并系统比较了现有 burst SR 方法在偏振场景下的表现,为偏振图像重建领域建立了标准化评测基准。
- Blind2Sound: Self-Supervised Image Denoising without Residual Noise
-
提出 Blind2Sound 框架,通过自适应重可见损失(adaptive re-visible loss)感知噪声水平并实现个性化去噪,配合 Cramer Gaussian 损失提升噪声参数估计精度,在自监督盲去噪中消除残余噪声,性能超越同期所有自监督方法甚至部分有监督基线。
- Blind Noisy Image Deblurring Using Residual Guidance Strategy
-
提出残差引导策略(RGS),在图像金字塔的粗到细估计过程中,利用相邻粗尺度的卷积残差经 guided filter 去噪后校正当前尺度的模糊图像,从而在高噪声(σ=0.1)下显著提升盲去模糊的核估计精度和恢复质量,无需训练即超越多种深度学习方法。
- Closed-Loop Transfer for Weakly-supervised Affordance Grounding
-
提出LoopTrans闭环知识迁移框架,通过共享CAM实现外中心-自中心图像的统一知识激活,利用像素级伪掩码将粗激活精炼为精确定位,并通过去噪蒸馏将自中心定位反馈增强外中心知识提取,在AGD20K上全面超越SOTA。
- Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention
-
GIGA-ToF 提出了一种基于运动不变图结构融合的 ToF 深度去噪网络,通过跨帧图注意力机制和 MAP 问题的算法展开,同时增强了时序稳定性和空间锐度,并在合成和真实数据上展现了优秀的泛化能力。
- CWNet: Causal Wavelet Network for Low-Light Image Enhancement
-
提出因果小波网络CWNet,通过结构因果模型将低光增强中的语义信息视为因果因子、亮度/颜色退化视为非因果因子,结合小波变换骨干网络实现频域特征的精细化恢复。
- Decouple to Reconstruct: High Quality UHD Restoration via Active Feature Disentanglement and Reversible Fusion
-
提出 D²R-UHDNet 框架,通过 Controlled Differential Disentangled VAE(CD²-VAE)将退化图像主动解耦为退化主导潜空间和背景主导特征,并利用复数域可逆多尺度融合网络处理背景特征,在仅 1M 参数下实现六项 UHD 复原任务的 SOTA。
- Devil is in the Uniformity: Exploring Diverse Learners within Transformer for Image Restoration
-
针对标准Multi-Head Attention (MHA)中各head使用均匀子空间导致的冗余问题,提出HINT模型,通过异构层级多头注意力(HMHA)和Query-Key缓存更新(QKCU)机制增强head间多样性与交互,在5类图像恢复任务的12个benchmark上取得SOTA结果。
- EAMamba: Efficient All-Around Vision State Space Model for Image Restoration
-
本文提出EAMamba框架,通过多头选择性扫描模块(MHSSM)和全方位扫描策略(all-around scanning),在不增加计算复杂度和参数量的情况下实现多方向扫描,解决了Vision Mamba在图像恢复中的计算开销和局部像素遗忘问题,在超分辨率、去噪、去模糊、去雾等任务上取得了31-89%的FLOPs降低同时保持优异性能。
🛰️ 遥感 (11)¶
- AstroLoc: Robust Space to Ground Image Localizer
-
提出AstroLoc,首个利用30万张人工标注宇航员照片进行训练的太空对地定位模型,通过查询-卫星配对损失和无监督挖掘技术学习鲁棒的地球表面特征表征,在recall@1上平均提升35%,recall@100持续超过99%,已在实际中完成50万+照片的定位。
- CityNav: A Large-Scale Dataset for Real-World Aerial Navigation
-
构建了首个面向真实城市环境的大规模空中视觉语言导航数据集 CityNav(32,637 条人类演示轨迹,覆盖 4.65 km²),并提出地理语义地图(GSM)辅助表示,显著提升基线模型的导航性能。
- GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization
-
提出GeoDistill框架,通过基于视场角(FoV)遮挡的教师-学生自蒸馏范式增强局部判别性特征学习,在弱监督条件下(仅需粗略GPS标注)实现稳健的跨视角定位,性能提升超过10%且可即插即用于不同定位框架。
- GeoExplorer: Active Geo-Localization with Curiosity-Driven Exploration
-
提出 GeoExplorer,一个结合目标导向和好奇心驱动内在奖励的主动地理定位(AGL)智能体,通过联合动作-状态动力学建模和好奇心探索实现更鲁棒的 UAV 搜索策略,在未知目标和环境中展现出优越的泛化能力。
- Information-Bottleneck Driven Binary Neural Network for Change Detection
-
提出 BiCD,首个专为变化检测设计的二值神经网络,通过信息瓶颈(IB)原理引导的辅助目标模块提升 BNN 的特征表示能力和可分离性,在街景和遥感变化检测数据集上达到 BNN 领域的 SOTA,同时实现 30× 内存压缩和 2.5× 推理加速。
- Pan-Crafter: Learning Modality-Consistent Alignment for Pan-Sharpening
-
PAN-Crafter 提出模态一致性对齐框架,通过模态自适应重建(MARs)和跨模态对齐感知注意力(CM3A)显式处理 PAN 和 MS 图像的跨模态错位问题,在多个遥感基准数据集上达到 SOTA,且推理速度比扩散模型快 1110×。
- RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model
-
首次将物理热传导过程引入遥感基础模型,提出 RS-vHeat,用热传导算子(HCO)替代注意力机制来建模遥感图像中的局部区域相关性,在 4 个任务 10 个数据集上取得优异性能的同时,相比注意力基线减少 84% 显存、24% FLOPs、提升 2.7 倍吞吐量。
- SkySense V2: A Unified Foundation Model for Multi-Modal Remote Sensing
-
本文提出SkySense V2,使用单一统一Transformer骨干网络处理高分辨率光学/多光谱/SAR三种遥感模态数据,通过自适应Patch合并、模态特异性Prompt Token和基于Query的语义聚合对比学习(QSACL)进行预训练,仅用665M参数(相比前作SkySense的1.26B)在16个数据集7种任务上平均提升1.8分。
- SMARTIES: Spectrum-Aware Multi-Sensor Auto-Encoder for Remote Sensing Images
-
提出 SMARTIES,一个统一的传感器无关遥感基础模型,通过光谱感知投影将异构传感器数据映射到共享空间,结合跨传感器 token 混合和掩码重建进行自监督预训练,在单模态和多模态任务上超越专用传感器模型,并可泛化到预训练未见过的传感器。
- Towards a Unified Copernicus Foundation Model for Earth Vision
-
构建了涵盖所有主要Copernicus Sentinel任务的统一地球观测基础模型体系,包括1870万对齐图像的Copernicus-Pretrain数据集、支持任意光谱/非光谱传感器的Copernicus-FM模型、以及覆盖15个层级化下游任务的Copernicus-Bench评估基准。
🧑 人体理解 (41)¶
- AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning
-
提出 AR-VRM,首个通过显式模仿人类手部关键点来增强视觉机器人操控的方法,采用关键点视觉语言模型预训练从大规模人类动作视频中学习动作知识,并通过类比推理(Analogical Reasoning)建立人手关键点与机器人组件的映射。
- Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars
-
提出Avat3r——首个可动画的大型3D重建模型(LRM),仅需4张输入图像即可在前馈方式下回归出高质量可驱动的3D高斯头部头像,通过整合DUSt3R位置图和Sapiens语义特征作为先验、并用简单的cross-attention建模表情动画,在Ava256和NeRSemble数据集上大幅超越现有方法。
- Bi-Level Optimization for Self-Supervised AI-Generated Face Detection
-
提出BLADES方法,通过双层优化(bi-level optimization)将自监督预训练与AI生成人脸检测目标显式对齐:内层优化视觉编码器学习EXIF分类/排序和人脸篡改检测等前置任务,外层优化各任务权重以提升代理检测任务性能,实现不依赖合成人脸的跨生成器泛化检测。
- CarGait: Cross-Attention based Re-ranking for Gait Recognition
-
提出CarGait,一种基于交叉注意力的步态识别重排序方法,通过probe与候选序列之间的strip-wise交叉注意力学习细粒度的步态对应关系,将预训练单阶段模型的全局特征映射到新的判别性嵌入空间,在Gait3D、GREW和OU-MVLP三大基准上对七种步态模型均取得一致的Rank-1/5精度提升。
- CleanPose: Category-Level Object Pose Estimation via Causal Learning and Knowledge Distillation
-
首次将因果推理引入类别级物体位姿估计(COPE),通过基于前门调整的因果推理模块消除数据偏差导致的虚假关联,并利用3D基础模型ULIP-2的残差知识蒸馏提供无偏的类别语义监督,在REAL275的严格指标5°2cm上达到61.7%,超越SOTA 4.7%。
- Contact-Aware Refinement of Human Pose Pseudo-Ground Truth via Bioimpedance Sensing
-
提出BioTUCH框架,通过手腕间生物阻抗传感检测自接触事件,结合视觉姿态估计器进行接触感知的3D手臂姿态优化,平均提升重建精度11.7%。
- Controllable and Expressive One-Shot Video Head Swapping
-
本文提出一个基于扩散模型的多条件可控视频头部替换框架(SwapAnyHead),通过形状无关掩码策略、发型增强策略和表情感知的3DMM驱动landmark重定向模块,实现了高保真的身份保持、无缝背景融合和精确的跨身份表情迁移与编辑。
- DADM: Dual Alignment of Domain and Modality for Face Anti-Spoofing
-
提出 DADM 框架,通过互信息掩码(MIM)模块和域-模态双对齐优化策略,同时解决多模态人脸反欺骗中的域内模态不对齐和域间模态不对齐问题,在四种协议下取得 SOTA 性能。
- DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance
-
DreamActor-M1提出基于DiT架构的人体图像动画框架,通过隐式面部表征+3D头部球体+3D身体骨架的混合控制信号实现精细面部和身体控制,结合互补外观引导和渐进式训练策略支持肖像到全身的多尺度生成。
- Dynamic Reconstruction of Hand-Object Interaction with Distributed Force-aware Contact Representation
-
提出 ViTaM-D,一个视觉-触觉融合框架,通过新提出的分布式力感知接触表示(DF-Field)和两阶段流程(视觉动态跟踪+力感知优化),实现刚性和可变形物体的手物交互动态重建,并引入 HOT 数据集填补可变形物体手物交互的评测空白。
📹 视频理解 (56)¶
- 4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding
-
本文提出 4D-Bench,首个评估多模态大模型 (MLLM) 在 4D 物体(动态 3D 物体)理解能力的基准,包含 4D 物体问答和 4D 物体描述两大任务,揭示了即使是 GPT-4o 在简单 4D 物体上也仅达 63% 准确率(人类基线 91%),尤其在物体计数和时序理解上表现薄弱。
- 4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding
-
提出 4D-Bench,首个评估多模态大语言模型对4D物体(具有时间演化的3D物体)理解能力的基准,包含4D物体问答(751 QA对)和4D物体描述(580物体×5标注)两大任务,发现即使SOTA的GPT-4o也仅达63%准确率(人类91%),揭示了MLLM在多视角时空理解上的巨大差距。
- Adaptive Hyper-Graph Convolution Network for Skeleton-Based Human Action Recognition
-
提出 Hyper-GCN,通过自适应非均匀超图替代传统二元图来建模骨骼拓扑,并引入虚拟超关节(hyper joints)创建虚拟连接,使多关节协同关系得以直接建模,在 NTU-60/120 和 NW-UCLA 上以最轻量的 GCN 设计实现 SOTA(base 版仅 1.1M 参数、1.63 GFLOPs)。
- Adaptive Hyper-Graph Convolution Network for Skeleton-based Human Action Recognition with Virtual Connections
-
本文提出 Hyper-GCN,通过自适应非均匀超图卷积和虚拟超节点(hyper joints)的设计,突破了传统 GCN 仅建模关节对之间二元关系的限制,实现了多关节协同语义的高效聚合,在 NTU-60/120 和 NW-UCLA 数据集上以最轻量的 GCN 设计达到了 SOTA 性能。
- AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning
-
提出 AIM,一种无需训练的多模态LLM自适应推理方法,通过LLM前基于相似度的视觉token迭代合并和LLM层内基于PageRank重要性的渐进token剪枝,实现6.8倍FLOPs削减同时保持性能,在长视频理解上同等计算量下甚至超越SOTA (+4.6 MLVU)。
- AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning
-
提出一种无需训练的自适应推理方法,通过 LLM 前基于嵌入相似度的迭代式 token 合并 + LLM 层内基于 PageRank 多模态重要性的渐进式 token 剪枝,实现多模态 LLM 在 40 倍 FLOPs 减少范围内的灵活精度-效率权衡,在视频和图像理解任务上均取得优异表现。
- Aligning Effective Tokens with Video Anomaly in Large Language Models
-
提出VA-GPT,通过空间有效Token选择(SETS)和时间有效Token生成(TETG)两个模块,在MLLM中高效对齐与视频异常相关的关键Token,实现对异常事件的精准检测、描述和时间定位。
- AllTracker: Efficient Dense Point Tracking at High Resolution
-
提出AllTracker,将点跟踪重新表述为多帧长程光流问题,在低分辨率网格上通过2D卷积+像素对齐时序注意力迭代优化对应估计再上采样,仅16M参数即实现SOTA准确率和高分辨率(768×1024)全像素密集跟踪,跟踪速度接近光流方法。
- An Empirical Study of Autoregressive Pre-training from Videos
-
系统性地研究了从视频进行自回归预训练的方法(称为Toto),在超过1万亿视觉token上训练因果Transformer,发现尽管归纳偏置极少,自回归预训练在图像识别、视频分类、目标跟踪和机器人操控等多个下游任务上均具有竞争力,且展现出类似语言模型的缩放规律(但速率较慢)。
- Attention to Trajectory: Trajectory-Aware Open-Vocabulary Tracking
-
本文提出TRACT,一种利用轨迹级信息增强开放词汇多目标跟踪(OV-MOT)的方法,通过轨迹一致性强化(TCR)改善关联、通过轨迹特征聚合(TFA)和轨迹语义丰富(TSE)改善分类,在OV-TAO基准上显著提升了跟踪性能,尤其是分类准确率。
🚗 自动驾驶 (91)¶
- 3D Gaussian Splatting Driven Multi-View Robust Physical Adversarial Camouflage Generation
-
提出首个基于3D高斯体(3DGS)的物理对抗攻击框架PGA,通过解决高斯体的互遮挡和自遮挡问题保证跨视角一致性,并设计min-max优化策略过滤非鲁棒对抗特征,在数字域和物理域均大幅超越SOTA方法。
- 3DRealCar: An In-the-wild RGB-D Car Dataset with 360-degree Views
-
本文提出首个大规模真实3D车辆数据集3DRealCar,包含2500辆来自100+品牌的真实车辆,每辆车约200张高分辨率360度RGB-D视图,覆盖反光/标准/暗光三种光照条件,并提供13类车辆解析标注,支持3D重建、检测、生成等多种任务。
- 4DSegStreamer: Streaming 4D Panoptic Segmentation via Dual Threads
-
提出4DSegStreamer,一种基于双线程系统(预测线程+推理线程)的流式4D全景分割框架,通过几何与运动记忆维护、自车位姿预测和逆向前向光流迭代实现实时高质量4D全景分割。
- 6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting
-
利用2D Gaussian Splatting的高效可微渲染能力,提出一种无需CAD模型的在线6D物体位姿估计与跟踪方法,通过联合优化高斯物体场和关键帧位姿,实现比BundleSDF快约5倍的速度同时保持可比精度。
- A Constrained Optimization Approach for Gaussian Splatting from Coarsely-posed Images and Noisy Lidar Point Clouds
-
提出一种无需SfM的约束优化方法,通过相机位姿分解、灵敏度预调节、对数障碍约束和几何约束,从多相机SLAM系统输出的粗糙位姿和噪声点云中联合优化相机参数与3DGS场景重建。
- AD-GS: Object-Aware B-Spline Gaussian Splatting for Self-Supervised Autonomous Driving
-
本文提出 AD-GS,一种基于 3D Gaussian Splatting 的自监督自动驾驶场景渲染框架,核心创新是将可学习 B-spline 曲线与三角函数结合进行局部-全局运动建模,并通过简化的二值伪分割实现鲁棒的场景分解,在不依赖人工 3D 标注的条件下大幅超越现有自监督方法。
- AD-GS: Object-Aware B-Spline Gaussian Splatting for Self-Supervised Autonomous Driving
-
本文提出 AD-GS,一种自监督的自动驾驶场景渲染框架,通过结合局部感知的可学习 B 样条曲线和全局感知的三角函数来建模动态物体运动,并利用简化的伪 2D 分割进行场景分解,在不依赖人工 3D 标注的情况下显著超越现有自监督方法,接近有标注方法的性能。
- AdaDrive: Self-Adaptive Slow-Fast System for Language-Grounded Autonomous Driving
-
AdaDrive提出了首个自适应慢-快架构的LLM增强自动驾驶框架,通过两个自适应连接器动态决定"何时激活LLM"(Connector-W)和"LLM贡献多少"(Connector-H),在语言引导驾驶基准上实现了SOTA性能(驾驶分数80.9%),同时将推理延迟降低至189ms、显存降至6.79GB。
- Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts
-
提出 DUO(Dual Uncertainty Optimization),首个联合最小化语义不确定性和几何不确定性的测试时自适应框架,通过共轭焦点损失和法向场约束实现鲁棒的单目3D目标检测。
- AGO: Adaptive Grounding for Open World 3D Occupancy Prediction
-
提出AGO框架,通过噪声增强的接地训练(grounding training)处理已知类别 + 模态适配器的自适应对齐处理未知类别,并用基于信息熵的开放世界识别器在推理时动态选择最佳特征,在Occ3D-nuScenes自监督基准上超越VEON 4.09 mIoU,同时具备开放世界零样本/少样本迁移能力。
🤖 机器人/具身智能 (26)¶
- Adaptive Articulated Object Manipulation On The Fly with Foundation Model Reasoning and Part Grounding
-
本文提出 AdaRPG 框架,利用基础视觉-语言模型对铰接物体进行零件级分割和可操作性推理,并借助 GPT-4o 生成高层控制代码以自适应调度原子操作技能,在仿真和真实环境中实现了跨类别零样本泛化操作。
- AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation
-
提出 AnyBimanual,一个即插即用的框架,通过技能管理器和视觉对齐器将预训练的单臂操控策略迁移到通用双臂操控场景,在仅有少量双臂示范的情况下实现显著的多任务泛化能力。
- Beyond Losses Reweighting: Empowering Multi-Task Learning via the Generalization Perspective
-
从泛化角度出发,将锐度感知最小化(SAM)引入多任务学习,通过分解每个任务的 SAM 梯度为"低损失方向"和"平坦方向"并分别聚合,减少梯度冲突并引导模型进入跨任务共同平坦低损失区域。
- Bridging Domain Generalization to Multimodal Domain Generalization via Unified Representations
-
提出URMMDG框架,通过监督对比学习构建跨模态统一表示空间,并利用互信息最小化解耦类别通用信息与模态/域特定信息,将传统单模态域泛化方法(Mixup、JiGen、IBN-Net)有效迁移到多模态域泛化场景,在EPIC-Kitchens和HAC基准上取得SOTA。
- Certifiably Optimal Anisotropic Rotation Averaging
-
提出了一种新的SDP松弛方法,通过强制解落在SO(3)的凸包conv(SO(3))内,首次实现了各向异性代价下的可证明全局最优旋转平均,解决了传统O(3)松弛在各向异性场景下完全失效的问题。
- CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games
-
提出CombatVLA,一个针对3D动作角色扮演游戏战斗任务的高效3B参数VLA模型,通过Action-of-Thought数据格式和截断推理策略,实现比现有VLM游戏框架快50倍的推理速度,且战斗成功率超越人类玩家。
- COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation
-
提出 COSMO,一种结合选择性记忆的低成本 VLN 架构,通过两个定制化的选择性状态空间模块——Round Selective Scan(RSS,单轮扫描捕获全局上下文)和 Cross-modal Selective State Space Module(CS3,双流跨模态交互)——替代 Transformer 中的高成本注意力机制,以仅 15.5% 参数和 9.3% FLOPs 实现超越基线 DUET 的导航性能。
- DexVLG: Dexterous Vision-Language-Grasp Model at Scale
-
提出DexVLG——首个大规模视觉-语言-灵巧抓取模型,构建了包含174K物体、1.7亿抓取姿态的DexGraspNet 3.0数据集(带部件级语义标注),结合VLM和Flow Matching姿态预测头,在仿真中实现76%+零样本执行成功率,并在真实世界中完成语义对齐的灵巧抓取。
- Embodied Representation Alignment with Mirror Neurons
-
本文受镜像神经元启发,通过对比学习将动作理解(观察他人行为)和具身执行(自主执行动作)的中间表征对齐到共享潜在空间,发现两类模型的表征存在自发对齐现象且与任务成功率相关,显式对齐后在动作识别(+3.3%)和机器人操作(+3.5%)上均获提升。
- EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment
-
提出 EvolvingGrasp,通过 Handpose-wise Preference Optimization (HPO) 和 Physics-Aware Consistency Model (PCM) 实现灵巧抓取姿态的高效进化式生成与人类偏好对齐,在四个基准数据集上取得 SOTA,并实现 30 倍加速。
🎮 强化学习 (7)¶
- Embodied Navigation with Auxiliary Task of Action Description Prediction
-
DescRL 将动作描述生成作为强化学习导航的辅助任务,通过从预训练的视觉-语言模型蒸馏知识来训练 ADPredictor,使导航智能体在生成可解释动作描述的同时提升导航性能,在语义音频-视觉导航(SAVNav)等多个任务上实现 SOTA。
- mDP3: A Training-free Approach for List-wise Frame Selection in Video-LLMs
-
提出 mDP3,一种免训练、模型无关的视频帧选择方法,通过条件高斯核在 RKHS 中估计帧相似度,结合行列式点过程(DPP)捕获查询相关性和列表级多样性,再通过马尔可夫决策过程(MDP)建模时序性,在多个长视频 benchmark 上以仅 8 帧输入显著超越均匀采样和现有帧选择方法。
- NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation
-
提出 NavQ,一种前瞻性 VLN 智能体,通过 Q-model 在单次前向传播中预测每个候选动作的长期未来语义聚合特征(Q-feature),结合 A* 式搜索策略在目标导向导航中取得显著提升。
- Progressor: A Perceptually Guided Reward Estimator with Self-Supervised Online Refinement
-
提出Progressor框架,从无标注视频中自监督学习任务无关的奖励函数,通过预测任务进度分布提供稠密奖励信号,并在在线RL训练中通过对抗性push-back策略应对分布偏移问题。
- R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization
-
提出 R1-Onevision,通过跨模态推理管线将图像转换为形式化文本表示,结合 SFT + 基于规则的强化学习(GRPO)的两阶段后训练策略,显著提升视觉语言模型的多模态推理能力,在多个数学推理基准上超越 GPT-4o。
- RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment
-
提出 RL-Selector,引入 ε-sample cover 概念量化样本冗余度,将数据选择建模为强化学习过程,通过轻量 A2C 策略网络自适应优化选择策略,在多个基准数据集上以更少数据达到接近甚至超越全量训练的泛化性能。
- RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints
-
提出组合约束(compositional constraints)概念来形式化多智能体具身协作中的安全与效率要求,基于此构建了首个多智能体操作基准 RoboFactory,并系统探索了多智能体模仿学习的架构和训练策略。
🔄 自监督/表示学习 (13)¶
- A Hidden Stumbling Block in Generalized Category Discovery: Distracted Attention
-
发现GCD中未标注数据(尤其是未知类别)的ViT注意力会分散到背景区域(distracted attention),提出Attention Focusing(AF)模块通过多尺度token重要性度量+自适应剪枝来纠正注意力,作为即插即用模块在SimGCD上最高带来15.4%的性能提升。
- A Token-level Text Image Foundation Model for Document Understanding (TokenFD/TokenVL)
-
提出首个 token 级别文本图像基础模型 TokenFD,通过在 2000 万图像、18 亿 BPE token-mask 对上进行 token 级视觉-语言对齐预训练,实现 image-as-text 语义能力,并基于此构建文档理解 MLLM TokenVL,在 OCRBench 上得分 860(8B 组最高),在 DocVQA 等十项 VQA 任务上平均提升 8.8%。
- Always Skip Attention
-
本文从理论上证明了 Vision Transformer 中的自注意力机制是本质上病态的(ill-conditioned),在无 skip connection 时会导致训练崩溃,并提出 Token Graying(TG)方法通过改善输入 token 的条件数来进一步增强 ViT 的训练稳定性和性能。
- CObL: Toward Zero-Shot Ordinal Layering without User Prompting
-
本文提出 CObL,一种基于多个冻结 Stable Diffusion UNet 并行生成的架构,能在无需用户提示、不知物体数量的前提下,从单张图像推断出遮挡排序的物体层叠表示(每层一个 amodal 完整物体),并且仅用数千张合成桌面场景就能零样本泛化到真实世界照片。
- From Linearity to Non-Linearity: How Masked Autoencoders Capture Spatial Correlations
-
从理论角度分析 MAE 如何学习图像中的空间相关性,推导出线性 MAE 的解析解,揭示了掩码比例和 patch 大小如何选择短距离和长距离空间特征,并将分析扩展到非线性 MAE,为实践中的超参数选择提供了理论指导。
- Generate, Refine, and Encode: Leveraging Synthesized Novel Samples for On-the-Fly Fine-Grained Category Discovery
-
提出基于扩散模型的即时类别发现框架 DiffGRE,通过属性组合生成(ACG)合成包含虚拟类别信息的新样本、多样性驱动精炼(DDR)过滤低质量样本、半监督Leader编码(SLE)注入额外类别知识,在 6 个细粒度数据集上显著提升了已有 OCD 方法的性能(平均 ACC-ALL 提升 6.5%)。
- Improving Large Vision and Language Models by Learning from a Panel of Peers
-
提出 Panel-of-Peers (PoP) 学习框架,利用多个性能相近的 LVLM 互相生成候选答案、互相评分、构建偏好数据,并通过 SimPO 迭代自我改进,在 15 个基准上将平均分从 48% 提升至 57%,无需人工标注数据。
- LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models
-
提出LoftUp,通过坐标-cross-attention架构直接将低分辨率VFM特征映射到任意高分辨率,并用class-agnostic mask精炼+自蒸馏构建全分辨率伪GT进行训练,在6个下游任务上平均提升10-20%且在视频目标分割上提升近50%。
- Manual-PA: Learning 3D Part Assembly from Instruction Diagrams
-
提出 Manual-PA,一个基于 Transformer 的说明书引导 3D 零件组装框架:通过对比学习将 3D 零件与说明书步骤图对齐来推断组装顺序,再以学到的顺序作为位置编码的软引导进行 6DoF 位姿预测,在 PartNet 上显著超越现有方法。
- MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning
-
MoSiC 利用离线点跟踪器提取长程运动轨迹,通过基于最优传输(Sinkhorn-Knopp)的聚类机制在时间维度上传播聚类分配,从而在视频数据上学习空间-时间一致的稠密表征,仅用视频训练即可将 DINOv2 在多个图像/视频基准上提升 1%–6%。
📐 优化/理论 (7)¶
- Addressing Representation Collapse in Vector Quantized Models with One Linear Layer
-
提出SimVQ方法,通过一个可学习的线性变换层对码本向量进行重参数化(\(\bm{C}\bm{W}\)),将码本的不相交优化转化为联合空间优化,从根本上解决VQ模型中的表示崩塌问题,实现接近100%的码本利用率。
- Class-Wise Federated Averaging for Efficient Personalization
-
cwFedAvg 将 FedAvg 从"按客户端聚合"扩展为"按类别聚合",为每个类别创建专属全局模型,再根据各客户端的类别分布加权组合成个性化模型,配合权重分布正则化(WDR)增强类别分布与权重范数的关联,在保持 FedAvg 通信开销的同时显著提升非 IID 场景下的个性化性能。
- Federated Continual Instruction Tuning
-
首次提出联邦持续指令微调(FCIT)基准,涵盖 2 种场景、4 种设置和 12 个数据集,并设计 DISCO 框架通过动态知识组织(DKO)和子空间选择性激活(SSA)有效解决数据异构性和灾难性遗忘。
- Federated Prompt-Tuning with Heterogeneous and Incomplete Multimodal Client Data
-
提出 FED-PRIME,一个面向多模态数据模态缺失场景的联邦 Prompt-Tuning 框架,通过 inter-client 和 intra-client 两组 prompt 分别捕获跨客户端可对齐的缺失模式和客户端内特有的缺失模式,并通过聚类-对齐机制进行服务端聚合,在多种缺失数据设置下大幅超越现有基线。
- Learning Interpretable Queries for Explainable Image Classification with Information Pursuit
-
在CLIP语义嵌入空间中将信息追踪(Information Pursuit)的查询字典参数化为可学习向量,通过交替优化算法学习任务充分的可解释查询字典,缩小了可解释分类器与黑盒分类器的性能差距。
- Memory-Efficient 4-bit Preconditioned Stochastic Optimization
-
提出基于 Cholesky 分解 + 误差反馈的 4-bit 量化方案,将 Shampoo 优化器的预条件矩阵压缩至 4-bit 精度,在大幅降低 GPU 显存的同时保持与 32-bit Shampoo 接近的训练性能,并给出了光滑与非光滑两种场景下的收敛性证明。
- Zeroth-Order Fine-Tuning of LLMs in Random Subspaces
-
提出 SubZero(random Subspace Zeroth-order),通过逐层低秩扰动在随机子空间中估计梯度,显著降低零阶优化的梯度方差和角度误差,以接近推理的内存开销实现 LLM 的高效微调。
🔬 可解释性 (10)¶
- AIM: Amending Inherent Interpretability via Self-Supervised Masking
-
本文提出 AIM,一种基于自监督二值掩码的 top-down 特征选择机制,无需额外标注即可引导 CNN 聚焦真实判别特征、抑制虚假相关,同时获得内在可解释性和更强的 OOD 泛化能力。
- ArgoTweak: Towards Self-Updating HD Maps through Structured Priors
-
提出 ArgoTweak,首个提供"旧地图先验 + 当前传感器数据 + 最新真值地图"完整三元组的 HD 地图数据集,通过双射映射框架将大规模地图修改分解为元素级原子变化,并引入可解释的评测指标(mAPC/mACC),将模型在 ArgoTweak 上训练后的 sim2real 差距降低 10 倍以上。
- CAD-Recode: Reverse Engineering CAD Code from Point Clouds
-
提出 CAD-Recode,将点云翻译为可执行的 Python CadQuery 代码来重建 CAD 模型,利用预训练 LLM(Qwen2-1.5B)作为解码器配合轻量级点云编码器,在 DeepCAD、Fusion360 和 CC3D 三个基准上实现了 10 倍以上的 Chamfer Distance 降低。
- CE-FAM: Concept-Based Explanation via Fusion of Activation Maps
-
提出CE-FAM概念解释方法,通过训练与图像分类器共享激活图的分支网络来模拟VLM嵌入,实现概念预测→概念区域(激活图加权和)→概念贡献(对分类分数影响)的一一对应,并提出新的NRA评估指标,在零样本概念推理上超越现有方法。
- Granular Concept Circuits: Toward a Fine-Grained Circuit Discovery for Concept Representations
-
提出 Granular Concept Circuit (GCC) 方法,通过迭代评估神经元间的功能依赖性(Neuron Sensitivity Score)和语义一致性(Semantic Flow Score),自动发现深度视觉模型中编码特定概念的细粒度视觉电路——这是首个能在单个query中发现多个概念级电路的方法。
- Learnable Fractional Reaction-Diffusion Dynamics for Under-Display ToF Imaging and Beyond
-
LFRD² 提出一种混合框架,将可学习的时间分数阶反应-扩散方程与神经网络结合,用于屏下 ToF(UD-ToF)深度图恢复。通过分数阶微积分捕获迭代过程中的长期记忆依赖,并引入高效的连续卷积算子替代离散卷积,在 UD-ToF 深度恢复、ToF 去噪和深度超分辨率任务上均取得最优性能。
- Minerva: Evaluating Complex Video Reasoning
-
提出 Minerva——一个包含 1515 个手工标注的复杂视频推理问答数据集,每题配有 5 个选项和详细推理链(reasoning trace),用于评估多模态大模型的视频推理能力,并建立了视频推理错误分类体系(Temporal/Perceptual/Logical/Completeness)和 MiRA 自动评估框架。
- "Principal Components" Enable A New Language of Images
-
提出 Semanticist 视觉分词框架,通过在 latent token 空间中嵌入可证明的 PCA 结构(每个后续 token 贡献递减的非重叠信息),并用扩散解码器解耦语义-频谱耦合效应,在图像重建和自回归生成上实现了 SOTA 性能。
- SVIP: Semantically Contextualized Visual Patches for Zero-Shot Learning
-
提出SVIP框架,通过在输入阶段识别并替换语义无关的图像patch(用属性级word embedding初始化的可学习嵌入替代),从根源上解决零样本学习中的语义错位问题。
- VITAL: More Understandable Feature Visualization through Distribution Alignment and Relevant Information Flow
-
提出VITAL方法,通过将特征可视化重新定义为真实图像特征分布对齐问题(而非传统的激活最大化),并结合相关性评分过滤无关特征,生成对人类更易理解的神经元可视化结果。
📦 模型压缩 (52)¶
- A Good Teacher Adapts Their Knowledge for Distillation
-
本文揭示了知识蒸馏中教师-学生容量差距问题的本质原因在于输出分布的类内分布不匹配,并提出 AID(Adapted Intra-class Distribution)方法,在蒸馏前对教师模型进行微调以优化其类内分布使之更符合学生的学习能力,在多种架构组合上取得了SOTA性能。
- ACAM-KD: Adaptive and Cooperative Attention Masking for Knowledge Distillation
-
提出 ACAM-KD,一种自适应学生-教师协作注意力掩码知识蒸馏方法,通过跨注意力特征融合(STCA-FF)和自适应空间-通道掩码(ASCM)动态调整蒸馏焦点,在 COCO 检测上超越 SOTA 最高 1.4 mAP,在 Cityscapes 分割上提升 3.09 mIoU。
- Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning
-
提出 APT(Additive Prompt Tuning),用加法操作替代传统的提示拼接范式,仅在 CLS token 的 key/value 上添加两个可学习向量,在大幅降低计算开销(GFLOPs 减少 41.5%)和可训练参数(减少 78.2%)的同时实现 SOTA 的类增量学习性能。
- ARGMatch: Adaptive Refinement Gathering for Efficient Dense Matching
-
提出自适应精炼聚合(Adaptive Refinement Gathering)管线,包含内容感知偏移估计器、局部一致匹配校正器和局部一致上采样器三个模块,配合自适应门控机制,大幅减少了稠密匹配对重量级特征提取器和全局匹配器的依赖,以轻量级模型实现与SOTA可比的性能。
- B-VLLM: A Vision Large Language Model with Balanced Spatio-Temporal Tokens
-
本文提出B-VLLM框架,通过文本条件自适应帧选择、时序帧Token合并和空间Token采样三个模块,在VLLM的上下文窗口限制内动态平衡视频的时空线索,在MVBench上带来10%的性能提升。
- Beyond Low-Rank Tuning: Model Prior-Guided Rank Allocation for Effective Transfer in Low-Data and Large-Gap Regimes
-
提出SR-LoRA(Stable Rank-Guided LoRA),利用预训练权重矩阵的稳定秩(Stable Rank)作为自然先验为每层LoRA模块分配最优秩,无需搜索即可实现灵活的逐层秩分配,在大域差距+少样本迁移场景(如医学影像)中显著优于固定低秩LoRA和其他自适应秩方法。
- Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation
-
提出TokenBridge,通过对预训练连续VAE特征进行后训练维度级量化,将连续token转化为离散token,在保持连续token高保真表示能力的同时,使用标准交叉熵损失进行简洁的自回归建模,在ImageNet 256×256上达到与连续方法可比的生成质量。
- CIARD: Cyclic Iterative Adversarial Robustness Distillation
-
提出CIARD,通过对比推离损失(Contrastive Push Loss)解决双教师ARD框架中clean teacher和robust teacher的优化目标冲突,并设计迭代教师训练(ITT)策略持续更新robust teacher以防止性能退化,在CIFAR-10/100和Tiny-ImageNet上同时提升对抗鲁棒性+3.53%和干净准确率+5.87%。
- Color Matching Using Hypernetwork-Based Kolmogorov-Arnold Networks (cmKAN)
-
提出cmKAN,利用超网络驱动的Kolmogorov-Arnold Network进行颜色匹配,通过生成器预测空间变化的KAN样条参数,支持有监督/无监督/配对优化三种场景和raw-to-raw/raw-to-sRGB/sRGB-to-sRGB三种任务,在所有任务上平均超越现有方法37.3%且极轻量(76.4K参数)。
- Colors See Colors Ignore: Clothes Changing ReID with Color Disentanglement
-
提出CSCI方法,通过引入Color token学习颜色表示(Color See),并利用新颖的S2A自注意力机制将颜色信息与ReID特征解耦(Color Ignore),在无需外部标注的情况下有效消除换衣行人重识别中的外观偏差。
🏥 医学图像 (31)¶
- AcZeroTS: Active Learning for Zero-shot Tissue Segmentation in Pathology Images
-
提出AcZeroTS框架,将主动学习与基于VLM的原型引导零样本分割模型ProZS结合,通过同时考虑不确定性、多样性和原型覆盖unseen类的能力来选择最有价值的标注样本,以最少标注实现seen和unseen组织类型的高质量分割。
- Alleviating Textual Reliance in Medical Language-guided Segmentation via Prototype-driven Semantic Approximation
-
提出ProLearn框架,首次通过原型驱动的语义近似(PSA)模块从根本上缓解医学语言引导分割对文本的依赖——仅需少量图文配对数据初始化原型空间,训练和推理均可无文本输入,在1%文本可用性下仍保持强劲性能(QaTa-COV19 Dice=0.857),且参数量比LLM方案减少1000倍,推理速度快100倍。
- An OpenMind for 3D Medical Vision Self-supervised Learning
-
发布了最大的公开3D医学影像预训练数据集OpenMind(114k脑MRI体积),并在该数据集上系统性benchmark了现有3D SSL方法在最先进CNN(ResEnc-L)和Transformer(Primus-M)架构上的表现,明确了3D医学图像SSL的当前SOTA。
- Beyond Brain Decoding: Visual-Semantic Reconstructions to Mental Creation Extension Based on fMRI
-
提出NeuroCreat——一种结合LLM视觉与文本能力的脑多模态架构,将fMRI解码从单一的视觉刺激重建扩展到图像重建 + 文本描述(captioning)+ 心理创造(creation)三个层次,通过Prompt Variant Alignment模块有效弥合fMRI低分辨率信号与高级语义表征之间的鸿沟。
- Boosting Vision Semantic Density with Anatomy Normality Modeling for Medical Vision-language Pre-training
-
提出 ViSD-Boost 方法,通过疾病级视觉对比学习增强视觉语义、以及基于 VQ-VAE 的解剖正常性建模来放大异常信号,解决医学视觉语言预训练中视觉模态语义密度低导致的对齐偏差问题,在 15 个器官 54 种疾病的零样本诊断上达到 84.9% AUC。
- COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation
-
提出COIN框架,通过无监督语义分割+最优传输的像素级细胞传播、基于模型-SAM一致性的实例级置信度评分、以及置信度引导的递归自蒸馏三步策略,解决了无标注细胞实例分割中"无错误实例缺失"的关键问题,在MoNuSeg和TNBC上超越半监督/弱监督方法。
- Controllable Latent Space Augmentation for Digital Pathology
-
提出HistAug——一种基于Transformer的轻量级潜在空间增强模型,通过条件式跨注意力机制在特征空间中模拟真实图像变换(色相、腐蚀等),以极低计算开销为病理MIL训练提供可控且高效的数据增强。
- Coordinate-based Speed of Sound Recovery for Aberration-Corrected Photoacoustic Computed Tomography
-
本文提出一种高效的自监督联合重建方法,通过将声速(SOS)参数化为像素网格或神经场,并通过可微成像前向模型反向传播梯度来恢复SOS和高质量光声图像,在精度上超越现有SOTA的同时实现35倍加速(40秒 vs 23分钟)。
- CuMPerLay: Learning Cubical Multiparameter Persistence Vectorizations
-
提出 CuMPerLay,一个可微的立方多参数持久同调 (Cubical Multiparameter Persistence, CMP) 向量化层,将 CMP 分解为多条可学习的单参数持久同调线,通过联合学习双滤过 (bifiltration) 函数实现端到端训练,嵌入 Swin Transformer 后在医学图像分类和语义分割任务上(尤其小数据场景)取得显著提升。
- GDKVM: Echocardiography Video Segmentation via Spatiotemporal Key-Value Memory with Gated Delta Rule
-
提出 GDKVM,一种基于线性键值关联和门控 Delta 规则的心脏超声视频分割架构,通过高效的内存管理和多尺度特征融合,在 CAMUS 和 EchoNet-Dynamic 上实现 SOTA 性能,同时保持实时推理速度。
🛡️ AI 安全 (24)¶
- A Framework for Double-Blind Federated Adaptation of Foundation Models
-
BlindFed提出了双盲联邦基础模型适配框架:通过FHE友好的架构重设计(多项式近似非线性操作)+ 两阶段分割学习(离线知识蒸馏 + 在线加密推理)+ 隐私增强(样本置换 + 随机块采样),在数据方看不到模型、模型方看不到数据的约束下实现了接近LoRA的适配精度。
- Active Membership Inference Test (aMINT): Enhancing Model Auditability with Multi-Task Learning
-
本文提出 Active MINT(aMINT),一种多任务学习框架,在训练审核模型的同时联合训练 MINT 模型,使模型能够以超过 80% 的准确率检测特定数据是否被用于训练,显著优于現有的被动 MINT 和成员推断攻击方法。
- Ask and Remember: A Questions-Only Replay Strategy for Continual Visual Question Answering
-
提出QUAD——一种仅存储过去任务问题(不存储图像)的持续VQA方法,通过问题重放和注意力一致性蒸馏,在保护隐私的同时超越存储图像的现有方法。
- Ask and Remember: A Questions-Only Replay Strategy for Continual Visual Question Answering
-
提出QUAD,通过仅存储先前任务的问题(不存储图像)进行重放,配合注意力一致性蒸馏保持跨任务的模态内和模态间注意力模式,在隐私保护的前提下实现持续VQA的SOTA性能。
- Backdoor Attacks on Neural Networks via One-Bit Flip
-
提出SOLEFLIP,首个在量化模型上仅翻转一个比特位即可注入后门的推理阶段攻击方法,通过高效算法识别可利用的权重和比特位,并生成对应触发器,在CIFAR-10/SVHN/ImageNet上实现平均98.9%的攻击成功率且对正常精度零影响。
- Backdoor Mitigation by Distance-Driven Detoxification
-
本文提出Distance-Driven Detoxification(D3),将后门防御重新表述为约束优化问题——最大化微调后模型权重与中毒初始权重的距离,同时约束干净样本损失不超过阈值,从而有效逃逸"后门区域",在7种SOTA攻击上取得最优或次优防御效果。
- Backdooring Self-Supervised Contrastive Learning by Noisy Alignment
-
提出Noisy Alignment(NA)方法,通过显式压缩投毒图像中的噪声成分来增强自监督对比学习的后门攻击效果,将攻击建模为二维图像布局优化问题,并推导出理论最优参数,在ImageNet-100上ASR提升最高达45.9%。
- Client2Vec: Improving Federated Learning by Distribution Shifts Aware Client Indexing
-
提出Client2Vec机制,在联邦学习训练前利用CLIP编码器和分布偏移感知索引生成网络(DSA-IGN)为每个客户端生成包含标签和特征分布信息的索引向量,进而改善客户端采样、模型聚合和本地训练三个关键阶段。
- Controllable Feature Whitening for Hyperparameter-Free Bias Mitigation
-
提出可控特征白化(CFW)框架,通过白化变换消除目标特征与偏差特征之间的线性相关性来缓解模型偏差,无需对抗学习或额外正则化超参数,且可通过加权系数平滑控制demographic parity和equalized odds之间的权衡。
- Failure Cases Are Better Learned But Boundary Says Sorry: Facilitating Smooth Perception Change for Accuracy-Robustness Trade-Off in Adversarial Training
-
揭示了对抗训练中一个反直觉现象——失败样本的模型感知变化反而比成功样本更小(即被"过度学习"),据此提出 Robust Perception Adversarial Training (RPAT),通过鼓励感知随扰动平滑变化来缓解准确率-鲁棒性权衡问题。
📂 其他 (33)¶
- A Hyperdimensional One Place Signature to Represent Them All: Stackable Descriptors For Visual Place Recognition
-
本文提出 HOPS(Hyperdimensional One Place Signatures),利用超维计算(HDC)框架将同一地点在不同环境条件下采集的多个参考描述子融合为统一表示,在不增加计算量和存储开销的前提下,大幅提升视觉场所识别(VPR)的鲁棒性与召回率。
- A Linear N-Point Solver for Structure and Motion from Asynchronous Tracks
-
本文提出了一种统一的线性 N-point 求解器,能够从具有任意时间戳的 2D 点对应中恢复相机线速度和 3D 点结构,适用于全局快门、滚动快门和事件相机等多种传感器模式。
- AdaptiveAE: An Adaptive Exposure Strategy for HDR Capturing in Dynamic Scenes
-
本文提出AdaptiveAE,利用深度强化学习将HDR曝光包围拍摄建模为马尔可夫决策过程(MDP),同时优化ISO和快门速度的组合,在用户定义的时间预算内自适应地为动态场景选择最优曝光参数,在HDRV数据集上达到PSNR 39.70,比之前最好的方法Hasinoff et al. (37.59) 高出2.1 dB。
- Adversarial Data Augmentation for Single Domain Generalization via Lyapunov Exponents
-
提出 LEAwareSGD 优化器,利用 Lyapunov 指数(LE)动态调节学习率,将模型训练引导至"混沌边缘"附近,从而在单源域泛化任务中实现更广泛的参数空间探索和更强的跨域泛化能力。
- Auto-Regressively Generating Multi-View Consistent Images (MV-AR)
-
首次将自回归(AR)模型引入多视角图像生成任务,通过逐视角生成利用所有前序视角信息来增强远距离视角间的一致性,同时设计了统一的多模态条件注入架构和Shuffle Views数据增强策略,使单一模型可同时处理文本/图像/几何形状条件。
- C4D: 4D Made from 3D through Dual Correspondences
-
提出C4D框架,通过在DUSt3R的3D pointmap预测基础上联合捕获双重时序对应(短时光流+动态感知长时点跟踪DynPT),生成运动掩码分离动静区域,并引入相机运动对齐/相机轨迹平滑/点轨迹平滑三个优化目标,将现有3D重建范式升级为完整4D重建(逐帧点云+相机参数+2D/3D轨迹),在深度/位姿/跟踪多个下游任务上达competitive性能。
- Doodle Your Keypoints: Sketch-Based Few-Shot Keypoint Detection
-
提出首个基于草图的跨模态少样本关键点检测框架,利用原型网络、网格定位器、原型域适应和去风格化网络,仅需少量带标注草图即可在真实照片中检测新类别的新关键点。
- EDFFDNet: Towards Accurate and Efficient Unsupervised Multi-Grid Image Registration
-
提出 EDFFDNet,采用指数衰减自由形变 (EDFFD) 替代传统 B-spline FFD 和 TPS 进行图像配准,配合自适应稀疏运动聚合器 (ASMA) 和渐进式相关策略,在 UDIS-D 数据集上以减少 70.5% 参数、32.6% 显存的代价实现 +0.5dB PSNR 提升。
- FixTalk: Taming Identity Leakage for High-Quality Talking Head Generation in Extreme Cases
-
提出FixTalk框架,通过增强运动指示器(EMI)和增强细节指示器(EDI)两个轻量级即插即用模块,将GAN模型中的身份泄漏问题"化害为利"——EMI消除运动特征中的身份信息以解决身份泄漏,EDI利用泄漏的身份信息在极端姿态下补充缺失细节以消除渲染伪影。
- HyTIP: Hybrid Temporal Information Propagation for Masked Conditional Residual Video Coding
-
提出 HyTIP 框架,将输出回归(显式缓冲解码帧)和隐状态传播(隐式缓冲潜在特征)两种时序信息传播机制统一到同一学习式视频编码框架中,仅用 SOTA 方法 14% 的缓冲区大小即可达到可比的编码性能。
🗂 其他方向 (39)¶
💡 LLM Reasoning (3)¶
- CoRVid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning
-
提出 Corvid,通过混合视觉编码器 + GateMixer 连接器 + 高质量 CoT 数据集 + 推理时自验证策略,全面提升 MLLM 的链式推理能力,在数学推理和科学问题求解上超越同参数量级的开源模型。
- Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization
-
提出UV-CoT框架,通过自动生成偏好数据和改进的Score-DPO损失函数,在不需要人工标注bounding box的情况下实现图像级链式思维(Visual CoT)推理,在6个基准上超越有监督的Visual-CoT方法。
- Video-T1: Test-Time Scaling for Video Generation
-
将LLM中的测试时缩放(TTS)思想迁移到视频生成领域,将TTS重新定义为从高斯噪声空间到目标视频分布的搜索问题,提出Tree-of-Frames (ToF)搜索算法实现高效的推理时计算扩展,在VBench上持续稳定提升各类视频生成模型的质量。
🦾 LLM Agent (4)¶
- Embodied Image Captioning: Self-supervised Learning Agents for Spatially Coherent Image Descriptions
-
提出一个三阶段自监督框架,通过agent自主导航收集多视角观测、LLM共识机制生成伪标注、对比学习微调captioner,显著提升室内环境中同一物体跨视角描述的一致性和准确性。
- GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
-
发现RL训练VLM Agent时的"思维坍塌"现象——CoT推理迅速退化为与状态无关的模板化思维并导致无效动作,提出GTR框架用VLM纠正器自动修正思维(SFT) + PPO优化动作的双目标训练,在24点游戏和ALFWorld上实现3-5倍的成功率提升。
- Less is More: Empowering GUI Agent with Context-Aware Simplification
-
提出 SimpAgent——一种上下文感知的简化框架,通过基于遮挡的元素剪枝(训练时随机遮挡无关元素区域)和一致性引导的历史压缩(在 LLM 中间层直接丢弃历史视觉 token + KL散度一致性约束),在降低27% FLOPs 的同时取得多个 GUI 导航基准的 SOTA。
- UIPro: Unleashing Superior Interaction Capability for GUI Agents
-
提出 UIPro,通过构建 2060 万 GUI 理解样本进行预训练并提出统一动作空间整合异构 GUI agent 任务数据,实现跨移动端、Web 端和桌面端的 SOTA GUI 交互性能。
⚖️ 对齐 / RLHF (2)¶
- Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models
-
本文提出 HIMRD,一种黑盒多模态越狱攻击方法,通过将恶意语义分散到多个模态来绕过单模态防护,并用启发式搜索策略寻找理解增强提示和诱导提示,在开源和闭源多模态大模型上分别达到约 90% 和 68% 的平均攻击成功率。
- MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization
-
提出 MagicID 框架,通过构建身份偏好和动态偏好的混合视频对数据,并设计两阶段混合偏好优化(HPO)训练策略,首次将 DPO 应用于身份定制化视频生成,同时解决传统自重建训练导致的身份退化和动态减弱问题。
⚡ LLM 效率 (1)¶
- MixANT: Observation-dependent Memory Propagation for Stochastic Dense Action Anticipation
-
提出 MixANT,通过混合专家方法为 Mamba 的遗忘门(A 矩阵)引入输入依赖性,动态选择上下文相关的 A 矩阵控制时序记忆传播,在 50Salads、Breakfast 和 Assembly101 三个密集动作预测数据集上全面超越 SOTA。
📖 NLP 理解 (1)¶
- Balancing Task-Invariant Interaction and Task-Specific Adaptation for Unified Image Fusion
-
TITA 提出了一种无需任务标识的统一图像融合框架,通过交互增强像素注意力(IPA)模块探索任务不变的互补信息提取,并通过基于操作的自适应融合(OAF)模块动态适配任务特定需求,同时采用 FAMO 策略缓解多任务梯度冲突。
✍️ 文本生成 (1)¶
- Beyond Isolated Words: Diffusion Brush for Handwritten Text-Line Generation
-
提出 DiffBrush,首个基于扩散模型的手写文本行生成方法,通过内容解耦的风格学习(列/行掩码)和多尺度内容判别器(行/词级别),在风格模仿和内容准确性上大幅超越现有方法。
🌐 多语言/翻译 (1)¶
- SignRep: Enhancing Self-Supervised Sign Representations
-
提出 SignRep,一个可扩展的自监督手语表征学习框架,通过在 Masked Autoencoder 预训练中利用手语骨架先验、特征正则化和对抗式风格无关损失,仅用单一 RGB 模态即超越了复杂的多模态/多分支方法,在手语识别、字典检索和手语翻译三大任务上均取得 SOTA。
🔍 信息检索/RAG (5)¶
- Aligning Information Capacity Between Vision and Language via Dense-to-Sparse Feature Distillation
-
提出D2S-VSE框架,通过两阶段训练(稠密文本预训练+稠密到稀疏特征蒸馏微调)增强视觉语义嵌入的信息容量,解决图文匹配中图像与文本信息密度不对称的核心问题。
- External Knowledge Injection for CLIP-Based Class-Incremental Learning
-
提出 Engine(ExterNal knowledGe INjEction)框架,通过双分支注入调优(视觉分支用数据增强、文本分支用 GPT-4 生成判别性描述)和推理时后调优知识注入(成对判别特征重排序),在无需存储历史样本的条件下,在 9 个基准数据集上以 3-10% 的优势超越所有 CLIP-based 类增量学习方法。
- LangBridge: Interpreting Image as a Combination of Language Embeddings
-
LangBridge 通过将视觉特征显式分解为 LLM 词汇嵌入的线性组合,实现了可解释的视觉-语言对齐,并支持跨 LLM 的预训练无关适配器迁移。
- MonSTeR: a Unified Model for Motion, Scene, Text Retrieval
-
提出 MonSTeR——首个运动-场景-文本三模态检索模型,通过受拓扑深度学习启发的高阶关系建模,构建统一隐空间以捕获三模态之间的内在依赖关系,在多项检索任务上大幅超越仅依赖单模态表征的基线,并可用于人-场景交互模型的评估。
- OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
-
提出 OHRBench——首个评估 OCR 对 RAG 系统级联影响的基准,包含 7 个领域的 8561 张文档图像和 8498 个 QA 对,系统性地揭示了 OCR 产生的语义噪声(Semantic Noise)和格式噪声(Formatting Noise)对检索和生成两阶段的不同影响模式。
💻 代码智能 (1)¶
- TikZero: Zero-Shot Text-Guided Graphics Program Synthesis
-
提出 TikZero,通过将图像表示作为中间桥梁,将图形程序生成与文本理解解耦,实现零样本文本引导的 TikZ 图形程序合成,在无需文本对齐训练数据的情况下大幅超越基线方法,经端到端微调后的 TikZero+ 达到甚至超越 GPT-4o 等大型商业模型的性能。
🔗 因果推理 (2)¶
- A Visual Leap in CLIP Compositionality Reasoning through Generation of Counterfactual Sets
-
提出基于LLM+扩散模型的block-based diffusion方法自动生成高质量反事实图文对数据集,配套设计set-aware损失函数,无需人工标注即可显著提升CLIP的组合推理能力,在ARO/VL-Checklist等benchmark上以更少数据超越SOTA。
- Social Debiasing for Fair Multi-modal LLMs
-
本文构建了包含 18 种社会概念的大规模反事实数据集 CMSC,并提出反刻板印象去偏策略 ASD(含偏差感知数据重采样 + Social Fairness Loss),在四种 MLLM 架构上有效降低了社会偏见,同时几乎不损害通用多模态能力。
🕸️ 图学习 (1)¶
- PASTA: Part-Aware Sketch-to-3D Shape Generation with Text-Aligned Prior
-
提出PASTA框架,通过集成VLM文本先验补偿草图的语义缺失,并设计ISG-Net(IndivGCN+PartGCN双图卷积)建模零件间结构关系,实现SOTA的草图到3D形状生成和零件级编辑。
📈 时间序列 (4)¶
- I²-World: Intra-Inter Tokenization for Efficient Dynamic 4D Scene Forecasting
-
提出 I²-World,通过将 3D 场景 tokenization 解耦为帧内(intra-scene)多尺度残差量化和帧间(inter-scene)时序量化两个互补过程,在保持 3D tokenizer 高压缩率的同时获得 4D tokenizer 的时序建模能力,实现高效且高质量的 4D occupancy 预测。
- V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction
-
提出 V2XPnP,一个基于统一 Transformer 架构的 V2X 时空融合框架,在单步通信策略下实现多智能体端到端感知与预测,同时构建了首个支持所有 V2X 协作模式的大规模真实世界时序数据集,在感知和预测任务上达到 SOTA。
- VA-MoE: Variables-Adaptive Mixture of Experts for Incremental Weather Forecasting
-
提出增量天气预报新范式和VA-MoE框架,通过变量自适应的MoE架构和索引嵌入机制,实现在仅25%可训练参数和50%初始训练数据的条件下达到与全量训练可比的预报精度。
- VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models
-
提出 VLRMBench,一个包含 12634 个问题、12 项任务的综合且具有挑战性的视觉语言奖励模型(VLRM)基准,覆盖过程理解、结果判断和批评生成三大方面,在 26 个模型上的广泛实验揭示了当前 VLRM 的显著不足。
🧬 计算生物 (4)¶
- CryoFastAR: Fast Cryo-EM Ab initio Reconstruction Made Easy
-
首个将DUSt3R式的几何基础模型范式引入冷冻电镜(cryo-EM)领域的工作,通过ViT编码器+跨视图注意力解码器直接从大量含噪粒子图像前馈预测姿态(无需迭代优化),实现了比传统方法快10-33倍的ab initio蛋白质三维重建。
- G2PDiffusion: Cross-Species Genotype-to-Phenotype Prediction via Evolutionary Diffusion
-
提出G2PDiffusion,首个基于扩散模型的跨物种基因型到表型预测框架,通过进化信号(多序列比对MSA和环境上下文)条件化生成形态学图像,实现从DNA序列预测物种外观。
- Integrating Biological Knowledge for Robust Microscopy Image Profiling on De Novo Cell Lines
-
提出将外部生物知识(蛋白质互作图谱+单细胞基础模型的转录组特征)整合到显微图像预训练中,显式解耦扰动特异性和细胞系特异性表征,提升模型在未见细胞系上的扰动筛查泛化能力。
- MolParser: End-to-end Visual Recognition of Molecule Structures in the Wild
-
提出 MolParser,一个端到端的光学化学结构识别 (OCSR) 方法,通过扩展 SMILES 表示(E-SMILES)处理 Markush 结构、构建 700 万级大规模训练集 MolParser-7M,并利用主动学习引入真实文献数据,在 WildMol 基准上以 76.9% 准确率显著超越现有方法。
⚛️ 物理/科学计算 (2)¶
- JPEG Processing Neural Operator for Backward-Compatible Coding
-
提出JPNeO,一个完全后向兼容JPEG格式的下一代编解码器,通过在编码和解码阶段分别引入神经算子(JENO和JDNO)以及可训练量化矩阵,显著提升JPEG重建质量(尤其是色度分量),同时保持低内存和少参数量的优势。
- ResQ: A Novel Framework to Implement Residual Neural Networks on Analog Rydberg Atom Quantum Computers
-
提出 ResQ——首个利用模拟 Rydberg 原子量子计算机的连续时间哈密顿演化来原生实现残差神经网络(ResNet)的框架,通过分段参数化激光脉冲编码输入特征和训练参数,在 MNIST/FashionMNIST/医疗数据集的分类任务上相比同等规模经典模型平均提升50%。
📡 信号/通信 (3)¶
- Boosting Multimodal Learning via Disentangled Gradient Learning
-
本文揭示了多模态学习中模态编码器和融合模块之间的优化冲突——融合模块会抑制回传到各模态编码器的梯度,导致即使是优势模态也比单模态模型表现差,并提出解耦梯度学习(DGL)框架通过截断融合模块到编码器的梯度并用独立的单模态损失替代来解决此问题。
- Generalizable Non-Line-of-Sight Imaging with Learnable Physical Priors
-
提出Learnable Path Compensation (LPC)和Adaptive Phasor Field (APF)两个模块,分别解决NLOS成像中辐射强度衰减的材质依赖性问题和不同信噪比条件下的频域去噪问题,仅在合成数据上训练即可在多种真实数据集上实现SOTA泛化性能。
- Rectifying Magnitude Neglect in Linear Attention
-
揭示 Linear Attention 完全忽略 Query 幅值信息导致注意力分数分布与 Softmax Attention 显著偏离,提出 Magnitude-Aware Linear Attention (MALA),通过引入缩放因子 β 和偏移项 γ 使线性注意力恢复幅值感知能力,在分类、检测、分割、NLP、语音、图像生成等任务上全面超越现有方法。
👥 社会计算 (4)¶
- Gradient Extrapolation for Debiased Representation Learning
-
提出 GERNE 方法,通过构建具有不同虚假相关程度的两个 batch 并对其梯度进行线性外推,引导模型学习去偏差表征,在已知和未知属性情况下均优于 SOTA。
- Learning Visual Proxy for Compositional Zero-Shot Learning
-
提出 Visual Proxy(视觉代理)概念,在 CZSL 任务中首次引入文本引导的视觉类中心,并通过跨模态联合学习(CMJL)协同优化文本原型与视觉代理,在四个 CZSL 基准上达到闭世界 SOTA。
- No More Sibling Rivalry: Debiasing Human-Object Interaction Detection
-
发现并系统分析了 HOI 检测中的"有毒兄弟"偏差问题——高度相似的 HOI 三元组在输入端和输出端相互干扰竞争,提出"对比后校准"(C2C)和"合并后拆分"(M2S)两种去偏学习目标,在 HICO-DET 上超越 baseline +9.18% mAP、超越前 SOTA +3.59%。
- PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination
-
提出PropVG,首个无需预训练检测器的端到端proposal-based视觉定位框架,将视觉定位分解为前景proposal生成+基于对比学习的指代评分两阶段,并引入多粒度目标判别模块(MTD)融合物体级和语义级信息判断目标是否存在,在10个数据集上刷新SOTA且推理速度比传统proposal方法快4倍。