跳转至

📂 其他

📹 ICCV2025 · 48 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (5) · 📷 CVPR2026 (54) · 🔬 ICLR2026 (76) · 🤖 AAAI2026 (126) · 🧠 NeurIPS2025 (154) · 🧪 ICML2025 (93)

🔥 高频主题: 对抗鲁棒 ×6 · 动态场景 ×2 · 少样本学习 ×2 · 人脸/视线 ×2 · 扩散模型 ×2

A Hidden Stumbling Block in Generalized Category Discovery: Distracted Attention

发现GCD中未标注数据(尤其是未知类别)的ViT注意力会分散到背景区域(distracted attention),提出Attention Focusing(AF)模块通过多尺度token重要性度量+自适应剪枝来纠正注意力,作为即插即用模块在SimGCD上最高带来15.4%的性能提升。

A Hyperdimensional One Place Signature to Represent Them All: Stackable Descriptors For Visual Place Recognition

本文提出 HOPS(Hyperdimensional One Place Signatures),利用超维计算(HDC)框架将同一地点在不同环境条件下采集的多个参考描述子融合为统一表示,在不增加计算量和存储开销的前提下,大幅提升视觉场所识别(VPR)的鲁棒性与召回率。

A Linear N-Point Solver for Structure and Motion from Asynchronous Tracks

本文提出了一种统一的线性 N-point 求解器,能够从具有任意时间戳的 2D 点对应中恢复相机线速度和 3D 点结构,适用于全局快门、滚动快门和事件相机等多种传感器模式。

AdaptiveAE: An Adaptive Exposure Strategy for HDR Capturing in Dynamic Scenes

本文提出AdaptiveAE,利用深度强化学习将HDR曝光包围拍摄建模为马尔可夫决策过程(MDP),同时优化ISO和快门速度的组合,在用户定义的时间预算内自适应地为动态场景选择最优曝光参数,在HDRV数据集上达到PSNR 39.70,比之前最好的方法Hasinoff et al. (37.59) 高出2.1 dB。

Adversarial Data Augmentation for Single Domain Generalization via Lyapunov Exponents

提出 LEAwareSGD 优化器,利用 Lyapunov 指数(LE)动态调节学习率,引导模型训练在混沌边缘附近,在对抗数据增强框架下实现更广泛的参数空间探索,显著提升单域泛化(SDG)性能。

AFUNet: Cross-Iterative Alignment-Fusion Synergy for HDR Reconstruction via Deep Unfolding Paradigm

将多曝光HDR重建从MAP估计视角建模,通过空间对应先验将问题分解为对齐和融合两个交替子问题,再展开为端到端可训练的AFUNet(含SAM空间对齐+CFM通道融合+DCM数据一致性模块),在三个HDR基准上取得SOTA,PSNR-μ达44.91dB(Kalantari数据集)。

Auto-Regressively Generating Multi-View Consistent Images (MV-AR)

首次将自回归(AR)模型引入多视角图像生成任务,通过逐视角生成利用所有前序视角信息来增强远距离视角间的一致性,同时设计了统一的多模态条件注入架构和Shuffle Views数据增强策略,使单一模型可同时处理文本/图像/几何形状条件。

C4D: 4D Made from 3D through Dual Correspondences

提出C4D框架,通过在DUSt3R的3D pointmap预测基础上联合捕获双重时序对应(短时光流+动态感知长时点跟踪DynPT),生成运动掩码分离动静区域,并引入相机运动对齐/相机轨迹平滑/点轨迹平滑三个优化目标,将现有3D重建范式升级为完整4D重建(逐帧点云+相机参数+2D/3D轨迹),在深度/位姿/跟踪多个下游任务上达competitive性能。

despite exploring contrastive deep skeletonpointcloudimutext

提出 DeSPITE,一个将 LiDAR 点云、骨架姿态、IMU 信号和文本四种模态对齐到联合嵌入空间的对比学习框架,首次以 LiDAR(而非 RGB)作为核心视觉模态,实现了跨模态匹配/检索等此前不可能的任务,同时作为有效的 HAR 预训练策略在 MSR-Action3D 和 HMPEAR 上取得 SOTA。

Doodle Your Keypoints: Sketch-Based Few-Shot Keypoint Detection

提出首个基于草图的跨模态少样本关键点检测框架,利用原型网络、网格定位器、原型域适应和去风格化网络,仅需少量带标注草图即可在真实照片中检测新类别的新关键点。

EDFFDNet: Towards Accurate and Efficient Unsupervised Multi-Grid Image Registration

提出 EDFFDNet,采用指数衰减自由形变 (EDFFD) 替代传统 B-spline FFD 和 TPS 进行图像配准,配合自适应稀疏运动聚合器 (ASMA) 和渐进式相关策略,在 UDIS-D 数据集上以减少 70.5% 参数、32.6% 显存的代价实现 +0.5dB PSNR 提升。

Failure Cases Are Better Learned But Boundary Says Sorry: Facilitating Smooth Perception Change for Accuracy-Robustness Trade-Off in Adversarial Training

揭示了对抗训练中一个反直觉现象——失败样本的模型感知变化反而比成功样本更小(即被"过度学习"),据此提出 Robust Perception Adversarial Training (RPAT),通过鼓励感知随扰动平滑变化来缓解准确率-鲁棒性权衡问题。

FixTalk: Taming Identity Leakage for High-Quality Talking Head Generation in Extreme Cases

提出FixTalk框架,通过增强运动指示器(EMI)和增强细节指示器(EDI)两个轻量级即插即用模块,将GAN模型中的身份泄漏问题"化害为利"——EMI消除运动特征中的身份信息以解决身份泄漏,EDI利用泄漏的身份信息在极端姿态下补充缺失细节以消除渲染伪影。

From Easy to Hard: Progressive Active Learning Framework for Infrared Small Target Detection with Single Point Supervision

提出渐进式主动学习(PAL)框架,通过"模型预启动→模型增强→模型精炼"三阶段训练策略,驱动红外小目标检测网络从易到难地主动识别和学习困难样本,在单点监督条件下显著缩小了与全监督方法之间的性能差距(IoU 提升 8.53%–29.1%)。

Generate, Refine, and Encode: Leveraging Synthesized Novel Samples for On-the-Fly Fine-Grained Category Discovery

提出基于扩散模型的即时类别发现框架 DiffGRE,通过属性组合生成(ACG)合成包含虚拟类别信息的新样本、多样性驱动精炼(DDR)过滤低质量样本、半监督Leader编码(SLE)注入额外类别知识,在 6 个细粒度数据集上显著提升了已有 OCD 方法的性能(平均 ACC-ALL 提升 6.5%)。

Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal Bridging

提出 Hi3DGen 框架,以法线图作为中间表示桥接 2D 图像到 3D 几何的映射,通过噪声注入回归式法线估计器(NiRNE)和法线正则化潜在扩散(NoRLD)两大核心组件,显著提升生成 3D 模型的几何细节保真度。

HiNeuS: High-fidelity Neural Surface Mitigating Low-texture and Reflective Ambiguity

提出 HiNeuS,一个统一的神经表面重建框架,通过 SDF 引导的可见性验证、平面共形正则化和渲染优先的 Eikonal 松弛三项创新,同时解决反射歧义、低纹理退化和细节保留三大核心挑战。

HyTIP: Hybrid Temporal Information Propagation for Masked Conditional Residual Video Coding

提出 HyTIP 框架,将输出回归(显式缓冲解码帧)和隐状态传播(隐式缓冲潜在特征)两种时序信息传播机制统一到同一学习式视频编码框架中,仅用 SOTA 方法 14% 的缓冲区大小即可达到可比的编码性能。

I Am Big, You Are Little; I Am Right, You Are Wrong

利用因果推理 XAI 工具 rex 提取图像分类模型的最小充分像素集(MPS),系统比较 5 种架构 15 个模型的"注意力集中度",发现大型模型(EVA/ConvNext)仅用图像 5% 像素即可做出分类,且不同架构的 MPS 在大小和位置上存在统计显著差异。

IAP: Invisible Adversarial Patch Attack through Perceptibility-Aware Localization

提出 IAP 框架,通过感知感知(perceptibility-aware)的贴片定位保色梯度更新,首次实现在目标攻击场景下生成真正不可见的对抗补丁,同时能绕过多种 SOTA 补丁防御方法。

Intra-view and Inter-view Correlation Guided Multi-view Novel Class Discovery

提出 IICMVNCD 框架,首次将新类发现(NCD)扩展到多视图设定,通过视图内矩阵分解捕捉已知/新类的分布一致性,以及视图间权重学习传递已知类的视图关系到新类,避免了对伪标签的依赖。

Is Meta-Learning Out? Rethinking Unsupervised Few-Shot Classification with Limited Entropy

本文通过提出"熵受限监督设定"建立了元学习与全类训练(WCT)的公平比较框架,从理论上证明了元学习有更紧的泛化界,并揭示了其对标签噪声更鲁棒、更适合异构任务的特性,据此提出 MINO 框架在无监督少样本和零样本任务上取得了 SOTA。

Jigsaw++: Imagining Complete Shape Priors for Object Reassembly

Jigsaw++ 提出了一种基于生成模型的完整形状先验学习方法,通过"retargeting"策略将部分组装的碎片点云映射到完整物体的形状空间,与现有组装算法正交地提升重组质量。

Joint Asymmetric Loss for Learning with Noisy Labels

将非对称损失函数扩展到更复杂的被动损失场景,提出非对称均方误差(AMSE),严格建立其满足非对称条件的充要条件,并将 AMSE 嵌入 APL 框架构建联合非对称损失(JAL),在 CIFAR-10/100 等多个数据集上全面超越现有鲁棒损失函数方法。

Kaputt: A Large-Scale Dataset for Visual Defect Detection

Kaputt 发布了一个包含 23 万+ 图像、4.8 万+ 独立商品的大规模零售物流缺陷检测数据集,规模是 MVTec-AD 的 40 倍,首次引入显著的姿态和外观变化,使得 SOTA 异常检测方法的 AUROC 不超过 56.96%,揭示了现有方法在真实零售场景中的严重不足。

LaCoOT: Layer Collapse through Optimal Transport

提出 LaCoOT,一种基于最优传输的正则化策略,通过最小化网络内部中间特征分布之间的 Max-Sliced Wasserstein 距离,使得训练后可以直接移除整个网络层,在保持性能的同时显著减少模型深度和推理时间。

LayerD: Decomposing Raster Graphic Designs into Layers

提出 LayerD,通过迭代提取未遮挡顶层和背景补全来分解栅格图形设计为可编辑图层,并利用图形设计的域先验(纹理平坦区域)进行精炼,同时提出了基于 DTW 的层级评估协议。

LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer

LayerTracer 提出首个基于 Diffusion Transformer(DiT)的认知对齐分层 SVG 生成框架:通过构建 2 万+ 设计师操作序列数据集,训练 DiT 生成模拟设计师工作流程的多阶段光栅化蓝图,再通过逐层矢量化和路径去重转换为干净可编辑的分层 SVG;同时支持文本驱动生成和图像到分层 SVG 的转换。

Learning Visual Hierarchies in Hyperbolic Space for Image Retrieval

首次提出在双曲空间中编码用户定义的多层视觉层次结构的学习范式,通过基于角度的 entailment 对比损失在无需显式层次标签的情况下学习 scene→object→part 层次,并引入基于最优传输的层次检索评估指标。

Loss Functions for Predictor-based Neural Architecture Search

首次对性能预测器中8种损失函数进行全面系统性研究,涵盖回归、排序和加权三大类,在5个搜索空间的13个任务上揭示了各类损失函数的特性与互补性,并提出分段损失(PW loss)组合方法PWLNAS,在多个基准上超越现有SOTA。

Magic Insert: Style-Aware Drag-and-Drop

提出Magic Insert方法,首次形式化和解决"风格感知拖放"问题——将任意风格的主体拖入不同风格的目标图像中,主体自动适应目标风格且插入效果物理合理,核心包括风格感知个性化(LoRA+IP-Adapter风格注入)和Bootstrap Domain Adaptation(将真实图像训练的插入模型适配到风格化图像领域)。

Membership Inference Attacks with False Discovery Rate Control

提出MIAFdR,首个能提供错误发现率(FDR)理论保证的成员推理攻击方法,通过设计新颖的非成员一致性分数函数和基于调整的成员判定策略来控制FDR,可作为即插即用的wrapper无缝集成到现有MIA方法中,在保持攻击性能的同时提供FDR控制。

Multi-view Gaze Target Estimation

本文首次将注视目标估计(GTE)从单视角扩展到多视角,通过头部信息聚合(HIA)、基于不确定性的注视选择(UGS)和基于极线的场景注意力(ESA)三个模块融合多相机信息,在自建 MVGT 数据集上显著超越单视角 SOTA,并实现了单视角方法无法处理的跨视角估计。

NAPPure: Adversarial Purification for Robust Image Classification under Non-Additive Perturbations

提出 NAPPure 框架,通过联合优化底层干净图像和扰动参数(基于似然最大化),将对抗纯化从仅处理加性扰动扩展到模糊、遮挡、几何扭曲等非加性扰动,在GTSRB上实现73.93%的平均鲁棒准确率(传统方法仅43.2%)。

Omni-DC: Highly Robust Depth Completion with Multiresolution Depth Integration

提出 OMNI-DC,通过多分辨率深度积分器(Multi-res DDI)、Laplacian 损失和尺度归一化技术,构建了一个能够零样本泛化到不同数据集和稀疏深度模式的高鲁棒深度补全模型。

On the Complexity-Faithfulness Trade-off of Gradient-Based Explanations

提出统一的频谱框架来系统性分析和量化梯度解释的平滑性(复杂度)与忠实度之间的权衡,引入期望频率(EF)度量网络对高频信息的依赖程度,并通过将 ReLU 与高斯函数卷积来控制解释复杂度,同时定义"解释间隙"来量化替代模型导致的忠实度损失。

Φ-GAN: Physics-Inspired GAN for Generating SAR Images Under Limited Data

提出Φ-GAN,将SAR的理想点散射中心(PSC)电磁散射物理模型以可微神经模块形式集成到GAN训练中,通过双物理损失(生成器物理一致性约束+判别器电磁特征蒸馏)显著提升数据稀缺场景下SAR图像生成的质量和稳定性。

Processing and Acquisition Traces in Visual Encoders: What Does CLIP Know About Your Camera?

揭示了 CLIP 等视觉编码器在学习的表征中系统性地编码了图像采集和处理参数(如相机型号、ISO、JPEG 质量等肉眼不可见的信息),且这些隐含信息会通过与语义标签的统计相关性显著影响(正面或负面)语义预测准确性。

Recover Biological Structure from Sparse-View Diffraction Images with Neural Volumetric Prior

提出Neural Volumetric Prior (NVP),通过融合显式3D特征网格与隐式MLP的混合神经表示,结合基于衍射光学的物理渲染方程,首次实现了从稀疏视角(仅6-7张荧光图像)对半透明生物样本3D折射率的高保真体积重建,所需图像数量减少约50倍、处理时间缩短3倍。

Recovering Parametric Scenes from Very Few Time-of-Flight Pixels

本文探索用极少量(低至 15 个像素)低成本广视场 ToF 传感器恢复 3D 参数化场景几何的可行性,设计了前馈预测+可微渲染的分析-合成框架,在 6D 物体位姿估计等任务上展示了令人惊讶的效果。

Revisiting Image Fusion for Multi-Illuminant White-Balance Correction

针对多光源场景白平衡校正问题,提出一种基于 Transformer 的高效融合模型来替代传统线性融合,并构建了包含 16,000+ 张图像的大规模多光源白平衡数据集,在新数据集上实现比现有方法提升 100% 的校正质量。

SemTalk: Holistic Co-speech Motion Generation with Frame-level Semantic Emphasis

SemTalk 将共语动作分解为节奏相关的基础动作和语义感知的稀疏动作,通过学得的语义分数自适应融合两者,实现帧级语义强调的高质量全身共语动作生成。

Stroke2Sketch: Harnessing Stroke Attributes for Training-Free Sketch Generation

提出 Stroke2Sketch,一个无训练的参考式素描生成框架,通过跨图像笔触注意力(CSA)、指导性注意力模块(DAM)和语义保持模块(SPM)三个模块协同工作,在预训练扩散模型中实现精细的笔触属性迁移与内容结构保持。

Switch-a-View: View Selection Learned from Unlabeled In-the-wild Videos

提出 Switch-a-view 模型,通过从大规模无标注的互联网教学视频中学习视角切换模式(ego/exo),实现多视图教学视频的自动视角选择,无需显式的最佳视角标注。

SyncDiff: Synchronized Motion Diffusion for Multi-Body Human-Object Interaction Synthesis

提出 SyncDiff,一个统一的多体人体-物体交互运动合成框架,通过对齐分数(alignment scores)和显式同步策略实现多体运动的精确同步,并引入频域分解来建模高频交互语义。

Thermal Polarimetric Multi-view Stereo

提出利用热偏振(长波红外偏振)线索进行精细三维形状重建的方法,理论证明 LWIR 偏振观测不受光照环境和材质光学属性的影响,从而实现对透明、半透明和异质材料物体的高精度三维重建,显著优于可见光偏振方法。

Toward Material-Agnostic System Identification from Videos

提出 MASIV,首个无需预定义材质先验的视觉系统辨识框架:采用可学习的神经本构模型替代手工设计的弹性/塑性方程,通过重建连续体粒子轨迹提供时间密集的几何约束,从多视角视频中推断物体的内在动力学特性。

You Share Beliefs, I Adapt: Progressive Heterogeneous Collaborative Perception

提出PHCP框架,首次在推理阶段解决异构协同感知的域差距问题——通过agent的伪标签做few-shot无监督域适应,自训练适配器对齐特征空间,无需联合训练即在OPV2V上仅用少量无标注数据达到接近SOTA(HEAL)的性能。