跳转至

📂 其他

📹 ICCV2025 · 33 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (105) · 🔬 ICLR2026 (115) · 💬 ACL2026 (3) · 🧪 ICML2026 (70) · 🤖 AAAI2026 (117) · 🧠 NeurIPS2025 (121)

🔥 高频主题: 动态场景 ×2 · 对抗鲁棒 ×2 · 少样本学习 ×2 · 扩散模型 ×2

A Hyperdimensional One Place Signature to Represent Them All: Stackable Descriptors For Visual Place Recognition

本文提出 HOPS(Hyperdimensional One Place Signatures),利用超维计算(HDC)框架将同一地点在不同环境条件下采集的多个参考描述子融合为统一表示,在不增加计算量和存储开销的前提下,大幅提升视觉场所识别(VPR)的鲁棒性与召回率。

A Linear N-Point Solver for Structure and Motion from Asynchronous Tracks

本文提出了一种统一的线性 N-point 求解器,能够从具有任意时间戳的 2D 点对应中恢复相机线速度和 3D 点结构,适用于全局快门、滚动快门和事件相机等多种传感器模式。

AdaptiveAE: An Adaptive Exposure Strategy for HDR Capturing in Dynamic Scenes

本文提出AdaptiveAE,利用深度强化学习将HDR曝光包围拍摄建模为马尔可夫决策过程(MDP),同时优化ISO和快门速度的组合,在用户定义的时间预算内自适应地为动态场景选择最优曝光参数,在HDRV数据集上达到PSNR 39.70,比之前最好的方法Hasinoff et al. (37.59) 高出2.1 dB。

Adversarial Data Augmentation for Single Domain Generalization via Lyapunov Exponents

提出 LEAwareSGD 优化器,利用 Lyapunov 指数(LE)动态调节学习率,将模型训练引导至"混沌边缘"附近,从而在单源域泛化任务中实现更广泛的参数空间探索和更强的跨域泛化能力。

Auto-Regressively Generating Multi-View Consistent Images (MV-AR)

首次将自回归(AR)模型引入多视角图像生成任务,通过逐视角生成利用所有前序视角信息来增强远距离视角间的一致性,同时设计了统一的多模态条件注入架构和Shuffle Views数据增强策略,使单一模型可同时处理文本/图像/几何形状条件。

C4D: 4D Made from 3D through Dual Correspondences

提出C4D框架,通过在DUSt3R的3D pointmap预测基础上联合捕获双重时序对应(短时光流+动态感知长时点跟踪DynPT),生成运动掩码分离动静区域,并引入相机运动对齐/相机轨迹平滑/点轨迹平滑三个优化目标,将现有3D重建范式升级为完整4D重建(逐帧点云+相机参数+2D/3D轨迹),在深度/位姿/跟踪多个下游任务上达competitive性能。

Doodle Your Keypoints: Sketch-Based Few-Shot Keypoint Detection

提出首个基于草图的跨模态少样本关键点检测框架,利用原型网络、网格定位器、原型域适应和去风格化网络,仅需少量带标注草图即可在真实照片中检测新类别的新关键点。

EDFFDNet: Towards Accurate and Efficient Unsupervised Multi-Grid Image Registration

提出 EDFFDNet,采用指数衰减自由形变 (EDFFD) 替代传统 B-spline FFD 和 TPS 进行图像配准,配合自适应稀疏运动聚合器 (ASMA) 和渐进式相关策略,在 UDIS-D 数据集上以减少 70.5% 参数、32.6% 显存的代价实现 +0.5dB PSNR 提升。

FixTalk: Taming Identity Leakage for High-Quality Talking Head Generation in Extreme Cases

提出FixTalk框架,通过增强运动指示器(EMI)和增强细节指示器(EDI)两个轻量级即插即用模块,将GAN模型中的身份泄漏问题"化害为利"——EMI消除运动特征中的身份信息以解决身份泄漏,EDI利用泄漏的身份信息在极端姿态下补充缺失细节以消除渲染伪影。

HyTIP: Hybrid Temporal Information Propagation for Masked Conditional Residual Video Coding

提出 HyTIP 框架,将输出回归(显式缓冲解码帧)和隐状态传播(隐式缓冲潜在特征)两种时序信息传播机制统一到同一学习式视频编码框架中,仅用 SOTA 方法 14% 的缓冲区大小即可达到可比的编码性能。

I Am Big, You Are Little; I Am Right, You Are Wrong

利用因果推理 XAI 工具 rex 提取图像分类模型的最小充分像素集(MPS),系统比较 5 种架构 15 个模型的"注意力集中度",发现大型模型(EVA/ConvNext)仅用图像 5% 像素即可做出分类,且不同架构的 MPS 在大小和位置上存在统计显著差异。

Intra-view and Inter-view Correlation Guided Multi-view Novel Class Discovery

提出 IICMVNCD 框架,首次将新类发现(NCD)扩展到多视图设定,通过视图内矩阵分解捕捉已知/新类的分布一致性,以及视图间权重学习传递已知类的视图关系到新类,避免了对伪标签的依赖。

Is Meta-Learning Out? Rethinking Unsupervised Few-Shot Classification with Limited Entropy

本文通过提出"熵受限监督设定"建立了元学习与全类训练(WCT)的公平比较框架,从理论上证明了元学习有更紧的泛化界,并揭示了其对标签噪声更鲁棒、更适合异构任务的特性,据此提出 MINO 框架在无监督少样本和零样本任务上取得了 SOTA。

Jigsaw++: Imagining Complete Shape Priors for Object Reassembly

Jigsaw++ 提出了一种基于生成模型的完整形状先验学习方法,通过"retargeting"策略将部分组装的碎片点云映射到完整物体的形状空间,与现有组装算法正交地提升重组质量。

Joint Asymmetric Loss for Learning with Noisy Labels

将非对称损失函数扩展到更复杂的被动损失场景,提出非对称均方误差(AMSE),严格建立其满足非对称条件的充要条件,并将 AMSE 嵌入 APL 框架构建联合非对称损失(JAL),在 CIFAR-10/100 等多个数据集上全面超越现有鲁棒损失函数方法。

LaCoOT: Layer Collapse through Optimal Transport

提出 LaCoOT,一种基于最优传输的正则化策略,通过最小化网络内部中间特征分布之间的 Max-Sliced Wasserstein 距离,使得训练后可以直接移除整个网络层,在保持性能的同时显著减少模型深度和推理时间。

LayerD: Decomposing Raster Graphic Designs into Layers

提出 LayerD,通过迭代提取未遮挡顶层和背景补全来分解栅格图形设计为可编辑图层,并利用图形设计的域先验(纹理平坦区域)进行精炼,同时提出了基于 DTW 的层级评估协议。

LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer

LayerTracer 提出首个基于 Diffusion Transformer(DiT)的认知对齐分层 SVG 生成框架:通过构建 2 万+ 设计师操作序列数据集,训练 DiT 生成模拟设计师工作流程的多阶段光栅化蓝图,再通过逐层矢量化和路径去重转换为干净可编辑的分层 SVG;同时支持文本驱动生成和图像到分层 SVG 的转换。

Learning Visual Hierarchies in Hyperbolic Space for Image Retrieval

首次提出在双曲空间中编码用户定义的多层视觉层次结构的学习范式,通过基于角度的 entailment 对比损失在无需显式层次标签的情况下学习 scene→object→part 层次,并引入基于最优传输的层次检索评估指标。

Loss Functions for Predictor-based Neural Architecture Search

首次对性能预测器中8种损失函数进行全面系统性研究,涵盖回归、排序和加权三大类,在5个搜索空间的13个任务上揭示了各类损失函数的特性与互补性,并提出分段损失(PW loss)组合方法PWLNAS,在多个基准上超越现有SOTA。

Magic Insert: Style-Aware Drag-and-Drop

提出Magic Insert方法,首次形式化和解决"风格感知拖放"问题——将任意风格的主体拖入不同风格的目标图像中,主体自动适应目标风格且插入效果物理合理,核心包括风格感知个性化(LoRA+IP-Adapter风格注入)和Bootstrap Domain Adaptation(将真实图像训练的插入模型适配到风格化图像领域)。

NAPPure: Adversarial Purification for Robust Image Classification under Non-Additive Perturbations

提出 NAPPure 框架,通过联合优化底层干净图像和扰动参数(基于似然最大化),将对抗纯化从仅处理加性扰动扩展到模糊、遮挡、几何扭曲等非加性扰动,在GTSRB上实现73.93%的平均鲁棒准确率(传统方法仅43.2%)。

On the Complexity-Faithfulness Trade-off of Gradient-Based Explanations

提出统一的频谱框架来系统性分析和量化梯度解释的平滑性(复杂度)与忠实度之间的权衡,引入期望频率(EF)度量网络对高频信息的依赖程度,并通过将 ReLU 与高斯函数卷积来控制解释复杂度,同时定义"解释间隙"来量化替代模型导致的忠实度损失。

Φ-GAN: Physics-Inspired GAN for Generating SAR Images Under Limited Data

提出Φ-GAN,将SAR的理想点散射中心(PSC)电磁散射物理模型以可微神经模块形式集成到GAN训练中,通过双物理损失(生成器物理一致性约束+判别器电磁特征蒸馏)显著提升数据稀缺场景下SAR图像生成的质量和稳定性。

Processing and Acquisition Traces in Visual Encoders: What Does CLIP Know About Your Camera?

揭示了 CLIP 等视觉编码器在学习的表征中系统性地编码了图像采集和处理参数(如相机型号、ISO、JPEG 质量等肉眼不可见的信息),且这些隐含信息会通过与语义标签的统计相关性显著影响(正面或负面)语义预测准确性。

Recover Biological Structure from Sparse-View Diffraction Images with Neural Volumetric Prior

提出Neural Volumetric Prior (NVP),通过融合显式3D特征网格与隐式MLP的混合神经表示,结合基于衍射光学的物理渲染方程,首次实现了从稀疏视角(仅6-7张荧光图像)对半透明生物样本3D折射率的高保真体积重建,所需图像数量减少约50倍、处理时间缩短3倍。

Recovering Parametric Scenes from Very Few Time-of-Flight Pixels

本文探索用极少量(低至 15 个像素)低成本广视场 ToF 传感器恢复 3D 参数化场景几何的可行性,设计了前馈预测+可微渲染的分析-合成框架,在 6D 物体位姿估计等任务上展示了令人惊讶的效果。

Revisiting Image Fusion for Multi-Illuminant White-Balance Correction

针对多光源场景白平衡校正问题,提出一种基于 Transformer 的高效融合模型来替代传统线性融合,并构建了包含 16,000+ 张图像的大规模多光源白平衡数据集,在新数据集上实现比现有方法提升 100% 的校正质量。

Stroke2Sketch: Harnessing Stroke Attributes for Training-Free Sketch Generation

提出 Stroke2Sketch,一个无训练的参考式素描生成框架,通过跨图像笔触注意力(CSA)、指导性注意力模块(DAM)和语义保持模块(SPM)三个模块协同工作,在预训练扩散模型中实现精细的笔触属性迁移与内容结构保持。

Switch-a-View: View Selection Learned from Unlabeled In-the-wild Videos

提出 Switch-a-view 模型,通过从大规模无标注的互联网教学视频中学习视角切换模式(ego/exo),实现多视图教学视频的自动视角选择,无需显式的最佳视角标注。

SyncDiff: Synchronized Motion Diffusion for Multi-Body Human-Object Interaction Synthesis

提出 SyncDiff,一个统一的多体人体-物体交互运动合成框架,通过对齐分数(alignment scores)和显式同步策略实现多体运动的精确同步,并引入频域分解来建模高频交互语义。

Toward Material-Agnostic System Identification from Videos

提出 MASIV,首个无需预定义材质先验的视觉系统辨识框架:采用可学习的神经本构模型替代手工设计的弹性/塑性方程,通过重建连续体粒子轨迹提供时间密集的几何约束,从多视角视频中推断物体的内在动力学特性。

You Share Beliefs, I Adapt: Progressive Heterogeneous Collaborative Perception

提出PHCP框架,首次在推理阶段解决异构协同感知的域差距问题——通过agent的伪标签做few-shot无监督域适应,自训练适配器对齐特征空间,无需联合训练即在OPV2V上仅用少量无标注数据达到接近SOTA(HEAL)的性能。