跳转至

🔄 自监督/表示学习

📷 CVPR2026 · 38 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (2) · 🔬 ICLR2026 (15) · 🤖 AAAI2026 (14) · 🧠 NeurIPS2025 (36) · 📹 ICCV2025 (11) · 🧪 ICML2025 (24)

🔥 高频主题: 自监督学习 ×7 · 持续学习 ×2 · 异常检测 ×2

A Stitch in Time: Learning Procedural Workflow via Self-Supervised Plackett-Luce Ranking

提出 PL-Stitch 自监督框架,利用 Plackett-Luce 概率排序模型将视频帧的时序排序作为预训练信号,学习具有"程序感知"能力的视频表示,在手术阶段识别和烹饪动作分割上全面超越现有自监督方法。

AcTTA: Rethinking Test-Time Adaptation via Dynamic Activation

提出AcTTA框架,首次将激活函数作为测试时适应(TTA)的可学习组件,通过参数化的激活中心偏移 \(c\) 和非对称梯度缩放 \(\lambda_{pos}, \lambda_{neg}\) 替代或增强传统归一化层适应,在CIFAR-10/100-C和ImageNet-C上一致超越所有归一化基TTA方法,并支持10倍大的学习率。

An Optimal Transport-driven Approach for Cultivating Latent Space in Online Incremental Learning

提出基于最优传输理论的在线混合模型学习框架 (MMOT),通过为每个类别维护多个自适应质心来更精确地表征在线数据流的多模态特性,结合动态保持策略增强类别区分能力,在在线类增量学习 (OCIL) 中有效缓解灾难性遗忘。

BD-Merging: Bias-Aware Dynamic Model Merging with Evidence-Guided Contrastive Learning

提出 BD-Merging 框架,通过 Dirichlet 证据建模 + 邻域差异分数(ADS)+ 差异感知对比学习,训练去偏路由器来自适应分配模型合并权重,显著提升合并模型在测试时分布偏移和未见任务上的鲁棒性与泛化能力。

BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning

提出 BoSS——一种可扩展的 oracle 策略选择框架:在每轮主动学习中,并行运行多种查询策略在随机子池上生成候选 batch,通过冻结 backbone 仅重训最后一层快速评估每个候选 batch 的性能增益,选出最优 batch,从而量化现有 AL 策略与理论最优之间的差距。

BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning

提出 BoSS(Best-of-Strategies Selector),通过集成10种互补的AL选择策略生成100个候选批次,冻结预训练backbone仅重训最后线性层来高效评估每个批次的性能增益,选取最优批次作为Oracle上界参考——首个可扩展到ImageNet的深度主动学习Oracle策略,揭示当前SOTA策略在大规模多类数据集上仍有约2倍的准确率提升空间。

Breaking the Tuning Barrier: Zero-Hyperparameters Yield Multi-Corner Analysis Via Learned Priors

提出基于 Learned Priors(TabPFN 基础模型)的零超参良率多角分析框架,通过 in-context Bayesian 推断替代传统 GP/normalizing flow 的超参调优,结合自动特征选择、Cross-Corner 知识迁移和不确定性驱动主动学习,MRE 低至 0.11% 且完全免调参,验证成本降低 10× 以上。

Breaking the Tuning Barrier: Zero-Hyperparameters Yield Multi-Corner Analysis Via Learned Priors

提出用基础模型 TabPFN 的 learned prior 替代传统人工先验(GP 核、IS 高斯假设),实现零超参数调优的多 PVT Corner 良率分析,在工业级 SRAM 基准上达到 SOTA 精度(MRE 低至 0.11%)的同时提速超 10×。

Chain-of-Models Pre-Training: Rethinking Training Acceleration of Vision Foundation Models

提出 Chain-of-Models Pre-Training (CoM-PT),将视觉基础模型按大小排列形成"模型链",通过从小到大的逆向知识转移(权重初始化+特征蒸馏)逐步加速训练,实现性能无损的训练加速且效率随模型家族规模增长而提升。

CraterBench-R: Instance-Level Crater Retrieval for Planetary Scale

首次将陨石坑分析形式化为实例级图像检索问题——提出CraterBench-R基准(~25K火星陨石坑ID, 50K gallery, 5K查询),诊断发现单向量池化有精度上限+有监督度量学习反而退化,提出无训练的实例token聚合(选K个种子+余弦最近邻残差分配)将196个ViT patch token压缩为K个代表token做late interaction匹配,K=64时匹配全token精度且存储大幅降低,实用两阶段管线(单向量粗筛+实例token精排)恢复89-94%完整精度。

D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping

提出 D2Dewarp——首个从水平和垂直双维度学习文档几何表示的去畸变方法:UNet 双解码器分别预测水平线(文档/表格/文本行的上下边界)和垂直线(左右边界),HV Fusion Module 通过混合注意力交叉融合两个方向的特征,并构建了包含 114K 张图的 DocDewarpHV 数据集提供双维度标注。

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

通过系统分析发现 DiT 各 block 间的表示多样性是有效学习的关键因素,提出 DiverseDiT:用长残差连接多样化输入 + 表示多样性损失显式促进 block 间特征差异化,无需外部引导模型即可加速收敛并提升生成质量。

GeoBridge: A Semantic-Anchored Multi-View Foundation Model for Geo-Localization

GeoBridge 提出语义锚定的多视角地理定位基础模型,将无人机/街景/卫星影像通过文本描述构建跨模态语义桥梁,实现双向跨视角匹配和语言到图像定位,并构建了GeoLoc数据集(50K+对,36国)。

GeoChemAD: Benchmarking Unsupervised Geochemical Anomaly Detection for Mineral Exploration

发布首个开源多区域多元素地球化学异常检测基准 GeoChemAD(8 子集,覆盖沉积物/岩屑/土壤三类采样源和 Au/Cu/Ni/W 四种目标元素),并提出 GeoChemFormer——两阶段 Transformer 框架,先学空间上下文再做元素依赖建模,平均 AUC 达 0.7712 超越所有基线。

GeoChemAD: Benchmarking Unsupervised Geochemical Anomaly Detection for Mineral Exploration

提出 GeoChemAD 开源基准数据集和 GeoChemFormer 框架,通过空间上下文学习与元素依赖建模实现无监督地球化学异常检测,在8个子集上平均 AUC 达到 0.7712。

Group-DINOmics: Incorporating People Dynamics into DINO for Self-supervised Group Activity Feature Learning

提出利用 DINOv3 结合两个自监督预训练任务(人物光流估计和群体相关物体定位)来学习群体活动特征(GAF),在无群体活动标注的情况下大幅超越现有方法。

LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency

提出 LaS-Comp,一种零样本、类别无关的 3D 形状补全框架,通过 Explicit Replacement Stage 在空间域注入已知几何 + Implicit Alignment Stage 在隐空间梯度优化边界一致性,桥接了预训练 3D 基础模型的隐空间与空间域之间的 gap,在多种部分观测模式下达到 SOTA。

MINE-JEPA: In-Domain Self-Supervised Learning for Mineral Exploration

提出 Mine-JEPA,首个面向侧扫声纳(SSS)水雷分类的域内自监督学习流水线——基于 SIGReg 正则化损失、声纳适配增强策略和 ImageNet 初始化,仅用 1,170 张未标注声纳图像预训练即超越了在 17 亿图像上预训练的 DINOv3 基础模型。

MOMO: Mars Orbital Model — Foundation Model for Mars Orbital Applications

MOMO 是首个火星遥感基础模型,通过在三种火星传感器(HiRISE/CTX/THEMIS)上分别预训练 MAE 并提出 Equal Validation Loss(EVL)检查点选择策略进行模型融合,在 Mars-Bench 的 9 个下游任务上超越 ImageNet 预训练和地球观测基础模型。

OmniGCD: Abstracting Generalized Category Discovery for Modality Agnosticism

提出 OmniGCD,首个模态无关的广义类别发现方法,利用合成数据训练的 GCDformer 在测试时将任意模态的 GCD 潜空间变换为更适合聚类的表示,在 16 个跨四种模态的数据集上实现零样本 GCD。

An Optimal Transport-driven Approach for Cultivating Latent Space in Online Incremental Learning

提出基于最优传输理论的在线混合模型框架(MMOT),为每个类别维护多个自适应质心来表征流式数据的多模态分布,结合动态保持策略缓解灾难性遗忘,在 OCIL 场景显著超越现有方法。

Re-Depth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

提出 Re-Depth Anything,通过在推理时对预测深度图进行重光照增强并利用 2D 扩散模型的 SDS 损失进行自监督优化,在无标签的情况下精细化 Depth Anything V2/3 的深度预测。

Representation Learning for Spatiotemporal Physical Systems

在三个 PDE 物理系统(活性物质、剪切流、Rayleigh-Bénard 对流)上系统比较四种自监督/物理建模方法,发现隐空间预测(JEPA)在物理参数估计任务上全面优于像素级预测(VideoMAE)——MSE 相对改善 28%~51%,且 10% 微调数据即可超越 VideoMAE 的 100% 数据表现。同时,专为物理建模设计的方法并非总是最优选择。

Representation Learning for Spatiotemporal Physical Systems

在三个 PDE 物理系统上系统对比 JEPA、VideoMAE、自回归基础模型(MPP)和算子学习(DISCO) 四种范式,发现隐空间预测目标(JEPA)在物理参数估计下游任务上全面优于像素级预测方法,MSE 相对改善 28-51%,且数据效率更高。

Robustness of Vision Foundation Models to Common Perturbations

首次系统研究视觉基础模型对常见扰动(JPEG 压缩、亮度调节等)的鲁棒性,提出三种鲁棒性度量并形式化五个数学性质,发现基础模型普遍不鲁棒,并提出微调方法改善鲁棒性而不牺牲效用。

Shape-of-You: Fused Gromov-Wasserstein Optimal Transport for Semantic Correspondence in-the-Wild

将语义对应问题重新建模为 Fused Gromov-Wasserstein (FGW) 最优传输问题,利用 3D 基础模型提供的几何结构约束来生成全局一致的伪标签,解决了传统最近邻匹配因局部性和 2D 外观歧义导致的几何不一致问题。

SpHOR: A Representation Learning Perspective on Open-set Recognition

提出SpHOR两阶段解耦训练框架:Stage 1通过正交标签嵌入+球面约束(vMF分布)+Mixup/Label Smoothing做专为OSR设计的表征学习,Stage 2冻结特征训练分类器——在Semantic Shift Benchmark上OSCR/AUROC最高提升5.1%/5.2%,同时引入Angular Separability和Norm Separability两个新度量。

SpHOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Neural Networks

提出 SpHOR,一种两阶段解耦训练的开放集识别方法,通过球面表示学习(vMF 分布)、正交标签嵌入和 Mixup/Label Smoothing 集成,显式塑造特征空间以更好地分离已知/未知类别,在 Semantic Shift Benchmark 上取得最高 5.1% 的 OSCR 提升。

Suppressing Non-Semantic Noise in Masked Image Modeling Representations

本文揭示了掩码图像建模(MIM)学到的表征中保留了大量非语义信息(如纹理、颜色等底层特征),并提出了一种无需训练的后处理方法 SOAP(Semantically Orthogonal Artifact Projection),通过 PCA 识别并投影去除非语义成分,在多种 MIM 模型上一致提升零样本性能。

TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction

提出 TALO,一种基于 Thin Plate Spline 的高自由度对齐框架,通过全局传播控制点和点无关的子图配准设计,纠正 3D 视觉基础模型在在线重建中的空间变化不一致性,兼容多种基础模型和相机配置,在 Waymo/nuScenes 数据集上显著降低轨迹误差。

TeFlow: Enabling Multi-frame Supervision for Self-Supervised Feed-forward Scene Flow Estimation

提出TeFlow——首个将多帧监督引入自监督前馈场景流估计的方法:通过时序集成策略构建运动候选池并基于共识投票聚合时序一致的监督信号,在Argoverse 2上Three-way EPE达3.57cm(媲美优化方法Floxels)同时保持实时推理(8s vs 24min),较SeFlow++提升22.3%。

Text-Phase Synergy Network with Dual Priors for Unsupervised Cross-Domain Image Retrieval

提出TPSNet,将CLIP学习的域提示(domain prompt)作为文本先验提供精细语义监督,同时引入相位谱特征作为相位先验来桥接域分布差异并保持语义完整性,通过文本-相位双先验的协同实现无监督跨域图像检索的显著提升。

TrackMAE: Video Representation Learning via Track, Mask, and Predict

在masked video modeling(MVM)框架中引入显式的运动信号:使用CoTracker3提取点轨迹作为额外的重建目标,并设计运动感知遮掩策略,联合学习空间重建和运动预测,在运动敏感基准(SSv2、FineGym)上显著超越现有视频自监督方法。

UniGeoCLIP: Unified Geospatial Contrastive Learning

UniGeoCLIP 首次通过纯对比学习将五种互补的地理空间模态(航拍图、街景图、数字表面模型、文本、GPS 坐标)对齐到统一嵌入空间,并提出多尺度坐标编码器提升空间表示能力。

Vision Transformers Need More Than Registers

这篇论文认为 ViT 在标签监督、文本监督和自监督下普遍存在的 dense feature 伪影,本质上不是单纯的 high-norm token 问题,而是模型在粗粒度监督和全局注意力共同作用下学会了用背景 patch 充当全局语义捷径;作者据此提出 LaSt-ViT,用频域稳定性引导的选择性聚合替代原始 CLS 聚合,在 12 个基准上稳定改善定位、分割和开放词汇任务。

Vision Transformers Need More Than Registers

系统分析了 ViT 中广泛存在的 artifact 现象(跨全监督、文本监督、自监督),揭示其根本原因是"lazy aggregation"——ViT 利用语义无关的背景 patch 作为捷径来表示全局语义,提出 LaSt-ViT(LazyStrike ViT)通过频率感知的选择性通道聚合将 CLS token 锚定到前景区域,在 12 个 benchmark 上一致消除 artifact 并提升性能。

VT-Intrinsic: Physics-Based Decomposition of Reflectance and Shading using a Single Visible-Thermal Image Pair

VT-Intrinsic 利用可见光和热红外图像之间的物理互补关系(未反射的光被吸收变为热量),推导出可见光-热成像强度的序数关系(ordinality)直接对应反射率和光照的序数关系,以此为自监督信号驱动神经网络优化,实现了无需预训练数据的高质量内在图像分解。

Zero-Ablation Overstates Register Content Dependence in DINO Vision Transformers

通过三种替换控制实验(均值替换、噪声替换、跨图像洗牌)证明 DINO 系列 ViT 中零消融方法夸大了对 register token 精确内容的依赖性——模型实际只需"合理的 register-like 激活"而非图像特定值。