跳转至

🔄 自监督/表示学习

🔬 ICLR2026 · 81 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (91) · 💬 ACL2026 (1) · 🧪 ICML2026 (28) · 🤖 AAAI2026 (16) · 🧠 NeurIPS2025 (34) · 📹 ICCV2025 (13)

🔥 高频主题: 自监督学习 ×14 · 对齐/RLHF ×7 · 持续学习 ×5 · 对抗鲁棒 ×4 · 多模态 ×3

A Bayesian Nonparametric Framework for Learning Disentangled Representations

本文用一个贝叶斯非参的层次混合先验取代 VAE 里常见的各向同性高斯先验,在保留可证明可识别性的同时让每个生成因子的混合分量数随数据自适应增长,从而无需任何额外正则项就学到模块化、紧致的解耦表示。

Adaptive Gaussian Expansion for On-the-fly Category Discovery

本文先证明了"即时类别发现"(OCD)任务存在一个被现有哈希方法忽视的性能下界,进而把 OCD 拆成"开放集识别 + 实时新类发现"两个子任务,用软阈值先把已知类直接判出,再用基于多元高斯密度的自适应高斯扩展(AGE)在线增量地聚出新类,在多个数据集上把整体准确率平均拉高约 10%。

Adaptive Test-Time Training for Predicting Need for Invasive Mechanical Ventilation in Multi-Center Cohorts

提出AdaTTT框架,通过动态特征感知self-supervised学习(自适应掩码策略)和原型引导的部分最优传输对齐,在ICU多中心EHR数据上实现鲁棒的测试时适应,用于提前24小时预测有创机械通气需求。

Adversarial Encoding Perturbation and Synthesis for Set Representation Auxiliary Learning

SRAL 把每个集合看成一个经验分布,用 2-Sliced-Wasserstein 距离编码出能感知"集合间差异"的表示,再在特征/编码层而非输入层注入对抗扰动、用 min-max 优化逼模型抵抗最坏扰动,作为一个可插到各种下游任务的自监督辅助目标;理论上证明该目标在期望意义下等价于优化集合间的 Sliced-Wasserstein 距离,在集合相似度排序、捆绑推荐、点云分类、主题集扩展四类任务上稳定超过现有集合编码器。

Architecture-Agnostic Test-Time Adaptation via Backprop-Free Embedding Alignment

PEA 把"域偏移"拆解成嵌入空间里的平移(均值漂移)、缩放(方差漂移)、旋转(协方差漂移)三种几何畸变,然后用一套无反向传播、与架构无关的逐层协方差对齐流程,仅靠每个 batch 两次前向就把偏移的中间特征拉回源域分布,在 ImageNet-C / CIFAR-C 上达到 SOTA 精度的同时,内存只占 ~900MB、能直接跑在 Jetson Orin Nano 边缘设备上。

AutoDV: An End-to-End Deep Learning Model for High-Dimensional Data Visualization

AutoDV 把"对每个数据集都要调参 + 迭代优化"的传统可视化(t-SNE / UMAP)改造成一个一次训练、即插即用的端到端模型:先把任意维度的数据集转成多尺度相似图,再用多图 GNN + 图 Transformer 直接吐出 2D/3D 嵌入,配合仿射不变损失训练;在没见过的 CIFAR-10 上达到 t-SNE 89.37%、UMAP 91.05% 的相对精度,在基因和 UCI 表格数据上甚至超过 t-SNE/UMAP 本身。

Bayesian Test-Time Adaptation via Dirichlet feature projection and GMM-Driven Inference for Motor Imagery EEG Decoding

BTTA-DG 把每条 EEG 试次的逐时刻预测序列压成一个 Dirichlet 参数向量,用历史试次拟合的 GMM 当似然、深度模型输出当先验,做一次无梯度的贝叶斯后验校准,在运动想象脑机接口的跨被试/跨 session 迁移上达到 SOTA 且实时(15.7 ms/试次)。

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

这篇论文提出 Unpaired Multimodal Learner(UML):不需要图文、音图等样本级配对,只要辅助模态与目标模态共享语义结构,就通过跨模态权重共享把未配对文本、图像或音频的训练信号汇入同一表征,从而提升最终只使用单一目标模态的分类与鲁棒性。

Beyond Hearing: Learning Task-Agnostic ExG Representations from Earphones via Physiology-Informed Tokenization

用耳机形态的轻量硬件采集 50 小时自由生活态 ExG 数据,并提出"生理学先验的多频带 tokenization (PiMT)"把信号拆成 12 个物理意义明确的子频带 token,配合重建式自监督预训练,学到一套跨视/听/味/触/嗅五感任务都能用的任务无关 ExG 表示。

Bidirectional Predictive Coding

本文提出双向预测编码(bPC),用一个能量函数同时容纳「自上而下生成」和「自下而上判别」两种推断,让同一套生物可实现的局部电路既能像 discPC 那样准确分类、又能像 genPC 那样生成与重建,并在跨模态联想、遮挡补全等类脑任务上超过现有的单向 / 混合 PC 模型。

Boosting Open Set Recognition Performance through Modulated Representation Learning

这篇论文指出几乎所有开集识别(OSR)方法都给 logits 用一个固定温度 \(\tau\),导致模型只能停在「实例级特征」和「类级特征」频谱的某一点;作者提出在训练过程中调度温度(核心是新颖的负余弦调度 NegCosSch),让模型先用低温画出粗决策边界、再升温把同类样本收紧,从而在不增加任何计算开销的前提下,把开集和闭集性能一起提升,尤其在更难的语义偏移基准(SSB)上收益最大。

Bures-Isotropy Alignment: Manifold Learning of Generalized Category Discovery

BIA 将广义类别发现中的类别 token 表征看成一个需要修复的流形几何问题,用 Bures 距离把 mini-batch 的 class-token Gram 矩阵对齐到各向同性先验,并通过等价的核范数最大化实现轻量正则,从而在不改 GCD 框架的情况下提升聚类精度和类别数估计稳定性。

CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis

CARL 用「波长位置编码 + 自注意力-交叉注意力光谱编码器」把任意通道数(RGB/多光谱/高光谱)的光谱图像蒸馏成相机无关的特征表示,再配一套特征级光谱+空间自监督策略(CARL-SSL),首次实现跨相机的时空-光谱联合表示学习,在医学、自动驾驶、卫星三个领域都超过相机专属和通道无关基线。

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

提出 PRPO(Parallel Relative Policy Optimization),通过在奖励维度和数据类型两个层面做并行解耦优化,解决 GRPO 在多维奖励信号干扰和异构数据梯度冲突下的训练瓶颈;同时构建 MCDR-Bench,基于"错误唯一性原则"将主观生成评估转化为客观错误识别,实现图表深度研究能力的量化评估。

CoLA: Co-Calibrated Logit Adjustment for Long-Tailed Semi-Supervised Learning

针对长尾半监督学习里 Logit Adjustment 的两块短板——「按频次计数高估头部类导致过度抑制」和「整体调整强度 \(\tau\) 被当成固定超参、与类级调整脱节」——CoLA 用有效秩去重地估计无标注类分布(DDDE),再在一个镜像该分布的代理验证集上元学习出最优 \(\tau\)(LMC),在 4 个长尾基准上全面刷新 SOTA。

Contrastive Predictive Coding Done Right for Mutual Information Estimation

这篇论文从理论上戳穿了"InfoNCE 是互信息估计器"这个流传已久的误解——它其实是另一种散度(K-way JSD)的变分下界,永远逼不到 KL 散度;作者用一个加"锚类"的简单改动(InfoNCE-anchor)让 critic 直接学到无歧义的密度比,得到低偏差、低方差的即插即用 MI 估计器,并用 proper scoring rule 把 NCE / InfoNCE / f-散度一族对比目标统一进同一框架。

CSRv2: Unlocking Ultra-Sparse Embeddings

CSRv2 用「渐进 k 退火 + 稀疏监督对比 + 全骨干微调」三招把对比稀疏表示(CSR)推进到 \(k\le 4\) 的超稀疏区间——死神经元从 80% 降到 20%,\(k=2\) 时精度涨 14%,让"只激活 2 个维度"的嵌入达到 CSR 在 \(k=8\)、MRL 在 32 维时的水平,相对稠密嵌入拿到最高 300× 的算力/内存效率。

Debiased and Denoised Representation Learning for Incomplete Multi-view Clustering

这篇论文提出 DDR-IMVC,用完整视图样本学到的无偏共识表示去校正缺失视图样本的偏置表示,再用截断 InfoNCE 形式的鲁棒对比学习压住补全噪声,在多个不完整多视图聚类数据集上取得更稳定的聚类结果。

Detect, Decide, Unlearn: A Transfer-Aware Framework for Continual Learning

针对持续学习里"记住过时知识反而拖累新任务"的负迁移问题,本文提出 DEDUCE 框架,先用可迁移性界或梯度冲突分析检测负迁移、再决定是否触发遗忘,最后用 batch 级的局部遗忘(LUM)+ 网络级的全局遗忘(GUM)选择性地擦掉干扰性旧知识,作为即插即用增强能挂在 9 种 CL 基线上、平均涨点最高 4.55%。

Difficult Examples Hurt Unsupervised Contrastive Learning: A Theoretical Perspective

通过相似度图模型理论分析严格证明"困难样本"(跨类高相似度样本对)会损害无监督对比学习性能——困难样本使泛化误差界严格恶化,提出删除困难样本、调节 margin 和温度缩放三种理论指导的缓解策略,在 TinyImageNet 上带来高达 10.42% 的线性探测准确率提升。这一发现是反直觉的:深度学习中通常"更多数据更好",但对比学习中精心移除困难样本反而有益。

Disentangled representation learning through unsupervised symmetry group discovery

让一个具身智能体通过与环境的无监督交互,自动发现自己动作空间背后的对称群分解结构,再据此学到「线性对称解耦表示」(LSBD),从而摆脱以往方法必须人为预知群结构的限制,在三类不同群结构的环境上都超过现有 LSBD 方法。

Disentanglement of Variations with Multimodal Generative Modeling

IDMVAE 在多模态 VAE 框架上叠加两类互信息正则——跨视角 MI 最大化抽取共享变量、循环一致式生成增强去除冗余,再用扩散模型替换高斯先验,在似然模型不够强的困难数据集上实现共享/私有信息的干净分离。

Disentangling the Factors of Convergence between Brains and DINOv3

作者从零训练一系列系统性变量受控的 DINOv3 自监督视觉模型,用「编码分数 / 空间分数 / 时间分数」三个互补指标把模型表征对齐到人脑 fMRI 与 MEG,定量解耦出「模型规模、训练量、图像类型」三个因子如何独立又交互地驱动模型变得「像大脑」,并发现这种相似性的涌现遵循一条与人类皮层发育高度吻合的时序。

DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick

DiVeQ 把"把潜变量映射到最近码字"这个不可导操作,重写成"给潜变量加一个方向对准最近码字、长度等于量化误差的误差向量",从而前向保持硬量化、反向让梯度顺畅流过;其空间填充变体 SF-DiVeQ 进一步把量化目标从离散码字推广到码字间的连线段,在图像压缩、图像生成和语音编码三类任务上都比 STE / EMA / Rotation Trick / Gumbel-Softmax / NSVQ 重建更准、且无需任何辅助损失或温度退火。

Diverse Dictionary Learning

当观测 \(X=g(Z)\) 的生成过程 \(g\) 与隐变量 \(Z\) 都未知、又不愿引入线性/辅助监督等强假设时,本文证明隐变量"集合"的交、补、对称差以及隐-观依赖结构在最小假设下仍可被识别,并指出实现这一切只需在估计时对 Jacobian 加一个 L1 稀疏正则("依赖稀疏")这一通用归纳偏置。

Dual Perspectives on Non-Contrastive Self-Supervised Learning

本文从优化与动力系统两个视角严格证明:非对比自监督中常用的 stop-gradient(SG)与 EMA 训练过程并不最小化任何良定义的目标函数,但它们在收敛时确实避免坍缩,且在线性情形下其非平凡平衡点是渐近稳定的。

Equivariant Splitting: Self-supervised learning from incomplete data

把"等变成像(EI)"的不变性先验和"测量拆分(splitting)"的高效无偏特性结合起来,提出 Equivariant Splitting (ES) 损失,让网络仅凭单个高度欠采样前向算子下的不完整测量也能训出逼近 MMSE 的重建器,且无需 EI 那样多次前向评估。

Exploiting Low-Dimensional Manifold of Features for Few-Shot Whole Slide Image Classification

发现病理基础模型特征具有低维流形几何结构(有效秩仅29.7/512维),而线性层会破坏这种结构导致少样本过拟合,提出即插即用的MR Block(冻结随机矩阵做几何锚+低秩残差路径做任务适配)在少样本WSI分类上达到SOTA。

FedOpenMatch: Towards Semi-Supervised Federated Learning in Open-Set Environments

本文首次提出"开集半监督联邦学习"(OSSFL)问题——客户端无标注数据里混有标签空间之外的未知类样本,并给出首个框架 FedOpenMatch,用一个被"梯度截断 + logit 调整"加固的 one-vs-all 离群检测器配合 logit 一致性正则,在联邦异构数据下把开集准确率最高提升 14.33%。

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

受果蝇嗅觉回路启发,提出 Fly-CL 框架,通过稀疏随机投影+top-k操作+流式岭分类三阶段渐进去相关,在预训练模型持续学习中大幅降低训练时间的同时达到SOTA水平。

GUIDE: Gated Uncertainty-Informed Disentangled Experts for Long-tailed Recognition

GUIDE 把多专家长尾识别中盘根错节的"表示—决策—优化"三层纠缠问题逐层拆开:用竞争式专精迫使专家学到互异特征、用认知/偶然不确定性分解来诊断难样本并定向精炼、用双时间尺度更新隔离主任务与元策略的优化,从而在五个长尾基准上刷新 SOTA。

HiMAE: Hierarchical Masked Autoencoders Discover Resolution-Specific Structure in Wearable Time Series

HiMAE 把掩码自编码塞进一个 U-Net 式层次化 1D CNN,让中间各层天然对应不同时间分辨率的嵌入,从而把"分辨率"从一个超参变成可探针的诊断工具,同时模型小到能在智能手表 CPU 上做亚毫秒推理。

In Context Semi-Supervised Learning

本文提出 in-context semi-supervised learning(IC-SSL)问题,并构造一个两阶段 Transformer:先从同一个上下文里的大量无标签样本中学习几何谱表示,再用少量标签在前向传播里执行类别 ICL,从而在低标签场景下明显提升分类准确率和跨几何泛化能力。

Incomplete Multi-View Multi-Label Classification via Shared Codebook and Fused-Teacher Self-Distillation

针对"视图和标签同时缺失"的双缺失场景,SCSD 用一个跨视图共享的离散码本把不同视图量化对齐成一致表示,再用基于标签相关性的加权融合和"融合预测当教师"的自蒸馏,实现稳健的多视图多标签分类。

InfoNCE Induces Gaussian Distribution

从理论上证明 InfoNCE 损失函数在两种互补机制下会诱导表征趋向高斯分布:经验理想化路线(对齐+球面均匀性→高斯)和正则化路线(消失正则项→各向同性高斯),并在合成数据和 CIFAR-10 上验证。

Learning Dynamics of Logits Debiasing for Long-Tailed Semi-Supervised Learning

本文用"学习动力学"的视角统一解释了长尾半监督学习(LTSSL)中各类去偏方法的本质——都是在重塑梯度流,并据此提出免训练开销的动态剪枝框架 DyTrim,通过对有标注/无标注数据分别做类感知硬剪枝和置信度软剪枝,把梯度预算重新分配给真正纠偏的样本。

MaskCO: Masked Generation Drives Effective Representation Learning and Exploiting for Combinatorial Optimization

MaskCO 把"学习求解组合优化"重新定义为"在最优解上做掩码自监督"——遮住最优解的一部分让模型补全,把一个 (实例, 解) 对裂变成指数级的局部学习信号,再用"掩码-重构"循环在推理时反复擦写改进解,在 TSP/CVRP/MIS 上把最优性 gap 砍掉 99%+ 并提速约 10 倍。

Maximizing Asynchronicity in Event-based Neural Networks

提出EVA框架,将事件类比为语言token,用基于RWKV-6的线性注意力异步编码器实现逐事件特征更新,结合多表示预测(MRP)+下一表示预测(NRP)的自监督学习获得可泛化特征,首次在异步-同步(A2S)范式中成功完成高难度目标检测任务(Gen1数据集0.477 mAP)。

Maximizing Incremental Information Entropy for Contrastive Learning

提出IE-CL(Incremental-Entropy Contrastive Learning)框架,通过显式优化增强视图间的熵增益(而非仅最大化互信息),将编码器视为信息瓶颈并联合优化可学习变换(生成熵)与编码器正则化器(保留熵),在小batch设置下一致提升CIFAR-10/100、STL-10和ImageNet上的对比学习性能,且核心模块可即插即用集成到现有框架。

Mechanistic Independence: A Principle for Identifiable Disentangled Representations

本文提出"机制独立性"(mechanistic independence)作为解耦表示可识别性的统一原则——用隐因子如何通过生成器作用于观测(而非如何分布)来定义因子,从而给出一族对隐分布重加权不变、即使在非线性非可逆混合下也成立的子空间可识别性定理。

Midway Network: Learning Representations for Recognition and Motion from Latent Dynamics

Midway Network 把决策领域的"隐空间动力学建模"搬到自然视频上,用一条中途(midway)自顶向下路径推断帧间运动隐变量,配合稠密前向预测分层结构,第一个仅靠自然视频就同时学好"物体识别(语义分割)"和"运动理解(光流)"两套表示。

Mini-cluster Guided Long-tailed Deep Clustering

本文提出 MiniClustering,用一个"细粒度过度聚类"的额外聚类头估计出每个目标簇被多少个 mini-cluster 占据,以此在完全无标签的条件下推断各类的头/尾属性并重加权自训练损失,把监督长尾学习的 re-weighting 思想首次系统地引入深度聚类。

Multimodality as Supervision: Self-Supervised Specialization to the Test Environment via Multimodality

把"预训练数据全部来自部署环境本身"当成一个沙盒,提出 Test-Space Training(TST):只在单一测试空间里采集多模态数据并做跨模态自监督预训练,结果在该空间内的分割/检测/描述任务上反超用互联网级数据训练的通用模型(DINOv2、CLIP、4M-21)。

NEO — No-Optimization Test-Time Adaptation through Latent Re-Centering

NEO 发现输入分布偏移会让倒数第二层 embedding 整体产生一个跨样本/跨类别共享的平移,于是只用一个全局质心向量把测试特征重新居中到原点,就能在零优化、零超参、几乎零额外开销下超过 7 个主流 TTA 方法。

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

本文从理论上证明:在共享随机性下,自监督对比学习(CL)与一种监督替身——"仅负样本监督对比"(NSCL)——在表示相似度空间会全程保持高度对齐(CKA/RSA 有高概率下界),而它们的参数却可能指数级发散,从而把 NSCL 确立为连接自监督与监督学习的一座有原则的桥梁。

One-Shot Exemplars for Class Grounding in Self-Supervised Learning

本文提出 OSESSL(One-Shot Exemplar SSL)设定——每个类只给一张标注图,用这极稀疏的监督把自监督学到的特征"接地"到真实类别空间;方法用标注样例 + 判别近邻构建类原型来对齐未标注数据,并用插值一致性平滑决策边界,在 CIFAR-100 / ImageNet-100 上 k-NN 准确率比 SOTA 高约 3% / 6%。

OrthoRF: Exploring Orthogonality in Object-Centric Representations

在 Rotating Features(旋转特征)这类"用相位同步来绑定物体"的无监督物体发现框架上,OrthoRF 通过一个 softmax 竞争绑定 + 一个内积正交损失,强制让不同物体在 n 维方向空间里彼此正交、各占一个维度,从而免去事后 k-means 聚类、在重叠/噪声/分布外场景下匹配或超过现有方法,并且额外能在中间表示里把被遮挡的物体部件补全出来。

Part-level Semantic-guided Contrastive Learning for Fine-grained Visual Classification

PSCL 用 ClearCLIP 把"选哪块区域"和"怎么表征区域"解耦成两条支路,再配合多尺度多部件的渐进推理和引入中间粒度类别的视觉-语言对比损失,在 5 个 FGVC 数据集上取得 SOTA 或高度竞争的精度。

PAS: Estimating the Target Accuracy Before Domain Adaptation

本文提出 PAS(Potential Adaptability Score)——一个在真正做域适应训练之前、仅靠预训练模型的嵌入就能算出来的非对称分数,用目标样本到各源类质心的「最近 / 次近距离相对间隔」衡量源域与预训练模型对某个无标签目标任务的可迁移性,从而在一堆候选里挑出适配后目标精度最高的「源域 + 预训练模型」组合,省去逐一训练的巨大开销。

Plug-and-Play Compositionality for Boosting Continual Learning with Foundation Models

CompSLOT 用 Slot Attention 从冻结 ViT 里无监督拆出图像的概念槽,再选出与类别相关的「原语」并把原语两两相似度对比蒸馏进任意持续学习器的 logits,从而以即插即用的方式给一大批基于基础模型的持续学习方法普遍涨点、缓解灾难性遗忘。

PonderLM: Pretraining Language Models to Ponder in Continuous Space

提出 PonderLM,在预训练阶段引入"沉思"机制——将预测概率分布加权求和为连续嵌入后反复前向传播,无需标注数据或强化学习,使 2.8B 模型在 9 个下游任务上超越 6.9B 模型。

PredNext: Explicit Cross-View Temporal Prediction for Unsupervised Learning in Spiking Neural Networks

PredNext 给脉冲神经网络(SNN)的自监督视频学习加了一个即插即用的"跨视图未来预测"模块——同时预测同一视频下一时间步和下一片段的特征,从而在不强行约束的前提下提升时序特征一致性,让深层 SNN 在 UCF101 等大规模视频上学到的无监督表示逼近 ImageNet 监督预训练的水平。

PRISM: Progressive Robust Learning for Open-World Continual Category Discovery

PRISM 提出"开放世界持续类别发现"(OW-CCD)这一更现实的设定——数据流里既冒出新类别又夹带域偏移,并用"高频分流 + 稀疏最优传输匹配 + 不变知识迁移"三件套,在 SSB-C 与 DomainNet 上稳定刷新 CCD SOTA(CUB-C 干净域涨 15.1%)。

PromptHub: Enhancing Multi-Prompt Visual In-Context Learning with Locality-Aware Fusion, Concentration and Alignment

PromptHub 把视觉上下文学习(VICL)的多提示融合从"逐 patch 拼接"升级为"嵌入空间里的局部性增强融合",再配上预测/对齐/利用三个互补损失和针对 VICL 的数据增强,让骨干网络真正信任并用好融合提示,在分割、检测、上色三个任务上稳定超越前作 CONDENSER。

Regularized Latent Dynamics Prediction is a Strong Baseline for Behavioral Foundation Models

提出 Regularized Latent Dynamics Prediction (RLDP),通过在自监督的潜空间下一状态预测目标上添加简单的正交正则化来维持特征多样性,在零样本 RL 中匹配甚至超越复杂的 SOTA 表示学习方法,特别是在低覆盖率场景下优势显著。

Relationship Alignment for View-aware Multi-view Clustering

RAV 通过「跨视图样本关系对齐」保住每个视图的邻域结构、并用基于 Wasserstein 距离的「视图感知自适应加权」动态调节簇级标签对比学习的强度,让相似视图强对齐、差异视图弱对齐,从而在十个多视图聚类基准上整体超越现有 SOTA。

Representation Alignment for Diffusion Transformers without External Components

本文发现扩散 Transformer 内部本身就存在「从坏到好」的判别表示演化,于是提出 SRA(Self-Representation Alignment):把学生模型在「较浅层 + 较高噪声」处的表示对齐到 EMA 教师在「较深层 + 较低噪声」处的表示,从而在不引入任何外部表示任务或预训练编码器的前提下加速 DiT/SiT 的生成训练,效果显著优于依赖外部表示任务的方法、并能逼近依赖 DINOv2 等外部编码器的 REPA。

Rethinking JEPA: Compute-Efficient Video Self-Supervised Learning with Frozen Teachers

这篇论文把 V-JEPA 里"在线 EMA 教师"换成"先用像素重建训好、然后冻住的静态教师",得到一个两阶段、无需防坍缩正则的简化方案 SALT;在冻结骨干评测下不仅超过 V-JEPA 2,而且更省算力,还意外发现一个又小又弱的教师就能教出很强的学生。

Rethinking Unsupervised Cross-Modal Flow Estimation: Learning from Decoupled Optimization and Consistency Constraint

DCFlow 把无监督跨模态光流估计从"只靠外观相似度隐式学"改成"解耦优化 + 显式运动监督":用几何感知的单图数据合成给光流网络造出可靠的合成光流标签,让模态迁移网络和光流网络各练各的子任务,再用跨模态一致性约束把两者联合微调,在五个真实跨模态数据集上把 EPE 大幅压低并刷到无监督方法 SOTA。

Samples Are Not Equal: A Sample Selection Approach for Deep Clustering

这篇论文指出深度聚类会过度学习高密度区域里简单且重复的样本,并提出一个可插拔样本选择组件:初始化时用局部密度重估聚类原型,训练中用预测一致性和伪标签稳定性动态移除已学会样本,从而在多种深度聚类基线中同时提升聚类精度和训练效率。

SCAD: Super-Class-Aware Debiasing for Long-Tailed Semi-Supervised Learning

SCAD 发现长尾半监督学习里“语义相近类别内部也长尾”的局部偏置问题,并用自动发现的 super-class 上下文对 logit adjustment 做样本级动态修正,在 CIFAR、STL、ImageNet-127 和 Food101-LT 等基准上稳定提升现有 LTSSL 方法。

Self-Predictive Representations for Combinatorial Generalization in Behavioral Cloning

针对目标条件行为克隆(GCBC)无法"拼接"novel 状态-目标对的组合泛化缺陷,本文提出 BYOL-γ:一个用几何分布采样未来状态、从而逼近后继度量(successor measure)的自预测表示学习目标,作为 BC 的辅助损失既不需要 TD 学习也不需要负样本,在 OGBench 拼接任务上平均成功率超过所有对比方法。

SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty

SNAP-UQ 提出一种面向 TinyML 场景的单次前向传播不确定性估计方法:在骨干网络的选定层附加微型 int8 预测头,用自监督方式预测下一层的激活统计量,将实际激活与预测之间的偏差("surprisal")聚合为不确定性分数,无需额外前向传播、时序缓冲或集成,仅增加几十 KB 闪存即可在微控制器上实现可靠的分布偏移检测和故障检测。

SnaPhArd Contrast Learning

本文从最优性条件出发,理论证明了对比学习中"简单样本"会把最优解钉死、诱发解坍缩,进而提出 SPACL:用动态锚点+最远点迭代挑难正样本、用对抗生成器造难负样本、再用相对阈值筛掉平凡负样本,在图像分类、知识图谱链接预测和域外意图检测三类任务上一致超过或持平 SOTA。

Soft Equivariance Regularization for Invariant Self-Supervised Learning

提出 SER(Soft Equivariance Regularization),通过在 ViT 中间层施加软等变正则化、在最终层保持不变性目标的层解耦设计,在不引入额外模块的情况下,为不变性 SSL 方法(MoCo-v3, DINO, Barlow Twins)带来一致的分类精度和鲁棒性提升。

Spatial Structure and Selective Text Jointly Facilitate Image Clustering

SATC 用 GAT 给每张图建图、提取 patch 之间的空间结构特征来补 CLIP 缺失的局部结构,再用一个基于"文本紧致度 \(\tau\)"的选择器自动判断该数据集要不要引入文本特征,最后通过视觉/空间/文本三模态互蒸馏出聚类,在 18 个基准上全面超越 TAC 等 SOTA。

Spatially Informed Autoencoders for Interpretable Visual Representation Learning

本文提出 SI-VAE(空间信息变分自编码器),用空间点过程的伪似然作为自监督目标去监督 VAE 的隐空间,让模型不再只学像素强度、而是学到"物体之间空间排布关系"的统计可解释表示,在合成数据上把点模式分类准确率从 48%(普通 VAE)拉到 80%–90%,并能从单张图像零样本条件模拟点过程、应用到人类细胞蛋白定位分析。

SplitLoRA: Balancing Stability and Plasticity in Continual Learning Through Gradient Space Splitting

SplitLoRA 把"次梯度子空间该取多大"这个持续学习里的老大难问题,从拍脑袋的阈值变成一个可解的优化问题:它先理论推出"稳定性损失 + 可塑性损失"随子空间维度 \(k\) 变化的上界,再对每个 LoRA 模块单独求最优 \(k^*\),最后把 LoRA 的降维矩阵 \(A\) 固定到这个次子空间里、只训练 \(B\),在 ImageNet-R / CIFAR-100 / DomainNet 上比现有方法高 2%–5%。

Symmetric Space Learning for Combinatorial Generalization

这篇论文提出 CartanFM,把潜表示空间约束成对称空间,并用 Cartan 分解与测地对称一致性把已观测组合上的对称性外推到未观测组合,在 dSprites、3D Shapes、MPI3D 等组合泛化基准上显著优于 VAE 与已有对称学习方法。

Temporal Slowness in Central Vision Drives Semantic Object Learning

通过模拟人类中央视觉(注视点裁剪)和时间慢性原则(时间对比学习),在 Ego4D 数据上训练 SSL 模型,发现两者组合能有效提升语义对象表征——中央视觉强化前景提取,时间慢性在注视凝视期间蒸馏语义信息。

Test-Time Efficient Pretrained Model Portfolios for Time Series Forecasting

提出 Chroma——小型预训练时序模型组合(portfolio)框架:从通用模型通过后训练(post-training)产出频率/领域专家(训练加速 10×),测试时通过模型选择或贪心集成组合,4M 参数的 portfolio 在 Chronos Benchmark II 上匹配 205M-500M 参数的大型单体模型性能,同时推理计算远低于 test-time fine-tuning。

TrainRef:用标签分布与极少参考样本策展数据,兼顾准确预测与可靠置信

TrainRef 用一个极小(每类一张就够)的可信参考集 \(D_\text{ref}\) 作为"外部正常性"来挑干净样本,并把标签从"非此即彼的类别"改写成"类别分布",通过 MIM 预训练 → 影响函数筛样本 → 策展-训练协同进化三阶段,在 CIFAR-100/Animal-10N/WebVision 上同时把准确率和置信度校准(ECE)做到新 SOTA。

Two-Way is Better Than One: Bidirectional Alignment with Cycle Consistency for Exemplar-Free Class-Incremental Learning

针对免样本类增量学习中"骨干网络更新导致旧类原型漂移"的难题,本文提出 BiCyc:在训练阶段同时学习「旧→新」适配器 \(A\) 和「新→旧」蒸馏器 \(D\),用停梯度门控和循环一致性损失把二者逼成互逆映射,从而把旧类高斯原型精确搬运到新特征空间;在 CIFAR-100 / TinyImageNet 等 from-scratch 基准上把遗忘率压到最低、准确率超过 AdaGauss 与 DPCR 等 SOTA。

Uncover Underlying Correspondence for Robust Multi-view Clustering

这篇论文把带噪多视图聚类中的跨视图对应关系看作隐藏变量,提出 CorreGen 用 EM 框架在嵌入空间里生成软对应分布,并通过 GMM 边际估计与虚拟样本机制同时处理同类样本被误当负例、错配样本和无法对齐样本,从而显著提升噪声对应场景下的聚类鲁棒性。

Understanding the Learning Phases in Self-Supervised Learning via Critical Periods

本文发现自监督预训练存在「迁移性权衡」——中间 checkpoint 的域外(OOD)泛化反而比最终 checkpoint 更强,并借「临界期(critical period)」这一生物/监督学习概念,用缺陷注入和 Fisher 信息两个探针刻画出 SSL 的塑性→巩固→过度专化三阶段,进而提出基于临界期闭合点的 checkpoint 选择与自蒸馏两个轻量策略来兼顾 ID 与 OOD 性能。

Understanding the Robustness of Distributed Self-Supervised Learning Frameworks Against Non-IID Data

本文从理论上严格分析了不同分布式自监督(D-SSL)框架在 non-IID 数据下的鲁棒性,证明了掩码图像建模(MIM)天生比对比学习(CL)更抗异质性、且鲁棒性随网络平均连通度上升(联邦学习不弱于去中心化学习),并据此设计了带局部-全局对齐正则的 MAR loss 作为理论落地的范例。

Unified and Efficient Multi-view Clustering from Probabilistic Perspective

UEMCP 把锚图多视图聚类重新解释为“数据点→锚点→类别”的概率转移学习,在统一目标中同时学习共识锚点、视图权重、锚图和类别分配,从而在多个大规模多视图数据集上取得更好的聚类效果与近似线性复杂度。

Unsupervised Representation Learning - An Invariant Risk Minimization Perspective

本文把原本依赖标签的不变风险最小化(IRM)推广到无标签场景,把"不变性"重新定义为"特征分布跨环境对齐",并给出线性高斯下的 PICA 和深度生成式的 VIAE 两种方法,在合成数据、改造版 MNIST 和 CelebA 上实现了不依赖标签的不变结构提取与跨环境泛化。

Why Prototypes Collapse: Diagnosing and Preventing Partial Collapse in Prototypical Self-Supervised Learning

诊断出原型自监督学习中部分原型坍缩的根因是编码器与原型的联合优化导致的快捷学习,提出全解耦训练策略——用在线 GMM 独立估计原型——彻底消除坍缩并提升下游性能。

XIL: Cross-Expanding Incremental Learning

本文提出一个全新的持续学习设定 XIL——类增量数据来自不断变化的域,且要求模型把新类「补」回旧域、把旧类「扩」到新域(双向域迁移 BiDoT),并给出框架 XEED:用域专属提示 + 扩散模型生成跨域迁移样本 + 演化原型分类,在强域偏移数据集上把 BiDoT 分数最高拉高 31.41%。

ZeroSiam: An Efficient Asymmetry for Test-Time Entropy Optimization without Collapse

针对测试时熵最小化容易坍缩成「所有样本预测同一类」的退化解,本文把负样本自由 SSL 里的「非对称结构」迁移过来,只在分类器前插一个可学习 predictor 加 stop-gradient,就在单次前向里造出 online/target 两条非对称分支,用对齐正则把恒定 one-hot 解排除在最优解之外——几乎零额外开销,却在视觉 TTA 和 LLM 推理两类任务、尤其是易坍缩的小模型上都更稳更强。