🔄 自监督/表示学习¶
📷 CVPR2026 · 91 篇论文解读
📌 同领域跨会议浏览: 🔬 ICLR2026 (81) · 💬 ACL2026 (1) · 🧪 ICML2026 (28) · 🤖 AAAI2026 (16) · 🧠 NeurIPS2025 (34) · 📹 ICCV2025 (13)
🔥 高频主题: 持续学习 ×20 · 自监督学习 ×9 · 对抗鲁棒 ×7 · 少样本学习 ×5 · 布局/合成 ×3
- A Faster Path to Continual Learning
-
针对持续学习优化器 C-Flat 每步要多算三次梯度、训练太慢的问题,本文发现一阶平坦度梯度里存在「方向不变」的分量,于是把它缓存下来在后续若干步里复用、跳过冗余的扰动梯度计算,再配上一个随任务推进逐渐放大跳步间隔的线性调度器和一个基于梯度统计量的自适应触发开关,让 C-Flat Turbo 在精度持平甚至略升的同时比 C-Flat 快 1.0×~1.25×(吞吐从约 27% 拉回到约 60%)。
- AdaPrior: Bayesian-Inspired Adaptive Prior Correction for Long-Tailed Continual Learning
-
AdaPrior 把长尾类增量学习(LTCIL)重新理解成"模型诱导先验漂移"问题,用 EMA 在线估计模型自己学到的先验 \(P_m(y)\),再在训练损失和推理后处理两处用它做贝叶斯对齐去偏,单阶段、即插即用,在 CIFAR100-LT / ImageNet-subset-LT / iNaturalist18-subset 上一致超过近期 LTCIL 基线。
- An Optimal Transport-driven Approach for Cultivating Latent Space in Online Incremental Learning
-
提出基于最优传输理论的在线混合模型学习框架 (MMOT),通过为每个类别维护多个自适应质心来更精确地表征在线数据流的多模态特性,结合动态保持策略增强类别区分能力,在在线类增量学习 (OCIL) 中有效缓解灾难性遗忘。
- Assignment-Driven Hash Learning in a Hyper-Semantic Space for On-the-Fly Category Discovery
-
针对在线类别发现(OCD)中"特征到哈希码级联退化"和"已知类垄断表示空间"两大顽疾,本文先构造一个含「派生子空间 + 校准子空间」的超语义空间来同时刻画类内多样性并为新类预留空间,再在该空间里做"软原型分配 + 二值哈希正则"的赋值驱动哈希学习;作为即插即用模块挂到 SMILE / PHE 上,在六个细粒度数据集上 All 准确率平均提升约 12.78%(SMILE 基础上)。
- Beyond Binary Contrast: Modeling Continuous Skeleton Action Spaces with Transitional Anchors
-
针对自监督骨架动作识别中"二元对比"把动作切成孤立簇、边界僵硬的问题,TranCLR 在动作之间合成"过渡锚点"作为流形正则项,并用三级几何流形校准把表征空间从离散点云重塑成连续平滑流形,在 NTU/PKU-MMD 上线性评估、迁移、检索全面 SOTA,且把置信度标定误差 ECE 从 ~5.6% 砍到 0.65%。
- Beyond Myopic Alignment: Lookahead Optimization for Online Class-Incremental Learning
-
针对在线类增量学习中"当前任务梯度与回放梯度冲突"导致遗忘的问题,本文先从理论上揭示 hypergradient 方法本质是把任务梯度对齐到共享元目标、却只看当下一步因而"短视",进而提出 LOR:在更新前先沿一组"可塑性-稳定性"权衡方向探查多个未来模型状态,再用 Log-Sum-Exp 软化的 min-max 目标优化最坏方向,把模型推向更平坦、更抗遗忘的区域,在 Seq-CIFAR10/100 与 Seq-TinyImageNet 上全面超过 SOTA。
- Beyond the Static World: Continual Category Discovery under Visual Drift
-
针对"无标注数据流既冒出新类、又来自陌生域"的现实场景,本文提出 OCCD 任务,并用"最优传输自动分离已知/未知样本 → 对抗对齐已知类原型 → 频域增强约束类别拓扑一致性"三件套,在 DomainNet 和 SSB-C 上同时把新类发现和旧类识别拉到新 SOTA。
- Can You Learn to See Without Images? Procedural Warm-Up for Vision Transformers
-
在 ViT 正式看图像之前,先用形式文法生成的「平衡括号」之类纯符号、无任何视觉内容的序列做一段轻量 masked-token 预训练(warm-up),逼模型内化栈式层级、长程依赖这类通用计算机制;之后再接标准图像训练,仅花 1% 训练预算就能在 ImageNet-1K 上把 top-1 提升 +1.72%,相当于替代了 28% 的图像数据。
- CHEEM: Continual Learning by Reuse, New, Adapt and Skip -- A Hierarchical Exploration-Exploitation Approach
-
提出 CHEEM 框架,通过分层探索-利用采样的 NAS 自动学习任务感知的动态 ViT 骨干——在每一层选择 Reuse/New/Adapt/Skip 四种操作——在 MTIL 和 VDD 两个挑战性持续学习基准上显著超越提示类方法,接近全量微调上界。
- Chain-of-Models Pre-Training: Rethinking Training Acceleration of Vision Foundation Models
-
提出 Chain-of-Models Pre-Training (CoM-PT),将视觉基础模型按大小排列形成"模型链",通过从小到大的逆向知识转移(权重初始化+特征蒸馏)逐步加速训练,实现性能无损的训练加速且效率随模型家族规模增长而提升。
- CUE: Concept-Aware Multi-Label Expansion to Mitigate Concept Confusion in Long-Tailed Learning
-
针对微调基础模型做长尾识别时出现的「概念混淆」(尾类样本被错分到语义相关类),CUE 用零样本 CLIP 提供实例级、用 LLM 提供类级的多标签语义线索,通过两个二值 logit 调整(BLA)辅助损失把这些相关类一起当正标签监督,从而保留预训练时的类间关系,在四个长尾基准上尾类显著涨点。
- D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping
-
提出 D2Dewarp——首个从水平和垂直双维度学习文档几何表示的去畸变方法:UNet 双解码器分别预测水平线(文档/表格/文本行的上下边界)和垂直线(左右边界),HV Fusion Module 通过混合注意力交叉融合两个方向的特征,并构建了包含 114K 张图的 DocDewarpHV 数据集提供双维度标注。
- DDSF: Robust Few-Shot Learning via Disentangled Subspaces with Determinantal Point Process
-
针对小样本支持集被噪声/难正样本污染导致原型漂移的问题,DDSF 用行列式点过程(DPP)统一驱动一套「过滤—修复—扩张」流程:先用 DPP 概率推断挑出可疑样本而非丢弃,再用 DPP 体积梯度引导扩散过程把它们"修"成有效特征,最后把类表示从脆弱的均值点扩展成解耦的共享/独特子空间,在 OOD 污染的 Meta-Dataset 上把 70% 噪声下的精度从 SOTA 的 47.0% 提到 61.6%。
- Decision Boundary-aware Generation for Long-tailed Learning
-
针对"用扩散模型 + 头→尾特征迁移补长尾数据"会暗中把头类特征泄漏到尾类、模糊决策边界的问题,本文先用三个指标把这种"边界模糊"量化出来,再提出 DBG:用对抗去类化噪声把样本推到决策边界附近、重标成 \(k\) 个最易混淆类,并用分类器驱动的双路清洗丢掉有害样本,在 CIFAR-LT 上对所有生成式 baseline 都能降低类间重叠、提升尾类与整体精度。
- Decouple Your Discovery and Memory in Continual Generalized Category Discovery
-
针对持续广义类别发现(C-GCD)中"为防遗忘而过度保护旧类、反过来压垮新类发现"的痛点,本文提出 DYDM 双分支框架——发现分支专注无约束地认出新类、记忆分支用免反传的递归最小二乘解析分类器稳稳记住所有旧类,再用一条知识复述蒸馏把两者串成闭环,在四个基准上把新类精度和总体精度同时大幅拉高(CAA 比 SOTA Happy 高 3.2–9.9%)。
- DGS: Dual Gradient and Semantic-Shift Guided Low-Rank Adaptation for Class Incremental Learning
-
针对预训练模型 + LoRA 做类增量学习时正交梯度约束"太死、压可塑性"的问题,DGS 用一条插值融合梯度(原始梯度 ⊕ 投影到预训练子空间的梯度)替代硬正交约束,再配上语义漂移校准的统一分类器对齐和patch-token 对齐损失,在六个标准 benchmark 上全面超过现有 PEFT-CIL 方法。
- DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers
-
通过系统分析发现 DiT 各 block 间的表示多样性是有效学习的关键因素,提出 DiverseDiT:用长残差连接多样化输入 + 表示多样性损失显式促进 block 间特征差异化,无需外部引导模型即可加速收敛并提升生成质量。
- Dual-Estimator: Decoupling Global and Local Semantic Shift for Drift Compensation in Class-Incremental Learning
-
针对无样本类增量学习中"特征漂移补偿假设语义分布与漂移均匀"这一不切实际的前提,本文用一个混合专家估计器(建模局部语义漂移)和一个低秩估计器(建模全局语义漂移)协同解耦补偿,二者都靠闭式解在几轮内更新、可即插即用挂到现有方法上,在六个数据集上稳定超过当前 SOTA。
- Easy2Hard: From Partially to Fully Unmatched Modalities as Negative Samples in Contrastive Learning
-
当模态数 \(M>2\) 时,批内负样本天然按「和正样本共享了几个非锚模态」分出难易;Easy2Hard 把负样本显式拆成「部分不匹配(易)」与「完全不匹配(难)」两类,再用一条 sigmoid 课程曲线随训练把权重从易负样本平滑挪到难负样本,在 5 个多模态数据集上的零样本检索都稳超 Symile / CLIP-Pairwise。
- Energy Waveify and Redistribution for Test-Time Adaptation: A Control System Perspective
-
把分类器输出的"能量"重新参数化为复值波(振幅=能量不确定性、相位=演化方向),用控制系统里的波动方程 + 概率流守恒来引导测试样本能量从高能区平滑流向低能区,从而在不做任何 MCMC/Langevin 采样、也不访问源域数据的前提下完成测试时自适应(TTA),自适应耗时只有 Top-3 基线的 1/3 ~ 1/7,且精度全面 SOTA。
- Exemplar-Free Class Incremental Learning via Preserving Class-Discriminative Structure
-
本文指出无样例类增量学习(EFCIL)中灾难性遗忘的本质是"类判别结构"塌缩,提出用 APR 校正旧类原型的均值+协方差(保类内结构)、用 SCC 约束新样本对旧原型的角度关系(保类间结构),在 6 个 benchmark 上超过 SSIAT/SLCA 等方法,细粒度数据集上提升尤为明显。
- Exemplar-Free Continual Learning for State Space Models
-
本文提出 Inf-SSM——一种几何感知、无需存旧样本的正则化方法,把 SSM(如 Vim/Mamba)的"无穷时域行为"编码成扩展可观测子空间上的一个点,通过约束新旧任务子空间在无穷维 Grassmann 流形上的距离来抑制灾难性遗忘,并把原本 \(\mathcal{O}(n^3)\) 的求解代价降到 \(\mathcal{O}(n^2)\),即插即用地把现有持续学习方法平均 AA 提升 8.31%、遗忘 FM 降低 9.36%。
- Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning
-
Franca 是首个完全开源(数据+代码+权重+中间检查点)的视觉基础模型,在 DINOv2 框架上引入「嵌套 Matryoshka 多头聚类」让特征沿维度逐层细化语义、用 CyclicMask 平衡掩码空间分布、再用 RASA 后训练把绝对位置信息从稠密特征里剥离出去,仅用公开数据就在分割、OOD 检测、3D 理解等任务上匹配甚至反超 DINOv2 / SigLIP 2 等闭源模型。
- Free-Grained Hierarchical Visual Recognition
-
提出"自由粒度"层级视觉识别(free-grained hierarchical recognition),允许训练标签出现在分类法的任意层级,并提出文本引导伪属性和分类法引导半监督学习两种方法来弥补缺失监督,推理时模型自适应选择预测深度。
- From Few-way to Many-way: Rethinking Few-shot Fine-grained Image Classification
-
本文指出现有小样本细粒度分类(FSFG)只在 5-way 这种「少类」场景里训练评测,一旦面对「多类(many-way)」就失灵;作者用一个 Class Discriminative Index 的泛化界把失灵原因拆成三条可操作的指导原则,据此提出 SCEG——多层特征自增强+协同增强 + episodic/global 双尺度的 Intra-Inter Loss——在 4 个数据集的 few-way 和新提出的 many-way 设定下都显著领先。
- GaussianMatch: Semi-Supervised Regression with Pseudo-Label Filtering via Multi-View Gaussian Consistency
-
针对半监督回归(SSR)里"连续输出没有置信度、低质伪标签会污染训练"的难题,GaussianMatch 用同一样本多个弱增强视图预测的高斯一致性当作伪标签可靠性的代理,只保留所有视图都落在置信区间内的样本,并用贝叶斯方差平滑防止过度过滤,在 UTKFace 30 标签的极端稀缺下把 MAE 降低 15.36%、R² 提升 50.21%。
- Geometry-driven OOD Detectors Are Class-Incremental Learners
-
GOD 把"每个任务的分类头同时具备 IND 识别 + OOD 拒识能力"作为类增量学习的充分条件,用固定的等角紧框架(ETF)锚点替换可学习分类头,配合 ETF loss(类间分离)与 ArcFace loss(类内紧致)在统一几何空间里把"分类"和"不确定度估计"合二为一,使跨任务路由从脆弱的 Task-ID 预测器变成天然涌现的 OOD 判决,在 4 个 benchmark 上达到 SOTA。
- HAD: Heterogeneity-Aware Distillation for Lifelong Heterogeneous Learning
-
本文把终身学习从"同构任务流"推广到"异构任务流"(LHL),并落地到稠密预测场景(LHL4DP),提出免样本的异构感知蒸馏 HAD——靠冻结教师生成伪标签做自蒸馏,再用分布均衡损失(DB-HAD)和显著性引导损失(SG-HAD)两个互补项缓解伪标签的类别/数值失衡与边界信息丢失,在 CityScapes / NYUv2 / Taskonomy 上显著优于现有终身学习方法。
- Harnessing the Power of Foundation Models for Accurate Material Classification
-
针对材质分类标注稀缺的问题,本文用「扩散模型生成 + 语义接地自动打标」造了一个 21 类平衡合成数据集,再用「冻结的 DINOv2 视觉流 + GPT-4v/CLIP 语言流」双流融合做分类,在 FMD 上达到 89% 准确率,比专用 SOTA(MatSim)高出 33%。
- HCL-FF: Hierarchical and Contrastive Learning for Forward-Forward Algorithm
-
针对 Forward-Forward(FF)算法"逐层独立训练缺乏跨层协调"和"goodness 解耦后特征语义崩塌"两大顽疾,HCL-FF 给每层加上「粗到细的分层监督」和「在解耦特征上的监督对比」两个 local 目标,在不破坏 FF 逐层独立性的前提下,把 CIFAR-100 准确率从 53.09% 拉到 70.09%(+17.00%),刷新 FF 类方法 SOTA。
- Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces
-
提出 Hier-COS 框架,通过为层次树中每个节点分配正交基向量,构造理论上保证层次一致性的层次感知向量空间(HAVS),首次统一了"层次感知细粒度分类"和"层次多级分类",同时提出新评估指标HOPS,在4个数据集上全面超越SOTA。
- How Much 3D Do Video Foundation Models Encode?
-
作者提出第一个模型无关的探针框架,用「冻结视频基础模型特征 + 浅层前馈头预测 3D 点云/深度/相机位姿」来量化各类视频模型内部隐含了多少 3D 理解,结论是:只在 2D 视频上训练的前沿视频生成模型(如 WAN2.1-14B)涌现出强 3D 感知,在跨域场景上甚至超过专门用 3D 数据训练的专家模型 Fast3R。
- HyCal: A Training-Free Prototype Calibration Method for Cross-Discipline Few-Shot Class-Incremental Learning
-
本文识别了异质域持续学习中的"域引力"(Domain Gravity)偏差——数据丰富或低熵域在共享嵌入空间中产生不成比例的影响,并提出 HyCal,一种无训练方法,通过融合余弦相似度和马氏距离进行原型校准,在跨学科不平衡少样本增量学习中实现稳健分类。
- In Pursuit of Pixel Supervision for Visual Pre-training
-
作者把 MAE 重新拉回 web 级数据规模,提出基于重建损失的"空间数据自筛选"策略 MetaCLIP-S,再配合四处极简的算法改造(更深解码器、更大掩码块、多 CLS token),训出名为 Pixio 的模型,在深度估计、前馈 3D 重建、分割等稠密预测任务上追平甚至超过经过大量 benchmark 定制筛选的 DINOv2/v3。
- Is Parameter Isolation Better for Prompt-Based Continual Learning?
-
针对主流"每个任务独占一组提示"的提示式持续学习范式,本文提出共享提示池 + 任务感知稀疏门控路由的 Hash 框架,再用一个基于历史激活统计的调制器同时压制被滥用的提示并保护重要提示,在 4 个类增量基准上一致超过静态分配方法且参数量更省。
- Learning by Analogy: A Causal Framework for Compositional Generalization
-
本文用因果语言(模块化 + 最小变化原则)把"靠类比做组合泛化"这一人类认知形式化成一个隐变量层次生成过程,证明了该结构既能支撑复杂概念交互的组合泛化、又可从图文对中可辨识地恢复,并据此把扩散时间步解读为概念层级、做出 HierDiff,在 DPG-Bench 上从 ELLA 的 74.91 提升到 79.28。
- Learning Eigenstructures of Unstructured Data Manifolds
-
本文不再"先选算子、再离散化、再做特征分解",而是用一个神经网络直接从任意维度的非结构化数据(点云、图像流形)里学出谱基——以最优逼近理论为根基,让网络通过最小化探针函数在所学基上的重建误差,一次性同时拿到谱基、隐式度量(采样密度)和特征值,在 3D 曲面上逼近 cotangent 拉普拉斯 oracle、又能扩展到高维图像流形。
- Learning from Semantic Dictionaries: Discriminative Codebook Contrastive Learning for Unified Visual Representation and Generation
-
LEASE 用一对「生成码本 + 判别码本」把图像一次性离线编码成两串对齐的离散 token,再用「掩码重建」和「码本对比」两个目标共同训练一个编码器,让同一套潜空间既能高质量生成又有强判别力——不用数据增广、不用在线 tokenizer、不用蒸馏冻结的教师模型,在 ImageNet-1K 上拿到统一 SSL 的新 SoTA,且训练比 MAGE 快 48.7%、比 Sorcen 快 8.75%。
- Learning Like Humans: Analogical Concept Learning for Generalized Category Discovery
-
提出 AL-GCD 框架,通过模拟人类类比推理机制设计"类比文本概念生成器"(ATCG)——从已知类别的视觉-文本知识库中类比生成未知样本的文本概念,将类别发现转化为视觉-文本联合推理任务,在六个基准上平均提升 5.0%,细粒度数据集提升 7.1%。
- Learning to See Through a Baby's Eyes: Early Visual Diets Enable Robust Visual Intelligence in Humans and Machines
-
作者把婴儿视觉发育的三条规律——灰度到彩色、模糊到清晰、保持时间连续——编成自监督训练的"视觉食谱"CATDiet,仅用物体中心视频训练就让 SSL 模型在十个数据集上的损坏图识别、形状偏好、深度感知都更鲁棒,还自发涌现出与猕猴 V1 突触密度、婴儿视崖行为一致的发育信号;进一步提出两阶段的 CombDiet,把它当 warm-up 接上标准 SSL,全面超过常规 SSL。
- Measure The Feature Universe: Topology-based Pseudo Labeling and Gravity Consistency for Source-Free Domain Adaptation
-
针对源域无关域适应(SFDA),本文把目标特征空间建模成一个带虚拟特征填充的"特征宇宙",沿余弦 k-NN 图做特征遍历来传播可靠伪标签,并提出"引力一致性"正则——用弱/强增广特征的相似度来调节 logit 一致性的强度,在 Office-Home、DomainNet-126、VisDA-C 上稳定超过此前 SFDA 方法。
- MemFlow: A Lightweight Forward Memorizing Framework for Quick Domain Adaptive Feature Mapping
-
MemFlow 提出一个受大脑记忆机制启发、完全不用反向传播的"前向记忆框架":冻结骨干网络,只用随机连接神经元把特征-标签关联记成高斯分布并按置信度检索融合,实现端侧可用的快速域适应——在四个跨域数据集上最高提升约 10%,而耗时不到传统域适应方法的 1%。
- MOMO: Mars Orbital Model — Foundation Model for Mars Orbital Applications
-
MOMO 是首个火星遥感基础模型,通过在三种火星传感器(HiRISE/CTX/THEMIS)上分别预训练 MAE 并提出 Equal Validation Loss(EVL)检查点选择策略进行模型融合,在 Mars-Bench 的 9 个下游任务上超越 ImageNet 预训练和地球观测基础模型。
- NitroGen: An Open Foundation Model for Generalist Gaming Agents
-
NitroGen 把「玩家在直播画面里叠加的手柄按键 overlay」当成天然动作标签,从 4 万小时、1000+ 款游戏的公开视频里自动抽出 (画面, 动作) 对,用 flow-matching 训练一个单一的视觉-动作 Transformer,让一个模型在 2D/3D 多种游戏里直接玩,且预训练权重微调到没见过的游戏上成功率最高相对提升 52%。
- Nonparametric Deep Fine-grained Clustering with Low-Rank Guided Vision-Language Model
-
用冻结 VLM 当"教师"把无监督细粒度聚类的低秩压缩重写成 top-k 选择,再叠加扰动实例对比 + 簇心正交约束,最后塞进狄利克雷过程变分推断里同时学表征并自动推断簇数,在 CUB/Dogs/Flower/Pet 等细粒度基准上刷出 SOTA。
- On the Role of Temporal Granularity in the Robustness of Spiking Neural Networks
-
本文从"时间粒度"(单个时间步)而非"时间平均"的视角重新审视脉冲神经网络(SNN)的鲁棒性,提出按时间步逐步构造扰动的 TG-Attack(攻击更强)、用每步输入-输出梯度的 Hessian 定义无需生成对抗样本就能估鲁棒性的 Temporal Sensitivity Value(TSV),并据此设计约束各时间步 TSV 的正则项 TG-Reg,在多数据集多网络上一致超过现有 SOTA 防御。
- OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning
-
OpenVision 2 把上一代 OpenVision 里的文本编码器和对比损失全删掉,只留"图像编码器 + 文本解码器"做 caption-only 的纯生成式预训练,再随机掩掉约 2/3 视觉 token,在几乎不掉点的前提下把 ViT-L/14 训练时间砍掉 ~1.5×、显存砍掉 ~1.8×,并得以把视觉编码器一路扩到 10 亿参数。
- PAF: Perturbation-Aware Filtering for Open-Set Semi-Supervised Learning
-
PAF 把"OOD 样本在语义保持扰动下表征更不稳定"这一现象提炼成一个表征级过滤信号,用 Otsu 自适应阈值动态剔除无标注数据里的开集(OOD)样本,再配合一个两阶段训练框架,在 MNIST/CIFAR/TinyImageNet 等开集半监督基准上同时把可见类分类精度和 OOD 检测 AUC 刷到了 SOTA。
- Parameter-efficient Continual Learning for Enhancing Plasticity without Forgetting under Limited Model Capacity
-
GRAPA 是一种面向"模型容量受限"场景的参数高效持续学习方法,先用梯度方向一致性挑出可安全复用的旧任务冻结参数、再用 A2C 强化学习为每个新任务自适应找出"刚好够用"的剪枝率,从而在不牺牲稳定性(不遗忘)的前提下显著提升可塑性(学新任务),在六条异构任务序列上平均精度最高提升 7.67%、后续复杂任务最高提升 14.92%。
- PointCSP: Cross-Sample Semantic Propagation and Stability Preservation in Self-Supervised Point Cloud Learning
-
PointCSP 针对场景级点云自监督"逐样本独立建模导致跨场景语义不一致"的问题,用状态空间模型把一个 batch 内的样本串成长序列做跨样本语义传播(CSP)建立全局一致语义空间,再用非对称师生语义保持蒸馏(SPD)消除单场景测试时的批依赖偏移,在 S3DIS、3DSES、ScanObjectNN、ModelNet40、ShapeNetPart 上全面刷新 SOTA。
- Progressive Mask Distillation for Self-supervised Video Representation
-
PMD 针对掩码视频自监督"单一掩码率学不全复杂语义"的问题,用四个逐步升高掩码率(75%→80%→85%→90%)的学生做渐进蒸馏,让低掩码率学生先学好低层语义、再当辅助教师引导高掩码率学生学高层语义,并辅以难度感知区域增强和跨层特征对齐,在 SSv2/K400/UCF-101/HMDB-51 上取得 SOTA。
- Quantized Residuals to Continuous Prompts for Few-Shot Class Incremental Learning in Vision-Language Models
-
QR-Prompt 把 CLIP 视觉特征与文本特征之间被对比学习抹平的"残差"离散量化成一组冻结的判别码本(DSQ),再通过层次提示编码器(HPE)和提示组合器(PC)把这些离散码翻译成类自适应的连续提示,从而在少样本类增量学习中同时拿住稳定性与可塑性,在 CUB200/CIFAR100/miniImageNet 上全面超过现有 SOTA。
- Reading Your Actions: Learning Generalizable Action Representations via Pre-training AEMG
-
AEMG 把表面肌电信号(EMG)当成一门"语言"——用能量驱动的分词器把肌肉收缩切成"词"、把多通道协同切成"句子",再用向量量化码本 + 掩码重建做自监督预训练,得到一个跨设备、跨被试、跨任务通用的 EMG 基础模型,在最严格的留一被试(LOSO)零样本手势识别上比六个 SOTA 平均高 5.79–9.25%。
- 用带自突触的单个神经元重构脉冲神经网络
-
受小脑浦肯野细胞自突触自反馈启发,本文给 LIF 神经元加上一组「时延自突触」(TDA-LIF),让单个脉冲神经元在时间维度展开后,通过裁剪/共享自突触就能等价重构出储备池(RC)、多层感知机(MLP)和类卷积三种 SNN 结构;在 RC/MLP 上达到与同规模标准 SNN 相当的精度,同时把每层神经元数压到 1、状态显存从 8 KB 降到 4 Byte、单神经元信息密度提升几十倍,代价是极端单神经元设置下的时间延迟。
- Reframing Long-Tailed Learning via Loss Landscape Geometry
-
从损失景观几何的角度重新审视长尾学习中的head-tail seesaw困境,发现尾类退化的根源是优化收敛到尖锐且远离尾类最优点的区域,提出基于持续学习思想的GKP(分组知识保存)和GSA(分组锐度感知)双模块框架,无需额外数据即在CIFAR-LT/ImageNet-LT/iNat2018四个基准上取得SOTA。
- Representation-Steered Incremental Adapter-Tuning for Class-Incremental Learning with Pre-Trained Models
-
RSIAT 在基于预训练模型的类增量学习中只用一个共享适配器(参数不随任务增长),靠基座任务的"表示引导损失"先把特征塑造得类内紧致、类间分离,再在增量任务用"残差自编码器投影 + 正交损失"对齐新旧特征空间、压制原型漂移,在六个 CIL 基准上以更少参数刷新了稳定性-可塑性的折中。
- Residual Connections Harm Generative Representation Learning
-
作者发现残差连接里那条"恒等捷径"会把浅层的高频细节直接灌进深层、压制语义抽象,于是提出随层深单调衰减恒等捷径权重这一行架构改动(只多一个超参 \(\alpha_{\min}\)、零额外参数),把 MAE 在 ImageNet-1K 上的 KNN 精度从 27.4% 拉到 63.9%、线性探测从 67.8% 提到 72.7%,同时改善扩散模型的生成质量。
- Rethinking SNN Online Training and Deployment: Gradient-Coherent Learning via Hybrid-Driven LIF Model
-
提出 HD-LIF(混合驱动 LIF)脉冲神经元模型族,通过在阈值上下区域采用不同脉冲计算机制,理论证明梯度可分离性和对齐性,解决 SNN 在线训练的前后向传播不一致问题,同时实现学习精度、内存复杂度和功耗的全阶段优化——以 10× 参数压缩、11× 功耗降低和 30% NOPs 节省达到 CIFAR-100 上 78.61% 精度。
- Robust Spiking Neural Networks by Temporal Mutual Information
-
本文从信息论角度证明深度网络的鲁棒误差上界由「输入与隐表示之间的互信息」决定,并指出 SNN 独有的时间特性(累积发放 + 脉冲时序依赖)天然让这一互信息更小,据此提出沿时间维度直接最小化互信息的 TMI 正则项,在 CIFAR/ImageNet 等多个数据集和多种攻击下稳定提升 SNN 的内在鲁棒性。
- Scaling Dense Event-Stream Pretraining from Visual Foundation Models
-
ScaleEvent 把 DINOv3 这类视觉基础模型(VFM)当作冻结教师,在约 50 万对同步「图像-事件」上做大规模跨模态稠密蒸馏,并用「事件激活掩码 + 结构感知损失」修正图像/事件之间因稀疏度和粒度差异导致的语义坍塌,得到可迁移到分割/深度/光流的细粒度事件表征,下游 RMSE 最多直降约 58%。
- Scaling Parallel Sequence Models to Vision Foundation Models
-
本文把线性复杂度的二维空间传播网络 GSPN 改造成压缩潜空间版本 C-GSPN,并用两阶段跨算子蒸馏从注意力教师迁移知识,第一次把次二次算子推到 CLIP 级别的视觉基础模型预训练——1K 分辨率下块级延迟比 FlashAttention 快 2 倍、分割涨 2.1%,零样本精度逼近注意力基线。
- SECOS: Semantic Capture for Rigorous Classification in Open-World Semi-Supervised Learning
-
针对开放世界半监督学习(OWSSL)只会"聚类"、靠匈牙利匹配硬对齐才能算准确率的痛点,SECOS 用冻结的 CLIP 把新类样本的视觉特征"接地"到候选文本标签上,分两级(全局补偿 + 批内精捕)造出可信伪标签、再用 adapter 对齐视觉-语义空间,从而在测试时不做任何后处理就能直接预测文本标签,在 7 个数据集上即便对手用了匈牙利匹配仍领先最多 5.4%。
- Seeing Through the Shift: Causality-Inspired Robust Generalized Category Discovery
-
CausalGCD 把"跨域广义类别发现"重新建模成一个结构因果问题:用因果依赖风险(CDR)压住域相关的虚假捷径、再用因果几何流形约束(CGMC)锁住已知类与新类之间跨域不变的几何关系,在 SSB-C 与 DomainNet 两个含域偏移的基准上稳定超过 FREE、HiLo 等 SOTA 约 2 个百分点。
- Semantic-Guided Global-Local Collaborative Prompt Learning for Few-Shot Class Incremental Learning
-
SGLC 把冻结的 CLIP 当骨干,用「全局视觉-文本原型对齐 + 局部属性-多视角最优传输对齐」双层提示学习适配 FSCIL,再让 LLM 生成的语义描述通过知识蒸馏给两层提示当老师,在 miniImageNet/CIFAR-100/CUB200 三个基准上全面超过此前 SOTA。
- Shape-of-You: Fused Gromov-Wasserstein Optimal Transport for Semantic Correspondence in-the-Wild
-
将语义对应问题重新建模为 Fused Gromov-Wasserstein (FGW) 最优传输问题,利用 3D 基础模型提供的几何结构约束来生成全局一致的伪标签,解决了传统最近邻匹配因局部性和 2D 外观歧义导致的几何不一致问题。
- Smart Replay: Adaptive Scheduling of Memory Rehearsal for Computational Resource-Aware Incremental Learning
-
本文提出"计算资源感知增量学习(CRIL)"这一新设定,并设计 Smart Replay——把每个 mini-batch 里回放样本占比 \(\lambda_r\) 当作可调控制量,用最优控制 + 启发式 Q 函数在固定算力预算下逐步动态调度回放比例,在相同算力下比固定回放比的基线精度更高、遗忘更低。
- Spectral Mixture-of-Experts for Continual Learning
-
针对 LoRA-MoE 做持续学习时的"结构性干扰"和"组合式遗忘"两大失效,本文提出 Spectral MoE:用互不重叠的频域掩码把每个专家约束到独立频率子空间从而天然正交,再配一套在线/离线双路由 + 动态一致性投影来锁住路由策略,在跨域任务无关增量学习上同时拿到更高的保留率和可塑性。
- Stabilizing Feature Geometry in Noisy Pretrained Models for Robust Downstream Tasks
-
作者发现预训练噪声不仅会削弱特征谱能量、更会让主特征子空间发生「旋转」,提出用主方向角 PDA 量化这种旋转,并设计一个只在 backbone 后插轻量投影头、用扰动一致性 + 方差-激活正则 + 特征一致蒸馏三件套(FGS 框架)来稳住特征几何,在多个视觉 benchmark 上比之前的谱方法平均高至少 +1.53%。
- Subspace Alignment for CLIP-based Continual Learning via Canonical Correlation Analysis
-
针对 CLIP 持续学习中"视觉编码器漂移远大于文本编码器"导致的跨模态对齐退化(作者称之为 Asymmetric Drift),本文提出 CCA-CL:跨任务累积视觉-文本协方差统计,用闭式典型相关分析(CCA)解出一个最大化两模态相关性的共享子空间,在不改 CLIP 参数、不存样本的前提下把两模态拉回对齐,并用随机傅里叶投影补上非线性,在四个基准上同时拿下 SOTA 精度与最快训练速度(CIFAR-100 上 5.8 分钟)。
- Suppressing Non-Semantic Noise in Masked Image Modeling Representations
-
本文揭示了掩码图像建模(MIM)学到的表征中保留了大量非语义信息(如纹理、颜色等底层特征),并提出了一种无需训练的后处理方法 SOAP(Semantically Orthogonal Artifact Projection),通过 PCA 识别并投影去除非语义成分,在多种 MIM 模型上一致提升零样本性能。
- TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction
-
提出 TALO,一种基于 Thin Plate Spline 的高自由度对齐框架,通过全局传播控制点和点无关的子图配准设计,纠正 3D 视觉基础模型在在线重建中的空间变化不一致性,兼容多种基础模型和相机配置,在 Waymo/nuScenes 数据集上显著降低轨迹误差。
- TAR: Token-Aware Refinement for Fine-grained Generalized Category Discovery
-
针对细粒度广义类别发现(GCD)里 ViT 的「注意力伪影」(少数高范数 token 把注意力吸走、让 [CLS] 过度依赖全局语义而忽略局部判别线索)问题,TAR 用一个即插即用的三模块流水线——先无参重加权剔除高范数 token,再按与 [CLS] 的一致性采样可靠局部 token,最后用门控把局部细节注入 [CLS]——在 CUB / Cars / Aircraft 等多个细粒度基准上稳定涨点。
- Teaching DINOv3 About Partial 3D Geometry: A Self-Supervised Geometry-Aware Approach
-
本文提出 GeoLoRA:用合成的「完整形状↔部分形状」配对作自监督信号,在冻结的 DINOv3 上挂一个共享权重的 LoRA 模块,配合一个带测地距离加权的 PointInfoNCE 对比损失,把 3D 几何感注入 2D 基础特征,从而在部分形状匹配(partial-to-full / partial-to-partial)和左右手性判别上拿到 SOTA。
- TeFlow: Enabling Multi-frame Supervision for Self-Supervised Feed-forward Scene Flow Estimation
-
提出TeFlow——首个将多帧监督引入自监督前馈场景流估计的方法:通过时序集成策略构建运动候选池并基于共识投票聚合时序一致的监督信号,在Argoverse 2上Three-way EPE达3.57cm(媲美优化方法Floxels)同时保持实时推理(8s vs 24min),较SeFlow++提升22.3%。
- Temporal Imbalance of Positive and Negative Supervision in Class-Incremental Learning
-
提出时序不平衡(Temporal Imbalance)这一被忽视的类增量学习偏差来源,并设计 Temporal-Adjusted Loss(TAL)通过时间衰减记忆核动态降低旧类的负监督权重,以即插即用的方式显著缓解灾难性遗忘。
- Temporal Interaction in Spiking Transformers with Multi-Delay Mixer
-
针对脉冲 Transformer 的自注意力"只建模空间、几乎不建模时间"的缺陷,本文先提出 TIC 指标量化这一问题,再用受生物轴突传输延迟启发的 Multi-Delay Mixer(多分支可学习延迟)作为即插即用模块为 Key/Value 注入多尺度时间依赖,在静态、神经形态、长序列三类基准上一致刷新脉冲 Transformer 的 SOTA。
- Temporal Representation Enhancement (TRE): Learning to Forget Dominant Patterns for Enhanced Temporal Spiking Features
-
针对脉冲神经网络(SNN)在多个时间步上反复激活同一批主导通道、导致时序表示高度冗余的问题,本文提出 TRE:训练时按类别估计每个通道的贡献度,用自适应阈值门控把"过度主导"的通道暂时遮蔽掉,逼后续时间步去挖互补语义;推理时不加任何遮蔽、零额外开销,在 CIFAR-100/ImageNet/DVS-CIFAR10 上稳定涨点。
- Text-Phase Synergy Network with Dual Priors for Unsupervised Cross-Domain Image Retrieval
-
提出TPSNet,将CLIP学习的域提示(domain prompt)作为文本先验提供精细语义监督,同时引入相位谱特征作为相位先验来桥接域分布差异并保持语义完整性,通过文本-相位双先验的协同实现无监督跨域图像检索的显著提升。
- The Devil Is in Gradient Entanglement: Energy-Aware Gradient Coordinator for Robust Generalized Category Discovery
-
本文发现广义类别发现(GCD)里监督与无监督目标共享一套参数会产生「梯度纠缠」——无监督梯度污染监督方向、监督梯度又把新类表征拽进旧类子空间,于是提出即插即用的 EAGC:用一个纯监督参考模型把有标签样本的梯度锚住(AGA),同时把无标签梯度按能量自适应地软投影出旧类子空间(EEP),在四个 GCD baseline、五个数据集上平均把 All ACC 提升 3.2%、New ACC 提升 4.3%。
- Towards Stable Self-Supervised Object Representations in Unconstrained Egocentric Video
-
EgoViT 用一个师生 ViT 框架,从无标注的第一人称视频里联合优化「原型物体发现 + 深度几何正则 + 教师过滤的时序一致性」三个机制,让无监督物体发现 CorLoc 提升 +8.0%、语义分割 mIoU 提升 +4.8%。
- TrackMAE: Video Representation Learning via Track, Mask, and Predict
-
在masked video modeling(MVM)框架中引入显式的运动信号:使用CoTracker3提取点轨迹作为额外的重建目标,并设计运动感知遮掩策略,联合学习空间重建和运动预测,在运动敏感基准(SSv2、FineGym)上显著超越现有视频自监督方法。
- Trust-calibrated Collaborative Learning for Long-Tailed Visual Recognition
-
针对长尾识别中多专家「互蒸馏」会把单个专家的错误扩散到全员(偏差传播)、甚至全员一起高置信度认错(错误固化)的问题,本文提出 TCL:用「知识质量门 + 尾类知识补偿」只让预测对的专家传播知识、并放大稀有正确知识,再用「共识纠错模块」检测并压制全员一致看错的高置信负类,把 CIFAR100-LT 的 Top-1 从 57.2% 提到 58.7%。
- Tunable Soft Equivariance with Guarantees
-
本文提出一个架构无关的"软等变"框架:把任意预训练模型的权重投影到一个由群的李代数表示决定的子空间里,用一个截断阈值 \(b\) 连续地调节模型从「完全等变」到「完全不等变」,并给出等变误差的可证明上界;在 ImageNet/分割/轨迹预测上同时提升精度并降低等变误差。
- Unique Lives, Shared World: Learning from Single-Life Videos
-
只用「一个人一辈子(实际是几小时到 38 小时)的第一人称视频」就能自监督训练出一个几何感知的视觉编码器,论文进一步发现不同人各自独立训练出来的模型会收敛到高度一致的几何表示,并且这种「单生命」表示能迁移到深度估计等下游任务、性能与同等时长的多样网络视频不相上下。
- UniRefiner: Teaching Pre-trained ViTs to Self-Dispose Dross via Contrastive Register
-
UniRefiner 把大规模预训练 ViT(甚至 EVA-CLIP-8B、InternViT-6B)特征图里多达 40% 的"虚假 token"系统地分成三类,用一个多路检测器把它们筛出来,再通过"对比式 register"在 LoRA 自蒸馏中把虚假信号显式驱赶到 register 区域、把干净语义留在图像区域,仅用 5k 图像、几个 epoch 微调,就让原本不擅长稠密任务的视觉-语言大模型在 ADE20K 分割上反超 DINOv2(EVA-CLIP-8B 达 51.9% mIoU,+9.4%)。
- UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders
-
UPLiFT 用一个权重共享的卷积式 2× 解码器迭代地把预训练骨干(如 DINOv2)的低分辨率特征上采样到逐像素密度,并提出一个完全基于固定局部偏移的 Local Attender 算子来取代跨注意力,从而在保持特征语义一致、避免「迭代上采样语义漂移」的同时把复杂度从二次降到线性——在分割/深度估计上超过所有现有上采样器,速度还更快。
- VideoSSR: Video Self-Supervised Reinforcement Learning
-
针对「强模型已被现有视频 RLVR 数据集喂饱、人工标注又太贵」的困境,VideoSSR 用三个可参数化调难度的视频自监督 pretext 任务(异常定位 / 物体计数 / 时序拼图)从原始视频自动造出带可验证答案的训练数据,再配上为每个任务定制的平滑奖励函数做 GRPO 训练,在 17 个 benchmark 上让 Qwen3-VL-8B 平均涨 5% 以上。
- Vision Transformers Need More Than Registers
-
这篇论文认为 ViT 在标签监督、文本监督和自监督下普遍存在的 dense feature 伪影,本质上不是单纯的 high-norm token 问题,而是模型在粗粒度监督和全局注意力共同作用下学会了用背景 patch 充当全局语义捷径;作者据此提出 LaSt-ViT,用频域稳定性引导的选择性聚合替代原始 CLS 聚合,在 12 个基准上稳定改善定位、分割和开放词汇任务。
- VT-Intrinsic: Physics-Based Decomposition of Reflectance and Shading using a Single Visible-Thermal Image Pair
-
VT-Intrinsic 利用可见光和热红外图像之间的物理互补关系(未反射的光被吸收变为热量),推导出可见光-热成像强度的序数关系(ordinality)直接对应反射率和光照的序数关系,以此为自监督信号驱动神经网络优化,实现了无需预训练数据的高质量内在图像分解。
- Weight Space Representation Learning via Neural Field Adaptation
-
本文提出用「预训练神经场基模型 + 乘性 LoRA(mLoRA)+ 非对称掩码」把每个样本独立拟合出来的网络权重约束成有结构的表示,让 INR 的权重本身既能高质量重建、又能在权重上跑扩散模型生成,还带语义可分性,在 FFHQ / ShapeNet 上全面超过此前的权重空间方法 HyperDiffusion。
- Your Dissimilarities Define You: Complementary Learning Exploiting Class Diversities
-
针对交叉熵在样本被正确分类后非目标类梯度消失、丢掉"类别之间有多不像"这条信息的问题,本文提出 Complementary Dissimilarity Loss (CDL):用"目标类置 0、非目标类按相异性分配概率质量"的 one-cold 目标显式监督所有非目标类,保持不消失的梯度,主动把表示推向可控的 Neural Collapse,在闭集 / 开集 / 小样本 / 域泛化四类任务上即插即用地稳定涨点。