跳转至

🔄 自监督/表示学习

🤖 AAAI2026 · 14 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (2) · 📷 CVPR2026 (38) · 🔬 ICLR2026 (15) · 🧠 NeurIPS2025 (36) · 📹 ICCV2025 (11) · 🧪 ICML2025 (24)

🔥 高频主题: 对抗鲁棒 ×4 · 对齐/RLHF ×3 · 自监督学习 ×3

BCE3S: Binary Cross-Entropy Based Tripartite Synergistic Learning for Long-tailed Recognition

提出 BCE3S,一种基于二元交叉熵(BCE)的三方协同学习框架,将 BCE 式联合学习、BCE 式对比学习和 BCE 式分类器均匀性学习集成在一起,通过 Sigmoid 解耦不同类别的度量来抑制长尾不平衡效应,在 CIFAR10/100-LT、ImageNet-LT 和 iNaturalist2018 上均取得 SOTA。

Explanation-Preserving Augmentation for Semi-Supervised Graph Representation Learning

提出EPA-GRL(Explanation-Preserving Augmentation),利用少量标签训练的GNN explainer识别图的语义子图(explanation subgraph),增强时只扰动非语义部分(marginal subgraph),实现语义保持的图增强,在6个benchmark上显著优于语义无关的随机增强方法。

FedGRPO: Privately Optimizing Foundation Models with Group-Relative Rewards from Domain Clients

提出 FedGRPO,将大模型优化重新定义为基于奖励的评估过程,通过能力感知的专家选择和联邦组相对策略优化(仅传输标量奖励信号),实现了隐私保护且通信效率极高的联邦基础模型优化,在数学推理和问答任务上性能接近甚至超越集中式 GRPO。

FineXtrol: Controllable Motion Generation via Fine-Grained Text

提出 FineXtrol 框架,利用带时间标注的细粒度身体部位文本描述作为控制信号,通过双分支 ControlNet 架构和层级对比学习增强文本编码器的区分能力,实现高效、用户友好且精确的可控人体动作生成,在 HumanML3D 上多身体部位控制性能显著优于现有方法。

From Pretrain to Pain: Adversarial Vulnerability of Video Foundation Models without Finetuning

提出 Transferable Video Attack (TVA),仅利用开源视频基础模型(VFM)的嵌入空间即可生成对抗扰动,无需任何下游任务知识便能有效攻击24个视频任务上的下游模型和多模态LLM。

HiLoMix: Robust High- and Low-Frequency Graph Learning Framework for Mixing Address Association

提出 HiLoMix,一种针对混币地址关联任务的鲁棒图学习框架,通过异质属性混合交互图(HAMIG)、频率感知图对比学习和基于置信度的标签加权监督学习,分别解决图稀疏、标签稀缺和标签噪声三大挑战,在 F1、AUC、MRR 上分别超越次优基线 5.69%、7.34% 和 15.61%。

Improving Region Representation Learning from Urban Imagery with Noisy Long-Caption Supervision

提出 UrbanLN 框架,通过长文本感知的位置编码插值策略和数据-模型双层噪声抑制机制,改善基于 LLM 生成描述的城市区域表征学习。

Let the Void Be Void: Robust Open-Set Semi-Supervised Learning via Selective Non-Alignment

提出 SkipAlign 框架,在对比学习的传统 pull/push 操作之外引入第三种 "skip" 操作,对低置信度样本选择性跳过对齐(只做温和排斥),使 ID 类形成紧凑"星系"、OOD 样本自然散布于"星际虚空",在未见过的 OOD 检测中平均 AUC 提升 +3.1,最高 +7.1。

MovSemCL: Movement-Semantics Contrastive Learning for Trajectory Similarity (Extension)

提出 MovSemCL 框架,将 GPS 轨迹转化为运动语义特征(位移向量 + 航向角 + Node2Vec 空间图嵌入),通过 patch 级双层注意力实现层次编码(复杂度从 \(O(L^2)\) 降为近线性),并设计曲率引导增广(CGA)保留转弯/路口等行为关键片段,在轨迹检索任务上 mean rank 接近理想值 1,推理延迟降低 43.4%。

NeuroBridge: Bio-Inspired Self-Supervised EEG-to-Image Decoding via Cognitive Priors and Bidirectional Semantic Alignment

提出NeuroBridge框架,通过认知先验增强(CPA,非对称增广模拟感知变异性)和共享语义投影器(SSP,双向对齐到统一语义空间),在THINGS-EEG数据集200类零样本EEG-图像检索任务上达到63.2% Top-1(+12.3%)和89.9% Top-5(+10.2%),大幅超越现有SOTA。

Robust Tabular Foundation Models

提出 RTFM——一种模型无关的对抗训练框架,通过在合成数据生成器的参数空间上做 min-max 优化(最大化 TFM 与传统树模型之间的"最优性差距"),仅用不到 10 万额外合成数据集就显著提升了 TabPFN V2 在多个表格基准上的表现。

Self-Supervised Inductive Logic Programming

提出自监督归纳逻辑编程(SS-ILP)新设定及 Poker 系统,仅从少量正标签样本和无标签样本出发,自动生成正负样本,配合最大化通用的二阶确定性范式(SONF)背景理论,在无负样本情况下学习含递归和谓词发明的逻辑程序。

Spikingformer: A Key Foundation Model for Spiking Neural Networks

提出 Spikingformer,通过将 MS Residual 与 Self-Attention 以 spike-driven 方式结合,解决 Spikformer 中 SEW Residual 导致的非脉冲计算问题,同时保持全局建模能力。

Towards LLM-Empowered Knowledge Tracing via LLM-Student Hierarchical Behavior Alignment in Hyperbolic Space

提出 L-HAKT 框架,首次将 LLM 双 Agent 与双曲几何结合用于知识追踪:教师 Agent 解析题目语义并构建层级知识图谱,学生 Agent 模拟个体学习行为生成合成数据,通过双曲空间对比对齐校准合成数据与真实数据的分布差异,在四个教育数据集上 AUC 最高达 80.29%,相比 GKT 基线在 EdNet 上 AUC 提升 13.03%。