🔄 自监督/表示学习¶
📹 ICCV2025 · 11 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (2) · 📷 CVPR2026 (38) · 🔬 ICLR2026 (15) · 🤖 AAAI2026 (14) · 🧠 NeurIPS2025 (36) · 🧪 ICML2025 (24)
- A Token-level Text Image Foundation Model for Document Understanding (TokenFD/TokenVL)
-
提出首个 token 级别文本图像基础模型 TokenFD,通过在 2000 万图像、18 亿 BPE token-mask 对上进行 token 级视觉-语言对齐预训练,实现 image-as-text 语义能力,并基于此构建文档理解 MLLM TokenVL,在 OCRBench 上得分 860(8B 组最高),在 DocVQA 等十项 VQA 任务上平均提升 8.8%。
- Always Skip Attention
-
本文从理论上证明了 Vision Transformer 中的自注意力机制是本质上病态的(ill-conditioned),在无 skip connection 时会导致训练崩溃,并提出 Token Graying(TG)方法通过改善输入 token 的条件数来进一步增强 ViT 的训练稳定性和性能。
- CObL: Toward Zero-Shot Ordinal Layering without User Prompting
-
本文提出 CObL,一种基于多个冻结 Stable Diffusion UNet 并行生成的架构,能在无需用户提示、不知物体数量的前提下,从单张图像推断出遮挡排序的物体层叠表示(每层一个 amodal 完整物体),并且仅用数千张合成桌面场景就能零样本泛化到真实世界照片。
- From Linearity to Non-Linearity: How Masked Autoencoders Capture Spatial Correlations
-
从理论角度分析 MAE 如何学习图像中的空间相关性,推导出线性 MAE 的解析解,揭示了掩码比例和 patch 大小如何选择短距离和长距离空间特征,并将分析扩展到非线性 MAE,为实践中的超参数选择提供了理论指导。
- Improving Large Vision and Language Models by Learning from a Panel of Peers
-
提出 Panel-of-Peers (PoP) 学习框架,利用多个性能相近的 LVLM 互相生成候选答案、互相评分、构建偏好数据,并通过 SimPO 迭代自我改进,在 15 个基准上将平均分从 48% 提升至 57%,无需人工标注数据。
- LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models
-
提出LoftUp,通过坐标-cross-attention架构直接将低分辨率VFM特征映射到任意高分辨率,并用class-agnostic mask精炼+自蒸馏构建全分辨率伪GT进行训练,在6个下游任务上平均提升10-20%且在视频目标分割上提升近50%。
- Manual-PA: Learning 3D Part Assembly from Instruction Diagrams
-
提出 Manual-PA,一个基于 Transformer 的说明书引导 3D 零件组装框架:通过对比学习将 3D 零件与说明书步骤图对齐来推断组装顺序,再以学到的顺序作为位置编码的软引导进行 6DoF 位姿预测,在 PartNet 上显著超越现有方法。
- MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning
-
MoSiC 利用离线点跟踪器提取长程运动轨迹,通过基于最优传输(Sinkhorn-Knopp)的聚类机制在时间维度上传播聚类分配,从而在视频数据上学习空间-时间一致的稠密表征,仅用视频训练即可将 DINOv2 在多个图像/视频基准上提升 1%–6%。
- Scaling Language-Free Visual Representation Learning
-
通过在MetaCLIP的20亿web图像上训练DINOv2/MAE系列模型(1B-7B参数),系统性地证明纯视觉自监督学习在模型和数据规模上展现优于CLIP的scaling behavior,5B+参数时在VQA平均性能上超越CLIP——包括传统认为需要语言监督的OCR/Chart任务。
- To Label or Not to Label: PALM – A Predictive Model for Evaluating Sample Efficiency in Active Learning Models
-
提出 PALM——一个用4个可解释参数(最大精度 \(A_{\max}\)、覆盖效率 \(\delta\)、初始学习偏移 \(\alpha\)、扩展性 \(\beta\))描述主动学习轨迹的统一数学模型,能从有限标注数据预测完整学习曲线,实现主动学习策略的定量公平比较。
- WIR3D: Visually-Informed and Geometry-Aware 3D Shape Abstraction
-
WIR3D 通过优化一组 3D Bézier 曲线参数,在 CLIP 中间层激活的空间引导下,从任意视角忠实表示 3D 形状的几何结构和视觉显著特征(包括纹理),实现稀疏但语义丰富的 3D 形状抽象。