跳转至

📚 预训练

📷 CVPR2026 · 5 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (79) · 💬 ACL2026 (12) · 🧪 ICML2026 (27) · 🤖 AAAI2026 (9) · 🧠 NeurIPS2025 (51) · 📹 ICCV2025 (9)

Exploring Visual Pretraining for Learning Language Intelligence

这篇论文提出 MAPLE:不把 PDF 抽成文本喂给 LLM,而是直接拿文档页面图像做掩码自回归预训练,让 LLM 通过"为遮挡区域生成隐式假设"来学语言智能,在四个数学推理基准上相对纯文本预训练平均提升至多 40.2%。

Linking Modality Isolation in Heterogeneous Collaborative Perception

提出 CodeAlign 框架,通过码本构建离散代码空间和跨模态 Feature-Code-Feature (FCF) 翻译,首次解决异构协同感知中不同模态从未在训练数据中共现的"模态隔离"问题,仅需 HEAL 8% 训练参数、通信量降低 1024 倍,同时达到 SOTA 感知性能。

Reconstructing CLIP for Open-Vocabulary Dense Perception

DenseRC 针对"如何为 CLIP 构建好的密集特征"这一被忽视的问题,揭示 cls token 的泛化语义其实来自多层 value embedding、而空间聚合会放大语义错位,于是用多层 value 作基底、配一个轻量的头选择门控(HSG)只在 head 维重加权,造出与全局语义对齐的密集表示,在开放词汇检测和分割多个基准上刷新 SOTA。

Unlocking Pre-trained Weights: Parameter Inheritance for Zero-Shot Initialization

PITH 用图超网络给目标网络动态生成「投影矩阵」,把预训练大模型的内部权重直接投影到任意尺寸的目标 ViT 上完成初始化,使得初始化后的网络无需任何训练就能直接用——在 ImageNet-1K 上 ViT-Base 零样本精度 53.35%,比上一代 SOTA(TAL)高 6.54%。

Watch and Learn: Learning to Use Computers from Online Videos

提出 Watch & Learn (W&L) 框架,通过逆动力学模型 (IDM) 将互联网上的人类计算机操作视频自动转化为可执行的 UI 轨迹数据,生成 53K+ 高质量轨迹,作为 ICL 示例或 SFT 训练数据显著提升各类 CUA 性能。