SigLino: Efficient Multi-Teacher Distillation for Agglomerative Vision Foundation Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 sofianchay.github.io/amoe（释放 OpenLVD200M 数据集 + 5 个蒸馏 checkpoint）
领域: 模型压缩 / 多教师知识蒸馏
关键词: 多教师蒸馏, 聚合式视觉基础模型, 关系蒸馏, Token 均衡 batching, MoE

一句话总结¶

SigLino 系统研究"把多个视觉基础模型（SigLIP2 + DINOv3）蒸馏成一个聚合式学生模型"的数据效率问题，提出非对称关系蒸馏（ARKD）、token 均衡 batching、层次聚类数据筛选三件套，只用 200M 图（约 RADIO 1/4.7 的 token 预算）就在分类/检索/分割上超过同规模 RADIOv2.5，并把学生直接拿去初始化早融合 grounding VLM 的视觉专家。

研究背景与动机¶

领域现状：当前做通用视觉表征有两条路。一条是模块化的 VLM（一个对齐文本的视觉编码器 + 一个 LLM 拼起来），擅长指令跟随但在稠密预测任务上偏弱、也不是天生多模态；另一条是单一监督源训练的专用模型（如纯对比、纯自监督），各自把目标任务做到极致但缺乏通用性。近期出现的第三条路是聚合式视觉基础模型（Agglomerative VFM）：用多教师蒸馏，把若干互补教师的能力压进同一个 backbone，代表作是 AM-RADIO / RADIOv2.5。

现有痛点：聚合式蒸馏虽有前景，但"贵"。它通常需要海量训练样本（RADIO 用到 ~1.1 万亿 image token），还要小心处理教师之间分辨率不一致、多个损失函数怎么平衡这些工程细节。学习动态和数据效率几乎没人系统研究过——大家是"堆数据 + 调 loss"硬训出来的。

核心矛盾：多教师蒸馏的瓶颈不在模型容量，而在三处被忽视的地方——训练数据的质量与分布、多分辨率训练的稳定性、教师关系几何结构的保留。教师 SigLIP2（图文对齐强但稠密特征不可分）和 DINOv3（稠密特征极好但图文对齐是事后 LiT 才补的）统计尺度差异巨大，朴素的逐样本 MSE 匹配会被高方差教师/高分辨率图主导梯度。

本文目标：在一个标准化框架下，把聚合式 VFM 训得更省数据、表征还更好。拆成：(1) 用什么数据训最省；(2) 怎么在原生分辨率下稳定训练；(3) 怎么在匹配教师时不破坏它的聚类几何。

切入角度：把自监督学习里成熟的"层次聚类筛数据"搬到蒸馏；把关系蒸馏（RKD，匹配样本间两两距离）引入，但发现它会伤 kNN 聚类，于是改成"非对称"版本只在该拉近/推远时动手。

核心 idea：用"数据筛选 + token 均衡 batching + 非对称关系蒸馏"三件套，把多教师蒸馏从"暴力堆 token"变成"高数据效率的标准化配方"，并用 MoE 学生天然容纳互补教师信号、直接服务早融合 grounding VLM。

方法详解¶

整体框架¶

SigLino 的训练分两条时间线串起来。蒸馏阶段：一张图同时喂给两个冻结教师（SigLIP2、DINOv3）和 MoE 学生；学生输出 CLS 全局 token、patch token 和 register token，经过每个教师各自的可学习投影头映射到该教师的嵌入空间；损失同时对齐全局（CLS/attention pooling）、稠密（patch）和 register（仅 DINOv3）三类表征，并叠加一个匹配"样本间两两几何"的 ARKD 关系损失。在这之前，训练数据先经过层次聚类筛成 OpenLVD200M，每个 batch 用 token 均衡打包多张原生分辨率图、按每图 token 数归一化损失。蒸馏好的学生再进入下游阶段：用它去初始化一个早融合 grounding MoE VLM 的视觉专家，配 Gram-anchoring 防止稠密特征在微调中退化，做指代表达检测/分割。

整条 pipeline 是"数据筛选 → 稳定 batching → 多教师对齐损失（含 ARKD）→ MoE 学生 → 下游 grounding 初始化"的串行流水：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["2.3B 网络图<br/>(LAION + DFN)"] --> B["1. OpenLVD200M<br/>层次聚类 + 均衡采样"]
    B --> C["2. Token 均衡 batching<br/>打包原生分辨率 + 逐图归一化"]
    C --> D["MoE 学生<br/>+ 教师专属投影头"]
    T["冻结教师<br/>SigLIP2 + DINOv3"] --> D
    D --> E["3. 非对称关系蒸馏 ARKD<br/>+ PHI-S 教师均衡"]
    E --> F["蒸馏好的聚合学生"]
    F --> G["4. 早融合 grounding VLM<br/>初始化视觉专家 + Gram-anchoring"]

关键设计¶

1. OpenLVD200M：把自监督的层次聚类筛数据搬进多教师蒸馏

痛点是网络图天然长尾，随机采样会让常见概念压倒细粒度/长尾概念，蒸馏样本效率低。作者借用 DINOv3 训练时用过的层次聚类+均衡采样（原本是 SSL 专属技巧），把它用到蒸馏侧：从 LAION+DFN 混成的 23 亿图里，先用 DINOv3 ViT-B 编码、均匀下采到 10 亿，跑一个 4 级层次聚类（20M、500k、50k、20k 个质心），再把剩余 17 亿图分配到一级质心，最后做层次采样得到均衡的 2 亿子集 OpenLVD200M。作者还对原算法做了效率改造，把所需算力从估计的 45 个节点压到 12 个 A100 节点。为什么有效：均衡覆盖视觉概念后，细粒度/长尾类别得到充分曝光——消融里图文分类平均从 74.96 涨到 79.11（+4.15），FGVC-Aircraft 这种细粒度数据集单项暴涨 +18.64。这说明"蒸馏的数据分布"本身就是被严重低估的杠杆。

2. Token 均衡 batching：让多分辨率训练不崩、不忘低分辨率

痛点是原生分辨率训练下每张图 patch 数差异极大（256×256 出 256 个 patch，768×768 出 2304 个），按"每 rank 固定图数"朴素 batching 会让各 rank 的 token 数严重失衡，引发高范数梯度、训练失稳。作者用 FlexAttention 把多张图打包进一个序列、上限为固定上下文长度 \(C_{max}\)（最多 16 图/序列），并用 attention mask 阻断图间自注意力，使每个 rank 的 token 预算近似一致。但打包带来新问题——每个序列含图数不同，损失必须正确归一化才能让梯度无偏。于是损失按每图 token 数归一化后再全局平均：patch 损失 \(L^{(t)}_{patch}(q)=\frac{1}{N_q}\sum_{\omega=1}^{N_q}\|z^{(t,p)}_{q,\omega}-\hat z^{(t,p)}_{q,\omega}\|_2^2\)，全局聚合 \(L^{(t)}_{global}=\frac{1}{B_{global}}\sum_{r,j,i}L^{(t)}(q)\)，保证每张图无论分辨率都等权贡献。效果是既不忘低分辨率全局特征（甚至提升），又把吞吐从 7.5k token/s 提到 20k token/s（padding 大减）——稳定性和效率同时拿到。

3. ARKD：非对称关系蒸馏，对齐图文又不毁聚类

痛点是只做逐样本一对一匹配，跨样本的相对几何没人管。作者引入关系蒸馏 RKD（匹配 batch 内样本两两距离），发现它对 DINOv3 的图文对齐极有用（DINOv3 是事后 LiT 才对齐文本、图文相似度尺度只有 0.2 vs SigLIP2 的 0.9，关系损失成了"强制正确样本间距"的正则），但普通 RKD 会伤 kNN 聚类——它会在本该相对疏远的样本上过度推拉。作者的修法是把它做成非对称：以教师空间内 batch 距离的中位数 \(m\) 为决策边界，只在"该近的时候拉近、该远的时候推远"动手。记教师/学生归一化距离 \(\hat D^T_{ij},\hat D^S_{ij}\)，定义单侧误差 \(\text{shrink}_{ij}=\max\{\hat D^S_{ij}-\hat D^T_{ij},0\}\)、\(\text{expand}_{ij}=\max\{\hat D^T_{ij}-\hat D^S_{ij},0\}\)，并用 \(w_{shrink,ij}=\mathbb{1}\{\hat D^T_{ij}<m\}\) 做二元门控：

\[L^{(t)}_{ARKD}=\frac{1}{B_{global}(B_{global}-1)}\sum_{i\neq j}\big[w_{expand,ij}\,h(\text{expand}_{ij})+w_{shrink,ij}\,h(\text{shrink}_{ij})\big]\]

其中 \(h(\cdot)\) 是 smooth-L1。消融（Table 4）显示：vanilla RKD 把 DINOv3 图文从 63.71 拉到 77.48 但 kNN 略掉；ARKD 既拿到图文增益（ensemble 80.21）又把 kNN 恢复到 83.63，是最佳折中。

4. MoE 学生 + 早融合 grounding 初始化 + Gram-anchoring

聚合式蒸馏要同时吸收两类异质教师信号，MoE 架构天然适合做"模态/能力专门化"。学生是 18 层 MoE（0.3B 激活 / 0.6B 总参，28 专家激活 6 个），还配 PHI-S 教师均衡——不同教师方差/均值差异巨大，MSE 会隐式偏袒高方差教师，PHI-S 用可逆线性映射把每个教师目标标准化、推理时再逆回教师原空间（但 DINOv3 第二个 register 因多模态分布估不准，作者干脆 register 不上 PHI-S）。下游把蒸好的学生拿去初始化早融合 grounding MoE VLM 的视觉专家，让图文 token 在每一层都交互（不像模块化 VLM 那样图特征很晚才碰文本）。微调时稠密特征会退化（patch 越来越像 CLS），作者用 Gram-anchoring 对着冻结的蒸馏学生约束 patch 间 Gram 矩阵：\(L_{gram}=\frac{1}{B}\sum_b\frac{1}{N_b^2}\|K^S_b-K^T_b\|_F^2\)，把样本间几何锚住、保住空间相干性。效果是 grounding 从 scratch 训练的 29.15 提到 SigLino init 的 57.49、再加 Gram 到 61.06（RefCOCO 检测）。

损失函数 / 训练策略¶

每个教师的逐图损失 \(L^{(t)}(q)=L^{(t)}_{CLS}(q)+L^{(t)}_{patch}(q)+L^{(t)}_{reg}(q)\)（register 项仅 DINOv3），全局对所有图等权平均后对所有教师求和 \(L_{total}=\sum_t L^{(t)}_{global}\)，每个教师再叠加 ARKD：\(L^{(t)}=L^{(t)}_{global}+L^{(t)}_{ARKD}\)。两阶段训练：Stage 1 在 OpenLVD 上做到 256×256（50k 步）快速学全局+稠密表征；Stage 2 在 13M 图（11.5M 来自 SAM + 1.5M 网络图）上 post-train 到 768×768（90k 步），用多分辨率混合（重新引入 256×256 的 OpenLVD + 原生 256–384 尺寸 + 高分辨率池下采到 256/512）防止高分辨率分布漂移导致低分辨率遗忘。硬件：4 节点 ×8 A100。

实验关键数据¶

主实验¶

512×512 下与同规模 RADIOv2.5 对比（macro 平均，Ensemble 头）：

任务	指标	SigLino-MoE-0.3-0.6B	SigLino-Dense-0.6B	RADIOv2.5-H (0.6B)
图文分类	Avg Top-1	84.13	84.40	82.26
kNN 分类	Avg Top-1	88.06	90.70	85.12
检索 MSCOCO5k	T2I@1	53.98	55.60	53.24
检索 Flickr30k	I2T@1	94.30	94.20	93.50
线性探针分割 ADE20k	mIoU	52.23	52.95	51.37
线性探针分割 Cityscapes	mIoU	64.36	65.38	64.11

关键是 SigLino 只用约 2300 亿 image token（0.23TT），是 RADIO 1.1 万亿的 1/4.7，却在 macro 平均上全面反超，甚至 ensemble 评测超过两个教师本身。超稀疏变体（top-2/28，仅 0.15B 激活）也仍超 RADIOv2.5-H（83.10 / 89.80）。

消融实验¶

配置	图文 Avg	kNN Avg	说明
Vanilla MT（无 RKD）	77.62	83.54	只逐样本匹配
RKD（对称）	79.49	82.61	图文涨但 kNN 掉
ARKD（非对称）	80.21	83.63	图文与 kNN 双赢
Random 200M	74.96	82.66	随机采样数据
OpenLVD200M	79.11	85.08	层次聚类筛选（+4.15 / +2.42）

grounding 初始化消融（RefCOCO 检测 [email protected]）：Scratch 29.15 → SigLino init 57.49 → +Gram 61.06；多教师（54.72）显著超单教师 SigLIP2-only（40.69）/ DINOv3-only（45.06）。

关键发现¶

数据筛选是最大杠杆：OpenLVD200M 比同量随机采样图文 +4.15，细粒度 FGVC-Aircraft 单项 +18.64，说明蒸馏里"喂什么数据"被严重低估。
ARKD 的非对称是点睛之笔：对称 RKD 会牺牲 kNN，加上中位数门控只在该动时动手才能图文/聚类双赢；增益主要来自图文对齐弱的 DINOv3。
MoE 性价比突出：6 激活专家的 MoE 几乎追平 dense 全参，激活参数减半；超稀疏（0.15B 激活）仍超 RADIOv2.5-H，给出最佳效率-性能权衡。
Gram-anchoring 防退化：下游学全局表征时 patch 会向 CLS 塌缩、稠密结构模糊，锚住 Gram 矩阵能恢复空间相干，PCA 图可见。

亮点与洞察¶

把 SSL 的数据筛选迁到蒸馏：层次聚类+均衡采样原本是自监督专利，作者证明它对多教师蒸馏同样关键且增益更大——这条"数据效率"思路可直接迁到任何蒸馏/预训练管线。
关系蒸馏的"非对称化"很巧：发现 RKD 伤聚类的根因是无差别推拉，用教师空间中位数当门控、只做单侧误差，是一个轻量却治本的修法，可复用到任何关系/对比正则会破坏聚类的场景。
Token 均衡 batching 把"原生分辨率训练失稳"这个工程顽疾，用 FlexAttention 打包 + 逐图 token 归一化一并解决，顺带把吞吐翻了近 3 倍——稳定性和效率往往可以一招同得。
蒸馏学生直接当 VLM 视觉专家：早融合 grounding VLM 用蒸好的视觉专家初始化，跳过传统 ViT→LLM 模块化栈，在少标注下就拿到强 grounding，给"蒸馏即预训练"提供了端到端证据。

局限与展望¶

作者承认：下游 grounding 微调会退化稠密特征（patch 向 CLS 塌缩），需要 Gram-anchoring 这类额外正则才能压住——说明蒸馏表征在做生成式/自回归 VLM 训练时并不"免维护"。
PHI-S 对 DINOv3 第二个 register 估不准（多模态分布），只能整体跳过 register 的 PHI-S，是个未完全解决的工程妥协。
自己发现：实验只用 SigLIP2+DINOv3 两个教师、ViT-L 规模，教师数更多/能力更冲突时 ARKD 与 PHI-S 的均衡是否还稳，没有验证；OpenLVD200M 的筛选用 DINOv3 编码做聚类，可能把"DINOv3 的偏好"提前注入了数据分布。
改进思路：把 ARKD 的中位数门控换成可学习/自适应阈值，或按教师分别设边界；探索 3+ 教师下的专家路由如何与模态专门化协同。

评分¶

新颖性: ⭐⭐⭐⭐ 把 SSL 数据筛选搬进蒸馏 + 非对称关系蒸馏，都是切中要害的"小而真"创新，但单点都建立在已有技术（RKD/PHI-S/层次聚类）之上。
实验充分度: ⭐⭐⭐⭐⭐ 分类/检索/分割/grounding 全覆盖，三个核心设计各有独立消融，还开源数据集+5 个 checkpoint。
写作质量: ⭐⭐⭐⭐ 系统性强、动机清晰，公式记号略密集，部分细节甩到 supplementary。
价值: ⭐⭐⭐⭐⭐ 把多教师蒸馏从"暴力堆 token"变成可复现的高数据效率配方，并打通到早融合 VLM，工程与方法价值都高。