Mordal: Automated Pretrained Model Selection for Vision Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ZQiO12xlJq
代码: https://github.com/SymbioticLab/Mordal
领域: 多模态 / 视觉语言模型 / 模型选择 / AutoML
关键词: VLM, 预训练模型选择, CKA 表示相似度, 早停, 缩放律预测

一句话总结¶

Mordal 把"给定下游任务该挑哪个视觉编码器 + LLM 来拼 VLM"这件事自动化：先用表示相似度聚类砍候选数量，再用早停和缩放律预测砍单候选评估成本，用比网格搜索低 8.9–11.6× 的 GPU 时长找到最优组合。

研究背景与动机¶

领域现状：主流 VLM（LLaVA、InternVL、Qwen-VL）几乎都是"视觉编码器 + 特征投影器 + LLM"三段式结构，开发者要从 HuggingFace 上海量预训练模型里手动挑视觉编码器和 LLM 拼成 VLM。

现有痛点：选模型全靠人类直觉（挑最新的、最大的、最有名的），既不可靠也不可预测。论文用网格搜索实测发现——没有银弹：同一个 LLM 配不同视觉编码器、或同一编码器配不同 LLM，在 GQA / VizWiz / ChartQA / DocVQA / ScienceQA / AI2D 上各有胜负，Vicuna-1.5-7B 拼出来的 VLM 在某些任务甚至能压过 Llama-3-8B。

核心矛盾：现成的迁移性指标（EMMS、LogME、LEEP、NLEEP）是为分类/回归/纯语言任务设计的，靠零样本性能当模型质量代理。但 VLM 必须先做视觉-文本对齐——没训练好投影器，LLM 根本读不懂图像 embedding，零样本输出是随机噪声，迁移性指标在这里失效。而暴力网格搜索又贵到离谱：训一个 7B VLM 候选要 100+ GPU 时，49 个候选就是 5439 GPU 时，HuggingFace 上还有 15 万+ LLM 在不断新增。

本文目标：形式化"VLM 预训练模型选择问题"——给定对齐数据集和目标任务，找到对齐训练后在目标任务上表现最好的"视觉编码器 + LLM"组合。

核心 idea：[降搜索空间 + 降评估成本] 高效搜索必须同时优化两个正交方向——减少要考虑的 VLM 候选数量（相似模型性能相似 → 聚类后每簇只评一个），以及缩短每个候选的评估时间（早停淘汰弱者 + 缩放律从小样本外推全量性能）。

方法详解¶

整体框架¶

Mordal 是一条"先聚类剪候选、再高效评估剩余候选"的两段式流水线。第一段候选聚类（§3.1）用 CKA 表示相似度把视觉编码器和 LLM 各自分簇，再做簇间/簇内两步评估，把要训练的候选数压下来；第二段高效评估（§3.2）对仍需训练的候选用早停（SHA）和缩放律预测，从中间 checkpoint 复用、小样本外推，避免每个候选都训到全量数据。

flowchart LR
    A[预训练模型池<br/>7 视觉编码器 × 7 LLM] --> B[候选聚类<br/>CKA 相似度两步分簇]
    B --> C[簇间评估<br/>每簇选 medoid + 早停<br/>留 Top-K 簇]
    C --> D[簇内评估<br/>聚合 Top-K 簇候选<br/>缩放律预测全量性能]
    D --> E[最优 VLM 候选]

关键设计¶

1. 表示相似度聚类：用 CKA 把"长得像的候选"归并掉。Mordal 的出发点是"相似模型性能相似"，但难点在于——还没训练投影器时怎么衡量两个候选的相似度？参数相似度不考虑目标任务的数据分布，靠不住。Mordal 改用与任务相关的表示相似度，具体采用 CKA（centered kernel alignment）：\(\mathrm{CKA}(K,L)=\frac{\mathrm{HSIC}(K,L)}{\sqrt{\mathrm{HSIC}(K,K)\cdot\mathrm{HSIC}(L,L)}}\)，其中 \(\mathrm{HSIC}(K,L)=\mathrm{Tr}(KHLH)\)，\(H=I-\frac{1}{n}\mathbf{1}\mathbf{1}^\top\) 是中心化矩阵。选 CKA 的两个理由：一是它能比较不同形状的表示（不同编码器输出维度不同，余弦相似度这类传统指标做不到），二是视觉表示常经 MLP 投影，而这种变换不破坏 CKA 的性质。实验证实在 ScienceQA 上 CLIP/SigLIP/DFN-CLIP 表示相似、性能也接近，验证了"表示相似 → 性能相似"的前提。

2. 两步聚类：先聚视觉编码器、再在固定视觉表示下聚 LLM。逐对算 CKA 很贵（K、L 都是批量数据的激活矩阵），所以 Mordal 拆成两步降成本。第一步对视觉编码器算 CKA、构造距离矩阵 \(\mathrm{Dist}_{ve}\)，按阈值 \(t_{ve}\) 聚成视觉编码器簇 \(C_{ve}\)；第二步从每个视觉簇取 medoid 编码器生成固定图像 embedding，用一个预热过的投影器把形状对齐到 LLM 输入，再据此构造 LLM 的距离矩阵 \(\mathrm{Dist}_{llm}\)、按阈值 \(t_{llm}\) 聚簇。最后对视觉簇和对应 LLM 簇做笛卡尔积得到候选簇。这样就避开了去算"视觉编码器本就不相似"的候选对之间的相似度——而那些恰恰是性能差异最大、最该被拆开的组合。

3. 簇间/簇内两步评估 + 早停：先粗筛簇、再细选候选。聚类后，簇间评估从每簇取 medoid 当代表，比较各簇性能、淘汰整体差的簇，留 Top-K 簇（K 用户定）。这一步用 Successive Halving（SHA）做早停激进剪枝：每轮给每个候选分配预算 \(b\)、评估后只保留 top \(1/\eta\)，下一轮把预算提到 \(b\times\eta\)，反复直到收敛或选出 Top-K，中间产生的 checkpoint 可被下游复用。簇间筛完后，簇内评估把 Top-K 簇里的候选聚到一起、回到候选粒度，训练后返回最优。关键经验是早停不能用到底——纯早停会误杀"前期慢热但后期强"的候选（如 AI2D 上的 SigLIP-Qwen），所以 Mordal 限制早停只用在簇间。

4. 观测缩放律预测：从小样本外推全量性能，少训多估。簇内评估如果每个候选都训全量数据仍然贵，于是 Mordal 引入缩放律预测。经典缩放律 \(L(N,D)=\frac{a}{N^\alpha}+\frac{b}{D^\beta}+e\) 刻画参数量 \(N\)、数据量 \(D\) 与性能的幂律关系；Mordal 的设定是 \(N\) 固定、只变对齐数据量 \(D\)，并实测发现对齐数据量与任务误差在 log-log 下呈对数线性关系。于是算法从最大采样比 \(R\)（如 \(\frac{1}{8}\)）起，评估该比例训出的 checkpoint、记录 \((\log r,\log\mathrm{Err})\) 点，逐步把采样比降为 \(r/u\) 并复用上一档的中间 checkpoint，攒够 \(p\) 个点后拟合线性回归 \(f_c\)，用 \(f_c(1)\) 外推全量性能而无需真正训到全量。早停和缩放律由此互补：早停管粗筛、缩放律管对有潜力候选的精确预测，二者都靠复用中间 checkpoint 省时。

实验关键数据¶

设置：7 数据集（Visual QA / Doc QA / Knowledge / 多学科 MMMU），7 视觉编码器 × 7 LLM = 49 候选，16× A40 GPU，LLaVA-1.5-Instruction 做对齐，LoRA 微调 LLM，两层 MLP 投影器。

主实验表格（搜索时间 + Top-1 命中）¶

网格搜索每任务需 5439 GPU 时 训完 49 候选。

任务	数据集	LLaVA-1.5 基线	Mordal 选中模型	Mordal 时长(h)	加速	Top-1 分数
Visual QA	GQA	61.5	SigLIP-Vicuna	483	11.2×	66.4
Visual QA	VizWiz	41.2	SigLIP-Mistral	469	11.6×	46.9
Doc QA	ChartQA	18.2	CLIP-Qwen	607	8.9×	18.6
Doc QA	DocVQA	27.6	SigLIP-Qwen	593	9.2×	28.5
Knowledge	ScienceQA	70.4	SigLIP-Llama	472	11.5×	78.5
Knowledge	AI2D	54.8	SigLIP-Qwen	496	10.9×	65.2
多学科	MMMU	35.3	SigLIP-Llama	503	10.8×	36.6

七个任务里六个命中网格搜索的真·Top-1，且选中组合普遍优于默认 LLaVA-1.5-7B 结构。

排队质量对比（加权 Kendall's τ，等算力预算下）¶

数据集	EMMS	LogME	LEEP	NLEEP	Mordal
GQA	0.682	-0.162	0.232	0.435	0.814
VizWiz	0.657	0.236	0.351	0.502	0.882
ChartQA	0.238	-0.144	-0.071	0.298	0.765
DocVQA	0.172	0.155	0.111	0.265	0.897
ScienceQA	0.770	0.269	0.344	0.562	0.960
AI2D	0.557	0.193	0.316	0.614	0.894
MMMU	0.526	0.101	0.245	0.220	0.875

Mordal 在全部 7 个数据集上 τ 都最高，平均比最强基线高约 69%。

消融实验（GQA，去掉某组件）¶

配置	说明
w/o EE（去高效评估）	仅靠簇间/簇内评估就大幅降时且 τ 仍高，验证聚类是核心
w/o ES（去早停）	时间上升
w/o SP（去缩放律预测）	早停用到底会误杀慢热强候选（AI2D 上 SigLIP-Qwen），τ 掉
敏感性 \(t_{ve}\)	0.5→τ 仅 0.52、446h；0.9→τ 0.86 但 1041h，阈值在"省时"和"准"间权衡

关键发现¶

对齐数据量与任务误差在 log-log 下对数线性，但只在样本量超过某阈值后才显现（与 Lin/Ruan 一致）。
早停适合粗筛、缩放律适合精测，二者分工才能在降时同时保住 τ。

亮点与洞察¶

问题定义本身是贡献：第一次把"VLM 预训练组件选择"形式化为资源受限下预测对齐后性能的问题，并实证"没有银弹"。
用 CKA 绕过"必须先训对齐才能比较"的死结：把跨形状、经 MLP 投影后仍稳健的表示相似度当聚类信号，是整套方法能省钱的根。
两正交方向拆解干净：降候选数（聚类）和降单候选成本（早停+缩放律）正交，各自的中间 checkpoint 还能互相复用。

局限与展望¶

偶尔会漏掉最优组合——当强候选被归到弱簇里，或被早停过早淘汰（7 任务漏 1 个 Top-1 即此因）。
强依赖"表示相似 → 对齐后性能相似"的经验假设；CKA 相似但对齐后性能分叉的反例会破坏聚类有效性。
缩放律外推需要对数线性区间真实存在且样本量过阈值，对小数据/特殊任务可能不稳。
实验固定 LLaVA-1.5 结构、LoRA、两层 MLP 投影器和 7×7 模型池，更大搜索空间和更换投影器/训练范式下的可扩展性待验证。

评分¶

新颖性: ⭐⭐⭐⭐ — 首次形式化 VLM 预训练组件选择问题，并指出现有迁移性指标因缺对齐而失效，CKA 聚类的引入切中要害。
实验充分度: ⭐⭐⭐⭐ — 7 数据集、49 候选网格搜索做 ground truth，与 4 个选择基线对比 + 完整消融/敏感性分析，证据扎实；唯模型池规模（7×7）和单一架构稍受限。
写作质量: ⭐⭐⭐⭐ — 动机层层递进（无银弹→指标失效→暴搜太贵→两方向拆解），图表清晰，方法可复现。
价值: ⭐⭐⭐⭐ — 把"拼 VLM 该选什么底座"从拍脑袋变成低成本可搜索，对工程落地和 AutoML-for-multimodal 都有实用意义。