PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection¶
会议: ACL2026
arXiv: 2502.12119
代码: 有,cache 未提供明确 URL
领域: 多模态VLM / 数据选择
关键词: 多模态数据选择, 视觉指令微调, 表征各向异性, 训练免筛选, 冗余剪枝
一句话总结¶
PRISM 发现 MLLM 视觉特征的非零均值会造成 Global Semantic Drift,从而污染基于相似度的数据选择,并用训练免的均值重中心化和低相关样本筛选,在只保留约 30% 视觉样本的情况下达到 101.7% 相对性能,同时把端到端 GPU 时间降低约 70%。
研究背景与动机¶
领域现状:多模态大模型通常先做大规模图文预训练,再用视觉指令数据进行 instruction tuning。随着 LLaVA、VisionFlan 等数据池不断扩大,指令样本数量很多,但其中也包含大量重复、低信息量或噪声样本。
现有痛点:现有视觉指令数据选择方法大多依赖 proxy model、外部 scorer、训练 loss、perplexity、gradient 或 influence function。这些方法要么需要额外模型推理,要么需要迭代训练和梯度计算,筛数据本身就很贵,甚至抵消了少训练数据带来的效率收益。
核心矛盾:数据选择本来是为了省算力,但很多选择器把成本转移到了选择阶段。作者认为根因在于大家直接使用 MLLM 视觉特征的原始几何,而这些视觉 embedding 并非均匀分布在原点附近,而是被一个强全局均值方向拉进狭窄锥体,导致 cosine similarity 把共享背景漂移误当成语义相似。
本文目标:提出一种无需 proxy、无需训练、无需梯度的 multimodal instruction selection 方法,既能保持甚至超过 full fine-tuning 性能,又能真正降低 selection + tuning 的总成本。
切入角度:论文从表征几何诊断入手,先证明视觉特征存在 representation anisotropy 和奇异值集中,再把数据选择问题改写成“先去掉全局漂移,再基于样本的独特语义分量估计冗余”。
核心 idea:用目标 MLLM 自身视觉特征的均值重中心化,恢复更可靠的相似度几何,然后保留与全体样本低相关、信息更独特的样本。
方法详解¶
PRISM 的关键不在于训练一个更强选择器,而是让原本已经存在于 MLLM 中的视觉表征重新变得可用。它把选择流程做成单次特征抽取、全局均值估计、冗余评分和百分位筛选四步,因此成本主要是一次前向和线性聚合。
整体框架¶
给定视觉指令数据集 \(D=\{d_1,\dots,d_N\}\),每个样本包含图像和文本指令。PRISM 首先用目标 MLLM 的视觉编码器、投影器和 LLM 中间层抽取每个样本的视觉特征 \(F_i\),并通过 average pooling 得到一个全局图像表示。
然后,PRISM 计算整个语料的特征均值 \(\mu_F=\frac{1}{N}\sum_i F_i\)。这个均值代表所有视觉样本共享的 global drift,而不是单个样本独有语义。对于任意两个样本,PRISM 不再用 raw cosine,而是先做 \(F_i-\mu_F\) 和 \(F_j-\mu_F\),再计算归一化内积。
接着,每个样本的 Redundancy Score 是它和其他所有样本中心化后相关性的平均值。直觉上,如果一个样本和大量样本都高度相关,它更可能是重复或低边际收益样本;如果相关性低,它可能携带更独特的视觉语义。
最后,根据选择预算 \(\tau\) 取冗余分数最低的一部分样本。主实验中,PRISM 对 LLaVA-665K 的视觉样本使用 30% 预算,同时保留 text-only 样本,最终得到 PRISM-Instruct-250K。
关键设计¶
-
Overall Selection Cost 评价准则:
- 功能:把数据选择方法是否“真的省”量化成一个同时考虑性能和时间的指标。
- 核心思路:OSC 定义为 performance ratio 乘以 time ratio,即 \(C=(P(D_{full})/P(D_{sub}))\times((T_{select}+T_{tune}(D_{sub}))/T_{tune}(D_{full}))\)。只有 \(C<1\) 时,方法才同时保持性能和带来净效率收益。
- 设计动机:很多选择方法只报告 subset 性能,却忽略 selection overhead。OSC 迫使比较回到端到端成本,避免“筛得很准但比全量训练还贵”的情况。
-
视觉表征各向异性诊断与重中心化:
- 功能:修正 raw visual embedding 中的全局均值漂移,让相似度更接近样本独有语义。
- 核心思路:作者将视觉特征分解为 \(x_i=\mu+\delta_i\),其中 \(\mu\) 是共享 global component,\(\delta_i\) 是样本特有语义。当 \(\|\mu\|\) 远大于 \(\|\delta_i\|\) 时,raw cosine 会接近 1 并被 \(\mu\) 主导。PRISM 用 \(\rho(F_i,F_j)=\frac{(F_i-\mu_F)^\top(F_j-\mu_F)}{\|F_i-\mu_F\|_2\|F_j-\mu_F\|_2}\) 替代 raw cosine。
- 设计动机:与其引入外部 scorer,不如先修正目标模型自身特征空间里最显著的一阶几何偏差。作者明确说 PRISM 不是 full whitening,而是针对最破坏 redundancy estimation 的 corpus-level mean shift。
-
低相关冗余分数筛选:
- 功能:在不构造 \(N\times N\) 相似度矩阵的情况下,找到语义上更独特的样本。
- 核心思路:冗余分数 \(R(d_i)=\frac{1}{N-1}\sum_{j\ne i}\rho(F_i,F_j)\) 表示样本在中心化语义图中的平均连接强度。PRISM 通过 exact aggregate implementation 以 \(O(Nd)\) 计算,不 materialize 全量 pairwise matrix,然后保留 \(R(d_i)\) 低于百分位阈值的样本。
- 设计动机:低相关样本提供更高边际信息量;同时 \(O(Nd)\) 聚合避免 k-center 或精确 greedy coverage 在几十万样本规模上的不可承受成本。
损失函数 / 训练策略¶
PRISM 本身没有训练损失,是 training-free selector。选完数据后,作者按 LLaVA-1.5 官方超参进行一轮 visual instruction tuning。主设置使用 LLaVA-665K 和 LLaVA-1.5-7B,并与 Random、Length、EL2N、Perplexity、GraNd、TIVE、InstructionGPT-4、Self-Filter、COINCIDE、ICONS、DataTailor 等方法比较。额外实验在 VisionFlan-186K、不同 MLLM 架构和 text-only benchmark 上验证泛化与知识保留。
实验关键数据¶
主实验¶
PRISM 在 LLaVA-1.5-7B 上相对 full fine-tuning 达到 101.7% 综合性能,同时在多个多模态 benchmark 上超过全量数据或强选择方法。
| 方法 | SQA | SQA-I | VizWiz | POPE-P/R/A | MM-Vet | MMBench | MME-C | MMMU | Rel. |
|---|---|---|---|---|---|---|---|---|---|
| Full-Finetune | 69.4 | 66.8 | 50.0 | 86.1 / 87.3 / 84.2 | 31.1 | 64.3 | 311.9 | 35.4 | 100% |
| TIVE | 72.2 | 70.6 | 未列出 | 85.6 / 85.6 / 85.6 | 未列出 | 63.2 | 322.1 | 未列出 | 100.6% |
| ICONS | 未列出 | 70.8 | 未列出 | 87.5 / 87.5 / 87.5 | 未列出 | 63.1 | 未列出 | 未列出 | 101.0% |
| PRISM | 71.3 | 69.1 | 50.1 | 87.7 / 88.7 / 85.5 | 32.0 | 65.2 | 330.0 | 34.7 | 101.7% |
在 VisionFlan-186K 上,PRISM 用同样 30% 预算选择 57K 样本,仍超过 full-data aggregate,并显著强于随机选择。
| 方法 | 样本量 | VizWiz | SQA-I | TextVQA | POPE | MME | MMBench | Rel. |
|---|---|---|---|---|---|---|---|---|
| Full Data | 186K | 41.7 | 60.8 | 50.4 | 83.4 | 1263.2 | 52.6 | 100.0 |
| Random | 57K | 38.8 | 56.5 | 46.9 | 83.1 | 1175.0 | 48.9 | 94.1 |
| PRISM | 57K | 42.3 | 61.1 | 50.8 | 84.1 | 1275.5 | 53.1 | 100.9 |
消融实验¶
核心消融验证了三点:浅层视觉特征最好、低相关样本最好、average pooling 优于 last token。
| 配置 | SQA | SQA-I | VizWiz | POPE-P/R/A | MM-Vet | MMBench | MME-C | Rel. |
|---|---|---|---|---|---|---|---|---|
| Deep Layer | 71.2 | 69.1 | 51.6 | 86.6 / 88.0 / 84.2 | 31.1 | 62.9 | 254.0 | 97.2% |
| Middle Layer | 70.9 | 69.1 | 47.7 | 86.5 / 87.8 / 84.2 | 31.9 | 65.0 | 276.0 | 97.9% |
| Shallow Layer | 71.3 | 69.1 | 50.1 | 87.7 / 88.7 / 85.5 | 32.0 | 65.2 | 330.0 | 100.0% |
| High Correlation | 70.6 | 68.0 | 48.1 | 85.8 / 87.6 / 83.9 | 30.7 | 64.0 | 275.3 | 96.3% |
| Low Correlation | 71.3 | 69.1 | 50.1 | 87.7 / 88.7 / 85.5 | 32.0 | 65.2 | 330.0 | 100.0% |
| Last Token | 69.9 | 67.3 | 49.4 | 87.4 / 88.3 / 85.0 | 31.6 | 62.6 | 272.0 | 97.4% |
| Avg Pooling | 71.3 | 69.1 | 50.1 | 87.7 / 88.7 / 85.5 | 32.0 | 65.2 | 330.0 | 100.0% |
跨模型泛化显示 PRISM 不只适用于 LLaVA-1.5-7B,而是在多种 LLM 和 vision encoder 组合上都略优于 full fine-tuning。
| 模型组合 | Full Rel. | PRISM Rel. | 代表性变化 |
|---|---|---|---|
| Phi2-3B | 100% | 100.1% | MME 1765.7 → 1790.5 |
| Vicuna-7B | 100% | 101.7% | MMBench 64.3 → 65.2 |
| Vicuna-13B | 100% | 100.4% | MME 1826.7 → 1846.0 |
| Qwen2.5-7B Base | 100% | 101.0% | SQA-I 76.7 → 78.9 |
| Qwen2.5-7B Instruct | 100% | 100.9% | MMBench 71.0 → 72.4 |
| Llama-3-8B | 100% | 100.8% | SQA-I 75.2 → 77.3 |
关键发现¶
- PRISM 的主结果不是“少训一点还能不掉点”,而是相对 full fine-tuning 还略有提升:LLaVA-665K 设置为 101.7%,VisionFlan-186K 设置为 100.9%。
- 低相关样本优于高相关和中等相关样本,直接支持“重中心化后低 redundancy 更有训练价值”的核心假设。
- 浅层特征优于中深层,说明用于冗余检测的几何结构在 early visual-token representation 中更干净,深层可能混入更多任务和抽象 artifacts。
- PRISM-Instruct-250K 的最终样本数为 250,557,其中包括 LLaVA 53,591、VG 28,777、VQAv2 27,567、OCRVQA 26,638、Text-Only 40,688 等,说明它不是按数据源硬编码比例,而是由全局低冗余阈值自然决定组成。
- text-only retention 也有收益:PRISM-7B 相对 101.9%,PRISM-13B 相对 130.6%,说明更干净的视觉指令数据可能减少 catastrophic forgetting。
亮点与洞察¶
- PRISM 的巧妙之处在于把数据选择的“模型评分问题”转成“几何校准问题”。如果 raw embedding 的相似度本身坏了,再复杂的 cheap distance selector 都会被误导。
- OSC 指标很实用。它要求选择器同时满足性能 fidelity 和 net efficiency gain,对数据选择论文是一个更诚实的评价约束。
- 只做 corpus mean re-centering 而不做 whitening 是一个务实取舍。full whitening 需要高维协方差估计、正则和 rank 选择;PRISM 放弃完全 isotropize,换来稳定、无超参、可大规模部署。
- 视觉优先的选择也很有启发。附录指出 text features 相对更接近中心,联合 multimodal feature 选择反而只有 97.8% 相对性能,低于 visual-only PRISM 的 101.7%。这说明多模态选择不一定要把所有模态直接拼起来。
局限与展望¶
- PRISM 只针对基于 feature correlation 的语义冗余剪枝,不检测事实错误、伦理偏差、有害内容或标注质量问题。因此它适合作为效率选择器,不应被当作完整数据治理工具。
- 方法主要修正一阶全局均值漂移,而不是完整 whitening。若某些数据池的主要问题来自更复杂的二阶协方差结构,单纯重中心化可能不足。
- 主任务集中在视觉-语言 instruction tuning,作者提到未来可以扩展到其他模态,但语音、视频、机器人轨迹等场景是否同样存在可利用的一阶 drift 还需要验证。
- PRISM 依赖目标 MLLM 的中间视觉表示;当目标模型不可访问或视觉 token 表征不稳定时,部署会受到限制。
- 当前选择目标是保留低冗余样本,但未显式建模任务覆盖、公平性、罕见类别或安全关键样本,后续可以把几何冗余分数和质量/安全过滤器组合起来。
相关工作与启发¶
- vs Random / Length / Perplexity: 这些方法便宜但语义信号弱,PRISM 同样便宜,却利用目标 MLLM 的中心化视觉几何来估计冗余。
- vs Proxy-Based Selection: InstructionGPT-4、Self-Filter、TIVE 等方法依赖外部模型或 scorer,可能引入 proxy bias 和推理开销;PRISM 不需要外部评估器。
- vs Training-Based Selection: EL2N、GraNd、ICONS 等使用训练动态或梯度信号,信息强但成本高;PRISM 用一次特征抽取替代迭代训练信号。
- vs whitening / top-PC removal: 这些几何修正更彻底但需要额外超参或高维协方差估计;PRISM 选择最简单的一阶重中心化,在性能和可扩展性之间取平衡。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 从视觉表征各向异性解释数据选择低效,角度清晰且有理论支撑。
- 实验充分度: ⭐⭐⭐⭐⭐ 主结果、消融、VisionFlan、跨模型、语言保持和效率分析都比较扎实。
- 写作质量: ⭐⭐⭐⭐☆ 方法逻辑完整,附录补充充分,但正文公式和图表较多,阅读密度偏高。
- 价值: ⭐⭐⭐⭐⭐ 对多模态指令数据筛选很实用,尤其适合需要真正降低端到端训练成本的场景。