PiFi: Plug-in and Fine-tuning: Bridging the Gap between Small Language Models and Large Language Models¶

会议: ACL 2025
arXiv: 2506.07424
代码: 未公开
领域: LLM/NLP
关键词: 知识蒸馏, 小语言模型, 大语言模型, 模型压缩, 迁移学习

一句话总结¶

提出 PiFi 框架，将 LLM 的单层冻结参数插入到 SLM 中并微调，以极低计算开销显著提升 SLM 在 NLU 和 NLG 任务上的性能。

研究背景与动机¶

核心问题： LLM 具有强大的泛化能力和语言知识，但计算开销大、难以部署在资源受限环境；SLM 高效但泛化能力不足。如何让 SLM 获得 LLM 的知识优势？

现有方案局限： - 知识蒸馏方法（参数化/非参数化）需要完整的 LLM 作为教师模型或生成合成数据，计算成本高 - 直接微调 LLM 需要大量显存和计算资源 - 现有 SLM 增强方法（领域预训练、数据增强）无法引入 LLM 级别的外部知识

核心动机： 受视觉领域将 LLM 层用作视觉编码器的启发，LLM 的单个 Transformer 层已经编码了丰富的语言知识，通过"插入+冻结"的方式可以在几乎不增加训练参数量的情况下有效传递 LLM 的知识到 SLM。

方法详解¶

整体框架¶

PiFi（Plug-in and Fine-tuning）框架的核心思想是：从 LLM（如 Llama-3.1-8B）中提取单层 Transformer，冻结后插入 SLM 的特定位置，然后对组合模型进行微调。框架支持 encoder-only 模型（如 BERT）和 encoder-decoder 模型（如 T5）两种架构。

关键设计¶

维度适配层： 由于 SLM 和 LLM 的隐藏维度不同（如 BERT 768 vs Llama 4096），引入线性映射层 \(L_{in}\)（升维）和 \(L_{out}\)（降维）进行维度适配。对 Encoder-only 模型：\(h_{enc} = Enc(x)\), \(h_{LLM} = L_{LLM}(L_{in}(h_{enc}))\), \(\hat{y} = Head(L_{out}(h_{LLM}))\)
LLM 层冻结策略： 在微调阶段冻结 \(L_{LLM}\) 的参数，只训练 SLM 原有参数、\(L_{in}\)、\(L_{out}\) 和分类头，避免灾难性遗忘并最小化额外参数
灵活的架构适配： 对于 Encoder-only 模型，LLM 层插入 encoder 和分类头之间；对于 Encoder-Decoder 模型，LLM 层插入 encoder 和 decoder 之间

损失函数¶

使用标准的任务损失函数：分类任务使用交叉熵损失，生成任务使用自回归语言建模损失，无需额外蒸馏损失。

实验¶

主实验：NLU 任务性能¶

模型	SST2	IMDB	Tweet(Sent)	Tweet(Off)	CoLA	MNLI	SNLI	SQuAD	Avg
BERT_base	89.41	85.10	86.90	83.15	80.10	82.00	89.10	63.81	82.45
+PiFi	91.50	87.09	92.95	86.03	82.07	82.74	89.48	66.17	84.75
ELECTRA_base	93.42	88.31	90.58	83.52	83.99	85.41	90.11	44.44	82.00
+PiFi	94.13	89.40	93.31	84.99	86.26	86.47	90.48	67.99	86.71
DeBERTa-V3_base	93.74	89.45	91.29	83.60	84.75	87.52	90.94	69.40	86.34
+PiFi	95.01	89.83	93.80	85.60	86.07	87.98	91.05	69.87	87.40

NLG 任务：T5_base + PiFi 在 Multi30K 翻译上 BLEU 从 0.5301→0.5413，BART_base + PiFi 在 CNN/DailyMail 摘要上 BLEU 从 0.2270→0.2331。

消融实验¶

消融维度	关键发现
LLM 层位置（第1/16/32层）	最后一层效果最好，包含最丰富的高层语言知识
是否冻结 LLM 层	冻结效果优于解冻，解冻导致灾难性遗忘
不同 LLM 来源	Llama-3.1-8B 整体最优，不同 LLM 均有提升
Instruction-tuned LLM	使用 instruction-tuned 版本效果类似

关键发现¶

PiFi 在所有 5 个 SLM 架构上均实现一致提升，BERT_base 平均提升 2.3%，ELECTRA_base 提升 4.7%
跨域泛化实验中，PiFi 在 IMDB→Tweet 上从 70.40 提升到 83.68（+13.28%），展示了强大的领域迁移能力
多语言分类实验表明，使用目标语言预训练的 LLM 层可显著提升 SLM 的多语言能力
仅增加极少量参数（两个线性层），计算开销可忽略不计

亮点¶

设计极简却有效：仅插入一个 LLM 层+两个线性映射，就能显著提升 SLM 性能
通用性强：适用于 Encoder-only 和 Encoder-Decoder 两种架构，覆盖 NLU 和 NLG 多种任务
跨域和多语言能力迁移效果突出：实验表明 PiFi 不仅提升任务内性能，还增强了对未见领域和语言的泛化能力
训练高效：LLM 层冻结训练，额外参数量极少

局限性¶

目前仅验证了单层 LLM 层的效果，多层组合或中间层的潜力未被充分探索
线性映射层的维度投影可能造成信息损失，更高级的适配网络（如 MLP）可能更好
对更大的 SLM（如 1-3B 级别）是否仍有显著提升未充分验证
推理阶段需要加载 LLM 的一层参数（如 Llama-8B 一层约 600M），增加存储需求
缺少与 LoRA 等主流 PEFT 方法的直接对比

评分¶

维度	分数
创新性	7/10
有效性	8/10
实验充分度	8/10
写作质量	7/10
总分	7.5/10