Who Taught You That? Tracing Teachers in Model Distillation¶

会议	arXiv	代码	领域	关键词
ACL 2025	2502.06659	-	模型压缩 / LLM 安全	知识蒸馏, 教师归因, 句法模板, PoS 标签, 模型溯源

一句话总结¶

本文提出"教师模型归因"新问题：给定一个蒸馏后的学生模型，能否从候选教师中识别出其训练教师？发现 n-gram 相似度和困惑度不可靠，但词性（PoS）句法模板能提供有效的教师识别信号。

研究背景与动机¶

研究问题： 在模型蒸馏（用大模型教小模型）的场景中，能否通过分析学生模型的输出来反推它的教师模型？

现有问题： - 模型蒸馏已成为用大型专有 LLM 训练高效小模型的主流方法 - 蒸馏可能违反模型提供商的服务条款（如 DeepSeek 是否蒸馏了 ChatGPT 的争议） - 缺乏有效方法来检测未经授权的蒸馏行为 - 现有的数据溯源方法（如水印）需要在生成时嵌入，无法事后检测

核心动机： LLM 提供商需要工具来识别未经授权的蒸馏使用，理解教师对学生的"语言指纹"传递也有助于理解知识蒸馏的机制。

方法详解¶

整体框架¶

系统比较三种教师归因策略： 1. 困惑度方法： 计算候选教师对学生输出的困惑度，期望真正教师给出更低困惑度 2. 相似度方法： 测量学生与候选教师输出的文本相似度 3. 句法模板方法： 基于 PoS（词性标注）序列模式训练分类器识别教师

关键设计¶

实验设置： - 学生模型： GPT-2（124M）和 OLMo-1B - 候选教师集合 \(\mathcal{M}\)： {Llama3-8B, Llama3-70B, Mistral-7B, Mixtral, Gemma2-9B}，均为开源模型 - 任务： 摘要（CNN-DailyMail、Rotten Tomatoes、PubMed）、问答（OpenbookQA、CommonsenseQA）、指令遵循（Alpaca 10K）

PoS 模板方法： - 使用 diversity 包提取长度为 4 的 PoS 模板 - 取所有教师输出中最常见的 50 个 PoS 模式 - 构建 PoS 模板指示特征（50维二值向量） - 训练逻辑回归分类器（5 类），在教师数据上训练、在学生数据上测试

核心假设： 学生模型在蒸馏过程中会内化教师的句法偏好，这些高层次的语言结构特征比表面词汇相似度更具鉴别力。

评估指标¶

分类准确率（5 类，随机基线 0.20），BoW 余弦相似度，BERTScore，AUC-ROC。

实验¶

主实验结果¶

学生模型	特征类型	C-D	P-M	R-T	CSQA	OBQA	QRe	Alpaca
GPT-2	BERT	0.46	0.55	0.40	0.44	0.38	0.35	0.51
GPT-2	n-grams	0.58	0.68	0.44	0.56	0.48	0.50	0.56
GPT-2	PoS Templates	0.60	0.71	0.54	0.69	0.51	0.59	0.55
OLMo-1B	BERT	0.45	0.65	0.41	0.40	0.42	0.31	0.46
OLMo-1B	n-grams	0.60	0.62	0.48	0.55	0.42	0.58	0.50
OLMo-1B	PoS Templates	0.61	0.74	0.45	0.59	0.43	0.61	0.53

5 类分类准确率，随机基线为 0.20。PoS 模板在大多数数据集上优于 n-gram 和 BERT 特征。

消融实验¶

方法	效果
困惑度（Perplexity）	教师困惑度无法可靠区分（真正教师不一定给出最低 PPL）
BoW + BERTScore 相似度	AUC ≈ 0.49-0.53，接近随机，无区分能力
逻辑回归 + 相似度特征	AUC 约 0.52，几乎无区分能力
PoS Templates（核心方法）	明显优于随机，CSQA 上达 0.69，但仍远非完美

关键发现¶

表面相似度失效： BoW 和 BERTScore 无法区分不同教师的学生，说明蒸馏传递的不是表面词汇模式
困惑度也失效： 教师模型并不总是偏好自己学生的输出（如 Gemma 对自身蒸馏学生反而给出更高 PPL）
句法模板有效： PoS 模板捕捉的是更高层次的句法结构偏好，这种偏好在蒸馏中被学生保留
任务依赖性： PoS 模板在推理型任务（CSQA: 0.69）上表现最好，在指令遵循（Alpaca: 0.55）上优势较小
准确率虽远超随机但远不完美，表明教师指纹存在但不够强，实际应用仍需改进

亮点¶

提出了一个新颖且有实际应用价值的问题——蒸馏教师模型的事后归因
系统性地排除了直觉上看似合理的方法（困惑度、文本相似度），突出了问题的挑战性
PoS 模板的有效性揭示了蒸馏传递的是句法层面的隐含偏好，而非表面词汇特征
无需访问教师模型内部或使用水印策略

局限性¶

PoS 模板分类准确率虽远超随机但离实用仍有距离（最高 0.74）
假设封闭集场景（教师必在候选集中），无法处理候选集外的教师
额外微调、数据增强、多教师蒸馏等可能模糊归因信号
不同教师如果训练在相同数据上，可能共享足迹，增加归因难度
仅使用了两种学生模型（GPT-2、OLMo-1B），泛化性待验证

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
实用性	⭐⭐⭐⭐
技术深度	⭐⭐⭐
实验充分性	⭐⭐⭐⭐