跳转至

Who Taught You That? Tracing Teachers in Model Distillation

会议 arXiv 代码 领域 关键词
ACL 2025 2502.06659 - 模型压缩 / LLM 安全 知识蒸馏, 教师归因, 句法模板, PoS 标签, 模型溯源

一句话总结

本文提出"教师模型归因"新问题:给定一个蒸馏后的学生模型,能否从候选教师中识别出其训练教师?发现 n-gram 相似度和困惑度不可靠,但词性(PoS)句法模板能提供有效的教师识别信号。

研究背景与动机

研究问题: 在模型蒸馏(用大模型教小模型)的场景中,能否通过分析学生模型的输出来反推它的教师模型?

现有问题: - 模型蒸馏已成为用大型专有 LLM 训练高效小模型的主流方法 - 蒸馏可能违反模型提供商的服务条款(如 DeepSeek 是否蒸馏了 ChatGPT 的争议) - 缺乏有效方法来检测未经授权的蒸馏行为 - 现有的数据溯源方法(如水印)需要在生成时嵌入,无法事后检测

核心动机: LLM 提供商需要工具来识别未经授权的蒸馏使用,理解教师对学生的"语言指纹"传递也有助于理解知识蒸馏的机制。

方法详解

整体框架

系统比较三种教师归因策略: 1. 困惑度方法: 计算候选教师对学生输出的困惑度,期望真正教师给出更低困惑度 2. 相似度方法: 测量学生与候选教师输出的文本相似度 3. 句法模板方法: 基于 PoS(词性标注)序列模式训练分类器识别教师

关键设计

实验设置: - 学生模型: GPT-2(124M)和 OLMo-1B - 候选教师集合 \(\mathcal{M}\) {Llama3-8B, Llama3-70B, Mistral-7B, Mixtral, Gemma2-9B},均为开源模型 - 任务: 摘要(CNN-DailyMail、Rotten Tomatoes、PubMed)、问答(OpenbookQA、CommonsenseQA)、指令遵循(Alpaca 10K)

PoS 模板方法: - 使用 diversity 包提取长度为 4 的 PoS 模板 - 取所有教师输出中最常见的 50 个 PoS 模式 - 构建 PoS 模板指示特征(50维二值向量) - 训练逻辑回归分类器(5 类),在教师数据上训练、在学生数据上测试

核心假设: 学生模型在蒸馏过程中会内化教师的句法偏好,这些高层次的语言结构特征比表面词汇相似度更具鉴别力。

评估指标

分类准确率(5 类,随机基线 0.20),BoW 余弦相似度,BERTScore,AUC-ROC。

实验

主实验结果

学生模型 特征类型 C-D P-M R-T CSQA OBQA QRe Alpaca
GPT-2 BERT 0.46 0.55 0.40 0.44 0.38 0.35 0.51
GPT-2 n-grams 0.58 0.68 0.44 0.56 0.48 0.50 0.56
GPT-2 PoS Templates 0.60 0.71 0.54 0.69 0.51 0.59 0.55
OLMo-1B BERT 0.45 0.65 0.41 0.40 0.42 0.31 0.46
OLMo-1B n-grams 0.60 0.62 0.48 0.55 0.42 0.58 0.50
OLMo-1B PoS Templates 0.61 0.74 0.45 0.59 0.43 0.61 0.53

5 类分类准确率,随机基线为 0.20。PoS 模板在大多数数据集上优于 n-gram 和 BERT 特征。

消融实验

方法 效果
困惑度(Perplexity) 教师困惑度无法可靠区分(真正教师不一定给出最低 PPL)
BoW + BERTScore 相似度 AUC ≈ 0.49-0.53,接近随机,无区分能力
逻辑回归 + 相似度特征 AUC 约 0.52,几乎无区分能力
PoS Templates(核心方法) 明显优于随机,CSQA 上达 0.69,但仍远非完美

关键发现

  • 表面相似度失效: BoW 和 BERTScore 无法区分不同教师的学生,说明蒸馏传递的不是表面词汇模式
  • 困惑度也失效: 教师模型并不总是偏好自己学生的输出(如 Gemma 对自身蒸馏学生反而给出更高 PPL)
  • 句法模板有效: PoS 模板捕捉的是更高层次的句法结构偏好,这种偏好在蒸馏中被学生保留
  • 任务依赖性: PoS 模板在推理型任务(CSQA: 0.69)上表现最好,在指令遵循(Alpaca: 0.55)上优势较小
  • 准确率虽远超随机但远不完美,表明教师指纹存在但不够强,实际应用仍需改进

亮点

  • 提出了一个新颖且有实际应用价值的问题——蒸馏教师模型的事后归因
  • 系统性地排除了直觉上看似合理的方法(困惑度、文本相似度),突出了问题的挑战性
  • PoS 模板的有效性揭示了蒸馏传递的是句法层面的隐含偏好,而非表面词汇特征
  • 无需访问教师模型内部或使用水印策略

局限性

  • PoS 模板分类准确率虽远超随机但离实用仍有距离(最高 0.74)
  • 假设封闭集场景(教师必在候选集中),无法处理候选集外的教师
  • 额外微调、数据增强、多教师蒸馏等可能模糊归因信号
  • 不同教师如果训练在相同数据上,可能共享足迹,增加归因难度
  • 仅使用了两种学生模型(GPT-2、OLMo-1B),泛化性待验证

相关工作

  • LLM 蒸馏: Hinton (2015) 的知识蒸馏框架;Ho et al. (2023) 的推理教学;Li et al. (2023b) 的符号CoT 蒸馏;Wadhwa et al. (2024a) 的 CoT 增强蒸馏
  • 来源追踪: Li et al. (2024b) 的统计水印检测;Li et al. (2024a) 的生成时水印方法;Li et al. (2023a) 使用困惑度和对比训练检测文本来源
  • LLM 文本检测: Shaib et al. (2024b) 发现 LLM 偏好特定句法模板(本文的直接灵感)

评分

维度 分数
新颖性 ⭐⭐⭐⭐
实用性 ⭐⭐⭐⭐
技术深度 ⭐⭐⭐
实验充分性 ⭐⭐⭐⭐