跳转至

TiTok: Transfer Token-level Knowledge via Contrastive Excess to Transplant LoRA

会议: ICLR 2026
arXiv: 2510.04682
代码: https://github.com/NaughtyMaltiz16/TiTok
领域: 模型压缩
关键词: LoRA 迁移, 知识蒸馏, Token 级选择, 参数高效微调, 对比超额分数

一句话总结

提出 TiTok 框架,通过 token 级对比超额分数(contrastive excess)实现 LoRA 适配器跨模型高效迁移,无需额外判别器模型,在推理和个性化任务上一致超越 TransLoRA 和知识蒸馏基线。

研究背景与动机

  • LoRA 的绑定问题: LoRA 等 PEFT 方法虽然参数高效,但适配器参数依赖于特定基础模型,无法跨模型迁移
  • 现有解决方案的局限:
    • 知识蒸馏(KD)依赖原始训练数据,通常不可用
    • TransLoRA 通过合成数据解决数据依赖,但需要训练额外的判别器模型进行数据过滤,增加了复杂度
  • 核心动机: 能否用更轻量的方式,从 LoRA 中提取 token 级任务知识信号,指导跨模型的知识迁移?

方法详解

整体框架

TiTok 由三个步骤组成: 1. 合成数据生成 → 2. 超额分数计算 → 3. 带过滤的目标模型训练

关键设计 1: Token 级对比超额分数

定义源模型有无 LoRA 时的 token 级分数差异:

\[S(y_i) = L_e(y_i) - L_a(y_i)\]

其中:

\[L_a(y_i) = \log P_{\mathcal{M}_s}(y_i \mid \mathbf{q}, \mathbf{y}_{<i}), \quad L_e(y_i) = \log P_{\mathcal{M}_s + \mathcal{A}_s}(y_i \mid \mathbf{q}, \mathbf{y}_{<i})\]
  • 直觉: 超额分数衡量 LoRA 适配器注入的任务知识量。当基础模型对某 token 不确定但 LoRA 增强后高置信度预测时,该 token 获得高超额分数
  • 理论基础: 等价于 token 级对数似然比(LLR),由 Neyman-Pearson 引理保证其为区分两模型分布的最优统计量

关键设计 2: 两级过滤训练

第一阶段 — 样本过滤: 计算每个合成样本的平均超额分数,保留 top-\(M\) 个高信息量样本:

\[\bar{S}_j = \frac{1}{|\mathbf{y}_j|} \sum_{y_i \in \mathbf{y}_j} S(y_i)\]

第二阶段 — Token 选择: 在保留样本内,仅选择 top-\(k\%\) 超额分数的 token 用于训练:

\[\mathcal{L}_{\text{TiTok}} = \sum_{(\mathbf{q}_j, \mathbf{y}_j) \in \mathcal{D}_f} \sum_{y_i \in \mathbf{y}_j} I_{k\%}(y_i) \cdot L_t(y_i)\]

关键设计 3: Tokenizer 对齐算法

当源模型和目标模型使用不同 tokenizer 时: - 使用双指针递增解码匹配文本 span - 四种规则传播 mask:一对一直接复制、一对多复制、多对一平均、多对多平均复制 - 最后 top-\(k\%\) 选择保留最可信目标 token

损失函数

目标模型 LoRA \(\mathcal{A}_t\) 在冻结骨干 \(\mathcal{M}_t\) 上,使用过滤后的合成数据以标准 NLL 损失训练:

\[\mathcal{L}_{\text{TiTok}} = \sum \sum I_{k\%}(y_i) \cdot (-\log P_{\mathcal{M}_t + \mathcal{A}_t}(y_i \mid \mathbf{q}, \mathbf{y}_{<i}))\]

实验

主实验:四种迁移设置

迁移设置 方法 BBH Acc MMLU Acc News R-1 Scholarly R-1
Mistral→Mistral Vanilla 0.397 0.557 0.117 0.381
Mistral→Mistral TransLoRA 0.416 0.534 0.156 0.447
Mistral→Mistral TiTok 0.424 0.561 0.161 0.473
Mistral→Llama3 Vanilla 0.469 0.469 0.125 0.444
Mistral→Llama3 TransLoRA 0.473 0.473 0.126 0.461
Mistral→Llama3 TiTok 0.484 0.485 0.139 0.464
Llama2→Llama3 TiTok 0.488 0.477 0.138 0.461

消融实验

样本过滤 Token 选择 BBH MMLU News R-1 Scholarly R-1
0.458 0.485 0.133 0.456
0.463 0.496 0.137 0.460
0.470 0.500 0.139 0.460
0.483 0.501 0.142 0.464

关键发现

  • TiTok 平均优于 vanilla 目标模型 +9.94%,优于 KD +8.5%,优于 TransLoRA +4.4%
  • 跨模型族(Mistral→Llama)、跨尺度(3B→8B)、跨版本(Llama2→Llama3)均有效
  • Top 20% 超额分数 token 包含最集中的任务知识(0.482 vs bottom 0.468)
  • 不同模型专家(Mistral 7B 和 Llama2 7B)在 top 20% token 选择上有 59.76% 重合度
  • Token 选择比率 \(k\%\) = 70% 在大多数设置下最优
  • 使用不相关领域的外部数据时 TiTok 仍然有效

亮点

  • 方法简洁有效: 不需要训练额外模型(判别器),仅利用源模型自身的有/无 LoRA 差异
  • 理论扎实: 超额分数有对数似然比的统计检验理论支撑
  • 全面的迁移场景: 覆盖同族、跨族、跨尺度、跨版本四种设置
  • Tokenizer 对齐: 优雅解决不同模型 tokenizer 不匹配问题

局限性

  • 依赖合成数据质量,合成能力弱的源模型可能限制迁移效果
  • Token 选择比率 \(k\%\) 在不同迁移设置间不完全一致(Llama3 3B→8B 最优值为 30%)
  • 仅在 LoRA(rank=8)上验证,未探索其他 PEFT 方法
  • 评估任务主要集中在推理(BBH/MMLU)和个性化(LaMP),其他任务类型待验证

相关工作

  • PEFT 迁移: TransLoRA 通过合成数据+判别器迁移 LoRA,方法更重
  • 知识蒸馏: 传统 KD 在 teacher-student 框架下以 logit/序列级操作,需原始数据
  • 选择性 token 训练: 受 selective training 文献启发,首次将 token 选择扩展到知识迁移场景

评分

维度 分数
创新性 ★★★★☆
理论深度 ★★★★☆
实验充分性 ★★★★☆
实用价值 ★★★★☆
写作质量 ★★★★☆