TiTok: Transfer Token-level Knowledge via Contrastive Excess to Transplant LoRA¶

会议: ICLR 2026
arXiv: 2510.04682
代码: https://github.com/NaughtyMaltiz16/TiTok
领域: 模型压缩
关键词: LoRA 迁移, 知识蒸馏, Token 级选择, 参数高效微调, 对比超额分数

一句话总结¶

提出 TiTok 框架，通过 token 级对比超额分数（contrastive excess）实现 LoRA 适配器跨模型高效迁移，无需额外判别器模型，在推理和个性化任务上一致超越 TransLoRA 和知识蒸馏基线。

研究背景与动机¶

LoRA 的绑定问题: LoRA 等 PEFT 方法虽然参数高效，但适配器参数依赖于特定基础模型，无法跨模型迁移
现有解决方案的局限:
- 知识蒸馏（KD）依赖原始训练数据，通常不可用
- TransLoRA 通过合成数据解决数据依赖，但需要训练额外的判别器模型进行数据过滤，增加了复杂度
核心动机: 能否用更轻量的方式，从 LoRA 中提取 token 级任务知识信号，指导跨模型的知识迁移？

方法详解¶

整体框架¶

TiTok 由三个步骤组成： 1. 合成数据生成 → 2. 超额分数计算 → 3. 带过滤的目标模型训练

关键设计 1: Token 级对比超额分数¶

定义源模型有无 LoRA 时的 token 级分数差异：

\[S(y_i) = L_e(y_i) - L_a(y_i)\]

其中：

\[L_a(y_i) = \log P_{\mathcal{M}_s}(y_i \mid \mathbf{q}, \mathbf{y}_{<i}), \quad L_e(y_i) = \log P_{\mathcal{M}_s + \mathcal{A}_s}(y_i \mid \mathbf{q}, \mathbf{y}_{<i})\]

直觉: 超额分数衡量 LoRA 适配器注入的任务知识量。当基础模型对某 token 不确定但 LoRA 增强后高置信度预测时，该 token 获得高超额分数
理论基础: 等价于 token 级对数似然比（LLR），由 Neyman-Pearson 引理保证其为区分两模型分布的最优统计量

关键设计 2: 两级过滤训练¶

第一阶段 — 样本过滤: 计算每个合成样本的平均超额分数，保留 top-\(M\) 个高信息量样本：

\[\bar{S}_j = \frac{1}{|\mathbf{y}_j|} \sum_{y_i \in \mathbf{y}_j} S(y_i)\]

第二阶段 — Token 选择: 在保留样本内，仅选择 top-\(k\%\) 超额分数的 token 用于训练：

\[\mathcal{L}_{\text{TiTok}} = \sum_{(\mathbf{q}_j, \mathbf{y}_j) \in \mathcal{D}_f} \sum_{y_i \in \mathbf{y}_j} I_{k\%}(y_i) \cdot L_t(y_i)\]

关键设计 3: Tokenizer 对齐算法¶

当源模型和目标模型使用不同 tokenizer 时： - 使用双指针递增解码匹配文本 span - 四种规则传播 mask：一对一直接复制、一对多复制、多对一平均、多对多平均复制 - 最后 top-\(k\%\) 选择保留最可信目标 token

损失函数¶

目标模型 LoRA \(\mathcal{A}_t\) 在冻结骨干 \(\mathcal{M}_t\) 上，使用过滤后的合成数据以标准 NLL 损失训练：

\[\mathcal{L}_{\text{TiTok}} = \sum \sum I_{k\%}(y_i) \cdot (-\log P_{\mathcal{M}_t + \mathcal{A}_t}(y_i \mid \mathbf{q}, \mathbf{y}_{<i}))\]

实验¶

主实验：四种迁移设置¶

迁移设置	方法	BBH Acc	MMLU Acc	News R-1	Scholarly R-1
Mistral→Mistral	Vanilla	0.397	0.557	0.117	0.381
Mistral→Mistral	TransLoRA	0.416	0.534	0.156	0.447
Mistral→Mistral	TiTok	0.424	0.561	0.161	0.473
Mistral→Llama3	Vanilla	0.469	0.469	0.125	0.444
Mistral→Llama3	TransLoRA	0.473	0.473	0.126	0.461
Mistral→Llama3	TiTok	0.484	0.485	0.139	0.464
Llama2→Llama3	TiTok	0.488	0.477	0.138	0.461

消融实验¶

样本过滤	Token 选择	BBH	MMLU	News R-1	Scholarly R-1
✗	✗	0.458	0.485	0.133	0.456
✗	✓	0.463	0.496	0.137	0.460
✓	✗	0.470	0.500	0.139	0.460
✓	✓	0.483	0.501	0.142	0.464

关键发现¶

TiTok 平均优于 vanilla 目标模型 +9.94%，优于 KD +8.5%，优于 TransLoRA +4.4%
跨模型族（Mistral→Llama）、跨尺度（3B→8B）、跨版本（Llama2→Llama3）均有效
Top 20% 超额分数 token 包含最集中的任务知识（0.482 vs bottom 0.468）
不同模型专家（Mistral 7B 和 Llama2 7B）在 top 20% token 选择上有 59.76% 重合度
Token 选择比率 \(k\%\) = 70% 在大多数设置下最优
使用不相关领域的外部数据时 TiTok 仍然有效

亮点¶

方法简洁有效: 不需要训练额外模型（判别器），仅利用源模型自身的有/无 LoRA 差异
理论扎实: 超额分数有对数似然比的统计检验理论支撑
全面的迁移场景: 覆盖同族、跨族、跨尺度、跨版本四种设置
Tokenizer 对齐: 优雅解决不同模型 tokenizer 不匹配问题

局限性¶

依赖合成数据质量，合成能力弱的源模型可能限制迁移效果
Token 选择比率 \(k\%\) 在不同迁移设置间不完全一致（Llama3 3B→8B 最优值为 30%）
仅在 LoRA（rank=8）上验证，未探索其他 PEFT 方法
评估任务主要集中在推理（BBH/MMLU）和个性化（LaMP），其他任务类型待验证

评分¶

维度	分数
创新性	★★★★☆
理论深度	★★★★☆
实验充分性	★★★★☆
实用价值	★★★★☆
写作质量	★★★★☆