跳转至

SCoPe: Intrinsic Semantic Space Control for Mitigating Copyright Infringement in LLMs

会议: AAAI 2026
arXiv: 2511.07001
代码: 无
领域: 可解释性
关键词: 版权保护, 稀疏自编码器(SAE), 语义子空间, 特征钳制, 推理时干预

一句话总结

将LLM版权侵权缓解问题重新定义为内在语义空间控制,利用稀疏自编码器(SAE)将隐状态映射到高维稀疏空间,识别版权敏感子空间并在解码时钳制其激活,无需外部过滤器或参数更新即可有效减少版权内容复制,同时保持模型通用能力。

研究背景与动机

领域现状:LLM可能在生成过程中无意复制训练数据中的版权内容(新闻、书籍等),引发大量版权诉讼。现有防护手段分三类:数据预处理过滤、训练时干预(如selective unlearning)、推理时控制。推理时方法最灵活,无需修改模型参数。

现有痛点: - 依赖外部artifacts:现有推理时方法大多依赖blocklist语料库或Bloom filter进行n-gram级别的字符串比对(如MemFree),增加部署复杂度 - 仅检测表面相似:基于token匹配的方法无法检测语义级别的改写侵权(paraphrased leakage) - 可能降低流畅性:外部过滤/重采样会干扰正常生成质量

核心矛盾:版权保护需要在语义层面识别和抑制版权内容,但LLM神经元的多义性(polysemanticity)使得难以在隐状态空间中定位版权相关的特定维度。

本文目标 能否完全绕过外部过滤机制,让LLM从内部(语义空间层面)自主避免生成侵权内容?

切入角度:利用SAE将LLM的dense隐状态映射到高维稀疏空间,在该空间中每个维度近似对应单一语义概念(monosemanticity),从而可以识别和操控版权相关维度。

核心 idea:在SAE稀疏空间中找到版权敏感子空间,在解码时钳制其激活值为零,实现语义级别的版权内容抑制。

方法详解

整体框架

SCoPe分两阶段:(1) 识别版权子空间——用版权语料和通用语料的SAE激活差异来找版权敏感维度;(2) 特征钳制——在解码时将版权子空间的激活钳制为零,重建隐状态送回模型。整个流程无需训练、无需外部过滤器。

关键设计

  1. 版权子空间识别:

    • 功能:在SAE的 \(k\) 维稀疏空间中找到与版权内容高度相关的 \(n\) 个维度
    • 核心思路:定义Copyright Alignment Score \(\mathcal{Q}(i)\)——维度 \(i\) 在版权样本上激活高于通用样本的概率(实质是单维度AUROC)。证明了子空间得分上界为最佳单维度得分:\(\mathcal{Q}(\mathcal{S}) \leq \max_{i \in \mathcal{I}} \mathcal{Q}(i)\)。这意味着贪心选择top-n高分维度就是近似最优的
    • 算法:对每个维度计算 \(\mathcal{Q}(i)\),按分数降序排列,取top-n(默认n=1000)组成估计子空间 \(\hat{\mathcal{S}}\)
    • 设计动机:利用SAE的monosemanticity保证每个维度对应清晰的语义概念,使得单维度打分可靠。贪心选择线性时间复杂度,避免了指数级搜索
  2. 特征钳制(Feature Clamping):

    • 功能:在解码每一步抑制版权子空间的激活
    • 核心思路:每步解码时,将隐状态 \(\mathbf{h}\) 通过SAE encoder映射为 \(\mathbf{z}\),对 \(\hat{\mathcal{I}}\) 中超过阈值 \(\tau\) 的维度钳制为0:\(z_i \leftarrow 0 \text{ if } i \in \hat{\mathcal{I}} \text{ and } z_i > \tau\),再通过SAE decoder重建 \(\hat{\mathbf{h}}\) 送回模型
    • 设计动机:只抑制版权相关激活,保留其他语义不变,实现精准的语义级控制而非粗暴的token过滤
  3. 理论支撑——子空间假设验证:

    • 功能:验证版权内容确实在SAE稀疏空间中形成可分离子空间
    • 实验证据:(1) Dense空间中版权/通用的维度激活高度重叠(Figure 1a左),SAE稀疏空间中出现明显分离(Figure 1a右);(2) 全空间中激活重叠(Figure 1b),版权子空间中清晰分离(Figure 1c);(3) 反向干预——放大版权子空间激活使侵权率上升(Figure 3),证明因果关系

实验关键数据

主实验

NewsQA上的版权缓解Win Rate(与5个baseline比较胜率):

模型 方法 Avg Win Rate↑ Blocklisted F1↑ In-Domain F1↑
Gemma-2 Vanilla 12.9% 60.9 62.6
Gemma-2 System Prompt 25.3% 60.2 61.8
Gemma-2 MemFree 64.5% 55.9 61.4
Gemma-2 R-CAD 64.1% 58.5 60.1
Gemma-2 SCoPe 71.7% 59.4 62.6
Llama-3 R-CAD 66.9% 58.8 61.9
Llama-3 SCoPe 70.2% 59.2 62.1

MMLU通用能力(无损):

方法 Gemma-2 Llama-3
Vanilla 67.3 63.5
SCoPe 66.7 63.1
Top-k Perturbation 46.1 45.8

消融实验

子空间维度 \(n\) 的影响(BookSum, Llama-3):

维度 n Avg Win Rate MMLU
0 (Vanilla) 8.7% 63.5
500 ~50% 63.5
1000 68.5% 63.5
1500 ~71% ~62
2000 72.5% ~60

关键发现

  • n=1000是最优平衡点:Win rate达68.5%且MMLU零损失;继续增大n,win rate微增但MMLU开始下降
  • 反向干预实验(因果性证明):放大版权子空间 \(\alpha=2.0\) 时,win rate从8.7%降到4.1%(模型更倾向复制版权内容),而通用能力不变。双向结果确认子空间确实编码了版权相关语义
  • SCoPe超越所有baseline 3-7个百分点:比最强baseline R-CAD高约5-7%,且utility损失最小
  • Top-k Perturbation严重损害通用能力:MMLU从63.5降至45.8,证明粗暴扰动不可取
  • 特征解释性:版权子空间的维度对应角色对话、情节转折等高层语义;通用维度对应格式标记、常见形容词等低层模式

亮点与洞察

  • 从语义空间控制角度重新定义版权保护:将问题从"表面token匹配"提升到"语义子空间识别与抑制",这是范式级的创新。可以检测语义改写级别的侵权,而非仅限于逐字匹配
  • SAE + Feature Clamping的组合非常优雅:利用已有的公开SAE(GemmaScope等),零训练成本即可部署。钳制操作只在稀疏空间的选定维度上做零化,对其他维度零干扰
  • Copyright Alignment Score的设计:将子空间搜索简化为单维度排序问题(线性时间),且有理论上界证明支撑贪心选择的合理性
  • 反向干预实验:这是一个漂亮的因果性验证——不仅证明抑制sub-space能减少侵权,还证明放大sub-space能增加侵权,确认了因果关系而非相关关系

局限与展望

  • 仅适用于有公开SAE的开源模型:需要访问模型中间隐状态和预训练SAE,对闭源模型(GPT-4、Claude)无法应用
  • 线性子空间假设:版权内容在稀疏空间中可能不严格落在线性子空间内,非线性方法可能更有效
  • 版权语料需要预先提供:需要有版权文档 \(\mathcal{C}_{cr}\) 和通用文档 \(\mathcal{C}_{gen}\) 来计算Alignment Score,但实际应用中版权内容集合可能不完整或持续更新
  • n的选择依赖具体数据集:n=1000在BookSum上最优,但不同类型的版权内容(代码、音乐歌词等)可能需要不同的n
  • 仅评估英文文本:多语言版权保护场景未验证

相关工作与启发

  • vs MemFree: MemFree用Bloom filter做n-gram级别过滤,只能防逐字复制,SCoPe在语义层面操作,能防语义改写侵权。且MemFree需要维护外部blocklist
  • vs R-CAD: R-CAD下调与版权span对齐的token概率,仍是token级操作。SCoPe在隐状态空间操作,更本质
  • vs SAE-TS/FGAA: 同样用SAE做激活引导的工作,但SCoPe首次将其应用于版权保护,且提出了Copyright Alignment Score作为子空间选择的系统化方法

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将版权保护重新定义为语义子空间控制,SAE+Feature Clamping的组合原创且优雅
  • 实验充分度: ⭐⭐⭐⭐ 两个benchmark、两个模型、五个baseline、子空间大小分析、反向干预实验,全面
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰,可视化验证充分,从假设到验证到应用的逻辑链完整
  • 价值: ⭐⭐⭐⭐⭐ 实用价值高(零训练成本部署),学术价值高(语义子空间假设的验证),对LLM安全领域有重要启示