SCoPe: Intrinsic Semantic Space Control for Mitigating Copyright Infringement in LLMs¶

会议: AAAI 2026
arXiv: 2511.07001
代码: 无
领域: 可解释性
关键词: 版权保护, 稀疏自编码器(SAE), 语义子空间, 特征钳制, 推理时干预

一句话总结¶

将LLM版权侵权缓解问题重新定义为内在语义空间控制，利用稀疏自编码器(SAE)将隐状态映射到高维稀疏空间，识别版权敏感子空间并在解码时钳制其激活，无需外部过滤器或参数更新即可有效减少版权内容复制，同时保持模型通用能力。

研究背景与动机¶

领域现状：LLM可能在生成过程中无意复制训练数据中的版权内容（新闻、书籍等），引发大量版权诉讼。现有防护手段分三类：数据预处理过滤、训练时干预（如selective unlearning）、推理时控制。推理时方法最灵活，无需修改模型参数。

现有痛点： - 依赖外部artifacts：现有推理时方法大多依赖blocklist语料库或Bloom filter进行n-gram级别的字符串比对（如MemFree），增加部署复杂度 - 仅检测表面相似：基于token匹配的方法无法检测语义级别的改写侵权（paraphrased leakage） - 可能降低流畅性：外部过滤/重采样会干扰正常生成质量

核心矛盾：版权保护需要在语义层面识别和抑制版权内容，但LLM神经元的多义性(polysemanticity)使得难以在隐状态空间中定位版权相关的特定维度。

本文目标 能否完全绕过外部过滤机制，让LLM从内部（语义空间层面）自主避免生成侵权内容？

切入角度：利用SAE将LLM的dense隐状态映射到高维稀疏空间，在该空间中每个维度近似对应单一语义概念（monosemanticity），从而可以识别和操控版权相关维度。

核心 idea：在SAE稀疏空间中找到版权敏感子空间，在解码时钳制其激活值为零，实现语义级别的版权内容抑制。

方法详解¶

整体框架¶

SCoPe分两阶段：(1) 识别版权子空间——用版权语料和通用语料的SAE激活差异来找版权敏感维度；(2) 特征钳制——在解码时将版权子空间的激活钳制为零，重建隐状态送回模型。整个流程无需训练、无需外部过滤器。

关键设计¶

版权子空间识别:
- 功能：在SAE的 \(k\) 维稀疏空间中找到与版权内容高度相关的 \(n\) 个维度
- 核心思路：定义Copyright Alignment Score \(\mathcal{Q}(i)\)——维度 \(i\) 在版权样本上激活高于通用样本的概率（实质是单维度AUROC）。证明了子空间得分上界为最佳单维度得分：\(\mathcal{Q}(\mathcal{S}) \leq \max_{i \in \mathcal{I}} \mathcal{Q}(i)\)。这意味着贪心选择top-n高分维度就是近似最优的
- 算法：对每个维度计算 \(\mathcal{Q}(i)\)，按分数降序排列，取top-n（默认n=1000）组成估计子空间 \(\hat{\mathcal{S}}\)
- 设计动机：利用SAE的monosemanticity保证每个维度对应清晰的语义概念，使得单维度打分可靠。贪心选择线性时间复杂度，避免了指数级搜索
特征钳制(Feature Clamping):
- 功能：在解码每一步抑制版权子空间的激活
- 核心思路：每步解码时，将隐状态 \(\mathbf{h}\) 通过SAE encoder映射为 \(\mathbf{z}\)，对 \(\hat{\mathcal{I}}\) 中超过阈值 \(\tau\) 的维度钳制为0：\(z_i \leftarrow 0 \text{ if } i \in \hat{\mathcal{I}} \text{ and } z_i > \tau\)，再通过SAE decoder重建 \(\hat{\mathbf{h}}\) 送回模型
- 设计动机：只抑制版权相关激活，保留其他语义不变，实现精准的语义级控制而非粗暴的token过滤
理论支撑——子空间假设验证:
- 功能：验证版权内容确实在SAE稀疏空间中形成可分离子空间
- 实验证据：(1) Dense空间中版权/通用的维度激活高度重叠（Figure 1a左），SAE稀疏空间中出现明显分离（Figure 1a右）；(2) 全空间中激活重叠（Figure 1b），版权子空间中清晰分离（Figure 1c）；(3) 反向干预——放大版权子空间激活使侵权率上升（Figure 3），证明因果关系

实验关键数据¶

主实验¶

NewsQA上的版权缓解Win Rate（与5个baseline比较胜率）：

模型	方法	Avg Win Rate↑	Blocklisted F1↑	In-Domain F1↑
Gemma-2	Vanilla	12.9%	60.9	62.6
Gemma-2	System Prompt	25.3%	60.2	61.8
Gemma-2	MemFree	64.5%	55.9	61.4
Gemma-2	R-CAD	64.1%	58.5	60.1
Gemma-2	SCoPe	71.7%	59.4	62.6
Llama-3	R-CAD	66.9%	58.8	61.9
Llama-3	SCoPe	70.2%	59.2	62.1

MMLU通用能力（无损）：

方法	Gemma-2	Llama-3
Vanilla	67.3	63.5
SCoPe	66.7	63.1
Top-k Perturbation	46.1	45.8

消融实验¶

子空间维度 \(n\) 的影响（BookSum, Llama-3）：

维度 n	Avg Win Rate	MMLU
0 (Vanilla)	8.7%	63.5
500	~50%	63.5
1000	68.5%	63.5
1500	~71%	~62
2000	72.5%	~60

关键发现¶

n=1000是最优平衡点：Win rate达68.5%且MMLU零损失；继续增大n，win rate微增但MMLU开始下降
反向干预实验（因果性证明）：放大版权子空间 \(\alpha=2.0\) 时，win rate从8.7%降到4.1%（模型更倾向复制版权内容），而通用能力不变。双向结果确认子空间确实编码了版权相关语义
SCoPe超越所有baseline 3-7个百分点：比最强baseline R-CAD高约5-7%，且utility损失最小
Top-k Perturbation严重损害通用能力：MMLU从63.5降至45.8，证明粗暴扰动不可取
特征解释性：版权子空间的维度对应角色对话、情节转折等高层语义；通用维度对应格式标记、常见形容词等低层模式

亮点与洞察¶

从语义空间控制角度重新定义版权保护：将问题从"表面token匹配"提升到"语义子空间识别与抑制"，这是范式级的创新。可以检测语义改写级别的侵权，而非仅限于逐字匹配
SAE + Feature Clamping的组合非常优雅：利用已有的公开SAE（GemmaScope等），零训练成本即可部署。钳制操作只在稀疏空间的选定维度上做零化，对其他维度零干扰
Copyright Alignment Score的设计：将子空间搜索简化为单维度排序问题（线性时间），且有理论上界证明支撑贪心选择的合理性
反向干预实验：这是一个漂亮的因果性验证——不仅证明抑制sub-space能减少侵权，还证明放大sub-space能增加侵权，确认了因果关系而非相关关系

局限与展望¶

仅适用于有公开SAE的开源模型：需要访问模型中间隐状态和预训练SAE，对闭源模型（GPT-4、Claude）无法应用
线性子空间假设：版权内容在稀疏空间中可能不严格落在线性子空间内，非线性方法可能更有效
版权语料需要预先提供：需要有版权文档 \(\mathcal{C}_{cr}\) 和通用文档 \(\mathcal{C}_{gen}\) 来计算Alignment Score，但实际应用中版权内容集合可能不完整或持续更新
n的选择依赖具体数据集：n=1000在BookSum上最优，但不同类型的版权内容（代码、音乐歌词等）可能需要不同的n
仅评估英文文本：多语言版权保护场景未验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将版权保护重新定义为语义子空间控制，SAE+Feature Clamping的组合原创且优雅
实验充分度: ⭐⭐⭐⭐ 两个benchmark、两个模型、五个baseline、子空间大小分析、反向干预实验，全面
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰，可视化验证充分，从假设到验证到应用的逻辑链完整
价值: ⭐⭐⭐⭐⭐ 实用价值高（零训练成本部署），学术价值高（语义子空间假设的验证），对LLM安全领域有重要启示