Video Unlearning via Low-Rank Refusal Vector¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=U1XBHtXl7Y
论文: Project Page
代码: 见项目页（暂未明确给出代码仓库）
领域: AI安全 / 机器遗忘 / 视频扩散模型 / 概念擦除
关键词: 视频遗忘、拒绝向量、对比低秩分解、闭式权重更新、安全生成

一句话总结¶

本文提出首个面向视频扩散模型的「免训练、闭式权重更新」概念擦除框架：只用 5 对安全/不安全提示估计一个「拒绝向量」，再用对比低秩分解把目标概念从无关语义中剥离，最后把修正解析地写进模型权重，在 OPEN-SORA 与 ZEROSCOPET2V 上平均把不安全生成率分别降低 36.3% 和 58.2%，且不损视频质量、不加推理开销。

研究背景与动机¶

领域现状：文本到视频扩散模型（如 OPEN-SORA、ZEROSCOPET2V）靠海量未筛选网络数据训练，已能生成高保真视频，被广泛用于广告、虚拟拍摄、仿真等工业场景。但「未筛选语料」也意味着模型不可避免地学到裸露、暴力、版权角色等不安全概念，开源放出时存在被滥用的风险，因此「权重层面的净化」成了负责任发布的前提。

现有痛点：现有机器遗忘方法分两类，各有硬伤。过滤类（关键词屏蔽、内容审核、SAFREE、VideoEraser）只在推理时拦截 token，一旦攻击者拿到模型权重就能绕过，提供不了永久保护；权重更新类里，微调（如 NullSCE）确实改了参数、也改了去噪动力学，但要逐概念重训，代价高昂还容易灾难性遗忘无关语义、甚至被擦掉的概念「复活」。图像域虽有 UCE、RECE 这类免训练闭式编辑，但它们针对的是 CLIP 文本编码器 + 帧独立架构，无法直接搬到视频上。

核心矛盾：视频域缺一个「既永久（写进权重）、又便宜（不重训）、还精准（不误伤无关概念）」的擦除方案。过滤治标不治本，微调治本但太贵且伤身。

本文目标：为视频扩散模型设计一个免训练、零推理开销的闭式权重更新，把指定不安全概念从去噪器参数里永久抹除，同时保住视频质量、时序连贯与提示对齐。

切入角度：作者借用机制可解释性里的「线性表征假设」——很多概念在激活空间里对应一条方向。LLM 里曾用单条「拒绝方向」控制行为；本文把这一思路迁移到视频扩散，并且首次同时利用文本与图像两路条件来更准地逼近目标概念方向。

核心 idea：用「不安全−安全」激活差的均值估出一条拒绝向量，再用对比低秩子空间把它从无关语义里净化出来，最后解析地把这条方向从权重里减掉。

方法详解¶

整体框架¶

方法要解决的是：给定一个预训练视频扩散模型 \(\phi\) 和一个待擦除概念 \(c\)（如裸露），在不重训的前提下把 \(c\) 从权重里永久删掉。整体只需三步：先用极少量成对样本估一条「拒绝向量」，再把它投到一个对比低秩子空间里净化，最后把净化后的修正解析地融进某一线性层的权重矩阵，得到一个改过的 \(\tilde{W}\)，此后该模型就「忘记」了 \(c\)，而对其他概念毫发无损。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：5 对 安全/不安全 提示<br/>(文本+图像双路条件)"] --> B["1. 拒绝向量<br/>取激活差 u−s 的均值 r"]
    B --> C["2. 对比低秩子空间<br/>cPCA 净化出 rank-k 方向"]
    C --> D["3. 闭式权重更新<br/>把投影修正融进 W → W̃"]
    D --> E["输出：永久遗忘 c 的模型<br/>零推理开销 / 不伤其他概念"]

关键设计¶

1. 拒绝向量：用激活差的均值定位「概念轴」

要擦除概念 \(c\)，先得知道它在模型内部「长什么样」。作者收集 \(N\) 对只在「是否含 \(c\)」上有差别的输入 \(\{(x_i^{\text{unsafe}}, x_i^{\text{safe}})\}\)（如「金发裸体女子」vs「金发女子」），分别过模型 \(\phi\) 得到激活集 \(U=\{u_i\}\) 与 \(S=\{s_i\}\)。基于「线性表征假设」——\(c\) 只存在于 \(U\)、不存在于 \(S\)——单对差值 \(r_i = u_i - s_i\) 就捕捉了「加入 \(c\) 后内部表征的变化」。在选定层 \(l\) 上对所有对取均值得到拒绝向量：

\[r^l = \frac{1}{N}\sum_{i=1}^{N}(u_i^l - s_i^l)\]

推理时不能简单地把 \(r\) 整个减掉（那会平移所有嵌入、连安全样本也被扰动），而是只减去样本在 \(r\) 方向上的投影分量：

\[\tilde{x}^l = x^l - \lambda\left\langle x^l, \frac{r^l}{\lVert r^l\rVert}\right\rangle\frac{r^l}{\lVert r^l\rVert}\]

其中 \(\lambda\) 控制抑制强度（\(\lambda=0\) 即不改模型）。妙处在于：当 \(x^l\) 不含 \(c\) 时内积为 0、生成原封不动；含 \(c\) 的嵌入则按其与拒绝方向的对齐度被衰减，从而做到「概念定向、保真不伤」。本文还首次把文本与图像两路条件一起纳入 \(x_i\)（即 \(x_i=(x_i^{\text{txt}}, x_i^{\text{img}})\)），比只在 token 或文本编码器隐空间动手的旧方法更准地逼近目标概念。

2. 对比低秩分解（cPCA）：把概念轴从无关语义里净化出来

直接用 \(r\) 有个问题：不安全概念方向（如「色情」）常和安全概念方向（如「女人」「男人」）在表征空间里纠缠（即非正交），减 \(r\) 时会顺带误伤这些无关语义、造成附带遗忘。作者的解法是把投影约束到一个低秩子空间，只保留 \(c\) 的主信号、丢掉与无关方向纠缠的分量。

具体地，把 \(N\) 条差值堆成矩阵 \(R\in\mathbb{R}^{H\times N}\)，中心化后算协方差 \(C_r=\bar{R}^T\bar{R}\)，对它做 SVD \(C_r=U\Sigma V^T\)，取左奇异矩阵的前 \(k\) 列 \(U_k\) 张成子空间。把样本与拒绝向量都投进去 \(\hat{x}=U_k^T x,\ \hat{r}=U_k^T r\)，在 rank-\(k\) 子空间里做修正再投回原空间。更进一步，为了不仅区分「安全 vs 不安全」、还要保住中性概念（狗、树……），作者引入对比 PCA：额外收集中性提示激活 \(E\)、算其协方差 \(C_e\)，对 \(C=C_r-\alpha C_e\) 做 SVD，其中 \(\alpha\) 调节「压制中性方向」的力度。这样得到的子空间既最大化目标特有方差、又最小化中性方差，把不安全概念隔离得更干净。消融显示 cPCA 比纯 PCA 把「色情」类擦得更狠（13.4% vs 16.9%），印证了它更好地解耦了安全/不安全语义。

3. 闭式权重更新：把修正一次性焊进参数，实现永久遗忘

前面的修正都作用在「输入嵌入」上，属于推理期编辑、可被绕过。作者证明这套子空间感知的修正可以解析地等价转移到权重里。设第 \(l+1\) 层为线性层 \(x^{l+1}=W^{l+1}x^l\)，把 \(x^l\) 替换成修正后的 \(\tilde{x}^l\) 并展开：

\[x^{l+1}=W^{l+1}\left(I-\lambda U_k\frac{\hat{r}\hat{r}^T}{\lVert\hat{r}\rVert_2^2}U_k^T\right)x^l=\tilde{W}^{l+1}x^l\]

于是只要把 \(W^{l+1}\) 换成括号里那个投影算子右乘后的 \(\tilde{W}^{l+1}\)，就把与 \(c\) 对齐的方向从参数中显式删掉了——模型「忘记」\(c\)、其余概念保留，且这个闭式更新不引入任何额外显存或计算开销。这正是相对过滤（可绕过）和微调（贵、会遗忘）的关键差异：永久、零成本、且只动一处线性层。这套更新天然契合视频扩散——概念方向来自编码外观与运动的时空激活，更新目标落在负责跨时间传播信息的 cross-attention FFN 上。

损失函数 / 训练策略¶

本方法无训练、无损失函数：整条流水线只含前向取激活 + SVD + 一次解析权重替换。关键超参经实证选定：拒绝向量作用于第 17–18 层（经验上最有效），提示对数取 5 对（再多无明显收益，5 对是质量与效率的折中），cPCA 秩 \(k=100\)（过大引入无关方向、过小丢失有效方向），抑制系数 \(\lambda=1\)（过小擦不净、过大会过抑制并损坏视频）。

实验关键数据¶

评测在两个视频扩散模型（OPEN-SORA、ZEROSCOPET2V）× 两个基准（T2VSafetyBench、SafeSora）上进行，用三个互补指标：① GPT-4o 评判的不安全生成率（Censorship，越低越好）、② FVD（视频质量与时序连贯，越低越好）、③ MM-Notox（语义保持，越低越对齐安全提示）。对照微调法 NullSCE 与过滤法 SAFREE。

主实验¶

T2VSafetyBench / OPEN-SORA（对照 NullSCE）：

类别	基线 Censorship	NullSCE	本文	FVD（基线→本文）
版权与商标	73.0%	48.0%	33.0%	147.83 → 149.12
色情	44.7%	23.0%	13.4%	169.44 → 151.24
序列动作风险	41.8%	22.0%	9.1%	182.07 → 172.19
血腥	74.9%	-	5.3%	162.31 → 154.74
公众人物	10.0%	9.0%	2.0%	160.98 → 176.50
平均	48.9%	25.5%	12.6%	164.53 → 160.36

SafeSora / ZEROSCOPET2V（对照 SAFREE）：

类别	基线 Censorship	SAFREE	本文	FVD（基线→本文）
暴力	71.7%	50.6%	10.2%	54.46 → 59.17
恐怖主义	76.0%	52.0%	4.0%	79.66 → 69.44
种族主义	73.3%	57.8%	4.4%	56.54 → 57.22
性	51.5%	18.2%	9.1%	60.96 → 63.51
虐待动物	67.8%	37.0%	22.2%	95.62 → 95.80
平均	68.1%	43.1%	9.9%	69.44 → 69.02

本文在两套设置上均把不安全率压到最低：相对 NullSCE 平均再降 12.9%（「血腥」类相对基线最高降 69.6%），相对 SAFREE 平均再降 33.2%，而 FVD 基本与基线持平、MM-Notox 普遍下降，说明视频质量与提示对齐均未受损。

消融实验¶

T2VSafetyBench「色情」类子集上拆解各组件：

配置	Censorship	说明
基线	44.7%	未干预
仅拒绝向量	18.0%	单条拒绝方向已大幅下降
+ PCA	16.9%	低秩净化再降
+ cPCA	13.4%	对比低秩最强，最好地解耦安全/不安全

其余分析：cPCA 秩在 \(k=100\) 时最优，过大/过小都变差；\(\lambda\) 越大越压得狠但过大会损画质，故取 \(\lambda=1\)；对「安全/不安全提示对的语义相似度」鲁棒（低/中/高三档 censorship 在 23.4%–25.4% 间，相似度高时略好）；对 cPCA 中性集的随机重采样鲁棒（5 次重采样 censorship 波动 < 2%）。

关键发现¶

cPCA 是精度主力：从「仅拒绝向量 18.0%→ +cPCA 13.4%」可见，把概念从无关/中性语义里解耦出来，是降低误伤、提升擦除选择性的关键。
极少样本即可：仅 5 对提示就够估出有效拒绝方向，再加无明显收益——擦除一个概念的「监督成本」低到惊人。
质量几乎零代价：FVD 在两套模型上都与基线持平，且全程零推理开销，验证了「闭式权重更新」相对微调/过滤的实用优势。
定性可解释：从图示看，方法对「色情→穿衣」「危险窗台→补上护栏/窗框」「法拉利 logo→去标」等做了精准且语义保留的修正，说明拒绝方向确实编码了对应概念而非整片场景。

亮点与洞察¶

把 LLM 的「单方向拒绝」迁移到视频扩散：线性表征假设 + 拒绝向量原本是 LLM 安全里的工具，本文论证它在时空去噪架构上同样成立，并补上「投影而非整减」「低秩净化」两步使其精准可用。
闭式等价转移最优雅：核心公式把「对输入嵌入的投影修正」解析地改写成「对权重矩阵的右乘投影算子」，一步把可绕过的推理编辑变成不可逆的权重遗忘，零额外开销——这是可复用的好 trick。
双路条件（文本+图像）逼近概念：首次联合两路条件估计概念方向，比只动 token/文本隐空间更贴近视频生成的真实条件分布。
对比 PCA 用于安全：cPCA 同时「拉大目标方差、压小中性方差」的思路，可迁移到任何「要擦 A 又怕误伤 B」的概念编辑任务。

局限与展望¶

逐概念、逐层超参：每个概念需各自估拒绝向量，层位（17–18）、\(k=100\)、\(\lambda=1\) 等超参靠经验搜得，跨模型/概念是否稳定迁移尚需更多验证。
「虐待动物」类擦除偏弱（22.2%，明显高于其他类），说明对某些纠缠较深或视觉特征分散的概念，单条低秩方向仍不够，可能需要多方向或更高秩子空间。
评测依赖 GPT-4o 评判：不安全率由自动评判给出，虽称与人类一致，但仍可能在边界类别上有偏差。
公众人物 FVD 略升（160.98→176.50）：个别类别擦除会轻微影响该类视频分布，质量保持并非对所有类别完全无损。
改进思路：可探索一次性多概念联合擦除、自适应选层/选秩，以及对「概念复活」攻击（重新激活被擦概念）的鲁棒性评估。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个视频扩散免训练闭式权重遗忘框架，把拒绝向量 + cPCA 迁移并落地。
实验充分度: ⭐⭐⭐⭐ 两模型两基准 + 多维度消融，但概念/类别覆盖与对照方法仍可更广。
写作质量: ⭐⭐⭐⭐ 动机—方法—闭式推导链条清晰，公式与定性图互证。
价值: ⭐⭐⭐⭐⭐ 极低成本、零推理开销、永久擦除，对开源视频模型的安全发布有直接实用价值。