Multi-Feature Quantized Self-Attention for Fair Large Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=0UvgQxsi7S
代码: 待确认
领域: LLM 安全 / 公平性去偏
关键词: 公平性, 去偏, 自注意力, 向量量化, 对抗自编码器, 多属性偏见

一句话总结¶

提出 MQAR：在冻结的 LLM 自注意力层前插一个「向量量化 + 对抗自编码器」的轻量插件，在不动 backbone、不接触预训练数据的前提下，把性别/种族等多个敏感属性信息从注意力表征里挤掉，同时把下游精度损失压在 0.4% 以内。

研究背景与动机¶

领域现状：LLM 在预训练中吸收了训练语料里的社会偏见（性别、种族、宗教），即便经过指令微调和对齐仍可测量到这些偏见。已有去偏方法分三类：嵌入级投影（INLP、SentDebias、OSCaR）、模型级公平训练（ADELE、FaRM、FineDeb）、推理时干预（CRISPR、RB）。
现有痛点：嵌入级投影会过度压缩潜空间、损伤任务表达力；模型级方法需要访问训练数据并对 backbone 做昂贵微调，难以迁移到专有/黑盒模型；推理时方法虽然 model-agnostic 且免参数，却只改输入或解码，完全没碰注意力层的内部表征，attention 级偏见原封不动地留着。
核心矛盾：偏见其实被自注意力结构「放大」——注意力把敏感属性信号和语义内容纠缠在一起（论文用性别互换句对的 attention heatmap 直接展示了这种差异性聚焦）。但既有方法要么不碰这层，要么碰这层就要重训。如何只在注意力表征上动手、又不重训 backbone，是个空白。
本文目标：做一个 model-agnostic、轻量、免微调的去偏模块，直接针对表征级偏见，且能同时处理多个、相互重叠的受保护属性及其交叉（intersectional），而非传统单属性设置。
核心 idea：【量化瓶颈 + 对抗解纠缠】 把一个结构化向量量化器塞进冻结自注意力的输入端，用量化制造信息瓶颈强迫表征丢弃属性细节；再配一个判别器引导的对抗自编码器，一边重构保住语义、一边对抗性地抹掉「能被判别器识别出属性」的那部分信息。整套训练对应信息瓶颈目标——最大化表征与输入的互信息、最小化表征与敏感属性的互信息。

方法详解¶

整体框架¶

MQAR（Multi-feature Quantized Attention Regularization）是一个插在自注意力层「输入端」的逐层正则化模块 \(\mathrm{QR}_{i-1}\)：原始隐状态 \(X_{i-1}\) 先被它变换成去偏表征 \(\tilde{X}_{i-1}=\mathrm{QR}_{i-1}(X_{i-1})\)，再喂给冻结的注意力去算 \(Q/K/V\)。模块内部是一个「自编码器 + 向量量化器 + 属性判别器」的组合：编码器把 token 表征压成潜向量，量化器把它离散化成瓶颈表征，两个解码器负责把语义重构回来，判别器则负责猜敏感属性、并被对抗地骗。整套训练分两阶段——先把量化自编码器和判别器一起训出来，再固定判别器、用随机化属性标签做对抗正则把属性信息挤干净。backbone 全程冻结，不需要预训练数据。

flowchart LR
    A[token 表征 x] --> E[编码器 e1]
    E -->|连续潜向量 z| Q[向量量化器 Q]
    Q -->|量化潜向量 r| D2[解码器 d2]
    D2 -->|去偏重构 x''| OUT[喂给冻结自注意力 Q/K/V]
    E -->|z| D1[解码器 d1]
    D1 -->|重构 x'| REC[语义重构损失]
    Q -->|r| DA[属性判别器 Da]
    DA -->|预测多热属性 a-hat| ADV[对抗正则: 骗过 Da]

关键设计¶

1. 注意力输入端正则化：在冻结层里改表征而非改权重。 MQAR 没有去微调任何 \(W^Q/W^K/W^V\)，而是在每层注意力计算之前插一道变换，把原始 \(X_{i-1}\) 换成去偏后的 \(\tilde{X}_{i-1}\)，于是注意力变成 \(X_i=\mathrm{softmax}\!\big(\tilde{X}_{i-1}W^Q_i(\tilde{X}_{i-1}W^K_i)^\top/\sqrt{d_k}\big)\tilde{X}_{i-1}W^V_i\)。这样做的好处是：敏感信息在进入 attention 之前就被压掉，注意力本身的上下文建模能力一点不损，且因为完全不碰 backbone 参数，对 BERT/T5/GPT-Neo/Mixtral/LLaMA 这些结构各异、甚至黑盒的模型都能即插即用。

2. 量化瓶颈：用离散码本制造「丢信息」的强制压缩。 编码器 \(e_1\) 把 \(x_{(l,i)}\) 映到连续潜向量 \(z\)，量化器 \(Q\) 用最近邻搜索把它离散成 \(r=Q(z)\)，码本大小为 \(K\)。离散化本身就是个信息瓶颈——能通过的属性细节有限。训练靠两个损失夹住码本：量化损失 \(L_{\text{quantize}}=\lVert \mathrm{sg}(z)-\hat a\rVert_2^2\) 把离散码拉向编码器输出，承诺损失 \(L_{\text{commit}}=\lVert z-\mathrm{sg}(\hat a)\rVert_2^2\) 把连续输出钉在码本附近（\(\mathrm{sg}\) 为 stop-gradient），梯度靠 straight-through estimator 穿过不可导的量化步。论文特意用标量量化（每维独立离散）而非高维向量量化，缓解了码本坍缩问题、让离散潜空间能更自由地重组。整个量化正则可写成 \(\mathrm{QR}_i(\cdot)=d_2\big(Q(e_1(\cdot))\big)\)。

3. 判别器引导的对抗自编码 + 双解码器保语义。 每个 token 带一个多热属性标签 \(a\in\{0,1\}^M\)（\(M\) 个属性，如性别/种族/宗教同时标），判别器 \(D_a\) 从量化潜向量 \(r\) 预测 \(\hat a=D_a(r)\)。第一阶段判别器学着把属性分对、自编码器学着重构；第二阶段固定判别器、把属性标签随机化成 \(a^r\)，逼编码器-量化器把表征调成让 \(D_a\) 分不出属性。多热监督是关键：它强迫模型别把多个属性塞进同一个共享子空间，从而联合抹掉多个属性而不是逐个处理。同时两个解码器 \(d_1,d_2\) 各自做重构（\(x'\approx x\)、\(x''\approx x\)）保证去偏不把任务语义也一起删了——消融显示去掉解码器后 AUC 从 93.9 暴跌到 50.3、偏见指标飙升，说明解码器是「保语义」的命门。

4. 信息瓶颈目标与对偶上界。 整套训练的形式化目标是信息瓶颈 \(\max\, I(R;X)-\beta I(R;A)\)：留住表征 \(R\) 与输入 \(X\) 的互信息、压低 \(R\) 与属性 \(A\) 的互信息。由于互信息难直接估，论文用变分上下界 + 蒙特卡洛梯度近似：\(I(R;X)\) 取下界 \(\mathcal{L}_r=\mathbb{E}[\log D_2(x''|r)]\)（解码器重构对数似然），\(I(R;A)\) 取上界 \(C_1,C_2\)（当对抗判别器趋于最优、即 KL 间隙 \(l\to0\) 时上界收紧），最终目标变成 \(\max\,\mathcal{L}_r-\beta_1 C_1-\beta_2 C_2\)。论文进一步证明在分布空间上该约束优化满足强对偶（Theorem 4），为对抗正则提供了理论支撑。此外，判别器只对带清晰属性线索（代词、职业词）的样本做弱监督，模糊/中性样本被排除，避免监督噪声、只在需要的地方去偏。

实验关键数据¶

主实验表格¶

五个 backbone（BERT/T5/GPT-Neo/Mixtral/LLaMA 3.2），三个偏见基准（WinoBias/StereoSet/CrowS-Pairs）。下表为 LLaMA 3.2 上的 StereoSet 与 CrowS-Pairs（LMS 语言建模分↑、SS 刻板印象分越接近 50 越好、ICAT↑；CrowS 越接近 50 越公平）：

方法	StereoSet-Gender SS	ICAT	StereoSet-Race SS	ICAT	CrowS-All
LLaMA 3.2	59.7	72.5	62.1	68.3	61.9
+INLP	58.3	75.6	64.0	65.0	48.2
+SentDebias	60.2	72.8	56.3	79.4	51.3
+CRISPR	60.3	72.4	53.2	81.5	50.8
+RB	54.1	76.7	54.7	82.8	49.7
+MQAR (Ours)	53.1	86.0	54.0	84.0	48.1

MQAR 在 SS（最接近 50）、ICAT（最高 86.0/84.0）、CrowS-All 上几乎全面最优；WinoBias 上也取得最低 Avg. 和很小的 |Diff|（偏见分）。

消融实验表格¶

BERT + 滥用言论检测（Founta），考察去掉解码器 (a) 和去掉判别器 (b)：

数据	指标	完整	(a) 去解码器	(b) 去判别器
Original	AUC	93.9	50.3	93.9
Original	FPED	1.84	20.2	2.50
Original	FNED	3.46	18.3	3.46
Generated	FPED	0.065	22.1	0.392

去解码器 → 语义全毁、精度崩、偏见暴涨（解码器保信息）；去判别器 → 语义保住但偏见没降下来（判别器负责去偏）。两者缺一不可。

关键发现¶

精度几乎无损：跨所有下游任务（滥用言论检测、仇恨言论检测、情感分析、文本生成），MQAR 相对非去偏 baseline 的平均精度下降至多 0.4 个百分点；滥用言论检测上 AUC 与 baseline 统计上无差异，同时 FPED/FNED 更优。
效率优于微调路线：LLaMA 3.2 上 MQAR 只增加 48.1% 参数、87.0% FLOPs，端到端推理延迟 132.7ms，比需要全模型微调的 FineDeb（+107.3% 参数、189.8ms）快约 43%。
多属性 + 交叉有效：单个 MQAR 模块用多热监督联合压低性别+种族等多个属性及其交叉偏见，而非逐属性训练。

亮点与洞察¶

干预点选得巧：把去偏从「输入/解码」搬到「注意力输入表征」，正好命中偏见被放大的位置，又靠「改表征不改权重」绕开了重训 backbone 的代价。
量化即瓶颈：用向量量化的离散化天然制造信息瓶颈，是一个把「VQ 用作解纠缠工具」（沿用 Hsu et al. 2024 的 latent quantization 解纠缠思路）迁到公平性场景的漂亮转用。
多热监督是处理交叉偏见的关键开关：用一个多热标签 + 判别器，把「别让多个属性共享子空间」这件事直接写进对抗目标，比逐属性投影更契合 intersectional 设定。
理论缝合到位：信息瓶颈 + 变分上下界 + 强对偶证明，让对抗正则不只是工程 trick。

局限与展望¶

开销不算小：+48% 参数、+87% FLOPs，对每层都插模块的设计在超大模型上仍有成本；论文只和 FineDeb 比延迟，没和更轻的推理时方法（CRISPR/RB）比开销。
依赖弱监督词典：判别器靠代词/职业词等清晰线索做弱监督，对没有显式词汇线索的隐性偏见、低资源语言可能力不从心；作者也把低资源场景列为 future work。
属性需预先定义：多热标签要求事先知道并标注哪些受保护属性，难覆盖未知/长尾偏见维度。
评测仍偏静态英文基准：WinoBias/StereoSet/CrowS 均为英文静态基准，多语言、指令微调模型上的效果仅作为展望，未实测。

评分¶

新颖性: ⭐⭐⭐⭐ — 把向量量化瓶颈 + 对抗自编码器搬进冻结注意力层做多属性去偏，干预点和工具组合都比较新；单点技术多为已有积木的巧妙拼接。
实验充分度: ⭐⭐⭐⭐ — 5 个 backbone × 3 个偏见基准 × 多个下游任务，含效率分析和清晰的双组件消融；但多语言/指令模型仅作展望，部分结果压在附录。
写作质量: ⭐⭐⭐⭐ — 动机—方法—理论—实验链条清楚，图示直观；信息瓶颈那段公式较密、符号偏多，对读者门槛略高。
价值: ⭐⭐⭐⭐ — 免微调、免数据、可即插即用且精度近乎无损，对真实部署中难以重训的黑盒/专有 LLM 公平性问题很实用。