Bias Similarity Measurement: A Black-Box Audit of Fairness Across LLMs¶

会议: ICLR2026
OpenReview: EveruzAsGI 代码: https://github.com/HyejunJeong/bias_llm
领域: LLM 安全 / 公平性审计
关键词: 偏见相似度、公平性审计、指令微调、弃答、CKA

一句话总结¶

把"某个模型公平不公平"这个孤立标量评测，重构成"哪些模型在公平性上彼此像、为什么像"的关系性度量（Bias Similarity Measurement，BSM），用一组横跨标量/分布/行为/表征的相似度函数，在 30 个 LLM、100 万+ 提示上做黑盒审计，发现指令微调主要靠"强制弃答"而非改变内部表征来"变公平"。

研究背景与动机¶

领域现状：评测 LLM 的社会偏见，主流做法是用 BBQ、StereoSet、UnQover 这类结构化基准，给单个模型算一个偏见分（bias score）或准确率，越接近中性越"公平"。

现有痛点：孤立打分有两个盲区。其一，它只告诉你"模型 M 有没有偏"，却没法回答"M1 和 M2 的偏见是不是同一种、谁继承了谁"——而这恰恰是采购、版本回归、血缘溯源时真正关心的问题。其二，弃答（abstention，回答"无法确定 / Unknown"）通常被当成噪声过滤掉，但一个模型如果学会了"遇到敏感问题就拒答"，它的偏见分会很好看，可底层表征里的偏见一点没变——孤立标量评测会把这种"靠谨慎装出来的公平"误判成"真公平"。

核心矛盾：公平性失效如果是结构性继承的（同一基座、同一数据管线传下来），那把模型 A 换成同族的 B 根本解决不了问题；反过来，如果各家微调策略都在把模型推向同一种"重弃答"的趋同行为，那看似的公平进步只是表面文章。没有模型间的关系分析，公平性审计就会高估进步、低估系统性顽固。

本文目标：构造一个能跨黑盒系统比较的统一框架，回答三类此前无法回答的问题——隐藏血缘检测、家族级趋同量化、跨版本公平漂移追踪。

切入角度：作者把问题从"Is model M biased?"换成"Which models behave similarly with respect to bias, and why?"。一旦把偏见看成模型对（pair）之间的功能性签名，就能像比指纹一样比较两个模型在敏感提示下的行为模式，而不只是比一个数字大小。

核心 idea：用"偏见相似度签名"取代"孤立偏见分"——把标量、分布、行为、表征四类互补信号统一进一个相似度空间，让公平性成为可比较的关系属性。

方法详解¶

整体框架¶

BSM 把偏见定义为"模型之间在相同敏感提示下行为的相似关系"，而非任何单个系统的固定属性。整条流水线是：取一组模型 \(M=\{M_1,\dots,M_n\}\) 和一组偏见维度 \(D=\{d_1,\dots,d_k\}\)（性别、种族、国籍、宗教等），把它们都喂同一批结构化提示（来自 BBQ / UnQover / StereoSet，每条提示含上下文、问题、候选答案）；对每个模型的原始输出做标准化（补全映射成类别标签、检出弃答、聚合成分布、需要时抽取隐层嵌入）；然后对每一对模型 \((M_i,M_j)\) 用六个互补的相似度函数算出一个六维偏见相似度签名

\[S(M_i, M_j \mid X, D) = (S_{m_1}, S_{m_2}, \dots, S_{m_6}),\]

最后把所有模型对的签名拼成相似度矩阵，既能局部分析（族内：base vs tuned），也能全局分析（开源 vs 闭源），落到采购、版本回归测试、血缘筛查三类审计应用。关键是这条管线是模块化的：六个度量各自独立，可单独计算、单独看，按审计场景灵活取用。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["30 个 LLM × 3 个偏见基准<br/>BBQ / UnQover / StereoSet"] --> B["输出标准化<br/>类别标签 / 弃答检出 / 分布 / 嵌入"]
    B --> C["关系化重构<br/>偏见=模型对之间的相似关系"]
    C --> D["四类信号 → 六维相似度签名<br/>类别·分布·行为·表征"]
    D --> E["UNK Flip<br/>配对弃答迁移率"]
    D --> F["CKA<br/>表征几何相似度"]
    E --> G["相似度矩阵"]
    F --> G
    G --> H["审计应用<br/>采购 / 版本回归 / 血缘筛查"]

关键设计¶

1. 关系化重构：把"是否有偏"换成"偏得像不像"

孤立打分的根本缺陷是无法表达模型之间的关系，所以"换个模型"是否真能解决公平问题、"微调"带来的是结构性改善还是表面趋同，都无从判断。BSM 借用了已有的"功能相似性分析"思路（用预测重叠、决策边界、表征对齐去比较两个黑盒模型），但把公平性本身当作比较的轴心——不问"M 有没有偏"，而问"哪些模型在偏见上表现相似、为什么"。这个重构看似只是换了个问法，实际打开了三类全新分析：检测隐藏血缘（两个闭源系统偏见签名异常接近 → 可能克隆/继承）、量化家族级趋同（各家微调是否都在往同一种行为收敛）、追踪跨版本公平漂移。作者还谨慎地区分了因果可推断的族内比较（同基座，差别主要在微调）和只能当观测性生态描述的跨厂商比较（架构/数据/管线都不同，不做因果断言）。

2. 四类信号 → 六维相似度签名

公平性评测的老问题是指标碎片化——一堆数字摆在一起，不知道它们彼此什么关系、是不是在测同一个东西。BSM 把四个层级的信号统一成一个签名向量：类别（categorical）用消歧问题上的准确率和偏见分；分布（distributional）用直方图和余弦距离比较模型把概率质量分给各答案类别的比例；行为（behavioral）用弃答翻转率刻画"偏见答案被换成 Unknown"的倾向；表征（representational）用 CKA 比较隐层激活的几何。其中偏见分沿用 BBQ 的定义，按上下文是否消歧分两种：消歧时 \(s_{DIS} = 2\big(n_{biased}/n_{non\_unknown}\big) - 1\)，模糊时 \(s_{AMB} = (1-acc)\cdot s_{DIS}\)，再 ×100 让取值落在 \([-100, +100]\)（\(-100\) 反刻板、\(+100\) 刻板、0 中性）。把四类信号融进同一空间，才能把"表面公平行为"和"结构性不变量"分开——比如揭示指令微调可能让表征偏见原封不动、却靠弃答制造出行为上的趋同。因为各分量独立，BSM 是一个灵活的审计工具箱，而不是一个单块的 benchmark。

3. UNK Flip：配对弃答迁移率，戳穿"靠拒答装公平"

要判断指令微调到底是真纠偏还是学会了回避，需要一个配对度量，把同一基座的 base 模型和它的 tuned 版本直接对照。UNK Flip 定义为基座模型给出的偏见答案中，被微调版改写成"Unknown"的比例：

\[\text{UNK Flip}(M_b \to M_t) = \frac{n_{biased \to UNK}}{n_{biased}},\]

其中 \(n_{biased}\) 是基座给出的偏见答案（刻板或反刻板）数，\(n_{biased\to UNK}\) 是其中被微调版翻成 Unknown 的子集。高翻转率说明微调在欠定上下文里大力推弃答、减少偏见强化，低翻转率则说明公平收益有限。关键洞察来自它和偏见分的互补：高翻转率 + \(s_{AMB}\approx 0\) 是"靠拒答求公平"，而低翻转率 + 大 \(|\Delta s_{AMB}|\) 才是"在仍然作答的前提下做方向性再平衡"。这就能把"谨慎换来的公平"和"表征改善带来的公平"区分开——例如 Gemma 2 9B-It 翻转超 50% 却仍给刻板答案，而 LLaMA 3.1 8B 只翻转约 40%，却把 \(s_{AMB}\) 从 27.2 压到 2.3，是真的在改方向。

4. CKA：表征几何相似度，证明微调改表面不改内核

行为层的指标看不到"模型脑子里有没有变"。CKA（Centered Kernel Alignment）通过比较两个模型在同一批输入上的激活 Gram 矩阵，度量它们是否把输入编码进线性相关的特征空间——分数高说明表征几何相似，即便输出行为不同。把 CKA 和前面的行为度量并置，就能回答"微调到底改了推理通路还是只改了表面解码"。结果是后者：base 和 tuned 模型的对角 CKA 普遍 >0.94、全矩阵 CKA 仍 >0.85，说明指令微调基本保留了内部几何，只在靠后的 decoder 层漂移更明显。这从表征层坐实了核心论断——所谓"微调变公平"，主要是表面解码行为变了（学会弃答），底层表征里的偏见几乎原封不动。

实验关键数据¶

主实验¶

评测规模：4 个家族（LLaMA / Gemma / GPT / Gemini）共 30 个 LLM，参数从 3B 到 70B，含 base 与 instruction-tuned 变体、开源与闭源；数据来自 BBQ（9 个维度、每维约 5K 样本）、UnQover（4 维、约 100 万样本）、StereoSet（开放式生成），合计 100 万+ 结构化提示。

模型 (base)	\(s_{AMB}\) Base	\(s_{AMB}\) Tuned	\(s_{DIS}\) Base	\(s_{DIS}\) Tuned	解读
LLaMA 3.1 8B	18.59	1.38	31.37	4.78	微调后刻板偏见大幅下降
LLaMA 3.2 3B	11.95	15.71	17.67	30.97	小模型微调后更刻板（反直觉）
Gemma 3 4B	-3.89	5.83	2.69	8.62	小模型微调后偏向刻板
GPT-2	72.43	—	96.19	—	老模型极端刻板，作 legacy 基线
GPT-4o Mini	—	0.47	—	2.66	近零偏见、高准确率
GPT-5 Mini	—	0.21	—	1.10	近乎完美中性、最稳

CKA（base vs tuned）	对角 Diag	全矩阵 Full
LLaMA 2 7B	0.991	0.902
LLaMA 3 8B	0.973	0.851
Gemma 2 9B	0.941	0.906
Gemma 3 12B	0.972	0.911

消融实验¶

BSM 不是训练方法，没有传统消融，但六个度量的"单独看"本身就构成对评测维度的拆解分析：

度量维度	关键指标	揭示了什么
准确率（消歧）	BBQ 消歧准确率	偏见是否压过正确答案；GPT Mini 近满分，Gemini 退到 GPT-2 水平
偏见分 \(s\)	\(s_{AMB}/s_{DIS}\)	方向性偏斜；只有它会漏掉分布形状
直方图 + 余弦距离	分布对齐	BBQ 重弃答使分布坍缩、base/tuned 几乎难分；UnQover 强制选择下方向差异重现
UNK Flip	配对弃答迁移率	微调=推弃答；Gemma 翻转 >50%
CKA	表征相似度	微调改表面不改内核（>0.85）

关键发现¶

指令微调主要靠弃答而非纠偏：BBQ（允许弃答）里微调模型大量回答 Unknown 制造"中性"假象，但同样的模型到 UnQover（强制二选一）就暴露刻板倾向，尤其小模型——弃答是掩盖偏见而非解决偏见。
弃答 vs 表征的二分：在模糊上下文里弃答是恰当的公平姿态；但在消歧上下文里弃答其实是语言理解错误（明明信息充分却拒答），既掩盖残余表征偏斜、又损失实用性。
小模型微调收益小、强制选择下甚至更不公平：LLaMA 3.2 3B 微调后 \(s_{AMB}\) 反升到 15.71，因为拒答不成比例地删掉了反刻板答案，留下的已知质量更偏刻板。
开源可匹敌甚至超过闭源：Gemma 3 Instruct 以远低成本达到 GPT-4 级公平；而 Gemini 的重弃答策略压低了 utility。
家族签名分化：Gemma 偏向 refusal（UNK 翻转常 >50%），LLaMA 3.1 用更少 refusal 趋向中性，但整体都在向"重弃答"行为收敛。

亮点与洞察¶

把"评测"升维成"关系图谱"：从给单模型打分，变成给模型对画相似度矩阵——这让"隐藏血缘检测""家族趋同""版本漂移"这些此前没有工具能碰的审计任务第一次变得可操作，迁移价值很高（论文也指出可自然扩展到代码和多语言场景）。
UNK Flip 与偏见分的互补设计很巧：单看任一个都会被"高翻转 ≠ 真公平"骗到，两者并置才能把"靠拒答装公平"和"真改方向"分开，这个组合可直接复用到任何带弃答选项的评测里。
CKA 提供了"行为/表征解耦"的硬证据：行为指标说"微调让模型变公平了"，CKA 说"内部几何几乎没动"——两条证据合起来，把"微调=表面工程"这个直觉钉成了可测结论。
最让人啊哈的点：弃答会让 BBQ 上 base 与 tuned 的输出分布坍缩到几乎难分，余弦距离趋零——也就是说"重弃答"会主动抹掉模型间本应存在的差异，这是孤立标量评测系统性失真的根因。

局限与展望¶

跨厂商比较只能当观测：架构/数据/管线都不同，作者自己明确不做因果断言，只有族内（同基座）比较才支持"微调效应"的解释性结论——所以"开源超过闭源"这类结论要带 caveat。
依赖现有基准的题型约束：BBQ 三选一带 Unknown、UnQover 二选一无弃答，结论很大程度由数据集的答案格式塑造；换一套题型，弃答行为的呈现可能不同。
偏见/合理事实的边界模糊：作者举的"年轻人更易适应新技术"例子说明，有些回答可能事实成立却仍被算作刻板，BSM 把它当功能签名比较、但没解决"什么才算偏见"的定义难题。
CKA 只看线性相关几何：高 CKA 不等于语义完全一致，表征层"没怎么变"的结论受度量本身假设限制。
可改进方向：把弃答-utility 的 trade-off 显式量化成可调阈值（采购时按业务容忍度选点），以及把签名扩展到多轮对话与多语言，验证家族签名是否跨语言稳定。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把公平性从"孤立标量"重构成"模型间关系属性"，开出血缘/趋同/漂移三类全新审计任务。
实验充分度: ⭐⭐⭐⭐⭐ 30 模型 × 100 万+ 提示 × 6 度量，覆盖开闭源、base/tuned、3B–70B，规模与维度都很扎实。
写作质量: ⭐⭐⭐⭐ 概念框架清晰、术语统一；但图表密集、部分结论依赖附录，主文细节略紧。
价值: ⭐⭐⭐⭐⭐ 直接服务采购、版本回归、血缘筛查，并戳穿"靠弃答装公平"的系统性误判，工程与审计意义大。