What's In My Human Feedback? Learning Interpretable Descriptions of Preference Data¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=sC6A1bFDUt
代码: https://github.com/rmovva/wimhf (有)
领域: 对齐RLHF / 可解释性 / 偏好数据分析
关键词: 偏好数据, 稀疏自编码器, RLHF, 可解释特征, 数据净化

一句话总结¶

WIMHF 用稀疏自编码器（SAE）在「两个候选回复的嵌入差」上学出一小批人类可读的特征，再用逻辑回归量化每个特征对偏好标签的影响，从而自动地、无需预设假设地说清楚一份偏好数据集「能测什么偏好」和「标注者实际偏好什么」，并把这些特征当作数据净化和个性化的可控杠杆。

研究背景与动机¶

领域现状：偏好数据是 LLM 对齐（RLHF / 偏好微调 PFT）的基石——给定一个 prompt 和两个候选回复 \((r_A, r_B)\)，人类选出更好的那个，这些标签被用来微调模型。但实践者其实并不清楚这些标签到底编码了什么偏好。

现有痛点：奖励模型能准确预测人类会选哪个，却说不出「为什么」，是个黑盒；另一条路是人工预先指定若干假设特征（礼貌、幽默、长度、谄媚等）再去验证它们是否被偏好，但预设特征本身就限制了能发现的东西——人类反馈里有大量出人意料的怪癖，尤其当成对排序进入新的专业领域时，靠拍脑袋列特征注定会漏。

核心矛盾：要么用黑盒模型（可预测但不可解释），要么用预设特征（可解释但被假设框死）。我们缺的是一个既能自动从数据里发现特征、又让每个特征人类可读的方法。

本文目标：拆成两个可分别回答的子问题——(1) 一份数据集的可测偏好（measurable preferences）：\(r_A\) 与 \(r_B\) 在哪些维度上系统性地不同（只有存在差异的维度才有可能被标签测量到）；(2) 表达偏好（expressed preferences）：这些维度里哪些真正预测了标签 \(y\)。

切入角度：作者注意到，「两个回复的差异」恰好可以用文本嵌入差 \(e_\Delta = e_{r_A} - e_{r_B}\) 来刻画，它包含了语义差异信息但本身不可解释；而 SAE 已被证明能把神经表示映射到一组人类可解释的稀疏基上。把 SAE 直接训练在 \(e_\Delta\) 上，就能把「回复对之间怎么不同」拆成一串可命名的概念。

核心 idea：用 SAE 在嵌入差上学稀疏可解释特征（measurable），再用控制了长度的逻辑回归挑出真正预测标签的特征（expressed），用四个左右的活跃特征就解释掉黑盒奖励模型的大部分信号。

方法详解¶

整体框架¶

WIMHF 是一个三步流水线，输入是一份偏好数据集 \(\mathcal{D} = \{(p, r_A, r_B, y)\}\)，输出是一张「特征 → 自然语言描述 → 对胜率的影响」的字典，以及基于这些特征的两类下游能力（数据净化、个性化）。

整条流程围绕一个生成式分解展开：每条样本来自 prompt 分布、回复分布、标签分布三个环节相乘。WIMHF 先把每对回复编码成嵌入差，用 SAE 拆成稀疏特征（这一步只看回复、与标签无关，对应可测偏好）；再让 LLM 给每个特征写自然语言描述并用 fidelity 过滤掉描述不准的；最后引入标签，用逻辑回归（控制长度）估每个特征对胜率的影响，挑出表达偏好。前两步就足以研究「数据集能测什么」，加上第三步才回答「标注者实际偏好什么」。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["偏好数据集<br/>(p, rA, rB, y)"] --> B["嵌入差<br/>e∆ = e(rA) − e(rB)"]
    B --> C["SAE 学可测偏好<br/>BatchTopK 稀疏特征 z"]
    C --> D["自然语言描述 + Fidelity 过滤<br/>每个特征命名并校验"]
    D --> E["逻辑回归估表达偏好<br/>控制长度，算 β 与 ∆win-rate"]
    E --> F["下游杠杆<br/>数据净化 + 选择性个性化"]

关键设计¶

1. 在嵌入差上训 SAE：把「回复对怎么不同」拆成可命名的可测偏好

痛点在于：嵌入差 \(e_\Delta = e_{r_A} - e_{r_B}\) 装着两回复的语义差异，却是一团稠密、不可解释的向量。作者用 OpenAI text-embedding-3-small 算回复嵌入，然后在 \(e_\Delta\) 上训一个 BatchTopK SAE：学一个线性编码器和解码器，把 \(e_\Delta\) 重构成一个稀疏的 \(M\) 维隐向量 \(z\)。BatchTopK 的做法是，对 batch（大小 \(B\)、稀疏目标 \(K\)）只保留最大的 \(B\cdot K\) 个激活、其余置零，推理时用学到的阈值让平均每条输入只有 \(K \ll M\) 个特征非零。这背后的直觉是「单条数据在人类概念空间里是稀疏的」——两个回复之间所有可能的差异有 \(M\) 种，但具体一对只在其中少数几种上不同。

跨所有数据集，\((M, K) = (32, 4)\) 都好用：调大会让特征冗余、可解释性下降，而预测 \(y\) 的精度几乎不涨。作者给每个数据集单独训一个 SAE，以学到各自特定的特征分布。值得注意的是，用「完整 prompt-回复」嵌入并不会提升预测 \(y\) 的能力，作者推测 prompt 的关键信息往往已隐含在回复里（如「罗马千元以内行程……」已暗示了用户标准），所以只用回复嵌入差就够。这一步的产物是 \(N \times M\) 矩阵 \(Z\)，每行是一条样本的稀疏表示。

2. 自动解释 + Fidelity 过滤：给每个特征一个能信得过的自然语言名字

光有稀疏特征还不可读，得知道每一维 \(z_j\) 到底对应什么概念。作者沿用 autointerp 范式：对每个特征采五个 \(z_j\) 取值大的回复对，提示 LLM（gpt-5-low）描述「最清楚区分两回复的概念」，得到诸如「不问澄清问题直接给建议」「用 emoji」这样的简短描述。

但自动描述天然不完整——一句短文本很难刻画一个连续的激活分布。作者因此引入 fidelity（保真度） 做质量闸门：对每个特征，让 LLM 标注者（gpt-5-mini-low）在留出的回复对上判断哪个回复更含该特征（\(r_A\) 记 +1、\(r_B\) 记 −1、都不含记 0），再在 300 个 \(z_j \neq 0\) 的随机样本上算它与 \(z_j\) 的 Pearson 相关；只保留经 Bonferroni 校正后 \(p < 0.05\) 的显著特征进入下游分析。这样既保证了「描述」与「激活」真的对得上，也滤掉了名不副实的特征。

3. 控长度的逻辑回归：从可测偏好里挑出真正预测标签的表达偏好

前两步只描述了回复差异，还没碰标签。第三步引入 \(y\)，对每个可解释特征 \(z_j\) 估它对偏好的影响：

\[\Pr(y = 1) = \sigma(\alpha + \beta_j \cdot z_j + \gamma \cdot x)\]

其中 \(\beta_j\) 是关注的系数，\(x\) 是控制变量。作者把 \(x\) 取为两回复的词数差 \(\ell_\Delta\)：因为长度在很多数据集里都是已知的强偏好，要识别的是「控制长度之后」仍重要的特征（不控的话，长度类特征会自然冒出来当表达偏好）。\(z_j\) 和 \(x\) 都标准化到均值 0、方差 1，于是 \(z_j\) 升高一个标准差会把 \(y\) 的对数几率乘以 \(\exp(\beta_j)\)。\(|\beta_j|\) 最大的特征影响最大。为了更直观，作者还算 \(\Delta\)win-rate：在固定长度下，特征取正 vs 取负时预测胜率 \(\hat{y}\) 的平均变化（即平均边际效应）。作者明确说明这些特征只是与标注者选择相关、未必有因果，但模型照样可能学到它们。

4. 把特征当杠杆：数据净化与选择性个性化

WIMHF 的特征不止用于分析，还是可操作的控制点。数据净化：在 LMArena 上，作者发现「拒绝有害请求」这个特征被强烈反偏好（标注者更爱选生成不安全内容的那个回复），于是只对该特征激活值最大的样本翻转标签，就能在不损害整体性能的前提下大幅提升用 Arena 训出来的奖励模型的安全性。选择性个性化：在 Community Alignment（含标注者 ID）上，作者用随机斜率混合效应模型 \(\beta_{j,a} \sim N(\beta_j, \tau_j^2)\) 定义「主观特征」——用 \(\tau_j\)（标注者间斜率方差）衡量主观性，发现「段落 vs 列表」格式偏好主观性最强（\(\tau_j = 0.42\)，远超第二名的 0.22）。关键在于，可以只对这类低风险的主观特征（如排版风格而非政治立场）学标注者专属系数 \(\beta_{j,a}\)、用全局 \(\beta_j\) 当高斯先验，从而在避免「回音室」风险的同时提升个性化预测。这正是黑盒方法做不到的：可控、可解释、可挑选要个性化哪些维度。

一个例子：Arena 上的不安全标注¶

取 LMArena 中一对回复：\(r_A\) 正确拒绝了一个有毒请求、\(r_B\) 生成了不安全内容。SAE 把「拒绝用户请求」这个特征在该对上激活成大值；第三步逻辑回归算出这个特征 \(\Delta\)win-rate 高达 −31%（Arena 上效应最大的五个特征里有三个不安全）——即标注者压倒性地选了更不安全的 \(r_B\)。WIMHF 不仅自动标出这个问题，还把它定量归因到具体数据点：把这些点的标签翻转，RewardBench 2 安全子集准确率从远低于随机的 8.9% 提到翻转 top-1000 后的 46.2%，而数学、指令遵循等非安全属性仍落在基线 95% 置信区间内。

实验关键数据¶

作者用 WIMHF 分析了七个广泛使用的反馈数据集：LMArena、Community Alignment (CA)、HH-RLHF、PRISM、Reddit (SHP)、PKU-SafeRLHF、Tulu 3 mixture（过滤掉数学/代码等有客观答案的 query，聚焦主观对话）。

主实验：稀疏特征用极少维度复现黑盒信号¶

预测器	AUC	相对随机(0.5)的增益占比	说明
黑盒奖励模型 (Llama-3.2-3B 微调)	0.766	100%（oracle）	不可解释上界
稠密嵌入逻辑回归	—	~80%（SAE 达其 84%）	SAE 训练所基于的表示
WIMHF 稀疏特征逻辑回归	0.672	67%	平均仅 4 个活跃特征

仅靠平均四个活跃特征，WIMHF 就拿到了黑盒奖励模型相对随机增益的 67%、以及它所基于的稠密嵌入增益的 84%，说明可解释特征几乎没丢多少信号。

特征质量验证与跨数据集冲突¶

验证项	结果	说明
匹配标注者自写解释 (CA, 5000 对)	60.4%	显著高于随机非活跃特征的 33.3%（\(p<0.001\)）
外部 ML 研究者评估 (47 个显著特征)	87% 有用、100% 可解释	三位专家盲评
vs ICAI (Inverse Constitutional AI)	>1.5× 显著偏好数	且能抓到 ICAI 漏掉的 Arena 不安全偏好

关键发现¶

同一特征在不同数据集里偏好相反：Reddit / Arena 与 HH-RLHF / PRISM / CA 常呈对立——Reddit/Arena 偏好俏皮玩笑与非正式语气，HH-RLHF/PRISM 反之；这意味着 PFT 常见的「混合多数据集」做法可能编码进互相矛盾的信号，被洗掉或带来意外行为。
可测偏好取决于回复怎么生成：高温采样（如 Bai 等）产出风格/语气/拒绝上的差异，而显式 prompt「多样价值观」的 CA 则更多是话题层面的差异（如奢华 vs 预算建议）——WIMHF 能在花钱收标签之前帮实践者检查数据集是否真有想要的多样性。
自动标记奖励 hacking 风险：HH-RLHF 一致地反偏好「表达不确定/澄清问题」，与「训练 HH-RLHF 会加重模型过度自信」的既有发现吻合；CA 上「提环保可持续」被强烈反偏好（−34%），但这其实是因为该话题与多数 prompt 无关、而非标注者不在乎，提醒实践者别让奖励模型把这种关联泛化到真正相关的 prompt。
个性化数据高效：只个性化「段落 vs 列表」这一最主观特征，留出 AUC 随样本数 \(k\) 上升（\(k=16\) 时 +1.1%），且主动采样该特征取值最大的样本比随机采样在小 \(k\) 下增益更大。

亮点与洞察¶

把「回复对的差」当 SAE 的输入是最巧的一步：直接对单条回复做可解释分析会被内容主导，而对差做分析天然聚焦在「两回复到底哪里不同」，正好对应偏好标注真正比较的东西。
measurable / expressed 两分很有用：前者只看回复、与标签无关，能在收标签前做数据集体检；后者才引入标签。这把「数据集能测什么」和「人实际偏好什么」干净地解耦开。
特征既是分析工具又是干预杠杆：同一套可解释特征，既能定量归因不安全标注、又能精准翻转坏标签做净化、还能挑低风险维度做个性化——可解释性在这里直接转化成可控性，这是黑盒奖励模型给不了的。
fidelity 过滤这个 trick 可迁移：任何 autointerp 流程都可以用「让 LLM 按描述去标注、再算与激活的相关」来筛掉名不副实的特征描述。

局限与展望¶

作者明确承认特征只是相关而非因果，不能断言它们因果地影响人类偏好；自动特征描述也天然不完整，作者建议把描述当起点、再看一系列取值不同的数据点来澄清模式。
只用回复嵌入差、丢掉 prompt：虽然实验显示加 prompt 不提升预测 \(y\)，但作者也承认这是经验观察，如何更好地纳入 prompt 留作未来工作。
SAE 按数据集单独训，跨数据集比较时得借 LLM judge 重新标注同一特征——这引入了额外的 judge 噪声，跨集结论需带 caveat（不同数据集的回复分布、prevalence 不同，不可简单比大小）。
个性化增益绝对值不大（\(k=16\) 时仅 +1.1%），作者也坦言黑盒个性化可能 AUC 增益更大，WIMHF 的卖点是可解释与可控而非纯精度。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「对嵌入差训 SAE + measurable/expressed 两分」是把可解释性引入偏好数据分析的干净新框架。
实验充分度: ⭐⭐⭐⭐⭐ 七个数据集、三重特征验证、净化 +37% 安全、个性化与跨集冲突分析齐全。
写作质量: ⭐⭐⭐⭐ 概念清晰、图表到位，方法部分细节略密但自洽。
价值: ⭐⭐⭐⭐⭐ 给实践者一个收标签前体检数据集、收标签后净化与个性化的可落地工具。