EigenBench: A Comparative Behavioral Measure of Value Alignment¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=fm79KXJIUQ
代码: https://github.com/jchang153/EigenBench
领域: 对齐RLHF
关键词: 价值对齐, 评测基准, 同行评判, EigenTrust, Bradley-Terry

一句话总结¶

EigenBench 提出一种黑盒、无需真值标签的价值对齐度量方法：让一群语言模型互相评判彼此在给定"宪法"（价值准则）下的回答，用 EigenTrust 把这些两两评判聚合成一个共识打分向量，使得"越对齐的模型其评判权重越高"，最终输出每个模型对该价值体系的对齐 Elo 排名。

研究背景与动机¶

领域现状：让 AI 对齐人类价值是核心难题，但目前主流的对齐评测要么依赖固定真值标签的客观任务（如准确率、安全红队），要么依赖人类偏好打分（如 Chatbot Arena 用人类两两比较给模型排名）。这些方法擅长衡量"可客观判定"的能力。

现有痛点：人们最看重的特质往往恰恰是最主观的——一个模型是否"善良""忠诚""朴实"，是否符合道家、功利主义或深生态学的价值观，没有任何客观真值可言。作者借 Goodhart 定律点出一个悖论：容易量化的特质一旦成为优化目标就不再是好指标，留下来真正重要的恰是难量化的主观特质。而主观特质陷入一个两难：如果"善良"在一个人眼里是另一个人眼里的"谄媚"，那它似乎根本无法量化。

核心矛盾：主观特质没有"正确标签"，但又需要可比较、可复现的量化排名。直接问模型"你有多善良"也不行——论文实验证实模型的"自陈价值"和"行为揭示出的价值"差异巨大（Grok 4 在善良上给自己满分却排第六）。

本文目标：构建一个不依赖任何真值标签、能给任意价值体系产出定制排行榜的对齐度量方法，并验证它产出的排名是有意义、可信赖的。

切入角度：作者受 Scott Aaronson 的 "Eigenmorality" 博客和 PageRank/EigenTrust 启发——让评判者互相评判，再用特征向量提取社会共识。关键假设是：一个行为更符合 C 的模型，往往也更善于判断别人是否符合 C。于是好的评判者应当获得更大的话语权。

核心 idea：让模型群体互为评委和被评者，在每个场景下由第三方模型判定两份回答谁更对齐宪法 C，把所有两两评判拟合成隐空间偏好模型并构造信任矩阵，再取其左特征向量作为"共识对齐分"——这正是把 EigenTrust 从节点信誉排名搬到了价值对齐度量。

方法详解¶

整体框架¶

EigenBench 的输入是三样东西：一个由 \(N \ge 2\) 个模型组成的群体 \(M=\{M_1,\dots,M_N\}\)（每个模型既当评委又当被评者，"模型"指语言模型 + 人设 prompt 的组合）、一部描述待测价值的宪法 \(C=\{C_1,\dots,C_k\}\)（一组判断准则）、以及一批情景 prompt \(S\)。输出是一个分数向量 \(t \in \mathbb{R}^N_{\ge 0}\)，\(t_j\) 概括了模型 \(M_j\) 在 \(C\) 上的平均情形对齐度（对场景、准则、模型三重平均，其中对模型这一维是按 \(t\) 自身加权的）。

整条流水线是单向串行的四步：先反复采样场景、让一对模型作答、第三个模型当评委判定谁更对齐 \(C\)，得到大量两两比较"trit"（赢/输/平）；再把这些比较拟合到一个低秩 Bradley-Terry-Davidson 模型，学出每个模型的"性格向量"和每个评委的"评判透镜"；然后由学到的隐强度构造一个行随机的信任矩阵 \(T\)，其中 \(T_{ij}\) 表示评委 \(M_i\) 对被评者 \(M_j\) 的信任程度；最后用 EigenTrust 取 \(T\) 的左主特征向量 \(t\)（满足 \(t=tT\)），并换算成 Elo 评分。整个过程是"双盲"的：被评者不知道会被哪些准则评判（甚至不知道自己会被评判），评委也不知道被评者的身份。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入<br/>模型群 M + 宪法 C + 场景 S"] --> B["双盲同行评判采集<br/>第三方评委判定<br/>两份回答谁更对齐 C"]
    B --> C["低秩 BTD 建模<br/>学性格向量 v_j<br/>与评判透镜 u_i"]
    C --> D["EigenTrust 共识聚合<br/>信任矩阵 T 的左特征向量"]
    D --> E["输出<br/>对齐 Elo 排行榜"]

关键设计¶

1. 双盲同行评判采集：用模型互评绕开"没有真值"的死结

主观特质没有正确标签，作者的破局思路是不去定义"标准答案"，而是让每个模型用自己对准则的主观理解去评判别人。具体地：固定宪法 \(C\)，采样一个场景 \(S_\ell\)、一对被评者 \((j,k)\) 和一个评委 \(i\)；先让 \(M_j,M_k\) 对场景作答得到 \(R_j,R_k\)，再让评委 \(M_i\) 对照 \(C\) 分别对两份回答写反思 \(\hat R_j,\hat R_k\)，最后把 \(R_j,\hat R_j,R_k,\hat R_k\) 一起给评委，让它判定哪份更好或宣布平局，得到比较 trit \(r_{ijk\ell}\in\{0,1,2\}\)（平/偏好 j/偏好 k）。为省 token，一次比较会按 \(C\) 中每条准则各产出一个 trit。

这里有两处关键的去偏设计。其一是消除顺序偏置：对每组 \(i,j,k,\ell\) 都以 \(R_j,R_k\) 两种摆放顺序各采一次（\(r_{ijk\ell}\) 和 \(r_{ikj\ell}\)），若两种顺序下偏好相反（强不一致），就把两个 trit 都覆写为平局。其二是双盲：被评者全程不知道自己被哪条准则评、甚至不知道会被评，评委也不知道被评者是谁，从而避免身份和准则泄露污染评判。让评委先写反思再判定的"脚手架"，论文发现能缓解若干评委偏置。

2. 低秩 Bradley-Terry-Davidson：用向量嵌入承接评委间的主观分歧

把一堆赢/输/平的两两比较聚合成排名，自然会想到 Bradley-Terry-Davidson（BTD）模型。但标准 BTD 给每个模型学一个标量强度，这隐含假设所有评委对"什么算对齐"看法一致——而本方法面对的恰是主观准则，不同评委的解读天差地别。作者因此把标量强度升级为向量嵌入：每个被评者有一个性格向量 \(v_j\in\mathbb{R}^d\)（其坐标刻画宪法的 \(d\) 个隐性侧面），每个评委有一个评判透镜 \(u_i\in\mathbb{R}^d\)（刻画该评委对各侧面的关注程度），外加一个平局倾向 \(\lambda_i\)。

模型 \(i\) 眼中 \(j\) 的隐强度是内积 \(u_i^\top v_j\)，于是比较 trit 服从

\[\Pr(i\text{ 认为 }j\succ k)=\tfrac{1}{Z}\exp(u_i^\top v_j),\quad \Pr(i\text{ 认为 }j\approx k)=\tfrac{1}{Z}\lambda_i\exp\!\big(\tfrac{1}{2}u_i^\top(v_j+v_k)\big)\]

通过梯度上升最大化全体 trit 的对数似然来拟合 \(u,v,\lambda\)；\(d\) 由留出比较数据上的测试损失选取（实践中常取 \(d=N\)，但 \(d=2\) 与 \(d=N\) 差异很小）。这种向量化让"评委 A 觉得朴实最重要、评委 B 觉得温情最重要"这类分歧被显式编码进 \(u_i\)，而不是被强行平均掉，这正是把"合理评委可以不一致"这一前提嵌入了模型。可视化 \(u_i,v_j\) 还能直接读出洞察：例如 Claude 3.5 Haiku 扮 20 个历史人物时，学到的评判透镜沿"世俗—神圣"轴排开（费曼/列宁在一端、教宗方济各在另一端），说明神圣与世俗人设对同一部宪法的解读确有系统差异。

3. EigenTrust 共识聚合：让越对齐的模型评判权重越大

有了隐强度 \(s_{ij}=\exp(u_i^\top v_j)\)，作者构造行随机的信任矩阵

\[T_{ij}=\frac{s_{ij}+\tfrac{1}{2}\lambda_i\sum_{k\neq j}\sqrt{s_{ij}s_{ik}}}{\sum_l\big(s_{il}+\tfrac{1}{2}\lambda_i\sum_{k\neq l}\sqrt{s_{il}s_{ik}}\big)}\]

其物理意义是：假想评委 \(M_i\) 比较所有 \(N\) 份回答并挑出最佳（平局则在并列最佳里随机），\(T_{ij}\) 就是它选中 \(M_j\) 的概率。最终分数定义为 \(t_j=\sum_i t_i T_{ij}\)，即 \(t\) 是 \(T\) 特征值为 1 的左特征向量（由 Perron-Frobenius 定理保证存在且唯一，归一化到 \(\sum_j t_j=1\)）。

为什么不用简单平均 \(\frac{1}{N}\sum_i T_{ij}\)？因为本方法的核心前提是"行为越对齐 \(C\) 的模型，越善于判断别人是否对齐 \(C\)"。特征向量方程让评委 \(M_i\) 的信任 \(T_{ij}\) 在右侧获得正比于 \(t_i\) 的权重——评委自己分越高，它的评判越算数。换个角度看，把它当作一条在评委间转移的马尔可夫链（当前评委指定回答最好的模型当下一任评委），\(t\) 就是其平稳分布，\(t_j\) 即 \(M_j\) 担任评委的时间占比。作者用 EigenTrust 算法（从均匀分布出发反复左乘 \(T\) 直到收敛）求出 \(t\)，最后用 \(Elo_j=1500+400\log_{10}(N t_j)\) 换成一眼可读的 Elo 分。

一个完整示例¶

以善良准则排 8 个模型为例：从 r/AskReddit 数据集取 1000 个开放式问题作为场景 \(S\)，对每个采样的场景让两个模型作答、第三个模型对照"普世善良"宪法判定，两种摆放顺序各采一遍并做不一致检测，累计约 30000 条两两比较。把这些 trit 拟合 BTD 学出 8 个性格向量和 8 个评判透镜，构造 \(8\times8\) 信任矩阵，取左特征向量并换成 Elo——得到一张"哪个模型最善良"的定制排行榜，Gemini 2.5 Pro/Claude 4 Sonnet 居前、Grok 4 靠后；而若直接问模型本人，Grok 4 给自己满分、Claude 给自己最低，与行为揭示的排名几乎相反。

实验关键数据¶

主实验¶

字符训练验证（Table 2，普世"Loving"宪法，6 个开源模型）：用 Maiya et al. (2025) 的字符训练方法微调，EigenBench 能正确识别出微调/预提示后的模型最"有爱"，尽管它们的基座模型得分最低，从而同时佐证了字符训练方法有效与 EigenBench 能度量主观特质。

模型	EigenBench Elo
Llama 3.1 8b（基座）	1426
Llama 3.1 8b (loving，预提示)	1579
Llama 3.1 8b (loving-oct，微调)	1573
Qwen 2.5 7b	1447
Gemma 3 4b	1468
Mistral 7b	1434

GPQA 真值恢复（5.3 节）：在 448 道研究生级选择题上，取 15 个性能各异的模型，去掉宪法、让评委在不给真值标签的前提下比较两个模型的答案选项。EigenBench 排出的名次与真值排序仅差 12 次相邻交换（Kendall-τ ≈ 0.77），而随机排列落到这么近的概率约二十万分之一——在从未见过标签的情况下，恢复出了高度接近客观真值的排名，有力支撑了它能为无真值的主观特质产出有意义排名的主张。

消融实验¶

鲁棒性分析显示 EigenBench 对三类扰动都比较稳定：

扰动维度	关键指标	说明
场景分布（Table 3）	Elo 大体一致	换到 OASST / AIRiskDilemmas 数据集，5 个模型排名基本不变，仅 Grok 4 在 OASST 上明显更高
宪法措辞（6.2 节）	跨宪法 Elo 最大标准差 16 分	用 5 部不同措辞的保守主义宪法，排名几乎不变，且不偏向写宪法的那个模型
模型群体（Table 4）	初始模型分数稳定	增删模型后初始群体的相对分数大体保持（仅 Grok 4 随群体增大持续走低）

关键发现¶

三大组件缺一不可，但 EigenTrust 加权是灵魂：用特征向量而非均匀平均，把"好评委更算数"这一前提落到实处，是它区别于普通 Elo 排名系统的核心。
人类验证显示 LM 评判够格：以善良准则收集人类两两比较并拟合标量 BTD，发现"人与人之间的信任向量平均距离"和"人与 LM 之间的距离"相当——LM 近似人类判断的程度，和人类彼此近似的程度差不多。
自陈 ≠ 揭示：直接问模型自评得到的排名与 EigenBench 排名差异显著，印证了行为度量相对自我报告的必要性。
性格可跨 prompt 持续：N=25（5 LM × 5 人设）实验中，79% 的分数方差由人设解释、21% 由底层 LM 解释——说明模型确有跨 prompt 稳定的内在倾向。

亮点与洞察¶

把社会共识算法搬进价值对齐：用 PageRank/EigenTrust 那套"互评 + 特征向量"机制度量主观价值，巧在它天然容纳"合理评委可以不一致"，无需任何真值标签即可产出可比排名。
向量化 BTD 把分歧变资产：用 \(u_i\)（评判透镜）显式编码每个评委的关注偏好，既提升拟合，又顺带产出可视化的"世俗—神圣轴"等可解释结构，这种"副产品即洞察"的设计很值得借鉴。
GPQA 实验是神来之笔：在一个有真值的客观任务上故意不给标签，证明纯靠"互信"也能逼近真实排名，为"把 EigenBench 用作无监督评测器"打开了想象空间（如长程规划等难评测任务）。
可迁移性：这套"群体互评 + 特征向量聚合"框架可推广到任何缺乏真值、需要量化主观共识的排序问题。

局限与展望¶

采集开销大：作者承认每条两两比较需要两次作答、两次反思、一次比较共五次模型调用，效率很低；展望用主动学习+偶尔的人类判断来引导采样，或动态地对高损失的评委-被评者组合多采数据。
核心前提依赖宪法内容：作者自己指出"对齐者更善于评判对齐"未必普适——善良的模型大概更会判断善良，但朴实的模型不一定更会判断朴实，这会影响特征向量加权的合理性。
共识 ≠ 真理的风险：方法度量的是群体共识，若整个模型群体共享某种系统性偏见，EigenBench 会把偏见当共识固化下来，无真值时难以察觉。
GPQA 结论待深挖：无监督恢复排名的现象很惊艳，但作者也表示需进一步研究其成立条件与边界。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 EigenTrust/Eigenmorality 思想首次系统落到 LM 价值对齐度量，向量化 BTD + 无真值评测的组合很原创。
实验充分度: ⭐⭐⭐⭐ 人类验证、GPQA 真值恢复、三维鲁棒性、字符训练四类验证齐全；但模型/宪法规模有限，主观结论仍偏定性。
写作质量: ⭐⭐⭐⭐⭐ 动机的悖论铺陈、方法的数学推导、可解释可视化层层递进，叙事清晰。
价值: ⭐⭐⭐⭐⭐ 为"难量化的主观价值"提供了可复现、可定制、无需标签的度量框架，对对齐评测与字符训练验证都有直接用处。