Towards Cognitively-Faithful Decision-Making Models to Improve AI Alignment¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ziP9zetlLp
代码: https://github.com/vijaykeswani/Cognitively-Faithful-Decision-Models (有)
领域: 可解释性 / 对齐RLHF / 偏好建模
关键词: 认知忠实、决策建模、公理化、偏好学习、肾脏分配
一句话总结¶
本文从一组「弱公理」出发,推导出一类两阶段决策模型(先对每个特征做可学习的编辑规则、再用固定聚合规则做支配测试),让学到的偏好模型既保持可解释性、又能忠实复现人类用启发式(阈值、计数等)做成对比较的认知过程,并在肾脏分配的道德判断数据上做到「准确率不输、可解释性更强」。
研究背景与动机¶
领域现状:当前 AI 对齐(偏好引出、RLHF、逆强化学习)普遍假设一个预设的奖励/效用假设类(线性模型、决策树、神经网络)就能准确预测人类决策,然后把 AI 对齐到这个学到的人类偏好模型上。
现有痛点:这些方法对「模型是否忠实于人类的认知过程」是不可知的(agnostic)。人类做成对决策时大量依赖启发式——比如把「抚养人数」当成 0/非 0 的二值阈值(hiatus heuristic),或者简单数一数哪个选项占优特征更多(tallying heuristic)。线性模型根本捕捉不到阈值这类规则;神经网络/随机森林也许能拟合,却把启发式表示成一团等价但完全不透明的运算,无法验证、无法解释它在决策中扮演的角色。
核心矛盾:简单可解释模型(线性、决策树)对人类决策的拟合高度依赖具体场景,未必忠实;强表达力模型(NN、RF)又不可解释、无法验证。在医疗、量刑这类高风险道德领域,利益相关者期望 AI 像人一样、以同样的方式给出决策理由——一项肾脏分配的质性研究里就有参与者抱怨「它们不像人那样思考,它觉得该优先的,我未必认同」。既要忠实于认知过程、又要可解释、还要不掉精度,这三者难以同时满足。
本文目标:找到一个假设类,使得最优拟合模型既忠实复现人类的真实决策过程、又天然可解释、还能匹配甚至超过现有模型的预测精度。
切入角度:经典选择理论(von Neumann-Morgenstern、Luce)的公理太强(强传递性、无关方案独立性),几十年实证显示人类系统性地违反它们。作者反其道行之——提出一组严格更弱的公理,它们不完全指定决策过程,而是约束可行的决策空间,从而既保留理论根基与可解释性、又不与实证观察到的启发式过程冲突。
核心 idea:用「弱公理 → 推导出两阶段(特征级编辑 + 固定聚合)模型类」替代「直接套用标准假设类」,让模型结构本身就是从认知过程公理化推出来的,因而既忠实又可解释。
方法详解¶
整体框架¶
设定是成对比较学习:决策者面对两个选项 \(x_1, x_2 \in \mathbb{R}^d\)(每个有 \(d\) 个特征),响应函数 \(H(x_1,x_2)\in[0,1]\) 表示选第一个选项的概率;给定数据集 \(S\)(含 \(N\) 条 \((x_1,x_2,r)\),\(r\in\{0,1\}\) 是二值选择),目标是学一个 \(\hat H\) 准确模拟它。
本文不直接挑一个标准假设类,而是把人类的成对决策建模成两步走的层级过程:第一步对每个特征分别做「编辑规则」\(h_{\text{inn}}^i\)(阈值化、忽略、对数变换、保持不变……)把原始特征值加工成对决策的贡献分;第二步用「支配测试规则」\(h_{\text{out}}\) 把所有特征的编辑结果聚合,决定哪个选项占优。整个假设类就是这种两阶段函数的集合。关键在于:这个两阶段结构不是拍脑袋设计的,而是从一组弱公理推导出来的必然形态(定理 3.4),并且通过加更强的领域假设,能退化出逻辑回归、probit 回归、单调模型等已知特例。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["成对比较输入<br/>x1, x2 ∈ R^d"] --> B["弱公理约束<br/>互补 / 弱传递 / 值域张成 / 组合性"]
B --> C["编辑规则 h_inn^i<br/>逐特征加工成贡献分<br/>含上下文条件交互"]
C --> D["支配测试 h_out<br/>σ(Σ 编辑差) 聚合"]
D --> E["选择概率 H(x1,x2)"]
B -.推导出.-> C
B -.推导出.-> D
关键设计¶
1. 两阶段规则化假设类:把启发式拆成「逐特征编辑 + 固定聚合」
针对「标准假设类捕捉不到或解释不了启发式」这个痛点,本文把决策显式拆成两段。第一段是编辑规则(editing rule)\(h_{\text{inn}}^i: X_i \to X_i'\),逐特征操作,模拟人怎么处理单个特征——把不相关特征清零、对边际递减的特征做对数变换、或对特征阈值化离散;这些规则结构简单,正对应启发式「减少认知负荷」的本质。第二段是支配测试(dominance testing)\(h_{\text{out}}: X'\times X'\to[0,1]\),把编辑后的两组特征跨选项比较、聚合出最终选择概率,可以简单到计数启发式(tallying),也可以复杂到 Bradley-Terry 概率聚合。整个假设类写成
这样做的好处是:编辑函数 \(h_{\text{inn}}^i\) 本身就是「这个特征的每个取值贡献多少」的可视化曲线,天然把人用的阈值、忽略、递减规则显式画出来,而不是埋在黑盒权重里。
2. 弱公理推导出两阶段结构:为什么必须长成这样
光说「两阶段更好」不够有说服力,本文给出公理化基础(定理 3.4)。它提出 5 条比经典选择理论严格更弱的公理:① 互补性 \(H(x_1,x_2)=1-H(x_2,x_1)\)(呈现顺序不影响选择);② 弱传递性 \(H(x_1,x_3)=f(H(x_1,x_2),H(x_2,x_3))\)(两两比较可「补全三角」);③ 值域张成(一种连续性技术条件);④ 非交互组合性 NC(改两个不同特征的影响是可加组合的,刻画的是广义可加模型 GAM);⑤ 条件交互组合性 CIC(NC 的推广,允许结构化的特征交互)。
定理证明:仅凭公理 ① 就能把二值选择约简成「原子预测之差」\(H(x_1,x_2)=h_{\text{out}}(h_{\text{inn}}(x_1)-h_{\text{inn}}(x_2))\),恢复出两阶段结构;再加 ①–③,可证 \(h_{\text{out}}\) 必为某个 sigmoid(CDF),即 \(H(x_1,x_2)=\sigma(h_{\text{inn}}(x_1)-h_{\text{inn}}(x_2))\),其中 \(\sigma^{-1}\) 充当广义线性模型里的 link function;公理 ④/⑤ 再控制特征如何交互,把模型钉成「每个特征被独立或条件加工」的两阶段形态。这条推导线把「模型结构」从「设计选择」变成了「公理的必然后果」,也正是「认知忠实」的理论来源——只要你认同这几条温和的决策规律,就只能落到这个模型类里。
3. 上下文条件编辑(CIC):用一个特征的取值切换另一个特征的处理方式
针对实证里观察到的特征交互(某特征的编辑规则会随其他特征取值而变,如 P4 只在抚养人数为 0 时才看重 LYG),本文让编辑规则带上下文:用一个条件特征集 \(\omega\subseteq[d]\),把作用在特征 \(i\) 上的编辑规则写成条件形式 \(h_{\text{inn}}^{i,x^{\omega_i}}\)(\(\omega_i=\omega\setminus\{i\}\))。\(\omega=\varnothing\) 时各特征独立编辑(无交互),\(\omega=[d]\) 时每个特征的编辑可依赖所有其他特征,复杂度随 \(|\omega|\) 增长。对应到模型实现,定理 3.6 给出条件 GAM 树:\(h_{\text{inn}}\) 先在 \(X_\omega\) 上建一棵决策树,每个叶子里放一个在 \(X_{\setminus\omega}\) 上的 GAM。这样既保留了「逐特征可解释」的好处,又能表达「在某些条件下才生效的阈值规则」这种真实的人类决策细节,比纯 GAM 表达力更强、又比黑盒更可读。
4. 单调约束下的学习与两种损失实现
把上面的假设类落到可训练模型:最小化训练集上的预测损失来学编辑函数 \(h_{\text{inn}}^{\cdot,\cdot}\)(给每个特征取值赋一个实数分),并约束所有 \(h_{\text{inn}}\) 单调(因为肾脏分配数据里每个特征对选择的影响方向都是确定的)。作者实现两个变体:(A) 交叉熵损失 + \(\sigma(x)=(1+e^{-x})^{-1}\),对齐定理 3.4 的概率框架;(B) hinge 损失 + \(\sigma\) 取恒等,更适合 0-1 硬分类精度评估。上下文 \(\omega\) 在真实数据上限定为 1 个特征(交叉验证选)、合成数据上取空集。值得注意的是,通过对 \(\sigma\) 和假设的不同设定,该框架能恢复出逻辑回归(Bradley-Terry + 线性)、probit 回归(高斯 CDF)、单变量单调模型等标准类,说明它是一个把已有模型统一起来的更一般框架。
实验关键数据¶
数据用肾脏分配的道德判断场景:参与者看两位病人的特征(抚养人数、移植后预期延长寿命 LYG、每日饮酒量、犯罪数等),选谁该获得肾脏。真实数据来自 Boerstler et al. (2024) 两项研究(Study One 15 人、Study Two 40 人);另造一个合成数据(5 个模拟决策者 DM1–DM5,各用阈值/递减/计数等启发式,每人 1000 条比较)。所有实验都在个体级数据上做(道德判断个体差异大),70-30 划分、20 次重复报告测试精度。
主实验¶
| 模型 | Study One | Study Two | Simulated |
|---|---|---|---|
| Drift-Diffusion | .89 (.05) | .88 (.05) | – |
| Bradley-Terry | .90 (.06) | .78 (.06) | .77 (.06) |
| Logistic Clf | .90 (.06) | .89 (.05) | .85 (.07) |
| SVM | .89 (.06) | .89 (.05) | .85 (.07) |
| GAM | .87 (.09) | .84 (.11) | .88 (.08) |
| Decision Tree | .83 (.06) | .79 (.06) | .82 (.11) |
| MLP | .89 (.05) | .86 (.06) | .87 (.08) |
| Random Forest | .86 (.05) | .85 (.04) | .87 (.08) |
| 本文 (交叉熵) | .90 (.06) | .90 (.05) | .89 (.10) |
| 本文 (hinge) | .90 (.06) | .89 (.06) | .89 (.08) |
本文模型在三个数据集上都至少与所有 baseline 持平,在 Study Two 和合成数据上略优——尤其相对同样「可解释」的逻辑回归和决策树,精度不输的同时提供了更深的过程洞察。
可解释性案例分析¶
| 模型 | P4 精度 | 揭示的决策细节 |
|---|---|---|
| 本文两阶段 (hinge) | .78 (.05) | 全部 (a)-(e):含阈值规则 + LYG 仅在 0 抚养人时相关的条件交互 |
| 逻辑回归 | .76 (.04) | 仅 (a)(b):只看出哪些特征重要 |
| 决策树 | .70 (.03) | 仅 (a)(c)(d) |
对真实参与者 P4,本文模型同时学出:抚养人数和饮酒量最重要、犯罪数基本被忽略、LYG 只在抚养人数为 0 时才相关(条件交互)、抚养人数 1 vs 0 的差异远大于 2 vs 1(近似阈值规则)。逻辑回归只看出特征重要性、决策树漏掉条件交互。对模拟决策者 DM1,本文模型在 #deps 和 wait_yrs 上准确恢复出「非 0 即加分」「>6 年才加分」的阈值函数,逻辑/决策树都看不出来,且精度(.76)也高于逻辑(.74)和决策树(.68)。
关键发现¶
- 可解释性与精度不冲突:本文核心卖点是更高的认知忠实度反而带来「精度不降甚至略升」,打破了「可解释就要牺牲性能」的常见取舍。
- 条件交互是区分度来源:本文相对逻辑回归/决策树的最大优势,在于能显式表达「LYG 只在无抚养人时才生效」这类条件阈值规则,这正是 baseline 漏掉的认知细节。
- 公理退化验证表达力:通过设定不同 \(\sigma\) 与假设,框架能恢复逻辑回归、probit、单调模型等,说明它是一个更一般的统一框架而非又一个孤立模型。
亮点与洞察¶
- 从公理推结构而非选结构:最「啊哈」的地方是把模型形态当成弱公理的数学推论,而不是工程上的假设类挑选——这让「认知忠实」有了可证明、可被定性检验的根基。
- 编辑函数即解释:\(h_{\text{inn}}^i\) 的曲线本身就是「这个特征每个取值贡献多少」的可视化,把人类的阈值/忽略/递减启发式直接画出来,可迁移到任何需要「逐特征贡献透明」的偏好建模/RLHF 场景。
- 弱公理设计哲学:把经典选择理论的强公理松弛成「足够约束空间、又不与人类违反行为冲突」的弱版本,这种「描述性 + 规范性折中」的公理设计思路,对其他要建模人类行为的领域很有启发。
局限与展望¶
- 作者承认:可解释性特征仍需真实用户研究验证——用户是否真的能理解并信任两阶段模型,本文只给了概念验证。
- 公理刻画的是个体的「理想」决策过程(无内外约束时愿意遵循的过程),但人类实际决策会偏离理想(违反传递性、互补性)。把这些偏离排除掉,到底是对齐到人「真正用的过程」还是对齐到「理想化版本」?两者各有价值但需区分,作者留作未来工作。
- 评测局限在肾脏分配单一道德领域、特征维度低、且依赖单调性这一领域假设;跨领域、高维、非单调特征下的表现未验证。
- \(n\)-way 扩展依赖 Luce 选择公理并唯一刻画出 Bradley-Terry,但该假设是否对所有 \(n\)-way 道德决策都成立,存疑(⚠️ 以原文定理 3.7 的前提为准)。
相关工作与启发¶
- vs Noothigattu et al. (2020) / Ge et al. (2024): 他们也研究成对比较导出的决策规则公理,但公理是关于「在数据上做 MLE 估计」的、对分布敏感,且只检验已知类是否满足、偏描述性;本文公理规定的是「概率偏好在其定义域上必须如何表现」、与函数形式无关、偏规范性,并反推出满足公理的模型类。
- vs Bourgin et al. (2019) / Peterson et al. (2021): 他们用理论性质约束或神经网络去拟合/测试认知模型,但目标是预测准确而非认知忠实,或无法从个体数据学出决策过程;本文从个体数据学出可解释的特征变换。
- vs Plonsky et al. (2017) / Payne et al. (1988): 他们用心理学理论预先指定特征变换或启发式来提升预测力,但当变换未知且因人而异时就失效;本文把特征变换从人的决策中学出来,并支持个体级异质启发式。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把「认知忠实」从口号变成可证明的公理化模型类,视角独特。
- 实验充分度: ⭐⭐⭐⭐ 真实+合成数据、多 baseline、个体级评测扎实,但局限于单一低维道德领域、缺真实用户研究。
- 写作质量: ⭐⭐⭐⭐ 理论与动机讲得清晰,公理与定理衔接顺,但形式化部分门槛偏高。
- 价值: ⭐⭐⭐⭐⭐ 为高风险/道德领域的可信对齐提供了可解释又不掉精度的建模范式。