Human Cognitive Biases in Explanation-based Interaction: The Case of Within and Between Session Order Effect¶

会议: AAAI 2026
arXiv: 2512.04764
代码: 无
领域: 机器人（人机交互/可解释AI）
关键词: 解释性交互学习, 认知偏差, 顺序效应, 用户研究, XIL

一句话总结¶

本文通过两项大规模用户研究（总计 713 名参与者）系统评估了顺序效应（order effect）对解释性交互学习（XIL）的影响，发现顺序效应对用户反馈质量的影响有限且不一致，且仅在 session 内（而非 session 间）有显著但微弱的影响——总体结论是顺序效应不构成 XIL 实际应用的重大障碍。

研究背景与动机¶

解释性交互学习（XIL）¶

XIL 是一种强大的交互学习框架： 1. AI 模型对一组样本做出预测并生成解释（如图像分类中的关注区域高亮） 2. 用户评估解释是否合理，若不合理则提供纠正反馈 3. 算法利用反馈改进模型

XIL 已在垃圾邮件过滤定制、混淆因子纠正等场景中展现价值。然而，XIL 循环中样本按机器选择的顺序呈现给用户——这可能触发认知偏差。

顺序效应的威胁¶

顺序效应是一类认知偏差：人的判断被信息呈现的顺序系统性地影响。 - 首因效应（Primacy）：早期信息被赋予过高权重 - 近因效应（Recency）：晚期信息被赋予过高权重

在 XAI/XIL 场景中的具体风险： - 若用户先看到 AI 表现好的样本 → 可能过度信任，后续面对错误时不纠正 - 若用户先看到 AI 表现差的样本 → 可能过度不信任，低估 AI 能力

现有研究的不足¶

Nourani et al. (2021) 发现了顺序效应但实验设计与典型 XIL 场景差异大（用户自选样本、无法纠正输出）
Honeycutt et al. (2020) 未发现显著顺序效应但仅检验了 session 间效应，且仅使用自报告量度
两项研究的结论相互矛盾，且都不够贴近真实 XIL 使用场景

方法详解¶

整体框架¶

设计两个受控用户研究，模拟真实的 XIL 调试任务： - 实验 1（Within-session）：单次调试 session 内的顺序效应 - 实验 2（Between-session）：两次连续调试 session 之间的顺序效应

关键设计¶

1. 调试任务设计¶

参与者面对一个（虚构的）人脸检测模型。系统展示模糊化的图像（85×85 高斯核，σ=40）和模型放置的边界框，参与者需在 6 秒内： - 若边界框正确：点击确认 - 若边界框错误：将其拖动到正确位置

为何模糊化：使任务不过于简单——如果正确/错误一目了然，顺序效应可能无法被观察到。

边界框放置精度分三级： - 正确（correct）：与 ground truth 完全重合 - 部分错误（partially wrong）：25% 重叠 - 完全错误（wrong）：0% 重叠

2. 自变量设计¶

顺序条件（Order）：被试间变量，3 个水平 - 递增（Inc）：前半段模型准确率低，后半段高 - 恒定（Const）：准确率始终不变（对照组） - 递减（Dec）：前半段模型准确率高，后半段低

放置正确性（Placement）：被试内变量，正确 vs 错误

图像难度（Difficulty）：被试内变量，简单 vs 困难（通过先导实验确定）

3. 因变量¶

用户反馈准确度：用户放置的边界框与 ground truth 的重叠比例
用户与模型的一致度（Agreement）：用户放置与模型放置的重叠比例——行为层面的信任指标
感知问卷：4 项 7 点 Likert 量表，评估用户对模型准确性和可信度的感知

4. 统计分析¶

使用混合线性模型（Mixed Linear Models），固定效应包括顺序、放置正确性、图像难度及其交互项；随机截距包括参与者和图像。显著交互效应通过 Bonferroni 校正后的事后比较进一步分析。问卷使用 Kruskal-Wallis 秩和检验。

实验 1 的额外细节¶

每人评估 40 张图片 + 6 张热身
总体准确率均为 60%，但 Inc 条件前半段 40%/后半段 80%，Dec 反之
先验统计力分析：330 名参与者可检测小到中等效应量（82% 统计功效）

实验 2 的额外细节¶

每人完成两个 session，每 session 40 张图
第一 session：Inc=40%, Const=60%, Dec=80% 准确率
中间告知参与者"模型正在基于反馈更新"（虚构）
第二 session 三组完全相同（60% 准确率）

实验关键数据¶

实验 1（Within-session）主要结果¶

用户反馈准确度：

条件	整体准确度	正确图像	错误图像
Inc（递增）	0.76±0.10	0.79±0.11	0.70±0.08
Const（恒定）	0.75±0.08	0.80±0.10	0.67±0.11
Dec（递减）	0.76±0.08	0.79±0.11	0.70±0.08

图像难度有强主效应（\(F(1,36)=63.33, p<.001\)）
放置正确性有显著主效应（\(F(1,36)=10.65, p=.002\)）
顺序条件仅在与放置正确性的二阶交互中显著（\(F(2,12875)=4.56, p=.011\)），效应量很小

用户-模型一致度：

场景	Inc 条件	Const 条件	Dec 条件
正确+简单	~0.92	~0.92	~0.92
正确+困难	~0.67	~0.67	~0.67
错误+简单	0.14±0.06	0.15±0.12	0.13±0.03
错误+困难	0.19±0.08	0.24±0.11	0.24±0.12

三阶交互显著（\(F(2,12862)=7.99, p<.001\)）
关键发现：Inc 组在"错误+困难"图像上对模型的依赖最低——可解释为微弱的首因效应：早期暴露于模型错误使用户更审慎

问卷：三组无差异（\(p=.909\)），感知层面完全不受顺序影响。

实验 2（Between-session）关键结果¶

第二 session 反馈准确度：

条件	准确度(整体)	正确图像	错误图像
Inc	0.78±0.08	0.84±0.11	0.68±0.09
Const	0.78±0.07	0.84±0.10	0.69±0.09
Dec	0.78±0.08	0.83±0.11	0.70±0.09

第二 session 一致度：三组无显著差异 - Inc: 0.63±0.10 - Const: 0.62±0.10 - Dec: 0.61±0.09

问卷：三组无差异（\(p=.821\)）

关键发现¶

Within-session 有微弱顺序效应：早期暴露于模型错误（Inc 组）使用户在面对困难+错误样本时更不依赖模型——可能是小的首因效应
Between-session 无顺序效应：第一 session 的模型表现不影响第二 session 中用户的行为——用户似乎会在模型更新时"重置期望"
反馈质量始终较高：所有条件下用户准确度都在 0.75-0.78 范围内
自报告感知不受影响：三组问卷评分几乎完全相同

亮点与洞察¶

实验规模在 HCI/XAI 领域中属于大规模：713 名参与者，远超同类研究
行为测量 vs 自报告并行：不仅测量用户"说了什么"（感知），更测量用户"做了什么"（准确度、一致度），后者更可靠
结论对 XIL 实践有直接指导意义：
- 在单次 session 内随机化样本呈现顺序可缓解微弱的 within-session 效应
- session 间不需要特别担心——用户会自行适应模型更新
实验设计的巧妙之处：恒定组作为基线、递增和递减组互为对照，使得任何差异都可归因于顺序而非内容

局限与展望¶

仅研究了错误分布引起的顺序效应，未考虑难度分布或解释类型的顺序效应
仅使用了图像分类的边界框解释，未测试其他解释形式（概念级解释、反事实示例等）
任务相对简单（人脸定位），更复杂的领域任务（如医学影像）中顺序效应可能更显著
参与者未真正与学习型模型交互——模型更新是虚构的，真实的闭环 XIL 可能产生不同效果

评分¶

新颖性: ⭐⭐⭐ — 研究问题重要但不算全新，是对现有争论的更严谨重复
实验充分度: ⭐⭐⭐⭐⭐ — 713 人大规模实验、先验功效分析、行为+自报告双测量、Within+Between 双设计
写作质量: ⭐⭐⭐⭐ — 心理学实验报告规范，统计分析详尽
价值: ⭐⭐⭐⭐ — 为 XIL 框架在实际部署中不需过度担忧顺序效应提供了坚实证据