ICLR 2026 AI安全 Human-in-the-Loop 可计算性理论 Oracle 机器计算归约失效模式分类法律责任 GDPR EU AI Act

Formalising Human-in-the-Loop: Computational Reductions, Failure Modes, and Legal–Moral Responsibility¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=KR8viVTrX4
代码: 无（纯理论/法律分析）
领域: AI 安全 / 人机协同 / AI 治理与责任
关键词: Human-in-the-Loop, 可计算性理论, Oracle 机器, 计算归约, 失效模式分类, 法律责任, GDPR, EU AI Act

一句话总结¶

本文用可计算性理论中的 oracle 机器与「归约」概念，把五花八门的 Human-in-the-Loop（HITL）人类监督方案严格形式化为三类——平凡监控、端点干预、深度交互，再据此建立失效模式分类法并剖析 UK/EU 法律的盲点，最终揭示出一个无法回避的「责任归属 ↔ 技术可解释性」权衡。

研究背景与动机¶

领域现状：在 AI 安全与监管话语中，「让人留在回路里（HITL）」几乎被当成万能护身符——GDPR 第 22 条、EU AI Act 第 14 条都把「人类监督」写进法条，作为防止自动决策系统（ADMS）造成伤害的核心保障。学界也涌现了大量术语：HOTL（人在回路之上）、HOOTL（人在回路之外）、HIC（人类指挥）、MHC（有意义的人类控制）等。

现有痛点：这些概念彼此重叠又互相割裂，缺乏一个统一、精确的形式定义。结果是「HITL」成了一个含糊的标签——一家公司可以摆个橡皮图章式的人类审核（tokenistic HITL）就声称满足了监管要求，而监管者既无法验证这个「人」是否真的起作用，也无法区分不同方案在安全性上的天壤之别。更糟的是，当系统出事时，回路里的人常常变成 Elish 所说的「道德皱缩区（moral crumple zone）」，替有缺陷的机器背锅（如 Uber 自动驾驶撞死行人案，责任全压在安全员身上）。

核心矛盾：法律假设「有人监督 = 安全」，但 HITL 的有效性其实严重依赖系统的具体技术设计——同样叫「HITL」，人能做的事可能从「只能按急停」到「与机器深度协作」相差极大，而现有法律只盯着最末端、最弱的那种监督形态。

本文目标：回答「何时、是否、以及如何使用 HITL 才能真正降低伤害与风险」，把 HITL 从模糊口号变成可分析、可验证、可立法对接的形式对象。

核心 idea：用 oracle 机器把「人」建模为机器调用的「神谕（oracle）」——机器是确定性自动机 \(T^\bullet\)，人提供的判断是 oracle 函数 \(f\)；机器调用人的次数和方式，恰好对应可计算性理论里两种经典归约（many-one 归约与 Turing 归约），从而把 HITL 的「人类参与程度」变成一个有严格数学定义的谱系。

方法详解¶

整体框架¶

本文不是算法论文，而是一套形式化分析框架，由三个环环相扣的部分组成：先用 oracle 机器把 HITL 形式化为三种计算归约类型（§2），再在这三类之上建立二维失效模式分类法（§3），最后把这两个维度对接到 UK/EU 法律并揭示责任权衡（§4）。三者的逻辑链条是：计算结构决定了人能做什么 → 人能做什么决定了会怎么失败 → 失败方式决定了法律该如何分配责任。

flowchart TB
    subgraph S2["§2 计算归约形式化"]
        A["Oracle 机器 T•<br/>人 = oracle 函数 f"] --> B{"real query<br/>真实查询?"}
        B -->|"0 次真实查询"| C["平凡监控<br/>Trivial Monitoring<br/>(全函数, 人只能急停)"]
        B -->|"恰好 1 次后停机"| D["端点干预<br/>Endpoint Action<br/>(many-one 归约)"]
        B -->|"≥2 次/无界次"| E["深度交互<br/>Involved Interaction<br/>(Turing 归约)"]
    end
    C --> F["§3 五类失效模式<br/>(机器/流程/接口/人/外部)"]
    D --> F
    E --> F
    F --> G["§4 法律–道德责任<br/>GDPR Art.22 / EU AI Act Art.14"]
    G --> H["可解释性 ↔ 责任归属<br/>不可回避的权衡"]

关键设计¶

1. 用 oracle 机器把「人」形式化为神谕，并以 real query 区分参与的真假：框架的地基是把决策系统的算法骨架建模为 oracle 机器 \(T^\bullet\)——一个带工作带、额外「oracle 带」和若干「oracle 状态」的确定性自动机。当机器进入 oracle 状态时，oracle 带上的内容 \(w\) 被瞬间替换为 \(f(w)\)，这个 \(f\) 正是人提供的判断（一次「human query」）。关键不在于机器是否调用了人，而在于这次调用是否「真的有用」：本文定义 real query（真实查询）——当且仅当计算树在该 oracle 调用点出现分叉，且并非所有分支都导向相同的输出集合时，这次查询才算 real。这一定义精妙地排除了两种「假参与」：一是机器干脆无视人给的答案，二是「条条大路通罗马」——无论人怎么答机器都吐出同样结果。此外本文允许人随时写入急停符号 \(!\)，机器读到即无输出停机，但这个「停机」不计入判定 real query 的输出集合，从而把「能叫停」和「能影响计算」严格分开。

2. 三类归约谱系：平凡监控 / 端点干预 / 深度交互：在 real query 的基础上，本文按「机器问人多少次真实查询」把所有 HITL 一刀切成三类。若机器从不发出 real query（人最多只能急停），就是平凡监控——此时 \(T^\bullet\) 定义了一个独立于人的全函数（total function），人处于「不知者无畏」的位置，只能在机器算完前终止它。若机器恰好问一次 real query 然后立即停机、把人的答案作为输出，就是端点干预——这对应 \(g\) 到 \(f\) 的 many-one 归约（机器把问题归约给人，但自己不构成全函数）。若机器问潜在无界次（至少两次） real query、与人来回「计算乒乓」，就是深度交互——这对应 Turing 归约（机器把计算 Turing-归约给人，但不是 many-one 归约）。本文特别强调：setup 类型由计算树中最短的潜在人机交互路径决定（看人的「能动性下界」），而非最长路径。用一个路径规划的例子贯穿三类：机器给一条路线让人接受/拒绝（平凡监控）、给几条路线让人选（端点干预）、从何时出发到路线优化全程协作（深度交互）。

3. 反直觉的「弱归约更优」主张与可解释性递增：在纯可计算性理论里，Turing 归约被视为比 many-one 归约「更弱」。但本文指出 HITL 场景的诉求恰好相反：我们固定 oracle（人），问「用这个人能解决哪些问题」——于是深度交互（Turing 归约）反而能用同一个人解决最多的问题，给予人最大的能动性、对齐性与安全潜力。更进一步，real query 越多，机器的「黑箱」被「揭面」得越彻底：每次 real query 都对应一个人类可理解的问题，泄露机器此刻「在做什么」的信息。平凡监控是一个大黑箱；端点干预在末尾揭开一步；深度交互则把过程变成「许多由人类输入串联起来的小黑箱链」，每个小黑箱都更可解释。这条「计算链」直接为后文 §4.3 的责任分析埋下伏笔。

4. 二维失效模式分类法，并与归约类型挂钩：本文综合 2020–2022 年对多家初创公司的伦理咨询经验与文献，提出按「人性含量（amount of human-ness）」从纯数字到纯社会排序的五大失效类别：① 机器组件失效（异常输入输出、有偏/错误输出、问题性自适应）；② 流程与工作流失效（人的权力/自控/反应时间不足、不切实际的期望、延迟通知）；③ 人机接口失效（输出不可理解、界面糟糕、培训不足）；④ 人类组件失效（认知偏差、自动化偏差、疲劳、缺乏勇气、压力过载）；⑤ 外生环境失效（不合理的法律、社会期望、工作场所要求）。关键洞察是：不同归约类型易发不同失效类别——平凡监控因人角色被动，最易触发自动化偏差、疲劳、「不敢叫停」等人类组件失效；端点干预把风险集中在那唯一的交互点，人机接口失效与单点认知偏差最致命；深度交互虽给人最大干预力，但来回纠缠使失效机制最复杂，还会出现「量变冒充质变」（许多次浅层交互并未真正改变机器输出）。本文用 Uber 致命车祸做案例，逐条标注其失效如何横跨全部五类（机器误分类行人 + 流程缺安全文化 + 接口允许看手机 + 人分心 + 事后法律未追责公司）。

5. 法律盲点与「可解释性 ↔ 责任」权衡：把上述形式化对接到法律后，本文发现 GDPR 第 22 条（治理「完全自动化决策」）与 EU AI Act 第 14 条要求的「有意义/有效的监督」，本质上只认可到端点干预这一层，且只盯着流程最末端的人，正如 Sarra 所言「先前阶段的实质人类介入似乎无关紧要」。本文主张法律应要求更强的归约（深度交互）才算「有意义」，因为只有这样人才能真正履行其保障义务（safeguarding duties）。但随之而来的是一个无法回避的权衡：深度交互虽然记录了机器问的每个问题和人的每个回答、提升了透明度与可解释性，但人机深度纠缠使得「哪个决策点导致了失败」变得几乎无法追溯，反而制造了责任鸿沟；相反，平凡监控/端点干预里人的影响清晰可归责，却是更彻底的黑箱。一句话：越可解释的 HITL 越难归责，越易归责的 HITL 越黑箱。本文借英国石棉/间皮瘤案（按暴露比例分摊责任）为「责任鸿沟」案件提供裁判灵感，反对像 Uber 案那样把人当替罪羊来庇护公司。

实验关键数据¶

本文为纯理论与法律分析论文，无定量实验。其论证由形式化定义、真实案例研究与法律条文剖析支撑。下面以表格归纳核心结论。

三类 HITL 归约对比¶

维度	平凡监控 (Trivial Monitoring)	端点干预 (Endpoint Action)	深度交互 (Involved Interaction)
计算归约类型	全函数（独立于人）	many-one 归约	Turing 归约
real query 次数	0（仅可急停）	恰好 1	潜在无界（≥2）
人的能动性	最低	中等	最高
可解释性	一个大黑箱	末尾揭开一步	多个小黑箱链，最高
责任归属清晰度	清晰	清晰	模糊（责任鸿沟）
GDPR/AI Act 合规	一般不满足「有意义」	勉强达「有意义」	本文主张应为目标
典型对应模式	HOTL、Thumbs up/down	Recommendation System	人机协作、与 LLM 创作

关键发现¶

统一性：三类归约统一了 HOTL/HOOTL/HIC/MHC 等散落术语，给监管者一致的检验框架，并能识别「橡皮图章式」的虚假 HITL。
反直觉结论：可计算性理论中「更弱」的 Turing 归约（深度交互），在固定人这个 oracle 的前提下反而最优——能解决最多问题、给人最大能动性、最可解释。
两维联用：归约类型与五类失效模式必须同时考虑——忽略整个失效类别几乎必然导致失败，忽略单个失效模式也会在特定情境出问题。
法律盲点：GDPR/AI Act 只承认到端点干预，对「先前阶段的实质人类介入」视而不见；SCHUFA 信用评分案中一个弱端点干预被法院判定为实质上的平凡监控，从而违反第 22 条。
核心权衡：可解释性与责任归属在 HITL 中天然对立，立法以「鼓励更好 HITL」为目标时必须正视这一点。
六条建议：① 明确 HITL 计算类型并尽量超越平凡监控；② 避免把 HITL「外挂」到既有流程，须深度集成；③ 为不同 HITL 类型制定有意义监督的指南；④ 让对人的期望匹配其能力；⑤ 防止人沦为「道德皱缩区」；⑥ 理解因果与可解释性的权衡以更细致地分配法律责任。

亮点与洞察¶

跨学科的精准嫁接：把可计算性理论里冷门的 oracle 机器与归约概念，干净利落地映射到 AI 治理这一完全不同的领域，且 real query 的定义恰到好处地刻画了「真假参与」，这种形式化既严谨又有实际可操作性。
「弱归约更优」的视角翻转：理论上更弱的 Turing 归约在 HITL 语境下反而是最理想形态，这个反直觉结论来自「固定 oracle 求可解问题」的视角切换，非常漂亮。
形式化 → 失效 → 法律的完整闭环：很少有论文能把抽象数学定义一路推到具体法条建议，并用 Uber、Notre-Dame、SCHUFA 等真实案例锚定每一环，可读性与说服力兼具。
揭示一个真正的权衡而非提供银弹：本文诚实地指出深度交互并非完美——它仍受所有失效模式困扰，且引入了新的责任鸿沟，这种不回避矛盾的态度让结论更可信。

局限与展望¶

实践中难以判定归约类型：作者自己承认，证明「不存在更简单的归约」在技术上很难（不能靠举例，需对计算过程做深入分析），在法律和道德上判定「是否只是门面」也很难；本文的应对是建议把举证责任部分转移给开发者，但这本身的可操作性仍待验证。
经验基础较薄：失效模式分类法源自 2020–2022 年对若干初创公司的伦理咨询 + 文献比对，缺乏大规模实证检验，分类的「完备性」更多是论断而非证明。
只覆盖三个极端，回避中间形态：本文聚焦平凡监控/端点干预/深度交互三类，对大量中间归约类型（如 bounded truth-table 归约）只在附录略加讨论，实际系统可能落在灰色地带。
法律分析限于 UK/EU：作为「概念验证」只选了 GDPR 与 EU AI Act，对美国（倾向追究人责）等其他法域的适配性仍是开放问题。
展望：可进一步把学习机制（learning to defer、conformal prediction）与归约框架结合，自动触发并辅助 real query；以及把「按暴露比例分摊」的石棉案裁判原则真正操作化到 HITL 责任分配。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用可计算性理论形式化 HITL 是真正原创的跨学科视角，real query 定义与「弱归约更优」的翻转都很有洞见。
实验充分度: ⭐⭐⭐ 纯理论/法律论文，无定量实验；案例研究（Uber/SCHUFA）扎实但失效分类法的经验基础偏薄，完备性靠论断支撑。
写作质量: ⭐⭐⭐⭐⭐ 逻辑链条「计算→失效→法律」环环相扣，案例锚定清晰，对自身局限诚实，跨学科表达流畅。
价值: ⭐⭐⭐⭐⭐ 为 AI 治理、监管立法与安全工程提供了可统一、可检验的分析语言，对 EU AI Act 时代的合规设计有直接现实意义。