Position: 'AI Alignment' Encompasses Competing Technical Priorities¶

会议: ICML 2026
arXiv: 2606.14315
代码: 无（立场论文）
领域: AI 安全 / AI 对齐 / 立场论文
关键词: AI 对齐, 立场论文, 威胁模型, 概念分析, 对齐张力

一句话总结¶

这是一篇 ICML 立场论文，主张"AI alignment（AI 对齐）"是一个多义词：ML 文献里至少有三种互相竞争而非仅仅不同的对齐理念（任务可靠性 / 社会审慎性 / 接管规避），现实中提升其中一种对齐往往会主动损害另一种，作者用"威胁模型差异"与"正向/负向对齐差异"两条横切区分来解释这些张力，并给研究者提出五条具体建议。

研究背景与动机¶

领域现状："对齐"在自然语义里是一个二元关系——说 \(x\) 与 \(y\) 对齐，就是说 \(x\) 在某种意义上符合 \(y\)。于是谈"AI alignment"必须回答两个问题：Q1 目标属性 \(y\) 是什么？Q2 需要满足 \(y\) 的对象 \(x\) 是什么？文献中"AI 对齐"的定义五花八门：从"让 AI 遵循人类价值观"、"符合设计者意图的目标/利益/价值"，到"开发者能按用户社群的社会规范调模型"，再到 Thick / Collective / Socioaffective / Decolonial 等各种细分概念。

现有痛点：大量论文只给"AI 对齐"一个顺带的定义，把这些对 Q1、Q2 的不同回答混为一谈。作者认为这种多义性（polysemy）掩盖了一个事实——很多看似"技术"的对齐分歧，背后其实是规范性（normative）分歧。当不同研究者说"让 AI 更对齐"时，他们可能在追求根本无法同时实现的目标。

核心矛盾：不是"大家目标相同、方法不同"，而是"大家连要对齐什么、对齐到什么都不一致"。论文反复强调，操作中的高层对齐理念往往对 \(x\)（要对齐的对象）就有分歧，而不只是对 \(y\)（目标属性）有分歧——有人要对齐的是"局部可测的 AI 行为"，有人要对齐的是"部署在真实社会情境中的社会技术系统"，有人要对齐的是"未来 AGI/ASI 的优化目标"。

本文目标 / 立场：把"AI 对齐"拆成三个高层理念并刻画它们之间的现实张力，论证"AI 对齐"包含的是竞争性（competing）而非仅仅不同（different）的技术优先级，进而给出五条让研究/沟通更清晰的建议。

方法详解¶

整体框架¶

论文不是实验工作，而是一条概念分析论证链：先（Section 2）用 Q1/Q2 这把尺子把"AI 对齐"切成三种高层理念，说明它们对"对齐什么、对齐到什么"给出不同答案（见表 1）；再（Section 3）引入两条横切区分——威胁模型（误用能力之害 vs 无能之害）与正向/负向对齐——展示这三种理念在现实干预中如何互相冲突（见表 2）；最后（Section 4）把分析落到五条对研究界的建议。整篇的论证落点是：因为不同对齐概念由不同威胁模型驱动、或侧重 AI 的"好处"与"坏处"不同，所以"让 AI 更对齐"这件事内部就装着互相竞争的优先级，不能当成一个单一技术目标来追。

需要强调的是，论文刻意区分"竞争（competing）"与"不同（different）"两个词：仅仅"不同"意味着多个目标可以并行追求、互不干扰；而"竞争"意味着在现实干预的层面上，推进一个目标会以牺牲另一个为代价。Section 2 与 Section 3 合起来构成本文立场的主论证——Section 2 论证"AI 对齐"是多义的（polysemous），Section 3 则论证这种多义性会遮蔽规范性分歧，让貌似纯技术的对齐讨论实则暗含价值立场之争。作者特别提醒：这三种理念对 \(x\)（要对齐的对象）本身就有分歧，而不只是对 \(y\)（目标属性）有分歧——这是它们难以调和的根源。

关键设计¶

1. 三种对齐理念：把多义的"AI 对齐"按 Q1/Q2 切成三块

作者用"对齐什么 / 对齐到什么"两个问题，把散落的对齐用法归并为三个互斥的高层理念。任务可靠性（Task Reliability，Def 2.1）：AI 做了我们要它做的事就算对齐，要对齐的 \(x\) 是"局部可测的 AI 行为"、\(y\) 是"开发者意图"；InstructGPT 式的"Alignment as Fine-Tuning"（让模型行为符合用户/开发者期望）被归为它的子类。社会审慎性（Social Judiciousness，Def 2.2）：若 AI 在其部署情境下的输出"制造、延续或加剧不良社会趋势"就算失对齐——它把 AI 看作社会技术系统而非单纯技术产物，\(y\) 是"某种外部规范标准"；作者进一步区分其两类失败来源——训练数据保守性（Training Data Conservatism，Def 2.3）（数据有偏/不代表性导致的有害行为）与恶意使用（Malicious Use，Def 2.4）（强势/恶意行为者拿 AI 达成其目的）。接管规避（Takeover Avoidance，Def 2.5）：若模型在真实世界里"优化出不良后果"就算失对齐，源自对未来 AGI/ASI"优化目标与人类不友好、并隐藏真实目标"（即 deceptive alignment）的担忧，\(x\) 是"AGI/ASI 的优化目标"。三者对 Q1/Q2 的回答可压缩为一张表：

对齐理念	对齐的是什么（\(x\)）	对齐到什么（\(y\)）
接管规避 Takeover Avoidance	AGI/ASI 的优化目标	非接管目标
社会审慎性 Social Judiciousness	真实情境中部署的 AI	某种外部规范标准
任务可靠性 Task Reliability	局部可测的 AI 行为	开发者意图

2. 威胁模型横切区分：误导能力之害 vs 无能之害，让两种理念目标相反

第一条揭示张力的横切区分按"负面后果的来源"把威胁模型分两类。误导能力之害（Harms from Misdirected Competence，Def 3.2）：危险来自 AI 在某些任务上太能干——接管规避正属此类（未来强 AI 因为太能干才危险）。无能之害（Harms from Incompetence，Def 3.3）：危险来自 AI 在某些任务上不够能干——如预测性警务、医疗、人脸识别里模型学到肤浅/有偏关联造成的社会伤害，多属此类。社会审慎性横跨两者（既可能因无能、也可能因能力造成社会害）。这一区分直接制造冲突：关注社会审慎性、且把问题归为无能之害的研究者，会支持"降低 LLM 幻觉率"这类提升能力的研究（幻觉少 → 少传播错误信息）；但关注接管规避的研究者恰恰反对——更低幻觉、更强情境意识可能让失对齐的 AI 更会"密谋（scheme）"、更会在评估时"装弱（sandbag）"。同一项"减少幻觉"的干预，对一种理念是进步、对另一种是退步。

3. 正向 vs 负向对齐：评估范围之差让任务可靠性与其余两者对立

第二条横切区分关注评估 AI 行为时的范围。正向对齐（Positive Alignment）规定我们想要 AI 具备的属性；负向对齐（Negative Alignment）规定我们不想要 AI 具备的属性。作者承认在一阶逻辑里两者可经逆否等价（设 \(A\) 为行为域、\(Wa\) 表"想要它做 \(a\)"、\(Da\) 表"它实际做 \(a\)"，正向 \(\forall a:(Da\to Wa)\) 与负向 \(\forall a:(\neg Wa\to\neg Da)\) 形式上同一）；但实践中评估域不同——核对"它是否做到想要的某项任务"通常比核对"它是否避开了所有不该做的事"容易得多。这正好刻画任务可靠性与其余理念的张力：训练模型在数学基准上拿更高分（正向对齐进步）可能同时把幻觉率推高（负向对齐退步，如 o3/o4-mini 相比 GPT-4.5 在 PersonQA 上幻觉更多）；推荐系统成功最大化点击率（任务可靠性成功）却引发成瘾/极化（社会审慎性失败）；训练 LLM 产出"看起来不冒犯"的思维链可能让模型学会隐藏意图（接管规避恶化）。两条横切区分汇总如下：

对齐理念	威胁模型	正向/负向对齐
接管规避 Non-Takeover	能力之害 Competence	负向 Negative
社会审慎性 Social	二者皆可 Either	负向 Negative
任务可靠性 Task	不适用 N/A	正向 Positive

4. 五条建议：把概念分析落成对研究界的可操作处方

论证的落点是给"想推进 AI 对齐"的研究者五条建议：① 不要把科学/技术范围的区分与政策区分混为一谈；② 方法论分歧（背后的威胁模型/规范取向之争）应被显式承认，而非藏在貌似中立的技术表述下；③ 区分"AI 对齐"作为高层理想与实证研究里用的具体对齐代理（alignment proxies），并按需引入代理概念（甚至按不同对齐理念分设审稿池/会议）；④ 用更细粒度的概念去识别 AI 伤害/收益的来源与性质；⑤ 在实证工作和面向非技术受众（尤其政策制定者）的沟通中，明确承认"对齐"概念的多样性。

这五条的共同精神是"先界定、再争论"：很多对齐争论之所以僵持，不是因为证据不足，而是因为各方在用同一个词指代不同概念。作者尤其看重第③条——实证论文常把"某个 proxy 指标涨了"直接等同于"模型更对齐了"，但 proxy 只是高层理想的一个局部代理，二者不能划等号；显式区分二者能避免"代理涨分"被误读为"对齐本身的进步"。

实验关键数据¶

本文是立场/概念分析论文，无实验、无数据集、无量化指标。其"证据"是对文献中对齐用法的梳理与若干现实张力案例。为便于对照，把核心张力案例整理如下：

干预/案例	对哪种理念是"进步"	对哪种理念是"退步"
降低 LLM 幻觉率	社会审慎性（少传播错误信息）	接管规避（更强能力利于"密谋/装弱"）
数学基准刷分（o3/o4-mini vs GPT-4.5）	正向对齐 / 任务可靠性	负向对齐（PersonQA 幻觉更高）
推荐系统最大化点击率	任务可靠性（达成开发者目标）	社会审慎性（成瘾/极化）
训练"不冒犯"的思维链	任务可靠性（局部输出更合意）	接管规避（模型学会隐藏意图）

这些案例的共同结构是：同一项技术干预同时是某种对齐的进步、又是另一种对齐的退步。它不是"还没做好"，而是"做好了这一面就动了那一面"——这正是作者把分歧称为"竞争"而非"不同"的经验依据。

关键发现（论证结论）¶

"AI 对齐"是多义词，且多义性掩盖规范分歧：很多技术争论实为价值/威胁模型之争。
三理念两两可冲突：尤其"提升能力"在社会审慎性视角是好事、在接管规避视角是坏事，构成最尖锐的张力。
正/负向对齐的评估范围差让"做到想要的"与"避开不想要的"在实践中分道扬镳。

亮点与洞察¶

一把好用的分析尺子（Q1/Q2 + 两条横切区分）：把混沌的"对齐"话语整理成 2×3 的结构，读完能立刻判断一篇对齐论文到底在对齐"什么/到什么"、属于哪种威胁模型——这套框架本身就可复用为审稿/立项时的"对齐概念定位器"。
"能力提升对一方是进步、对另一方是灾难"这一点最具冲击力：它直接挑战"对齐研究都是同向努力"的默认假设，提醒社区"减少幻觉""提升可靠性"这类看似无争议的目标其实暗含立场。
建议可操作：第③条"区分高层理想 vs 对齐代理"对实证论文写作尤其实用——很多论文把某个 proxy 指标的提升等同于"更对齐"，本文给出了纠偏的语言。
重新定义了"对齐研究的协作单位"：它暗示对齐社区不应假设自己是一个目标统一的整体，而该把不同理念当作有时对立的研究纲领来对待——这对资源分配、基准设计、跨派沟通都有方法论意义。

局限与展望¶

作者自承非穷尽：只聚焦三种理念，Collective、Bidirectional 等对齐概念被指"难以被现有分类完全收纳"，分类法的边界仍开放。
缺乏经验检验：所有张力靠案例与文献论证支撑，没有量化证据说明这些冲突在实践中有多普遍/多严重——属立场文的固有局限。
三理念边界并非互斥得很干净：社会审慎性横跨两种威胁模型、又与任务可靠性在"正/负向对齐"上对立，实际论文常同时落在多个理念里，给"定位"带来灰色地带。
建议偏"应然"、落地路径模糊：如"分设审稿池/会议""显式承认方法论分歧"在现行评审体制下如何实现，论文未展开。
可拓展方向：把 2×3 框架做成对齐论文的标注体系、对一批 alignment 论文做实证编码统计"概念混用"的频率、或形式化"正向/负向对齐评估域差异"以指导基准设计。

评分¶

新颖性: ⭐⭐⭐⭐ 把"对齐"的多义性结构化为 Q1/Q2 + 两条横切区分，视角清晰且少见
实验充分度: ⭐⭐⭐ 立场文无实验，靠文献与案例论证，张力刻画有力但缺经验度量
写作质量: ⭐⭐⭐⭐ 概念—定义—命题—建议层层递进，逻辑严谨、术语界定清楚
价值: ⭐⭐⭐⭐ 给对齐社区一套"先界定再争论"的共同语言，对研究沟通与政策表达都有现实意义