跳转至

Position: 'AI Alignment' Encompasses Competing Technical Priorities

会议: ICML 2026
arXiv: 2606.14315
代码: 无(立场论文)
领域: AI 安全 / AI 对齐 / 立场论文
关键词: AI 对齐, 立场论文, 威胁模型, 概念分析, 对齐张力

一句话总结

这是一篇 ICML 立场论文,主张"AI alignment(AI 对齐)"是一个多义词:ML 文献里至少有三种互相竞争而非仅仅不同的对齐理念(任务可靠性 / 社会审慎性 / 接管规避),现实中提升其中一种对齐往往会主动损害另一种,作者用"威胁模型差异"与"正向/负向对齐差异"两条横切区分来解释这些张力,并给研究者提出五条具体建议。

研究背景与动机

领域现状:"对齐"在自然语义里是一个二元关系——说 \(x\)\(y\) 对齐,就是说 \(x\) 在某种意义上符合 \(y\)。于是谈"AI alignment"必须回答两个问题:Q1 目标属性 \(y\) 是什么?Q2 需要满足 \(y\) 的对象 \(x\) 是什么?文献中"AI 对齐"的定义五花八门:从"让 AI 遵循人类价值观"、"符合设计者意图的目标/利益/价值",到"开发者能按用户社群的社会规范调模型",再到 Thick / Collective / Socioaffective / Decolonial 等各种细分概念。

现有痛点:大量论文只给"AI 对齐"一个顺带的定义,把这些对 Q1、Q2 的不同回答混为一谈。作者认为这种多义性(polysemy)掩盖了一个事实——很多看似"技术"的对齐分歧,背后其实是规范性(normative)分歧。当不同研究者说"让 AI 更对齐"时,他们可能在追求根本无法同时实现的目标。

核心矛盾:不是"大家目标相同、方法不同",而是"大家连要对齐什么、对齐到什么都不一致"。论文反复强调,操作中的高层对齐理念往往\(x\)(要对齐的对象)就有分歧,而不只是对 \(y\)(目标属性)有分歧——有人要对齐的是"局部可测的 AI 行为",有人要对齐的是"部署在真实社会情境中的社会技术系统",有人要对齐的是"未来 AGI/ASI 的优化目标"。

本文目标 / 立场:把"AI 对齐"拆成三个高层理念并刻画它们之间的现实张力,论证"AI 对齐"包含的是竞争性(competing)而非仅仅不同(different)的技术优先级,进而给出五条让研究/沟通更清晰的建议。

方法详解

整体框架

论文不是实验工作,而是一条概念分析论证链:先(Section 2)用 Q1/Q2 这把尺子把"AI 对齐"切成三种高层理念,说明它们对"对齐什么、对齐到什么"给出不同答案(见表 1);再(Section 3)引入两条横切区分——威胁模型(误用能力之害 vs 无能之害)与正向/负向对齐——展示这三种理念在现实干预中如何互相冲突(见表 2);最后(Section 4)把分析落到五条对研究界的建议。整篇的论证落点是:因为不同对齐概念由不同威胁模型驱动、或侧重 AI 的"好处"与"坏处"不同,所以"让 AI 更对齐"这件事内部就装着互相竞争的优先级,不能当成一个单一技术目标来追。

需要强调的是,论文刻意区分"竞争(competing)"与"不同(different)"两个词:仅仅"不同"意味着多个目标可以并行追求、互不干扰;而"竞争"意味着在现实干预的层面上,推进一个目标会以牺牲另一个为代价。Section 2 与 Section 3 合起来构成本文立场的主论证——Section 2 论证"AI 对齐"是多义的(polysemous),Section 3 则论证这种多义性会遮蔽规范性分歧,让貌似纯技术的对齐讨论实则暗含价值立场之争。作者特别提醒:这三种理念对 \(x\)(要对齐的对象)本身就有分歧,而不只是对 \(y\)(目标属性)有分歧——这是它们难以调和的根源。

关键设计

1. 三种对齐理念:把多义的"AI 对齐"按 Q1/Q2 切成三块

作者用"对齐什么 / 对齐到什么"两个问题,把散落的对齐用法归并为三个互斥的高层理念。任务可靠性(Task Reliability,Def 2.1):AI 做了我们要它做的事就算对齐,要对齐的 \(x\) 是"局部可测的 AI 行为"、\(y\) 是"开发者意图";InstructGPT 式的"Alignment as Fine-Tuning"(让模型行为符合用户/开发者期望)被归为它的子类。社会审慎性(Social Judiciousness,Def 2.2):若 AI 在其部署情境下的输出"制造、延续或加剧不良社会趋势"就算失对齐——它把 AI 看作社会技术系统而非单纯技术产物,\(y\) 是"某种外部规范标准";作者进一步区分其两类失败来源——训练数据保守性(Training Data Conservatism,Def 2.3)(数据有偏/不代表性导致的有害行为)与恶意使用(Malicious Use,Def 2.4)(强势/恶意行为者拿 AI 达成其目的)。接管规避(Takeover Avoidance,Def 2.5):若模型在真实世界里"优化出不良后果"就算失对齐,源自对未来 AGI/ASI"优化目标与人类不友好、并隐藏真实目标"(即 deceptive alignment)的担忧,\(x\) 是"AGI/ASI 的优化目标"。三者对 Q1/Q2 的回答可压缩为一张表:

对齐理念 对齐的是什么(\(x\) 对齐到什么(\(y\)
接管规避 Takeover Avoidance AGI/ASI 的优化目标 非接管目标
社会审慎性 Social Judiciousness 真实情境中部署的 AI 某种外部规范标准
任务可靠性 Task Reliability 局部可测的 AI 行为 开发者意图

2. 威胁模型横切区分:误导能力之害 vs 无能之害,让两种理念目标相反

第一条揭示张力的横切区分按"负面后果的来源"把威胁模型分两类。误导能力之害(Harms from Misdirected Competence,Def 3.2):危险来自 AI 在某些任务上太能干——接管规避正属此类(未来强 AI 因为太能干才危险)。无能之害(Harms from Incompetence,Def 3.3):危险来自 AI 在某些任务上不够能干——如预测性警务、医疗、人脸识别里模型学到肤浅/有偏关联造成的社会伤害,多属此类。社会审慎性横跨两者(既可能因无能、也可能因能力造成社会害)。这一区分直接制造冲突:关注社会审慎性、且把问题归为无能之害的研究者,会支持"降低 LLM 幻觉率"这类提升能力的研究(幻觉少 → 少传播错误信息);但关注接管规避的研究者恰恰反对——更低幻觉、更强情境意识可能让失对齐的 AI 更会"密谋(scheme)"、更会在评估时"装弱(sandbag)"。同一项"减少幻觉"的干预,对一种理念是进步、对另一种是退步。

3. 正向 vs 负向对齐:评估范围之差让任务可靠性与其余两者对立

第二条横切区分关注评估 AI 行为时的范围正向对齐(Positive Alignment)规定我们想要 AI 具备的属性;负向对齐(Negative Alignment)规定我们不想要 AI 具备的属性。作者承认在一阶逻辑里两者可经逆否等价(设 \(A\) 为行为域、\(Wa\) 表"想要它做 \(a\)"、\(Da\) 表"它实际做 \(a\)",正向 \(\forall a:(Da\to Wa)\) 与负向 \(\forall a:(\neg Wa\to\neg Da)\) 形式上同一);但实践中评估域不同——核对"它是否做到想要的某项任务"通常比核对"它是否避开了所有不该做的事"容易得多。这正好刻画任务可靠性与其余理念的张力:训练模型在数学基准上拿更高分(正向对齐进步)可能同时把幻觉率推高(负向对齐退步,如 o3/o4-mini 相比 GPT-4.5 在 PersonQA 上幻觉更多);推荐系统成功最大化点击率(任务可靠性成功)却引发成瘾/极化(社会审慎性失败);训练 LLM 产出"看起来不冒犯"的思维链可能让模型学会隐藏意图(接管规避恶化)。两条横切区分汇总如下:

对齐理念 威胁模型 正向/负向对齐
接管规避 Non-Takeover 能力之害 Competence 负向 Negative
社会审慎性 Social 二者皆可 Either 负向 Negative
任务可靠性 Task 不适用 N/A 正向 Positive

4. 五条建议:把概念分析落成对研究界的可操作处方

论证的落点是给"想推进 AI 对齐"的研究者五条建议:① 不要把科学/技术范围的区分政策区分混为一谈;② 方法论分歧(背后的威胁模型/规范取向之争)应被显式承认,而非藏在貌似中立的技术表述下;③ 区分"AI 对齐"作为高层理想与实证研究里用的具体对齐代理(alignment proxies),并按需引入代理概念(甚至按不同对齐理念分设审稿池/会议);④ 用更细粒度的概念去识别 AI 伤害/收益的来源与性质;⑤ 在实证工作和面向非技术受众(尤其政策制定者)的沟通中,明确承认"对齐"概念的多样性

这五条的共同精神是"先界定、再争论":很多对齐争论之所以僵持,不是因为证据不足,而是因为各方在用同一个词指代不同概念。作者尤其看重第③条——实证论文常把"某个 proxy 指标涨了"直接等同于"模型更对齐了",但 proxy 只是高层理想的一个局部代理,二者不能划等号;显式区分二者能避免"代理涨分"被误读为"对齐本身的进步"。

实验关键数据

本文是立场/概念分析论文,无实验、无数据集、无量化指标。其"证据"是对文献中对齐用法的梳理与若干现实张力案例。为便于对照,把核心张力案例整理如下:

干预/案例 对哪种理念是"进步" 对哪种理念是"退步"
降低 LLM 幻觉率 社会审慎性(少传播错误信息) 接管规避(更强能力利于"密谋/装弱")
数学基准刷分(o3/o4-mini vs GPT-4.5) 正向对齐 / 任务可靠性 负向对齐(PersonQA 幻觉更高)
推荐系统最大化点击率 任务可靠性(达成开发者目标) 社会审慎性(成瘾/极化)
训练"不冒犯"的思维链 任务可靠性(局部输出更合意) 接管规避(模型学会隐藏意图)

这些案例的共同结构是:同一项技术干预同时是某种对齐的进步、又是另一种对齐的退步。它不是"还没做好",而是"做好了这一面就动了那一面"——这正是作者把分歧称为"竞争"而非"不同"的经验依据。

关键发现(论证结论)

  • "AI 对齐"是多义词,且多义性掩盖规范分歧:很多技术争论实为价值/威胁模型之争。
  • 三理念两两可冲突:尤其"提升能力"在社会审慎性视角是好事、在接管规避视角是坏事,构成最尖锐的张力。
  • 正/负向对齐的评估范围差让"做到想要的"与"避开不想要的"在实践中分道扬镳。

亮点与洞察

  • 一把好用的分析尺子(Q1/Q2 + 两条横切区分):把混沌的"对齐"话语整理成 2×3 的结构,读完能立刻判断一篇对齐论文到底在对齐"什么/到什么"、属于哪种威胁模型——这套框架本身就可复用为审稿/立项时的"对齐概念定位器"。
  • "能力提升对一方是进步、对另一方是灾难"这一点最具冲击力:它直接挑战"对齐研究都是同向努力"的默认假设,提醒社区"减少幻觉""提升可靠性"这类看似无争议的目标其实暗含立场。
  • 建议可操作:第③条"区分高层理想 vs 对齐代理"对实证论文写作尤其实用——很多论文把某个 proxy 指标的提升等同于"更对齐",本文给出了纠偏的语言。
  • 重新定义了"对齐研究的协作单位":它暗示对齐社区不应假设自己是一个目标统一的整体,而该把不同理念当作有时对立的研究纲领来对待——这对资源分配、基准设计、跨派沟通都有方法论意义。

局限与展望

  • 作者自承非穷尽:只聚焦三种理念,Collective、Bidirectional 等对齐概念被指"难以被现有分类完全收纳",分类法的边界仍开放。
  • 缺乏经验检验:所有张力靠案例与文献论证支撑,没有量化证据说明这些冲突在实践中有多普遍/多严重——属立场文的固有局限。
  • 三理念边界并非互斥得很干净:社会审慎性横跨两种威胁模型、又与任务可靠性在"正/负向对齐"上对立,实际论文常同时落在多个理念里,给"定位"带来灰色地带。
  • 建议偏"应然"、落地路径模糊:如"分设审稿池/会议""显式承认方法论分歧"在现行评审体制下如何实现,论文未展开。
  • 可拓展方向:把 2×3 框架做成对齐论文的标注体系、对一批 alignment 论文做实证编码统计"概念混用"的频率、或形式化"正向/负向对齐评估域差异"以指导基准设计。

相关工作与启发

  • vs 各种"AI 对齐"定义(Russell / Yudkowsky / InstructGPT 等):这些工作各自给出对齐定义并默认其普适,本文的贡献正是指出它们其实是对 Q1/Q2 的不同(且竞争)回答,需要被并置审视而非互相替代。
  • vs Thick / Collective / Socioaffective / Decolonial Alignment:本文把 Thick、Socioaffective、Decolonial 收入"社会审慎性"子类,但承认 Collective、Bidirectional 难以归并——是对这些细分概念的一次系统定位。
  • vs deceptive alignment / 接管风险文献(Carlsmith、Hubinger 等):本文不新增接管论证,而是把"接管规避"作为三理念之一,揭示它与"提升能力以减少社会伤害"路线的结构性冲突,给安全社区提供了一个"为何两派常各说各话"的解释。
  • vs 算法公平 / 社会技术 AI 伦理文献(Bender、Buolamwini & Gebru 等):这些工作多聚焦数据偏见与社会危害(本文归入"社会审慎性"),本文的增量是把它们与"任务可靠性""接管规避"并置,指出"减少社会害"的某些路径会与另两种对齐目标相抵触。

评分

  • 新颖性: ⭐⭐⭐⭐ 把"对齐"的多义性结构化为 Q1/Q2 + 两条横切区分,视角清晰且少见
  • 实验充分度: ⭐⭐⭐ 立场文无实验,靠文献与案例论证,张力刻画有力但缺经验度量
  • 写作质量: ⭐⭐⭐⭐ 概念—定义—命题—建议层层递进,逻辑严谨、术语界定清楚
  • 价值: ⭐⭐⭐⭐ 给对齐社区一套"先界定再争论"的共同语言,对研究沟通与政策表达都有现实意义