RoToR: Towards More Reliable Responses for Order-Invariant Inputs¶

会议: ACL 2025
arXiv: 2502.08662
代码: 有 (https://github.com/soyoung97/RoToR)
领域: 其他
关键词: 位置偏差, 顺序不变性, 位置编码, 因果语言模型, 选择路由

一句话总结¶

提出 RoToR，一种基于全局排序和循环位置编码分配的零样本顺序不变语言模型，通过最小化位置 ID 修改来实现稳定的顺序不变性，并设计选择路由（Selective Routing）机制自适应处理混合输入类型。

研究背景与动机¶

语言模型对输入的顺序非常敏感,但很多实际场景中列表式输入（如表格行、多选项、检索文档集合）的顺序应该是无关紧要的。这种"位置偏差"（positional bias）问题广为人知：

在 LLM-as-a-judge 场景中，模型对第一个答案有高达 75% 的偏好
在 MMLU 上，仅改变选项顺序就能使模型排名变动 8 个位置
"lost-in-the-middle" 现象：中间位置的信息被严重忽略

现有零样本顺序不变方法存在两个关键局限：

训练-推理分布不匹配：PCW 完全隔离段间注意力，PINE 为每个 query token 动态重新分配位置 ID，导致位置编码分配与预训练时的分布差距太大

无法适应混合输入：实际问题（如 MMLU）既包含顺序无关的选项（A、B、C），也包含顺序敏感的选项（如"None of the above"），现有方法用单一策略处理两者

RoToR 的核心思路是：用一个全局排序 + 循环分配替代 PINE 的逐 query 动态排序，大幅减少位置 ID 的扰动；同时引入选择路由来自适应处理顺序敏感和不敏感的输入。

方法详解¶

整体框架¶

RoToR 由两个阶段组成： 1. RoToR 核心：一种新的位置 ID 分配方案，使用全局排序和循环排列实现顺序不变性 2. 选择路由（Selective Routing）：根据原始模型和不变模型的置信度自适应选择输出

关键设计¶

全局排序（Global Ordering）
- 功能：为所有输入段确定一个统一的排列顺序，而非 PINE 的逐 query 排列
- 核心思路：
  - 提供三种全局排序算法：
- 词典排序（Lexicographical）：基于 token 序列的字典序，开销最小
- MonoT5 排序：使用 pointwise reranker 按与问题的相关性排序
- 频率排序：基于 token 的逆频率归一化排序
  - 排序结果在所有 query token、所有层、所有注意力头之间共享
- 设计动机：
  - PINE 为每个 query token 重新计算排序，导致 \(O(n^2d)\) 的额外计算和频繁的位置 ID 变更
  - 全局排序只需排一次，复杂度降至 \(O(nk\log k)\)，且一致的位置 ID 分配减少了分布偏移
循环排列（Circular Arrangement）
- 功能：在因果 LM 中模拟双向注意力，让每个段都能"看到"其他所有段
- 核心思路：
  - 给定全局排序 A→B→O→K→G，构建有向循环图
  - 当段 B 作为 query 时，按循环顺序将 B 放在最后：O→K→G→A→B
  - 当段 K 作为 query 时：G→A→B→O→K
  - 关键：所有 suffix 和生成 token 使用全局排序的前后部分拼接，不再逐 token 变化位置 ID
- 设计动机：
  - 在因果注意力中，位于序列末尾的 token 能看到前面所有 token
  - 循环排列让每个段轮流处于"最后位置"，实现事实上的双向访问
  - 与 PINE 不同，suffix token 的位置 ID 保持不变，大幅减少 OOD 风险
选择路由（Selective Routing）
- 功能：自适应选择使用原始模型还是顺序不变模型的输出
- 核心思路：
  - 原始模型和 RoToR 模型分别对同一输入生成答案及置信度（最大 token 概率）
  - 如果原始模型置信度 + 偏置 α > RoToR 置信度，选择原始模型的答案；否则选择 RoToR
  - α = 0.2（通过验证集搜索确定），略倾向于原始模型
- 设计动机：
  - 实际任务（如 MMLU）中部分选项是顺序敏感的（如"None of the above"）
  - 顺序不变模型在这些选项上可能反而更差
  - 基于置信度的路由可以自适应选择最合适的模型

计算复杂度分析¶

方法	额外计算开销
PINE	\(O(n^2d + nk\log k)\)（每个 query 都要重新计算无 RoPE 注意力 + 排序）
RoToR (词典排序)	\(O(nk\log k)\)（单次全局排序）
RoToR (基数排序优化)	\(O(nk)\)

实验关键数据¶

主实验（Lost in the Middle 基准, best_subspan_em %）¶

方法	ndoc=10	ndoc=20	ndoc=30
Llama-3.1-8B-Instruct
Original	50.2~54.7	51.0~54.8	43.5~56.8
PCW	11.9~12.4	3.7~4.0	1.8~2.3
Set-Based Prompting	42.5	26.3	14.1
PINE	58.6~59.0	55.5~56.2	53.7~54.8
RoToR-lexical	61.4~61.6	59.6~61.4	59.0~59.5
RoToR-MonoT5	61.2~61.4	60.7~61.2	60.7~60.9
Llama-3.1-70B-Instruct
Original	65.7~66.2	64.3~66.2	—
PINE	67.5~67.9	65.5~65.9	—
RoToR	69.3~69.6	67.6~67.9	—

KGQA 实验（N=30 段，best_subspan_em %）¶

方法	Llama-8B Acc.	Llama-70B Acc.	Qwen-4B Acc.	Qwen-7B Acc.
Original	50.2	61.6	30.7	31.5
PINE	51.5	63.1	31.6	32.3
RoToR	53.1	63.6	32.0	34.3
RoToR-MonoT5	51.6	—	32.3	32.9

关键发现¶

RoToR 在所有模型和设置下一致优于 PINE：在 LitM 基准上平均提升 2-5 个百分点
顺序不变性极佳：打乱段顺序后 RoToR 的标准差极小（0.02-0.11），远优于 Original 模型（0.07-0.75）
简单的词典排序就足够好：不需要复杂的 MonoT5 排序，RoToR-lexical 已有显著收益
计算开销远低于 PINE：消除了 \(O(n^2d)\) 项，随段数 k 增加优势更明显
PCW 和 Set-Based Prompting 在段数增多时几乎失效：ndoc=30 时 PCW 仅有 2%
选择路由有效：在 MMLU 上帮助处理顺序敏感的特殊选项

亮点与洞察¶

名字巧妙：RoToR 是回文结构，呼应"顺序不变性"的主题，同时暗示"旋转"（Rotary）
简洁是力量：全局排序 + 循环排列的方案极其简洁，却在数学上保证了顺序不变性
OOD 视角独到：将位置偏差问题转化为训练-推理分布不匹配问题，并通过最小修改来缓解
实验中的细节：发现 bfloat16 精度下 PINE 的注意力分数会出现大量 tied values，导致排序的非确定性，这是一个重要的实践洞察

局限与展望¶

无法处理完全任意的输入结构：仍需要明确的段划分
选择路由需要两次前向传播：在实际部署中增加了推理成本
全局排序不保证最优：词典排序虽然简单有效，但相关文档放在更近位置可能更好（MonoT5 排序的优势）
大规模实验受限：70B 模型在 ndoc=30 时因资源限制未能实验
未在 LLM-as-a-judge 等高影响场景中直接验证

评分¶

新颖性: ⭐⭐⭐⭐ — 循环排列 + 全局排序的组合方案简洁新颖，将 OOD 视角引入位置偏差分析是独特贡献
实验充分度: ⭐⭐⭐⭐ — 覆盖 LitM / KGQA / MMLU 三大类任务，5 种模型规模，多种排序算法变体，包括方差和时间分析
写作质量: ⭐⭐⭐⭐ — 结构清晰，图示生动，与 PINE 的对比非常直观
价值: ⭐⭐⭐⭐ — 解决了 decoder-only LM 中一个持久且实际的问题，方法简洁实用