Self-Awareness before Action: Mitigating Logical Inertia via Proactive Cognitive Awareness¶

会议: ACL 2026
arXiv: 2604.20413
代码: 无
领域: LLM评测
关键词: 自我感知推理, 非交互叙事推理, 结构化状态管理, 信息融合, 逻辑惰性

一句话总结¶

本文提出 SABA 推理框架，通过"先感知再行动"的范式，在做出最终决策前显式构建和审计知识状态——利用信息融合 (IF) 将叙事整合为可验证的基线状态，再通过查询驱动的结构化推理 (QSR) 递归识别和解决缺失前提——在侦探推理和通用推理基准上均取得最佳表现。

研究背景与动机¶

领域现状：大语言模型在多步推理和叙事理解上已展示出强大能力。在交互式场景（如社交游戏）中，代理可以通过对话获取新信息并修正信念。但在非交互式谜题场景中，叙事是固定的，模型必须仅从包含隐含线索、缺失链接和干扰信息的长文本中重建隐藏的真相。

现有痛点：现有推理范式在非交互式长叙事推理中存在系统性缺陷：（1）Chain-of-Thought 倾向于提交早期假设然后扩展它，即使初始前提很弱（逻辑惰性）；（2）分解方法（如 Least-to-Most）引入中间步骤但在叙事长且证据分散时失去全局连贯性；（3）精炼方法（如 Self-Refine）在产出答案后修订，但往往是为同一个早期错误辩护而非触发全面重评估（确认偏差）。

核心矛盾：一旦模型在不完整前提下形成早期假设，这个错误就会在整个推理过程中传播，导致不稳定的结论。根本原因是模型在行动（给出答案）之前缺乏对自身知识或推理状态是否完整的感知。现有方法是"先回答再修正"，而非"先检查完整性再回答"。

本文目标：设计一个推理框架，将焦点从"直接预测"转移到"状态评估"——在做出任何决策之前，显式审计当前理解是否完整和一致。

切入角度：将推理重新定义为渐进式状态构建过程，而非单步推断。模型应该像系统审计员一样，先检查自身知识状态，识别缺失前提（障碍），然后通过假设生成和状态更新逐步填充，直到构建出足以支撑最终结论的推理基础。

核心 idea：通过递归控制循环交替进行"结构化状态构建"和"障碍驱动推理"——先整合叙事为可验证基线，再将缺失/不明确的前提转化为显式障碍和查询，递归解决直到逻辑闭合。

方法详解¶

整体框架¶

SABA 由两个阶段组成：阶段 1 是信息融合 (IF)，将原始叙事转化为结构化且经过验证的基线状态；阶段 2 是查询驱动的结构化推理 (QSR)，递归地识别推理障碍、分解为查询、生成假设并更新状态，直到无障碍剩余或达到最大深度。两个阶段之间有自适应门控机制：如果基线状态的冲突和疑点指标低于阈值，则跳过迭代循环直接合成答案。

关键设计¶

信息融合 (IF):
- 功能：将分散、弱信号的原始叙事转化为密集、结构化的证据表示
- 核心思路：分两步进行。首先是事件对齐：将叙事分解为核心事件骨架 \(S = \{s_1, ..., s_m\}\) 和异质属性集 \(A = \{a_1, ..., a_p\}\)（动作、物体状态、位置、证据描述等），然后通过对齐映射 \(\Phi_{\text{map}}: A \to 2^S\) 将每个属性绑定到一个或多个骨干事件，使隐含关联变得显式可检索。其次是一致性检查：对每个对齐单元计算验证注释 \(b_i = \psi_{\text{vfy}}(d_i, D_{\text{aligned}} \setminus d_i)\)，检查时间、实体状态和因果一致性，标注潜在冲突和不确定性
- 设计动机：长叙事中的线索分散导致"中间丢失"效应和信息遗忘。IF 通过预关联分散属性建立经过验证的认知基线，确保关键证据在整个推理轨迹中保持高可用性。一致性注释不丢弃信息而是标记不确定性，使其在后续推理中显式可处理
查询驱动的结构化推理 (QSR):
- 功能：通过递归地识别和解决缺失前提来渐进构建推理支撑
- 核心思路：在每轮迭代中，首先识别障碍 \(\Omega_t = \mathcal{M}(p_{\text{aware}} | D_t, T)\)，每个障碍表示为 \(\omega = (\tau(\omega), \text{dim}(\omega), \text{req}(\omega))\)（类型、被阻塞维度、缺失需求）。然后分解查询 \(Q_{i,t} = \mathcal{M}(p_{\text{dec}} | \omega_i, D_t)\)，将抽象推理缺口转为具体信息需求。最后生成假设 \(h = \mathcal{M}(p_{\text{hypo}} | q, D_t)\) 作为填充缺口的临时逻辑桥梁。状态更新 \(D_{t+1} = D_t \cup Q_t \cup H_t\)，递归继续直到 \(\Omega_t = \emptyset\) 或达到最大深度
- 设计动机：核心洞察是"缺失前提应该被显式暴露和处理，而非被忽略或隐式跳过"。将推理从"直接推断"转变为"渐进式缺口检测和填充"，减少逻辑跳跃和无支撑假设
自适应门控:
- 功能：防止简单任务上的冗余计算
- 核心思路：评估基线状态中逻辑冲突 \(\mathbb{C}\) 和疑点 \(\mathbb{D}\) 的密度，如果两者都低于预定义阈值 \(x\) 和 \(y\)，则跳过 QSR 迭代循环直接合成答案
- 设计动机：不是所有任务都需要递归推理，门控机制避免在简单任务上浪费推理预算

损失函数 / 训练策略¶

SABA 是纯提示框架，无需训练。使用 DeepSeek-V3 和 Gemini-1.5-Flash 作为骨干模型，解码温度设为 0.0 以提高可重复性。语义相似度使用 all-MiniLM-L6-v2。

实验关键数据¶

主实验 (DeepSeek-V3)¶

方法	DP-Complex SA	DP-Complex CCR	StrategyQA	BBH	推理成本 T
Direct	40.7±0.9	58.7±1.0	82.0±0.4	78.7±0.5	1.0
CoT	45.4±1.1	61.9±1.2	87.6±0.5	86.0±0.6	2.5
GoT	69.8±1.6	77.3±1.7	91.7±0.8	90.7±0.9	35.7
SABA	79.3±1.2	83.3±0.6	94.4±0.4	93.2±0.5	9.2

消融实验 (DeepSeek-V3, DP-Complex)¶

配置	SA	CCR	StrategyQA	说明
SABA (Full)	79.3±1.2	83.3±0.6	94.4±0.4	完整模型
w/o IF	69.8±1.1	70.7±0.9	82.2±0.6	去掉信息融合后 SA 掉 12.0%
Self-assess-only	65.8±1.3	65.9±1.1	79.1±0.8	仅保留缺口感知
w/o Awareness	61.7±1.5	62.2±1.2	76.7±0.9	去掉障碍识别后 SA 掉 22.2%

关键发现¶

SABA 在最难的 DP-Complex 上将 SA 从最强基线 GoT 的 69.8 提升到 79.3（+9.5 点），同时推理成本仅为 GoT 的 25.8%（9.2 vs 35.7）
障碍识别是最关键组件：去掉后 SA 掉幅最大（22.2%），说明显式诊断缺失前提对防止过早承诺至关重要
信息融合的贡献也很显著（去掉后 SA 掉 12.0%，CCR 掉 15.1%），说明将分散线索预整合为接地的中间状态对后续推理有帮助
推理效率优势明显：SABA 的推理成本（9.2）比 SC（12.0）低 23.3%，比 GoT（35.7）低 74.2%，得益于自适应门控和定向计算分配
跨模型泛化：在 Llama-3.1-70B 上也保持稳定表现，证明框架不依赖特定骨干

亮点与洞察¶

"先感知再行动"的范式转换非常有洞察力：将推理从"回答→修正"转为"审计→构建→回答"，从根本上解决了确认偏差问题。这个理念可以迁移到任何需要在不完整信息下推理的场景
障碍的形式化表示 \(\omega = (\tau, \text{dim}, \text{req})\) 使缺失前提成为一等公民——不只是"觉得哪里不对"，而是精确地说出"缺什么、在哪个维度、需要什么"。这种显式性支持后续的系统化处理
推理轨迹的完全可追踪性（每步记录障碍、查询、假设、状态变化）使得推理过程可审计，这在可解释 AI 中非常有价值
自适应门控是务实的工程决策——避免了"所有任务都需要复杂推理"的过度计算

局限与展望¶

SABA 依赖骨干模型的自评估能力，对于较小模型可能障碍检测质量受限
递归过程引入较高延迟，可能影响实时应用
IF 模块的结构化输入处理依赖于模型的指令遵循能力，全端到端的线索提取仍是开放问题
仅在侦探推理和通用 QA 上评估，未在代码生成、数学等其他推理类型上验证
固定深度上限 \(t_{\max}\) 和门控阈值需要手动设置

评分¶

新颖性: ⭐⭐⭐⭐ "先感知再行动"的理念新颖，但具体技术（IF + QSR）的创新度中等
实验充分度: ⭐⭐⭐⭐ 多基准、消融、跨模型验证充分，但侦探推理数据集仅31例
写作质量: ⭐⭐⭐⭐ 形式化定义清晰，可视化好，但部分公式符号过于繁重