REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?¶

会议: ICLR 2026
arXiv: 2505.10872
代码: 项目页面
领域: 具身AI/任务规划
关键词: 指称表达, 模糊指令, LLM规划, 共指消解, 鲁棒性

一句话总结¶

首次系统研究人类模糊指令中的指称表达(Referring Expressions)对LLM机器人任务规划的影响——构建REI-Bench基准建模9级共指模糊度(3级RE难度×3级上下文)，发现隐式RE可使现有规划器成功率下降高达36.9%，提出Task-Oriented Context Cognition (TOCC)方法将任务理解与规划决策解耦，平均提升成功率6.5%。

研究背景与动机¶

领域现状：LLM驱动的机器人任务规划(SayCan、ProgPrompt、DAG-Plan等)已取得显著进展，但都基于一个理想化假设——用户指令清晰、完整、无歧义。然而真实场景中，人类语言天然带有模糊性。

核心痛点：真实用户(尤其是老人、儿童、阿尔茨海默症患者)的指令常包含隐式指称表达，如用"它"代替"锅"、用"那个重东西"代替"平底锅"。语言学研究表明，新闻中约20%的表达是描述性的(隐式RE)，日常对话中比例更高。这些群体恰恰是最需要机器人服务的。

研究空白：(1) 缺乏系统化评估模糊指令对机器人规划影响的基准；(2) 现有模糊性数据集(AmbiK、CLARA等)未系统建模RE的位置、频率和形式；(3) 不清楚LLM在规划场景中能否充分发挥其固有的语言理解能力。

理论基础：桥接推理理论(Clark, 1975)解释了人类解析隐式RE的机制：听到"那个重东西"时，人会从上下文记忆中找到多个候选(锅、食材、水槽)，选择最匹配的。语用学者Levinson进一步区分了指称表达(RE)和指示表达(DE)两种模糊类型。

关键发现动机：作者发现LLM在单独提示时可以正确解析隐式RE(如通过反思提示)，但在规划过程中这种能力无法充分发挥——LLM过度关注计划生成而忽略了语言理解。这挑战了"嵌入LLM即可保证机器人理解人类语言"的常见假设。

实际影响：隐式RE导致的失败主要表现为"目标遗漏"(object omission)——规划器无法正确识别指令中的目标对象，从而生成错误的动作序列。例如"the heated one"被错误识别为"plate"而非"potato"。

方法详解¶

整体框架¶

REI-Bench把真实人机交互里的共指模糊性拆成两个正交维度——指称表达(Referring Expression, RE)的难度和对话上下文的质量——再用一条不依赖人工标注的自动流水线，从ALFRED的清晰种子指令出发，扩展上下文、注入模糊，最终得到覆盖9种模糊等级、共2700个样本的评估基准。在这个基准上系统压测各类LLM规划器后，作者发现失败几乎都源于"目标遗漏"，于是配套提出TOCC方法，用"先理解、再规划"的解耦思路把语言理解从规划里摘出来，缓解模糊指令带来的规划失败。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    SEED["ALFRED 清晰种子指令<br/>(6 类家务任务，仅留成功案例)"] --> RE["三级指称表达难度<br/>Explicit / Mixed / Implicit"]
    SEED --> CTX["三级上下文记忆<br/>Standard / Noised / Short"]
    RE --> PIPE["自动化数据构建流水线<br/>扩展上下文→GPT-4o-mini 注入模糊→计数约束"]
    CTX --> PIPE
    PIPE --> BENCH["REI-Bench<br/>3×3 = 9 级，2700 样本"]
    BENCH --> EVAL["规划器评测<br/>隐式RE→目标遗漏率↑"]
    EVAL --> TOCC["TOCC：先理解后规划<br/>上下文认知消歧→规划"]

关键设计¶

1. 三级指称表达难度：把"清晰到模糊"做成可控梯度

真实用户的表达模糊程度因人而异，老人、儿童常用"它""那个重东西"代替具体物名，因此基准需要能定量区分不同模糊程度。论文据此把RE分为三级：显式RE(Explicit)是专有名词("apple")、定冠词短语("the apple")、不定冠词短语("an apple")，可直接对应物体；隐式RE是代词("it"/"them")和属性表达("sweet fruit")，对应多个候选对象、必须依赖上下文推理。三档的构造方式逐级加难——Explicit 保留原始数据集中的全部显式表达；Mixed 把指令里的显式RE换成隐式RE，但上下文记忆中的显式RE原样保留；Implicit 则把所有显式RE都换成隐式，仅在上下文里留下第一个显式RE作为唯一线索。替换规则参照OntoNotes语料的共指消解模式，确保生成的隐式RE符合自然语言习惯，而非机械替换。

2. 三级上下文记忆：模拟真实交互里参差不齐的信息质量

语用学认为词与物的绑定是在具体上下文里建立的(Levinson, 1983)，因此同一条隐式指令在不同上下文下解析难度天差地别。论文设计了三种上下文：Standard 提供完整的任务相关信息；Noised 注入"歧义名称"噪声，即与场景物体名相近的人名/品牌名(如把"Rose"扩成反复出现的"Mrs. Rose")，制造干扰；Short 在噪声基础上再随机删掉一部分含任务相关显式RE的名词短语，进一步抽走线索。噪声对应日常里"一词多义"的误导(如"apple"既是水果又是品牌)，删减则对应老人/儿童认知局限带来的语义缺失。把三级RE和三级上下文做笛卡尔积，就得到 \(3 \times 3 = 9\) 种模糊等级，足以从多个角度压测规划器的鲁棒性。

3. 自动化数据构建流水线：无需人工标注地批量生成模糊样本

已有的模糊表达数据集(OntoNotes、Winograd Schema)由语言学家标注，却没有系统化RE的位置、频率和形式，难以支撑规模化基准。论文转而搭了一条全自动管线，恰好把上面两个维度落地：先从ALFRED挑出6种家务任务(Pick & Place、Stack & Place等，排除不稳定的Pick Two & Place)，用规划器实际执行、只保留成功案例作种子指令，从而过滤掉那些即便指令清晰也完不成的任务，把RE的影响隔离出来；再用GPT-4o-mini依次扩展上下文对话、派生出Standard/Noised/Short三种上下文变体、以CoT方式把显式RE逐级替换成隐式RE；最后用计数规则约束各任务中显式RE的数量一致，违规样本直接丢弃。这样既保证了2700样本×9级的规模与一致性，又消除了人工标注的主观偏差。

4. Task-Oriented Context Cognition (TOCC)：把理解和规划物理解耦

在基准上压测时作者撞见一个反直觉现象：直接提示LLM"the heated one指什么"时它能正确答出"potato"，可一旦放进规划任务，同样的输入却被错认成"plate"——问题不在于LLM不会理解隐式RE，而在于同时做理解和规划时注意力被规划抢占。TOCC据此分成两步：先是上下文认知阶段，LLM只专注于结合对话上下文识别隐式RE、推断其真实指代，输出一条消歧后简洁清晰的重述指令；再是规划阶段，规划器基于已经消歧的清晰指令生成动作序列，不必再分心做语言理解。这与其他几种提示策略形成对照——Aware Prompt 仅提醒"指令可能模糊"而不引导深层推理，改进有限还可能在清晰指令上引入幻觉；Chain-of-Thought 让规划器边分析RE边规划，是TOCC的雏形但仍在单次生成里完成；In-Context Learning 靠示例帮助推断，可小模型从示例中学习的能力有限。TOCC的优势正在于它把理解与规划从单次生成里物理分开，从根上避免了注意力竞争，因而无需额外训练或新模块就能见效。

实验关键数据¶

主实验：规划器成功率随模糊度的变化¶

规划器	Explicit+Standard	Mixed+Standard	Implicit+Standard	最大下降
LLaMA3.1-8B + SayCan	46.90%	30.10% (-16.8%)	22.10% (-24.8%)	-24.8%
GPT-4o-mini + SayCan	45.00%	25.90% (-19.1%)	24.30% (-20.7%)	-20.7%
DeepSeekMath-7B + SayCan	27.00%	19.80% (-7.2%)	14.70% (-12.3%)	-12.3%
LLaMA3.1-8B + DAG-Plan	—	—	—	最高36.9%
GPT-4o + SayCan	较高基线	下降较小	仍有明显下降	—

注：基线(不含上下文的Explicit REs)下LLaMA3.1-8B+SayCan成功率为57.7%，加入多轮对话后降至46.90%。

消融实验：不同提示方法对比 (LLaMA3.1-8B + SayCan, Standard Context)¶

方法	Explicit RE 总错误率	Mixed RE 总错误率	Implicit RE 总错误率	Implicit RE 目标遗漏率
原始 (Baseline)	53.1%	69.9%	77.9%	53.9%
+ AP	53.2% (+0.1)	71.0% (+1.1)	77.3% (-0.6)	49.9% (-4.0)
+ CoT	52.7% (-0.4)	69.1% (-0.8)	77.9% (+0.0)	47.6% (-6.3)
+ ICL	60.8% (+7.7)	71.7% (+1.8)	78.6% (+0.7)	49.9% (-4.0)
+ TOCC	41.0% (-12.1)	66.4% (-3.5)	70.7% (-7.2)	40.1% (-13.8)
- Context	42.3% (-10.8)	86.9% (+17.0)	90.6% (+12.7)	85.1% (+31.2)

关键发现¶

隐式RE是规划失败的主因：随着隐式RE比例增加，所有规划器的成功率持续下降。以LLaMA3.1-8B+SayCan为例，Mixed级别下降16.8%，Implicit级别再下降8.0%。而上下文噪声和信息缺失的影响相对较小。
失败根源是"目标遗漏"而非"执行错误"：错误分析显示，随隐式RE增加，目标遗漏率从22.6%飙升至53.9%(LLaMA3.1-8B)，而执行错误率反而从30.5%降至24.0%。这表明LLM并非不会规划，而是无法正确识别隐式指称的目标对象。
LLM具备RE解析能力但在规划中失效：当直接提示LLM解析"the heated one"指什么时，它能正确回答"potato"；但在规划任务中，同一段输入却导致错误识别为"plate"。这说明规划任务消耗了LLM的注意力资源，抑制了语言理解能力的发挥。
TOCC通过解耦实现全面提升：TOCC在所有模糊等级上都实现了最佳性能，平均提升6.5%的成功率。在Implicit REs级别上，目标遗漏率从53.9%降至40.1%(降幅13.8%)，是所有方法中改进最大的。
去掉上下文验证了语用学理论：仅使用指令(无上下文)时，Explicit REs表现与TOCC相当，但Mixed和Implicit REs下性能暴跌(目标遗漏率从38.8%跃升至81.6%)。这符合语用学理论——上下文对解析隐式RE不可或缺。

亮点与洞察¶

语言学理论驱动的AI系统设计：论文将桥接推理、语用学等语言学理论系统性地融入机器人规划评估，不是简单地测试"模糊指令"，而是从信号(Signifier)与所指(Signified)的一对多关系出发，构建了有理论深度的基准。
揭示了LLM能力的"场景依赖失效"：LLM并非缺乏理解隐式RE的能力，而是在规划场景的多任务压力下无法发挥。这个发现对所有依赖LLM的系统都有启示——不能假设LLM的所有能力在任意任务组合下都能同时生效。
简单方法的有效性：TOCC本质上就是"先理解再规划"的两步解耦，没有额外训练、没有新模块。这种简洁性反映了问题根源的准确定位——回到了软件工程中"关注点分离"的基本原则。

局限性¶

任务复杂度有限：为隔离RE的影响，数据集仅包含LLM在清晰指令下能完成的简单、短视野、单目标任务。更复杂的长视野多目标场景尚未覆盖。
仅考虑共指模糊：人类语言模糊性还包括指示表达(DE，依赖空间/时间)、句法模糊、范围模糊等，本文仅关注共指模糊一种类型。
缺乏多模态信息：实验在AI2-THOR模拟器中进行，仅评估文本层面的语义理解能力，未考虑视觉和空间感知信息(如VLM-based规划器可能通过视觉线索帮助解析"那个红色的东西")。
TOCC增加推理开销：两步解耦意味着LLM需要两次推理调用。对于资源受限的机器人端(小模型)，额外的推理成本可能影响实时性。

评分¶

维度	评分	理由
新颖性	★★★★☆	首次系统性建模指称表达模糊度对机器人规划的影响，理论驱动的基准设计有创新性；但TOCC方法本身较简单
技术深度	★★★☆☆	基准构建流水线完整，但核心方法(TOCC)仅是两步提示解耦，无模型训练或架构创新
实验完整性	★★★★★	12个规划器(6 LLM × 4框架)、9种模糊等级、4种提示方法的全面消融；错误归因分析深入(目标遗漏 vs 执行错误)
实际影响	★★★★☆	揭示了LLM规划器在真实场景中被忽视的脆弱性，对HRI领域有直接启发；局限于简单任务和仿真环境

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

主实验：规划器成功率随模糊度的变化¶

消融实验：不同提示方法对比 (LLaMA3.1-8B + SayCan, Standard Context)¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作与启发¶

vs AmbiK (Ivanova et al., 2025)¶

vs CLARA (Park et al., 2023) / KNOWNO (Ren et al., 2023)¶

vs DialFRED (Gao et al., 2022)¶

评分¶

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

主实验：规划器成功率随模糊度的变化¶

消融实验：不同提示方法对比 (LLaMA3.1-8B + SayCan, Standard Context)¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作与启发¶

vs AmbiK (Ivanova et al., 2025)¶

vs CLARA (Park et al., 2023) / KNOWNO (Ren et al., 2023)¶

vs DialFRED (Gao et al., 2022)¶

评分¶

相关论文¶