REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?¶
会议: ICLR 2026
arXiv: 2505.10872
代码: 项目页面
领域: 具身AI/任务规划
关键词: 指称表达, 模糊指令, LLM规划, 共指消解, 鲁棒性
一句话总结¶
首次系统研究人类模糊指令中的指称表达(Referring Expressions)对LLM机器人任务规划的影响——构建REI-Bench基准建模9级共指模糊度(3级RE难度×3级上下文),发现隐式RE可使现有规划器成功率下降高达36.9%,提出Task-Oriented Context Cognition (TOCC)方法将任务理解与规划决策解耦,平均提升成功率6.5%。
研究背景与动机¶
领域现状:LLM驱动的机器人任务规划(SayCan、ProgPrompt、DAG-Plan等)已取得显著进展,但都基于一个理想化假设——用户指令清晰、完整、无歧义。然而真实场景中,人类语言天然带有模糊性。
核心痛点:真实用户(尤其是老人、儿童、阿尔茨海默症患者)的指令常包含隐式指称表达,如用"它"代替"锅"、用"那个重东西"代替"平底锅"。语言学研究表明,新闻中约20%的表达是描述性的(隐式RE),日常对话中比例更高。这些群体恰恰是最需要机器人服务的。
研究空白:(1) 缺乏系统化评估模糊指令对机器人规划影响的基准;(2) 现有模糊性数据集(AmbiK、CLARA等)未系统建模RE的位置、频率和形式;(3) 不清楚LLM在规划场景中能否充分发挥其固有的语言理解能力。
理论基础:桥接推理理论(Clark, 1975)解释了人类解析隐式RE的机制:听到"那个重东西"时,人会从上下文记忆中找到多个候选(锅、食材、水槽),选择最匹配的。语用学者Levinson进一步区分了指称表达(RE)和指示表达(DE)两种模糊类型。
关键发现动机:作者发现LLM在单独提示时可以正确解析隐式RE(如通过反思提示),但在规划过程中这种能力无法充分发挥——LLM过度关注计划生成而忽略了语言理解。这挑战了"嵌入LLM即可保证机器人理解人类语言"的常见假设。
实际影响:隐式RE导致的失败主要表现为"目标遗漏"(object omission)——规划器无法正确识别指令中的目标对象,从而生成错误的动作序列。例如"the heated one"被错误识别为"plate"而非"potato"。
方法详解¶
整体框架¶
REI-Bench把真实人机交互里的共指模糊性拆成两个正交维度——指称表达(Referring Expression, RE)的难度和对话上下文的质量——再用一条不依赖人工标注的自动流水线,从ALFRED的清晰种子指令出发,扩展上下文、注入模糊,最终得到覆盖9种模糊等级、共2700个样本的评估基准。在这个基准上系统压测各类LLM规划器后,作者发现失败几乎都源于"目标遗漏",于是配套提出TOCC方法,用"先理解、再规划"的解耦思路把语言理解从规划里摘出来,缓解模糊指令带来的规划失败。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
SEED["ALFRED 清晰种子指令<br/>(6 类家务任务,仅留成功案例)"] --> RE["三级指称表达难度<br/>Explicit / Mixed / Implicit"]
SEED --> CTX["三级上下文记忆<br/>Standard / Noised / Short"]
RE --> PIPE["自动化数据构建流水线<br/>扩展上下文→GPT-4o-mini 注入模糊→计数约束"]
CTX --> PIPE
PIPE --> BENCH["REI-Bench<br/>3×3 = 9 级,2700 样本"]
BENCH --> EVAL["规划器评测<br/>隐式RE→目标遗漏率↑"]
EVAL --> TOCC["TOCC:先理解后规划<br/>上下文认知消歧→规划"]
关键设计¶
1. 三级指称表达难度:把"清晰到模糊"做成可控梯度
真实用户的表达模糊程度因人而异,老人、儿童常用"它""那个重东西"代替具体物名,因此基准需要能定量区分不同模糊程度。论文据此把RE分为三级:显式RE(Explicit)是专有名词("apple")、定冠词短语("the apple")、不定冠词短语("an apple"),可直接对应物体;隐式RE是代词("it"/"them")和属性表达("sweet fruit"),对应多个候选对象、必须依赖上下文推理。三档的构造方式逐级加难——Explicit 保留原始数据集中的全部显式表达;Mixed 把指令里的显式RE换成隐式RE,但上下文记忆中的显式RE原样保留;Implicit 则把所有显式RE都换成隐式,仅在上下文里留下第一个显式RE作为唯一线索。替换规则参照OntoNotes语料的共指消解模式,确保生成的隐式RE符合自然语言习惯,而非机械替换。
2. 三级上下文记忆:模拟真实交互里参差不齐的信息质量
语用学认为词与物的绑定是在具体上下文里建立的(Levinson, 1983),因此同一条隐式指令在不同上下文下解析难度天差地别。论文设计了三种上下文:Standard 提供完整的任务相关信息;Noised 注入"歧义名称"噪声,即与场景物体名相近的人名/品牌名(如把"Rose"扩成反复出现的"Mrs. Rose"),制造干扰;Short 在噪声基础上再随机删掉一部分含任务相关显式RE的名词短语,进一步抽走线索。噪声对应日常里"一词多义"的误导(如"apple"既是水果又是品牌),删减则对应老人/儿童认知局限带来的语义缺失。把三级RE和三级上下文做笛卡尔积,就得到 \(3 \times 3 = 9\) 种模糊等级,足以从多个角度压测规划器的鲁棒性。
3. 自动化数据构建流水线:无需人工标注地批量生成模糊样本
已有的模糊表达数据集(OntoNotes、Winograd Schema)由语言学家标注,却没有系统化RE的位置、频率和形式,难以支撑规模化基准。论文转而搭了一条全自动管线,恰好把上面两个维度落地:先从ALFRED挑出6种家务任务(Pick & Place、Stack & Place等,排除不稳定的Pick Two & Place),用规划器实际执行、只保留成功案例作种子指令,从而过滤掉那些即便指令清晰也完不成的任务,把RE的影响隔离出来;再用GPT-4o-mini依次扩展上下文对话、派生出Standard/Noised/Short三种上下文变体、以CoT方式把显式RE逐级替换成隐式RE;最后用计数规则约束各任务中显式RE的数量一致,违规样本直接丢弃。这样既保证了2700样本×9级的规模与一致性,又消除了人工标注的主观偏差。
4. Task-Oriented Context Cognition (TOCC):把理解和规划物理解耦
在基准上压测时作者撞见一个反直觉现象:直接提示LLM"the heated one指什么"时它能正确答出"potato",可一旦放进规划任务,同样的输入却被错认成"plate"——问题不在于LLM不会理解隐式RE,而在于同时做理解和规划时注意力被规划抢占。TOCC据此分成两步:先是上下文认知阶段,LLM只专注于结合对话上下文识别隐式RE、推断其真实指代,输出一条消歧后简洁清晰的重述指令;再是规划阶段,规划器基于已经消歧的清晰指令生成动作序列,不必再分心做语言理解。这与其他几种提示策略形成对照——Aware Prompt 仅提醒"指令可能模糊"而不引导深层推理,改进有限还可能在清晰指令上引入幻觉;Chain-of-Thought 让规划器边分析RE边规划,是TOCC的雏形但仍在单次生成里完成;In-Context Learning 靠示例帮助推断,可小模型从示例中学习的能力有限。TOCC的优势正在于它把理解与规划从单次生成里物理分开,从根上避免了注意力竞争,因而无需额外训练或新模块就能见效。
实验关键数据¶
主实验:规划器成功率随模糊度的变化¶
| 规划器 | Explicit+Standard | Mixed+Standard | Implicit+Standard | 最大下降 |
|---|---|---|---|---|
| LLaMA3.1-8B + SayCan | 46.90% | 30.10% (-16.8%) | 22.10% (-24.8%) | -24.8% |
| GPT-4o-mini + SayCan | 45.00% | 25.90% (-19.1%) | 24.30% (-20.7%) | -20.7% |
| DeepSeekMath-7B + SayCan | 27.00% | 19.80% (-7.2%) | 14.70% (-12.3%) | -12.3% |
| LLaMA3.1-8B + DAG-Plan | — | — | — | 最高36.9% |
| GPT-4o + SayCan | 较高基线 | 下降较小 | 仍有明显下降 | — |
注:基线(不含上下文的Explicit REs)下LLaMA3.1-8B+SayCan成功率为57.7%,加入多轮对话后降至46.90%。
消融实验:不同提示方法对比 (LLaMA3.1-8B + SayCan, Standard Context)¶
| 方法 | Explicit RE 总错误率 | Mixed RE 总错误率 | Implicit RE 总错误率 | Implicit RE 目标遗漏率 |
|---|---|---|---|---|
| 原始 (Baseline) | 53.1% | 69.9% | 77.9% | 53.9% |
| + AP | 53.2% (+0.1) | 71.0% (+1.1) | 77.3% (-0.6) | 49.9% (-4.0) |
| + CoT | 52.7% (-0.4) | 69.1% (-0.8) | 77.9% (+0.0) | 47.6% (-6.3) |
| + ICL | 60.8% (+7.7) | 71.7% (+1.8) | 78.6% (+0.7) | 49.9% (-4.0) |
| + TOCC | 41.0% (-12.1) | 66.4% (-3.5) | 70.7% (-7.2) | 40.1% (-13.8) |
| - Context | 42.3% (-10.8) | 86.9% (+17.0) | 90.6% (+12.7) | 85.1% (+31.2) |
关键发现¶
-
隐式RE是规划失败的主因:随着隐式RE比例增加,所有规划器的成功率持续下降。以LLaMA3.1-8B+SayCan为例,Mixed级别下降16.8%,Implicit级别再下降8.0%。而上下文噪声和信息缺失的影响相对较小。
-
失败根源是"目标遗漏"而非"执行错误":错误分析显示,随隐式RE增加,目标遗漏率从22.6%飙升至53.9%(LLaMA3.1-8B),而执行错误率反而从30.5%降至24.0%。这表明LLM并非不会规划,而是无法正确识别隐式指称的目标对象。
-
LLM具备RE解析能力但在规划中失效:当直接提示LLM解析"the heated one"指什么时,它能正确回答"potato";但在规划任务中,同一段输入却导致错误识别为"plate"。这说明规划任务消耗了LLM的注意力资源,抑制了语言理解能力的发挥。
-
TOCC通过解耦实现全面提升:TOCC在所有模糊等级上都实现了最佳性能,平均提升6.5%的成功率。在Implicit REs级别上,目标遗漏率从53.9%降至40.1%(降幅13.8%),是所有方法中改进最大的。
-
去掉上下文验证了语用学理论:仅使用指令(无上下文)时,Explicit REs表现与TOCC相当,但Mixed和Implicit REs下性能暴跌(目标遗漏率从38.8%跃升至81.6%)。这符合语用学理论——上下文对解析隐式RE不可或缺。
亮点与洞察¶
-
语言学理论驱动的AI系统设计:论文将桥接推理、语用学等语言学理论系统性地融入机器人规划评估,不是简单地测试"模糊指令",而是从信号(Signifier)与所指(Signified)的一对多关系出发,构建了有理论深度的基准。
-
揭示了LLM能力的"场景依赖失效":LLM并非缺乏理解隐式RE的能力,而是在规划场景的多任务压力下无法发挥。这个发现对所有依赖LLM的系统都有启示——不能假设LLM的所有能力在任意任务组合下都能同时生效。
-
简单方法的有效性:TOCC本质上就是"先理解再规划"的两步解耦,没有额外训练、没有新模块。这种简洁性反映了问题根源的准确定位——回到了软件工程中"关注点分离"的基本原则。
局限性¶
-
任务复杂度有限:为隔离RE的影响,数据集仅包含LLM在清晰指令下能完成的简单、短视野、单目标任务。更复杂的长视野多目标场景尚未覆盖。
-
仅考虑共指模糊:人类语言模糊性还包括指示表达(DE,依赖空间/时间)、句法模糊、范围模糊等,本文仅关注共指模糊一种类型。
-
缺乏多模态信息:实验在AI2-THOR模拟器中进行,仅评估文本层面的语义理解能力,未考虑视觉和空间感知信息(如VLM-based规划器可能通过视觉线索帮助解析"那个红色的东西")。
-
TOCC增加推理开销:两步解耦意味着LLM需要两次推理调用。对于资源受限的机器人端(小模型),额外的推理成本可能影响实时性。
相关工作与启发¶
vs AmbiK (Ivanova et al., 2025)¶
AmbiK是厨房环境下的模糊自然语言指令数据集(1k样本)。与REI-Bench相比:(1) AmbiK不支持任务规划评估(无Planning);(2) AmbiK不包含多轮对话上下文;(3) REI-Bench的模糊性建模更系统——通过RE类型和上下文类型的组合实现9级粒度控制,而AmbiK未系统区分模糊来源。REI-Bench在评估框架的全面性上更优。
vs CLARA (Park et al., 2023) / KNOWNO (Ren et al., 2023)¶
CLARA让LLM判断指令是否确定,KNOWNO测量并对齐LLM规划器的不确定性。两者都是"检测模糊性→请求澄清"的范式,而REI-Bench关注"在不请求澄清的前提下,规划器能否自行解析模糊性"。TOCC提供了一种不依赖用户二次交互的轻量解决方案。
vs DialFRED (Gao et al., 2022)¶
DialFRED采用"提问者-执行者"框架,通过53K问答对支持多轮交互。其核心思路是通过主动提问获取缺失信息。REI-Bench的视角不同——它假设机器人应能从已有上下文中自主推断,而非依赖额外交互。这两种范式互补:TOCC适用于用户不便回答追问的场景(如老年用户)。
评分¶
| 维度 | 评分 | 理由 |
|---|---|---|
| 新颖性 | ★★★★☆ | 首次系统性建模指称表达模糊度对机器人规划的影响,理论驱动的基准设计有创新性;但TOCC方法本身较简单 |
| 技术深度 | ★★★☆☆ | 基准构建流水线完整,但核心方法(TOCC)仅是两步提示解耦,无模型训练或架构创新 |
| 实验完整性 | ★★★★★ | 12个规划器(6 LLM × 4框架)、9种模糊等级、4种提示方法的全面消融;错误归因分析深入(目标遗漏 vs 执行错误) |
| 实际影响 | ★★★★☆ | 揭示了LLM规划器在真实场景中被忽视的脆弱性,对HRI领域有直接启发;局限于简单任务和仿真环境 |