TRACE: Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning¶
会议: ACL 2026
arXiv: 2603.23404
代码: https://trace-reasoning.github.io
领域: 多模态VLM / 空间推理
关键词: 空间推理, 多模态大语言模型, 文本表示, 以自我为中心视频, 提示工程
一句话总结¶
本文提出 TRACE(Textual Representation of Allocentric Context from Egocentric Video),一种提示方法,引导多模态大语言模型从自我中心视频中生成结构化的文本 allocentric 3D 环境表示——包括元上下文、相机轨迹和实体注册表——作为中间推理步骤来增强空间问答能力,在 VSI-Bench 和 OST-Bench 上一致超越已有提示策略。
研究背景与动机¶
领域现状:现有多模态大语言模型在处理视频理解、图像描述等任务上取得显著进展,但在 3D 空间推理方面表现不佳。认知科学研究表明,人类通过构建 allocentric(以环境为中心的)空间表征来进行 3D 推理,而非直接在像素级别操作。
现有痛点:当前 MLLMs 过度依赖 2D 视觉信号,学到了来自隐式空间线索的虚假快捷关联,无法建立 3D 场景的层次化抽象。已有工作要么通过大量空间推理数据进行微调(扩展性差),要么引入额外几何/立体模态(系统复杂度高),都不适用于现成的 MLLMs。
核心矛盾:标准 Chain-of-Thought 等推理方法在算术和符号任务上有效,但对复杂空间推理任务往往无效甚至有害——原因在于这些方法生成的推理痕迹无法捕获空间几何结构信息。模型需要显式地基于全局 3D 表征进行推理。
本文目标:设计一种纯文本的空间表征方法,作为 MLLMs 的中间推理步骤,无需修改模型架构或增加额外模态,即可增强空间推理能力。
切入角度:受人类认知中 allocentric 空间推理的启发——人类在回答空间问题时会心理上将自己置于环境中,构建全局场景布局表征。作者观察到这种 allocentric 表征完全可以用文本描述。
核心 idea:让 MLLMs 先生成一份结构化的文本 3D 表征(含元上下文、相机轨迹、实体注册表),作为"空间缓存"加载到上下文窗口中,再基于该缓存进行推理——将空间推理转化为对结构化文本的查询。
方法详解¶
整体框架¶
TRACE 采用单轮生成方式:给定自我中心视频 \(V\) 和自然语言问题 \(Q\),模型首先作为"空间描述器"生成 TRACE 表征 \(G\),然后作为"推理解析器"基于 \(G\) 和 \(V\) 生成最终答案 \(A\)。推理过程形式化为 \(\hat{A}, \hat{G} = \arg\max P(A|G,V,Q) \cdot P(G|V,Q)\)。整个过程在一个前向传递中完成,TRACE 相当于一种结构化的 CoT。
关键设计¶
-
元上下文(Meta Context):
- 功能:建立全局坐标系和房间布局信息
- 核心思路:提出"房间对齐坐标系",以观察者起始位置为原点 \([0,0]\),通过检测由大型静态物体决定的最显著直线来确定 \(y\) 轴方向(而非相机初始朝向),同时记录房间拓扑(如"矩形卧室")、网格方向和观察者初始朝向。这为后续所有空间计算提供统一参考框架
- 设计动机:空间推理的常见失败模式是丢失相机初始化和坐标系信息。用大型静态物体而非相机朝向来定义坐标轴,避免了相机旋转带来的参考系不稳定
-
相机轨迹(Camera Trajectory):
- 功能:重建观察者在 3D 空间中的运动路径
- 核心思路:将视频分成离散时间步,在每步记录时间戳、估计位置 \([x, y]\)、相机朝向。朝向使用 8 个离散方向(基数方向),因为精确角度估计对模型来说太困难。每步还包含 action 属性编码相机运动上下文。以元上下文中的大型静态物体作为参考点进行定位
- 设计动机:静态地图无法捕捉视频的动态特性。轨迹重建使模型能通过遍历生成的静态地图来回答导航和路径规划问题,而非依赖瞬时视觉记忆
-
实体注册表(Entity Registry):
- 功能:维护场景中所有观察到的物体的结构化属性记录
- 核心思路:为每个实体记录:时间戳(首次出现时间)、视觉签名(外观描述,用于消歧)、度量估计(相对于坐标原点的 2D 坐标 \([x,y]\),单位为米)、空间关系(与附近实体的自然语言相对关系)。实体必须逐一列出(如 chair_01, chair_02),不允许分组,确保精确计数和定位
- 设计动机:与 Cognitive Map 预测松散网格单元不同,详细属性的实体注册表迫使模型将空间关系解析为几何约束,同时时间戳和视觉签名提供去重和跨时间消歧能力
损失函数 / 训练策略¶
TRACE 是一种纯提示方法,不涉及任何训练或微调。推理在单次前向传递中完成:模型先生成 schema 兼容的 TRACE 表征,将其作为"空间缓存"加载到上下文窗口中,然后基于该缓存通过计算实体坐标间的欧几里得距离或遍历轨迹节点来推导最终答案。
实验关键数据¶
主实验¶
VSI-Bench 上不同提示方法的平均性能
| 方法 | Gemini 3 Pro | Qwen2.5-VL-72B | MiMo-VL-7B |
|---|---|---|---|
| Direct | 52.61 | 36.28 | 39.79 |
| CoT | 53.65 | 29.78 | 37.49 |
| ToT | 58.88 | 38.06 | 39.14 |
| LtM | 59.52 | 38.01 | 38.34 |
| CM(Cognitive Map) | 59.72 | 35.47 | 36.85 |
| TRACE(Ours) | 60.15 | 39.38 | 40.50 |
OST-Bench 上不同提示方法的总体准确率
| 方法 | Gemini 3 Pro | Qwen2.5-VL-72B |
|---|---|---|
| Direct | 69.73 | 61.53 |
| CoT | 69.76 | 60.33 |
| CM | 68.47 | 57.45 |
| TRACE(Ours) | 70.36 | 62.68 |
消融实验¶
| 配置 | VSI-Bench Avg | 说明 |
|---|---|---|
| Full TRACE | 60.15 | 完整模型 |
| w/o Meta Context | 58.27 | 去除元上下文,掉 1.88 |
| w/o Trajectory | 58.92 | 去除轨迹,掉 1.23 |
| w/o Entity Registry | 57.43 | 去除实体注册表,掉 2.72 |
| Grid only(无结构化属性) | 56.81 | 仅用网格坐标,大幅下降 |
关键发现¶
- CoT 在 Qwen2.5-VL-72B 上反而比 Direct 差 6.5 个点,证实标准推理提示对空间任务可能有害
- TRACE 在所有 3 个基础模型上均取得最佳或接近最佳性能,展现出跨模型的一致性
- Entity Registry 贡献最大——去除后掉点最多,说明精细的物体属性和坐标估计是空间推理的关键
- 在 OST-Bench 的多轮对话设定中,TRACE 同样有效,说明其不局限于单轮问答
- 物体计数和绝对距离估计是最难的任务类型,TRACE 的提升在这些任务上尤为显著
亮点与洞察¶
- 将认知科学中 allocentric 空间认知理论引入 MLLM 提示设计,用文本模拟人类的空间心理表征,这个跨学科思路非常优雅
- TRACE 作为纯提示方法,不需要任何训练数据或模型修改,可直接应用于任何现成 MLLM,实用性极强
- "空间缓存"概念巧妙——将 3D 空间推理转化为对结构化文本的查询,利用了 LLM 最擅长的能力(文本推理)来弥补其最薄弱的能力(3D 感知)
局限与展望¶
- 单次生成 TRACE 的质量完全依赖于 MLLM 的视觉理解能力,如果模型无法准确感知物体位置,后续推理也会出错
- 坐标估计本质上是近似的,对需要精确度量的任务(如绝对距离估计)可能不够准确
- 仅在室内场景(VSI-Bench 和 OST-Bench)上验证,室外开放场景的适用性未知
- 未来可考虑引入迭代修正机制,让模型生成 TRACE 后进行自我验证和修正
相关工作与启发¶
- vs Cognitive Map(CM): CM 使用松散网格单元预测,TRACE 使用详细属性的实体注册表,提供更精细的空间信息
- vs Thinking in Space: 后者展示了外化空间表征的好处但需要特定训练,TRACE 通过纯提示方式实现类似效果
- vs VideoTree/VideoAgent: 这些方法优化长视频的证据检索,TRACE 专注于让模型显式推理 3D 几何线索
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 allocentric 认知理论转化为结构化提示的思路新颖,但核心仍是一种精心设计的 CoT 变体
- 实验充分度: ⭐⭐⭐⭐ 两个基准、三个模型、全面消融,覆盖较好
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,方法直觉,图示质量高
- 价值: ⭐⭐⭐⭐ 为空间推理提供了实用且通用的提示策略,即插即用