Thinking in 360°: Humanoid Visual Search in the Wild¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://humanoid-vstar.github.io
领域: 多模态VLM / LLM推理 / 具身视觉搜索
关键词: 人形视觉搜索, 360°全景, 视觉思维链, 具身推理, 后训练

一句话总结¶

论文把"视觉搜索"从静态 2D 图像里的裁剪缩放，升级成人形智能体在 360° 全景里主动转头找物体/找路的具身任务（HVS），用全景图当零硬件的轻量模拟器闭合"感知—动作"环路，配套提出 in-the-wild 基准 H*Bench，并用 SFT+GRPO 两阶段后训练把 3B 开源模型的物体搜索成功率从 14.83% 拉到 47.38%、路径搜索从 6.44% 拉到 24.94%。

研究背景与动机¶

领域现状：当前最强的视觉搜索方法基本都建立在多模态大模型（MLLM）之上，借助它们丰富的世界知识（如物体共现关系）来定位画面里的目标。代表作 V* 及其后续（Chain-of-Focus、Mini-o3 等）的范式是：给一张静态、低分辨率的图，模型通过裁剪、放大、选 ROI 这类纯计算操作在固定画布内"看清"细节。

现有痛点：这套范式有两个根本缺陷。一是非交互（non-interactive）——没有可交互的模拟器，模型无法改变视角去获取初始视野之外的信息，看不到的永远看不到；二是无具身（disembodied）——视觉推理和物理世界的动作完全脱钩，搜索往往不被真实的具身任务（操作、导航）驱动，退化成抽象的感知练习。

核心矛盾：人类做视觉搜索靠的是头（cephalomotor）和眼（oculomotor）的协同——头负责大幅转向去探索没看过的区域，眼负责在已看到的内容里做精细扫视。现有 MLLM 方法只有"眼"（在静态画布上缩放），完全没有"头"（改变物理视角）。而要补上"头"，传统做法需要 3D 模拟器或真实硬件，前者难造、感知真实感差，后者难规模化复现，且大多被限制在简单的家居场景。

本文目标：构造一个既具身又可交互、还能规模化的视觉搜索研究平台，并把它推到真正考验视觉-空间推理的 in-the-wild 复杂场景（地铁枢纽、大型商超、城市街道）里。

切入角度：作者的关键观察是——导航中的人类推理是间歇性的，只在关键决策点（停下来观察、判断、消歧）才被触发。把全身运动抽象成"转头"这个原子动作，正好抓住了这些关键认知点；而一张高分辨率 360° 全景图，就足以充当让智能体"转头改变输入"的轻量闭环环境，绕开了 3D 仿真和真实硬件。

核心 idea：用一张 360° 全景图当零硬件模拟器，让 MLLM 把"转头"当成一个动作工具反复调用，边转边推理（视觉思维链），从被动的"图像描述者"变成主动的"具身搜索者"。

方法详解¶

整体框架¶

任务叫人形视觉搜索（Humanoid Visual Search, HVS）：一个视野受限（narrow FoV）的人形智能体被放进由单张 360° 全景图表示的世界，给定一句语言指令，它要通过一连串"转头"动作把目标搜到，最后提交一个最优朝向。整个环境就是全景图 \(S_o=\{o_{\phi,\gamma}\}\)，每个观测 \(o_{\phi,\gamma}\) 是从全景里按方位角 \(\phi\)、俯仰角 \(\gamma\) 采样出来的一张窄视野透视图。HVS 的目标形式化为：在给定指令 \(x\) 和观测 \(o_{\phi,\gamma}\) 下，找到使任务成功概率最大的方向

\[(\phi^*, \gamma^*) = \arg\max_{\phi,\gamma} P(r_s \mid o_{\phi,\gamma}, x)\]

它落到两个具体子任务上：物体搜索（HOS）——把目标物体转进视野中央的中央凹区域，作为操作（manipulation）的前置；路径搜索（HPS）——找到通往目的地的可行路径并把身体朝向对齐，作为移动（locomotion）的前置（HPS 只需对齐 \(\phi^*\)，因为地面可近似为平面）。

推理时，模型是一个工具增强的 MLLM，策略 \(\pi_\theta(y_t, a_t \mid o_t, x, H_t)\)：每个时刻 \(t\) 它基于当前观测 \(o_t\)、指令 \(x\) 和历史 \(H_t=\{(o_i,y_i,a_i)\}_{i=1}^{t-1}\)，先吐一段文本思维链 \(y_t\)，再吐一个动作 \(a_t\)。动作空间只有两个原语——转头 \(a_t^{rot}=(\Delta\phi,\Delta\gamma)\) 更新视角（右/上为正，偏航是环形的），和提交 \(a_t^{sub}\) 把当前朝向定为最终估计 \((\hat\phi,\hat\gamma)\) 并结束 episode。这样"转头探索 → 看到新内容 → 继续推理"就构成了一个闭环的视觉思维链。

由于 MLLM 是在静态、无具身的互联网数据上训练的，天然缺空间常识和主动 3D 规划能力（连 GPT-4o 在这上面也只有约 20% 成功率），作者用两阶段后训练把它改造成合格的搜索智能体：Stage 1 用 SFT 灌入基本的任务推理和工具调用能力，Stage 2 用 GRPO 强化学习把它打磨成会探索的策略。所有数据和评测都由作者新建的 H*Bench 基准提供。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["360° 全景图<br/>+ 任务指令"] --> B["人形视觉搜索任务<br/>从全景采样窄视野观测"]
    B --> C["工具增强 MLLM<br/>视觉思维链 + 动作"]
    C -->|"Rotate Δφ,Δγ<br/>转头探索"| B
    C -->|"Submit<br/>证据充分"| D["最终朝向 (φ̂, γ̂)"]
    E["两阶段后训练<br/>SFT 冷启动 + GRPO RL"] -.训练.-> C
    F["H*Bench 基准<br/>约3000 实例 / 难度分级"] -.数据·评测.-> E

关键设计¶

1. 人形视觉搜索任务：用 360° 全景当零硬件模拟器闭合感知—动作环路

这一招直接针对前面两个痛点——"非交互"和"无具身"。传统 2D 视觉搜索的动作只能在固定画布上裁剪缩放，看不到初始视野外的世界；而真要让模型转头看世界，又得搬出难造、难规模化的 3D 模拟器或真实硬件。作者的关键洞察是：把全身运动抽象成"转头"这一个原子动作，再用一张 360° 全景图就足以表示整个可观测世界。智能体起步时只有一个窄视野透视图 \(o_{\phi_t,\gamma_t}\)，每次执行 \(a^{rot}=(\Delta\phi,\Delta\gamma)\) 就在全景上重新采样出新视角（\(\phi_{t+1}=\phi_t+\Delta\phi\)，\(\gamma_{t+1}=\gamma_t+\Delta\gamma\)），于是"转头改变视觉输入"这个闭环被廉价地复现了——没有任何物理硬件，却同时拿到了交互性和具身性。这也精确对应了人类"头探索未见、眼利用已见"的嵌套搜索机制：头的大角度转向负责探索，提交前的精细对齐对应眼的扫视。

2. 工具增强的 MLLM 与视觉思维链：把"转头"当成可反复调用的动作工具

光有环境还不够，得让 MLLM 学会把视觉推理和物理动作耦合起来。作者借用"MLLM + 工具"的范式，但关键区别在于：以往工具调用是 OCR、裁剪、缩放这类对静态图像文件的计算操作，动作始终发生在无具身的 2D 画布上；这里作者把工具换成了真实世界的动作——主动转头。每一步模型先生成观测对齐的文本推理 \(y_t\)（比如"什么都没看到，应该转身"或"看到了闸机标志，证据充分"），再决定是继续 \(a^{rot}\) 探索还是 \(a^{sub}\) 提交。多步推理 \(\{(o_i,y_i,a_i)\}\) 被串成一条视觉思维链，把被动的视觉推理真正升级成主动的具身推理——这是论文反复强调的"从描述者到搜索者"的那座桥。

3. 两阶段后训练：SFT 冷启动建行为先验，GRPO 强化学习炼策略

互联网数据训出来的 MLLM 缺的是空间常识和主动规划，直接零样本上场连 GPT-4o 也只有约 20%。作者用两阶段后训练补这一课。Stage 1（SFT） 在一批精心构造的多轮轨迹上做全参数微调，教会模型从多模态输入生成结构化的动作计划、建立基础的任务推理与工具调用先验——这批冷启动数据是用人工标注的最优动作 + GPT-4o 生成的、再经人审校去幻觉的思维链 rationale 拼出来的（2000 条多轮轨迹）。Stage 2（RL） 用 GRPO（Group Relative Policy Optimization）继续打磨策略，鼓励长程推理，把模仿学习的行为先验拔高成更鲁棒、可泛化的探索策略。作者实测发现两者分工明确：SFT 贡献了绝大部分增益（3B 模型 HOS 14.83→40.83、HPS 6.44→23.00），RL 只做温和的精修（HOS 再 +6.55、HPS 再 +1.94）；而且不先 SFT 直接上 RL 会破坏指令跟随能力，顺序不能颠倒。

4. H*Bench 基准：把视觉搜索从家居场景搬到 in-the-wild 复杂世界

要研究真正考验视觉-空间推理的搜索，就得有够难的场景——既有的具身平台要么感知真实感差，要么困在家居场景里。H*Bench 用高分辨率全景视频（最高 \(7680\times3840\)）构建了约 3000 个标注任务实例，每个实例给 4 个不同起始朝向，合计 12000 个搜索 episode；覆盖 12 个国家、6 大场景类别、18 个细粒度场景类型（交通枢纽、大型零售、公共机构、城市街道等）。标注上，标注者在透视视图界面里自由转相机、写自然语言指令、画紧致 bbox，bbox 反投影回全景后其中心即给出最优方向 \((\phi^*,\gamma^*)\)。配套一套难度分类法让评测可解释：HOS 按目标初始可见度 \(d\)（可见面积占完整面积的比例）分 Easy（\(d\ge0.5\)）/ Medium（\(0\le d<0.5\)）/ Hard（\(d=0\)，初始完全不可见）；HPS 按"有无文字线索 × 线索与真实路径是否对齐"两因素分 Easy/Medium/Hard/Extreme。评测用容差区域判成功——HOS 用 \(\tau_\phi=30°,\tau_\gamma=20°\)（模拟人眼中央凹），HPS 用更严的 \(\tau_\phi=10°\)（要求精确运动方向）。

损失函数 / 训练策略¶

SFT：在混合的物体+路径搜索数据上做全参数微调，训 3 个 epoch；训练框架用 LLaMA-Factory。
RL（GRPO）：在 SFT 后的 Qwen2.5-VL-3B 上训 70 步得到 HVS-3B，框架基于 VAGEN。奖励做了消融（format / correctness / distance-to-goal 的组合，见下表）。
效率发现：短 GRPO rollout 配测试时扩展即可媲美长 rollout（10 轮），收敛更快；测试时上下文只需 2 轮历史就够。

实验关键数据¶

主实验（H*Bench 成功率 %，Overall）¶

模型	HOS 物体搜索	HPS 路径搜索	说明
Qwen2.5-VL-3B（base）	14.83	6.44	开源小模型零样本
+ SFT	40.83	23.00	SFT 贡献主要增益
+ RL = HVS-3B	47.38	24.94	物体搜索翻三倍多
Qwen3-VL-8B + SFT = HVS-8B	60.29	32.87	微调后 HOS 最强
Qwen3-VL-4B + SFT = HVS-4B	54.71	31.00	4B 微调
MiMo-Embodied-7B + SFT	23.71	31.56	具身数据训练，HPS 进步最大
GPT-4o（proprietary）	19.75	23.69	闭源零样本
Gemini2.5-Pro（proprietary）	31.96	33.00	最强零样本 baseline

关键读数：① 顶级闭源模型零样本也只有约 30%，HVS 是个开放难题；② 后训练后最小的 3B 模型在物体搜索（47.38）上反超 Gemini2.5-Pro（31.96），但所有微调模型在路径搜索上仍不及 Gemini 的 33.00；③ 模型更大不一定更好——Gemma-3 和 Qwen2.5-VL 系列里 4B/3B 在 HOS 上反超 12B/7B。

消融：HPS 上的奖励塑形（GRPO）¶

奖励配置	Overall	Easy	Medium	Hard	Extreme
SFT（baseline）	23.44	26.00	24.56	24.77	12.50
format + correctness	22.38	33.80	17.32	21.73	7.87
format + corr + distance	21.37	34.40	15.13	20.09	6.94
format + distance	21.31	29.80	17.54	20.56	11.11

所有奖励变体只在 Easy split 上涨（最高到 34.40），却普遍拖垮更难的级别（Overall 全部低于 SFT baseline 的 23.44）——这暴露了路径搜索的本质困难：很难设计出在所有难度上都与真实目标一致的奖励函数。

具身 vs. 无具身（跨基准对比）¶

方法	V*Bench（2D 静态）	H*Bench（具身）
Mini-o3	88.2	2.5
Chain-of-Focus	88.0	11.6
HVS-3B（本文）	65.5	38.4

2D 视觉搜索方法在静态 V*Bench 上已近饱和（88%+），但搬到具身 H*Bench 上断崖式暴跌到 2.5%/11.6%——证明从被动互联网数据学到的能力无法迁移到 3D 主动交互。而本文 HVS-3B 在 H*Bench 上拿到 38.4% 的同时，V*Bench 仍保持 65.5%，说明它学会 3D 具身搜索却没怎么牺牲 2D 能力。

关键发现¶

SFT 立骨架、RL 做精修：SFT 贡献绝大多数增益（HOS +26.00、HPS +16.56），RL 只温和加成（+6.55/+1.94）；先 RL 后 SFT 行不通，会破坏指令跟随。
路径搜索是硬骨头：天花板明显更低，作者归因于它需要物理/空间/社会常识（如"墙不能穿""楼梯/警戒线/斑马线的功能"），而这些常识隐式、情境化、程序化，后训练难灌入；RL 甚至在 HPS 的 Medium（23.03→20.18）和 Extreme（14.81→12.04）上反而掉点。
双向跨任务协同：只训物体搜索能把路径搜索从 6.4% 提到 20.7%，只训路径搜索能把物体搜索从 14.8% 提到 29.5%——主动探索和视觉定位两种技能互相增益。
效率：短 rollout + 测试时扩展即可媲美长 rollout；测试时 2 轮上下文就够。

亮点与洞察¶

"全景图 = 零硬件具身模拟器"是个极聪明的简化：它抓住了"导航推理只在关键决策点发生"这个观察，把全身运动抽象成转头，从而绕开 3D 仿真/真机的全部工程负担，却同时拿到交互性和具身性——这是整篇论文最值得迁移的 trick：当你需要"主动改变视角"但又付不起真实环境成本时，一张全景图可能就够了。
把"转头"当工具调用，让视觉思维链从"在静态图上缩放"升级成"在 3D 世界里改变物理朝向"，干净地架起了被动感知推理和主动具身推理之间的桥。
诚实地量化了差距：论文没有自夸 SOTA，而是反复强调即便后训练后路径搜索仍远未解决、RL 在难样本上会掉点，把"哪里还没解决"讲得比"我们多强"更清楚——这种态度让基准更有长期价值。
难度分类法可解释：HOS 用初始可见度 \(d\)、HPS 用"线索-路径是否对齐"来分级，让"模型在什么场景下失败"变得可读，而不只是一个总成功率数字。

局限与展望¶

作者承认的局限：后训练只能提升低层感知-运动能力（视觉定位、探索），对需要物理/空间/社会常识的高层推理（尤其 HPS）帮助有限，甚至 RL 在复杂任务上会反向退化；奖励函数难以在所有难度上对齐真实目标。
任务仍是抽象简化：把全身运动压成"转头"这一个原子动作、用单张全景近似世界，回避了真实的连续移动、动态环境和多步导航执行——它评测的是"决定看哪"，不是"真的走到那"，离真机部署还有距离。
路径搜索的平面假设：HPS 只对齐方位角 \(\phi^*\)、把地面近似为平面，对多层立体路径（楼梯/扶梯）的建模被简化掉了，而这恰恰是社会-空间常识最难的部分。
改进思路：作者建议设计更鲁棒的奖励函数、更高效的视觉 tokenizer、能灌入"动作导向空间世界知识"的预训练方法，以及在不同难度间平衡性能；并强调规模化采集具身搜索数据是解锁 in-the-wild 视觉-空间推理的关键。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把视觉搜索从 2D 静态画布升级为 360° 全景具身闭环，"零硬件模拟器"的设定简洁而本质。
实验充分度: ⭐⭐⭐⭐ 覆盖多家开源/闭源/具身模型、HOS/HPS 双任务、难度分级、奖励消融与跨任务/跨基准分析，扎实；真机部署缺位。
写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰、对失败与局限诚实，难度分类法让结论可解释。
价值: ⭐⭐⭐⭐⭐ 提出新任务 + 首个 in-the-wild 具身视觉搜索基准，为人形机器人/辅助技术/AR 的具身推理打开了一条可规模化的研究路径。