Learning Surgical Robotic Manipulation with 3D Spatial Priors¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待开源（作者声明 dataset 与 code 将公开）
领域: 机器人 / 具身智能
关键词: 手术机器人、视觉运动策略、模仿学习、3D 几何先验、立体内窥镜

一句话总结¶

把一个前馈式 3D 几何重建模型（MASt3R）在自建的合成手术数据集上微调，端到端地从立体内窥镜图像里抽出 3D 隐式表征，再用轻量连接器把它对齐到机器人动作空间，让真实手术机器人在打结、离体胆囊解剖等精细任务上不靠腕部相机就能拿到 SOTA 成功率。

研究背景与动机¶

领域现状：自主手术机器人（如 da Vinci）要在毫米级精度下操作针、组织等细小结构，关键瓶颈是让视觉运动策略具备 3D 空间感知。现有做法分两派：一派先用优化类方法（SfM / NeRF / 3DGS）显式重建手术场景，再在重建结果上学操作技能；另一派（SRT 系列）在病人侧机械臂（PSM）上加装腕部相机，给默认的立体内窥镜补充多视角信息，端到端训练策略。

现有痛点：显式重建是多阶段流水线，重建误差会逐级累积，且无法端到端联合优化；腕部相机方案在临床里几乎不可行——trocar（套管）对 PSM 的插入路径有严格空间约束，带额外相机的器械根本穿不过去，而且腕部相机会被血、水损坏、还会遮挡内窥镜视野。

核心矛盾：手术场景既缺 3D 监督，又不能像通用桌面机器人那样随便加传感器；而前馈几何模型（DUSt3R/MASt3R/VGGT）虽能快速产出富含几何信息的隐式表征，却几乎没在手术图像上训练过，存在巨大域差；同时把大容量预训练编码器硬塞进策略网络，常因表征与任务目标不对齐反而掉点。

本文目标：(1) 补上手术域 3D 标注数据的空白；(2) 让前馈几何先验真正服务于精细手术操作策略，且端到端可训、不依赖额外硬件。

切入角度：与其显式重建出点云再用，不如直接利用前馈几何模型中间层的 3D 隐式表征当作空间先验——既绕开了逐场景优化的低效，又避开了腕部相机的硬件限制。

核心 idea：用「在手术域微调过的几何 Transformer 抽 3D 隐式表征 + 轻量多层级连接器对齐动作空间 + 内窥镜中心动作系」三件套，把 3D 空间先验端到端注入视觉运动策略。

方法详解¶

整体框架¶

方法叫 Spatial Surgical Transformer（SST），整条管线分两步走：先在自建的 Surgical3D 合成数据集上以 3D 重建为目标微调几何 Transformer，再冻结它、把它输出的多层 3D 隐式表征喂给策略网络学操作。具体地，立体内窥镜图像进入几何 Transformer 得到 3D 隐式表征；多层级空间特征连接器（MSFC）把来自不同层的表征聚合并对齐到动作特征空间；内窥镜中心策略解码器在内窥镜坐标系下预测机器人的相对动作 \([\Delta R, \Delta t]\)。因为是「数据集 → 几何模型微调 → 表征连接 → 策略解码」的多阶段串行 pipeline，下面给一张框架图。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["立体内窥镜图像"] --> C["外科几何 Transformer<br/>MASt3R 微调抽 3D 隐式表征"]
    B["Surgical3D 数据集<br/>30K 合成 + 真实伪标签"] -->|3D 重建目标微调后冻结| C
    C --> D["多层级空间特征连接器 MSFC<br/>聚合多层表征 → 对齐动作空间"]
    D --> E["内窥镜中心策略解码器<br/>ACT 预测相对动作"]
    E --> F["机器人相对动作 [ΔR, Δt]"]

关键设计¶

1. Surgical3D 数据集：用合成 + 真实伪标签的混合数据补上手术域 3D 标注空白

手术环境极度狭窄（器官到相机常 < 10cm），超出多数 3D 传感器量程，导致带 3D 标注的手术数据极其稀缺，前馈几何模型直接迁移过来效果很差。作者用 NVIDIA Omniverse 合成 Surgical3D：整合 8 类开源人体器官模型 + 手术器械资产，外加 10 个用 iPad 扫描真实器官得到的高真实感网格，配合域随机化（变化立体基线、内外参、光照、组织纹理），生成 30K 张 1920×1080 立体图像对及对应深度图/点云/外参。但纯合成与真实仍有域差（器官形态、腹腔内光照不同），于是再做一轮混合：先在合成数据上微调 VGGT 的点预测头，用它给真实手术录像推断深度伪标签，只保留高置信度区域。这个「合成打底 + 真实伪标签补真实感」的组合显著提升了几何 Transformer 在真实场景下的鲁棒性，是后续一切的空间基础。

2. 外科几何 Transformer：选轻量的 MASt3R 而非重型 VGGT，换实时性与稳定性

手术图像有两个独特难点：器官表面常无纹理或高度重复，传统特征匹配不可靠；双目基线极窄，几何法对微小像素错位会累积显著深度误差。作者选 MASt3R 当原型——它是前馈式、不依赖相机参数和特征匹配、能从图像对直接推稠密 3D 点，还能继承互联网级预训练。相比之下 VGGT 虽能抓更细几何，但架构重、实时部署会引入运动抖动。微调阶段，decoder token 经 DPT 头回归内窥镜坐标系下的稠密点图，回归损失对预测与 GT 点图做尺度归一化以消除尺度歧义：\(L_{reg}(v,i)=\sum_{v}\sum_{i\in D^v}\|\tfrac{1}{z}X^{v,1}_i-\tfrac{1}{\hat z}\hat x^{v,1}_i\|\)（\(z,\hat z\) 为尺度因子）。针对无纹理区域，引入逐像素置信度 \(C^{v,1}_i\) 做置信度加权：\(L_{conf}=\sum_v\sum_{i\in D^v}C^{v,1}_i L_{reg}(v,i)-\alpha\log C^{v,1}\)，让模型在难重建区域学会「示弱」而非硬猜。

3. 多层级空间特征连接器 MSFC：用低/高层表征互补，绕开显式点云的误差

直接把显式 3D 点图喂进策略会被重建误差和尺度歧义带偏；而单纯换一个更强的预训练编码器又常常没收益甚至掉点。MSFC 的思路是：几何 Transformer 不同层捕捉不同抽象层级——低层编码细粒度局部细节，高层编码全局上下文，而精细手术既要精确定位物体、又要把握整体运动方向，两者缺一不可。具体取几何 Transformer 四个 decoder 层（正是微调时喂给 DPT 头、几何信息最丰富的那几层）的隐式表征，先各自投到低维压缩，再沿特征维拼接、用一个轻量 MLP 对齐到动作空间，对齐后的表征与位置嵌入做 cross-attention 生成动作。轻量聚合 + 多层级互补，让策略能在很少的示范下稳定学习。

4. 内窥镜中心策略解码器：把感知与动作统一到同一坐标系，并用相对位姿避开不准的正运动学

由于 3D 隐式表征本身定义在内窥镜坐标系，作者干脆把动作空间也搬到该坐标系，保证感知与执行始终在统一表示下。手术机器人与通用机器人最大差异是缺准确的正运动学——PSM 的 Set-Up Joints 仅靠电位器测角、本就不准，所以无法像通用机器人那样学绝对关节/末端位姿。解决办法是用相对位姿表示：记末端位姿 \(E_i=(R_i,tr_i)\in SE(3)\)，取相邻帧差分 \(a_t=\{(tr^i_{t+1}-tr^i_t,\,(R^i_t)^T R^i_{t+1})\}\)，旋转差分进一步表达为欧拉角（实验中比旋转矩阵更易学），夹爪用与运动学无关的绝对张角，每臂得到 7 维动作（平移 3 + 旋转 3 + 夹爪 1）。解码器采用 ACT 框架一次预测未来 \(k\) 个动作，再用指数加权 \(w_i=\exp(-m\cdot i)\) 平均，抑制手术里最忌讳的轨迹抖动。

损失函数 / 训练策略¶

两阶段：① 几何 Transformer 微调用上面的置信度加权重建损失 \(L_{conf}\)；② 策略学习冻结几何 Transformer，端到端最小化预测动作与 GT 的 MSE：\(L_{MSE}=\text{MSE}(\hat a_t,\pi_\theta(o_t,x_t))\)。几何 Transformer 用 ViT-Large（patch=16，MASt3R 预训练初始化），策略解码器 12 层、hidden 768，动作 chunk=100，加权系数 \(m=0.1\)，训练 100 epoch。

实验关键数据¶

无公开手术操作 benchmark，作者把 SST 部署到真实 Torin 手术机器人，在三个真实任务上各跑 10 次独立试验：peg pickup（取栓）、knot tying（打结）、ex-vivo gallbladder dissection（离体胆囊解剖）。

主实验¶

任务/子任务	设置	SRT（带腕相机）	ACT	DP	SST（本文，无腕相机）
Peg Pickup Test1	—	10/10	9/10	10/10	10/10
Peg Pickup Test2（更大范围+深度变化）	—	6/10	2/10	1/10	8/10
Knot Tying Grasp	—	10/10	4/10	5/10	10/10
Knot Tying Loop	—	3/10	0/10	1/10	7/10
Knot Tying 整体	—	2/10	0/10	1/10	7/10
Gallbladder 整体	—	—（被排除）	0/10	0/10	6/10

SST 在不用腕部相机这个更贴近临床的设置下，仍在难任务上全面领先：ACT/DP 只在最简单的 peg pickup 勉强能用，复杂任务几乎全军覆没；SRT 靠腕相机在 peg pickup 表现好，但打结的 loop 子任务（3/10）反被 SST（7/10）拉开。胆囊解剖因怕液体损坏腕相机，SRT 直接被排除。

消融实验¶

消融维度	配置	关键指标	说明
是否在 Surgical3D 微调	w/o ToS	Peg test1/test2: 2/10、0/10；重建 Acc/Comp: 0.0111/0.0140	不微调只能粗定位、抓取有明显空间偏移，打结学不出有意义行为
是否在 Surgical3D 微调	w/ ToS（本文）	Peg test1/test2: 10/10、8/10；重建 Acc/Comp: 0.0048/0.0064	微调后重建精度/完整度近乎减半，成功率大幅提升
连接器设计	LFC（仅末层）	Peg 10/10、0/10；Knot 全 0	末层 token 空间线索有限，最差
连接器设计	MSC（多层分离 cross-attn）	Peg 10/10、3/10；Knot 全 0	复杂注意力需大数据，少示范下欠拟合
连接器设计	MSFC（本文）	Peg 10/10、8/10；Knot Grasp/Loop 10/10、7/10	多层级紧凑融合最优

表中 Acc.↓/Comp.↓ 为重建精度与完整度误差（越低越好）；ToS = trained on Surgical3D。⚠️ 具体度量定义以原文为准。

关键发现¶

Surgical3D 微调是命门：不微调时打结直接学成「漫无目的乱动」，说明几何先验质量直接决定策略能否学到东西，而非锦上添花。
几何模型要选轻的：MASt3R 推理 56.2ms，VGGT 高达 140.4ms（约 2.5× 慢）；作者实测推理率低于 10Hz 会引入明显运动抖动，故 VGGT 不适合实时手术部署——精度不是唯一标准，实时性同样是硬约束。
多层级 > 单层 / 多层分离：低层细节 + 高层上下文的紧凑融合，在少示范下比只用末层或复杂的多层分离 cross-attn 都稳。
空间泛化强：peg pickup 故意用不规则硅胶肝模型，Test2 区域有大幅深度变化，ACT 会照着训练时的绿圈位置硬抓，SST 能贴着实际栓子位置自适应抓取，甚至抓到区域边缘。

亮点与洞察¶

「用中间层隐式表征而非显式点云」这一步很巧：既继承前馈几何模型的互联网级先验，又躲开显式重建的误差累积和逐场景优化，是把 3D 基础模型「软落地」到精细控制的范例。
把临床约束写进方法动机：腕部相机穿不过 trocar、会被血水损坏、会遮挡视野——这些不是泛泛的「更实用」，而是直接决定了「只用内窥镜」的设计取向，动机非常具体。
坐标系一致性：感知（内窥镜系）与动作（内窥镜中心相对位姿）统一到同一框架，是让 3D 先验真正可用的关键工程细节，可迁移到任何「相机系与机器人基座系难标定」的场景。
相对位姿 + 欧拉角 + ACT 加权平均 这套组合拳专治手术机器人正运动学不准 + 轨迹抖动，思路可复用到其他低成本/低精度本体的机器人。

局限与展望¶

评测全在真实机器人上、每任务仅 10 trials，样本量偏小，统计置信度有限；且无公开 benchmark 可横向复现。
解剖子任务成功率相对偏低（6/10），作者归因于胆囊-肝交界边缘定位难（人类操作者也难），说明对精细边界感知仍有上限。
几何 Transformer 训练后冻结，策略无法反过来微调几何表征，可能限制任务自适应；纯合成 + 伪标签的真实感对更复杂活体场景的覆盖度待验证。
仅评测三个任务，离真正多样的临床流程还有距离；动作仅相对位姿，长程任务的误差漂移未充分讨论。

评分¶

新颖性: ⭐⭐⭐⭐ 把前馈几何模型的隐式表征端到端注入手术策略，切入点扎实但模块多为已有组件的巧妙组合
实验充分度: ⭐⭐⭐ 真实机器人三任务有说服力，但每任务仅 10 trials、无公开 benchmark，统计置信度受限
写作质量: ⭐⭐⭐⭐ 动机紧扣临床约束、pipeline 清晰、消融到位
价值: ⭐⭐⭐⭐ 同时给出手术域 3D 数据集与可临床落地的策略，对自主手术方向推动明显