Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=vjvwYexMQn
代码: https://cvlab-kaist.github.io/MoAI/
领域: 3D 视觉 / 新视角合成 / 扩散模型
关键词: novel view synthesis, geometry completion, diffusion, cross-modal attention, warping-and-inpainting

一句话总结¶

把多视角新视角合成重新表述为"图像 + 几何"的双分支扩散修复任务，并用 MoAI（cross-Modal Attention Instillation） 把图像分支的注意力图注入几何分支，从无位姿参考图直接生成对齐的新视角图像与点云，在外推视角下达到 SOTA。

研究背景与动机¶

领域现状：新视角合成（NVS）有两条主流路线。前馈方法（PixelSplat、MVSplat、DUSt3R、NoPoSplat）能从稀疏视图直接预测 3D，但本质是"填补参考图中可见区域"，插值设置下高保真；生成式扩散方法（Zero123、CAT3D、ViewCrafter）有强外推能力，但训练时依赖已知相机位姿、目标位姿以特征 embedding 形式输入。
现有痛点：前馈方法缺乏外推能力，无法合成参考图中被遮挡/未观测的区域；生成式方法当目标位姿落在训练分布之外时容易崩坏，且必须知道参考相机位姿，只能在 posed 设置下工作；warping-and-inpainting 路线（LucidDreamer、GenWarp）虽然能脱离位姿约束，但只在 2D 图像层面修复、缺乏 3D 结构理解，视角差异大时退化严重，且预测深度与参考几何之间存在 scale-shift 错位。
核心矛盾：既要像生成式方法那样外推未见区域，又要像前馈方法那样几何对齐准确，还要摆脱对已知位姿的依赖——三者难以兼得。
本文目标：从一张或多张无位姿参考图，联合生成任意目标视角的新视角图像 \(I_t\) 与点云 \(P_t\)，且两者几何严格对齐，无需额外的 NeRF/3DGS 优化。
核心 idea：【几何即修复】 用现成几何预测器把参考图的部分几何投影到目标视角，再把图像与几何都当作扩散修复任务来补全；【跨模态注意力灌注】 几何补全比图像生成更确定、结构约束更强，于是把图像分支学到的语义对应注意力图直接"灌"进几何分支，让两个模态互相正则、协同对齐。

方法详解¶

整体框架¶

给定 \(N\) 张无位姿稀疏参考图 \(\{I_n\}_{n=1}^N\)，先用现成几何模型（VGGT）预测各视角点图与相机位姿，聚合成点云并投影到目标视角 \(\pi_t\)，得到部分投影点图。框架由两套并行的 U-Net 双分支组成：图像分支（reference network 提取语义特征 + denoising network 修复图像）和几何分支（结构同构，denoising network 修复点图）。两个分支共享相同的对应关系条件 \(c_t, c_r\)，关键的耦合发生在注意力层——图像分支的注意力图被灌注进几何分支。

flowchart LR
    R[无位姿参考图 I_1..I_N] --> G[VGGT 预测点图+位姿]
    G --> AGG[聚合点云 P]
    AGG --> PROJ[投影到目标视角 π_t]
    PROJ --> MESH[Proximity-based 网格条件<br/>深度/法线/掩码]
    MESH --> IMG[图像 Denoising U-Net]
    MESH --> GEO[几何 Denoising U-Net]
    IMG -- 注意力图 Q^I,K^I 灌注 --> GEO
    IMG --> OI[新视角图像 I_t]
    GEO --> OG[对齐点图 P_t]
    OI --> PC[对齐彩色点云 / 3D 补全]
    OG --> PC

关键设计¶

1. 几何完成式 NVS：把点图投影当作修复条件，绕开 scale-shift　不同于以往把 NVS 当纯 2D 图像修复，本文先用现成模型对每张参考图预测点图 \(P_n\)（每个像素对应一个世界坐标 3D 点），合并为点云后投影到目标视角：\(P_t^\Pi = \Pi(P, \pi_t),\ P = \bigcup_{n=1}^N P_n\)，多点落到同一像素时按点云光栅化取最近点。投影点图经 Fourier 位置编码 \(E(\cdot)\) 与二值掩码 \(M_t\)（标记无投影点的空洞）拼成目标对应条件 \(c_t = [E(P_t^\Pi), M_t]\)，参考视角则因密集预测全部有点而用全 1 掩码 \(c_r^n = [E(P_n), \mathbf{1}]\)。这些条件经卷积网络后加到 denoising network 第一层的图像潜变量上。关键在于：作者不提供显式像素到像素的对应（如 GenWarp 的 warped 坐标），而是直接喂入嵌入后的点图，让模型自己为目标图每个空间位置关联多张参考图中的潜在对应，从而更鲁棒。几何分支用同样架构和条件，但从 Marigold 法线预测模型微调而来去补全点图——由于几何是"参考几何的延续生成"而非独立深度预测，天然避免了预测深度与已知参考几何之间的 scale-shift 错位。

2. 聚合注意力（aggregated attention）：一次注意力同时跨参考图 + 自注意　图像 denoising network 的空间自注意层产出目标视角 key/value 特征 \(K_t^I, V_t^I\)，与 \(N\) 张参考特征拼接：\(K^I = [K_t^I, K_1^I, \dots, K_N^I]\)，\(V^I = [V_t^I, V_1^I, \dots, V_N^I]\)，以目标 query \(Q^I_t\) 做注意力 \(\mathrm{Attention}(Q^I, K^I, V^I) = \mathrm{Softmax}\!\left(\frac{Q^I K^{I\top}}{\sqrt{d_k}}\right) V^I\)。这样一层注意力里既跨所有参考图做 cross-attention、又在目标潜变量内做 self-attention，实现统一的多视图新视角合成；且因为是聚合机制，推理时可接收任意数量参考视角（即使训练只用 2 视角）。

3. 跨模态注意力灌注 MoAI：用图像注意力图替换几何注意力图　作者观察到一个不对称现象（Fig.3）：几何补全比图像修复更确定、结构约束更强，补轮子等部分可见结构时几何分支能正确 attend 到同类结构、而图像分支建立不起这种对应；反过来几何分支缺语义线索，注意力发散、拿不到细粒度跨视角对应。于是 MoAI 把几何分支注意力层中的 query/key 换成图像分支的 \(Q^I, K^I\)，只保留几何自己的 value \(V^P\)：\(\mathrm{Attention}(Q^I, K^I, V^P) = \mathrm{softmax}\!\left(\frac{Q^I K^{I\top}}{\sqrt{d_k}}\right) V^P\)。这带来双向协同——图像分支从更确定的几何补全任务获得正则训练信号、生成更一致；几何分支借图像的丰富语义获得更准的补全。由于注意力图只作为聚合 value 的结构线索、不直接混合跨模态特征，还规避了前作常见的有害特征混叠。训练与推理阶段都执行这一灌注。

4. 邻近度网格条件（proximity-based mesh conditioning）：滤掉错误投影　现成几何模型产出的稀疏点云带噪声，目标视角偏离参考越远投影错误越严重。本文用 ball-pivoting 算法把稀疏点云转成网格，得到更稠密、错误更少的投影点图 \(X_t^\Pi\) 替代裸点图，并把网格的深度图 \(D_t^\Pi\) 与法线图 \(N_t^\Pi\) 通道拼接进条件：\(c_t = [E(X_t^\Pi), D_t^\Pi, N_t^\Pi, M_t]\)。再加法线掩码——把法线与目标视角方向偏差超过 90° 的网格面剔除（这些通常是几何不完整导致的错误投影面），进一步阻止噪声对应污染生成。

实验关键数据¶

实现：图像分支从 Stable Diffusion 2.1 初始化，几何分支从 Marigold 法线预测微调；在 RealEstate10K、Co3D、MVImgNet 上训练，用 VGGT 提供伪真值几何。

主实验：DTU 零样本（与前馈 / warping 方法对比）¶

视图	方法	Pose-free	外推 PSNR↑	外推 SSIM↑	外推 LPIPS↓	插值 PSNR↑	插值 LPIPS↓
2-view	PixelSplat	✗	14.66	0.517	0.334	12.75	0.637
2-view	MVSplat	✗	12.22	0.416	0.423	13.94	0.385
2-view	NoPoSplat	✓	13.58	0.393	0.545	14.04	0.530
2-view	Ours	✓	15.58	0.615	0.184	16.58	0.152
1-view	LucidDreamer	✓	11.14	0.423	0.440	12.09	0.419
1-view	GenWarp	✓	9.85	0.315	0.527	9.54	0.538
1-view	Ours	✓	15.56	0.609	0.184	14.58	0.202

外推与插值两种设置下均显著领先，且单视图也能稳健工作。RealEstate10K 域内测试中外推 PSNR 17.41（NoPoSplat 14.36），插值保持竞争力（PSNR 24.23）。

消融实验（RealEstate10K，外推设置）¶

组件	PSNR↑	SSIM↑	LPIPS↓
(a) Baseline（无几何条件）	16.55	0.559	0.260
(b) + 点图条件	16.93	0.594	0.243
(c) + 邻近度网格条件	17.01	0.601	0.238
(d) + 跨模态注意力灌注 MoAI	17.41	0.614	0.229

每个组件递增贡献，MoAI 带来最后一跳提升。

关键发现¶

外推是杀手锏：对比 LVSM / ZeroNVS / ViewCrafter，本文在大面积未观测区域的外推质量最佳，且推理仅 9.67s（ViewCrafter 25 帧需 209s，ZeroNVS 需 2+ 小时 SDS 蒸馏）。
视角越多越好：仅用 2 视角训练，推理时给 3 视角，图像 PSNR 从 17.41 升到 20.02、几何精度同步提升，验证聚合注意力对任意视角数的泛化。
几何对齐免拟合：多视角点图无需 scale-and-shift 拟合就天然对齐，因为深度被表述为"参考几何的续写补全"。

亮点与洞察¶

任务重表述的优雅：把"新视角合成"和"新视角几何合成"统一成同一套修复框架，图像与几何共享条件、共用架构，只在注意力层耦合，结构干净。
MoAI 抓住了模态不对称：几何确定性高但缺语义、图像语义丰富但对应弱——用"借注意力图而非混特征"的方式取长补短，既协同又不引入跨模态噪声，是本文最有价值的洞察。
彻底 pose-free + 外推：同时摆脱已知位姿依赖、又具备生成式外推能力，填补了前馈与生成式两条路线之间的空白。

局限与展望¶

重度依赖现成几何预测器（VGGT/Marigold）的质量，几何模型在弱纹理/反光场景失效会直接传导到生成。
邻近度网格条件依赖 ball-pivoting 与法线阈值等启发式，对极稀疏或高度不完整点云的鲁棒性仍有限。
评测主要在 object-centric / 室内场景（Co3D、DTU、RealEstate10K），大规模开放场景与动态场景未验证。
推理虽快于大模型方法，但双分支扩散仍比纯前馈方法慢一个量级。

评分¶

新颖性: ⭐⭐⭐⭐ — MoAI 跨模态注意力灌注 + 几何完成式修复是一组有辨识度的新组合，切中前馈/生成式两条路线的空白。
实验充分度: ⭐⭐⭐⭐ — 覆盖 DTU 零样本、RealEstate10K 域内、与大模型方法对比、组件消融、视角数分析，外推/插值双设置完整；但缺开放/动态场景。
写作质量: ⭐⭐⭐⭐ — 动机层层递进，Fig.3 的模态不对称分析直观，方法表述清晰。
价值: ⭐⭐⭐⭐ — 同时输出对齐图像与几何、无需位姿、外推强、推理快，对实用 NVS 与 3D 补全有较高落地价值。