ActivePolicy: Active Gaussian Reconstruction and Optimization Strategy Based on Global-Local Information Gain¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 3D视觉
关键词: 主动重建, 3D高斯泼溅, Next-Best-View, 图谱分析, floater抑制

一句话总结¶

ActivePolicy 把主动 3D 高斯重建的下一最佳视角（NBV）选择改写成一个图谱稳定性优化问题——构建一张同时编码几何不确定性、渲染质量和视角冗余的 GL-Graph，用归一化拉普拉斯的 Fiedler 向量挑视角；再配一套基于黎曼深度流形不一致的 floater 检测 + 置信加权随机 dropout（4D-Reg）抑制稀疏视角过拟合，在 Replica/MP3D 上同时拿到 SOTA 的几何完整度和渲染保真度。

研究背景与动机¶

领域现状：3D 高斯泼溅（3D-GS）已经成为高保真新视角合成的主流表示。在具身智能、自主探索这类未知环境场景里，被动重建（沿预定义轨迹拍图）覆盖不全、训练视角之外渲染质量差，于是「主动重建」通过 Next-Best-View（NBV）选择自主决定相机该往哪看，以最大化重建效率。

现有痛点：作者指出现有主动重建方法有两个根子上的问题。其一，信息增益度量只看几何覆盖、不看渲染质量——现有方法（ActiveGAMER、NARUTO 等）只能判断某个区域「有没有有效观测」，却分不清「这个视角能渲染出逼真画面」和「这个视角几何上是新的、但渲染出来很糟」。这种「重数量、轻质量」的范式选出来的视角空间上覆盖全了，视觉保真度却被牺牲。其二，为了效率而最小化视角间重叠会造出稀疏配置，极易过拟合，表现为 floater——一堆利用深度歧义、只为压低光度损失、并不对应真实表面几何的伪高斯，严重拖垮渲染质量、破坏重建稳定性。

核心矛盾：几何覆盖（completeness）和渲染保真度（photometric fidelity）之间存在 trade-off，现有 NBV 规划要么优化前者、要么优化后者，很少能兼顾两者再加上跨视角一致性；而且 NBV 规划和高斯场建模在架构上是解耦的，规划/选择/重建当成三个独立模块，导致无法做「渲染感知」的视角优化。floater 这件事也没人用「有原则的流形分析」去治。

本文目标：在一个统一框架里同时拿下（1）几何完整 + 渲染保真的 NBV 选择，（2）稀疏视角下的 floater 抑制。

切入角度：作者的核心洞察是——最优视角应该从「信息增益图」的结构性质里浮现，而不是靠单点指标贪心最大化。把几何不确定性、渲染质量、视角冗余这些异质目标编码成一张图的边，再通过谱分析（frequency domain）让它们自然统一，就能避免逐指标加权调参、也能做到全局感知的选择。

核心 idea：用「图谱稳定性分析（拉普拉斯 Fiedler 向量）替代单点信息增益最大化」来选 NBV，用「黎曼深度流形不一致 + 随机 dropout」替代「直接删 floater」来治过拟合。

方法详解¶

整体框架¶

ActivePolicy 是一个在 Habitat 仿真器里跑的、探索（exploration）与精修（refinement）交替的多阶段主动重建管线。每个规划迭代里：从新关键帧增量构建并融合全局 3D 高斯地图、转成体素占据栅格、在未观测/自由区域采样候选视角；对每个候选算「全局-局部信息增益」——它由三部分组成：黎曼深度流形融合给出的几何不确定性 \(g^{geo}\)、空间感知谱分析给出的渲染质量 \(g^{spec}\)、成对连通性给出的视角冗余 \(g^{rel}\)；这三类增益被编码成 GL-Graph 的边，最后用归一化拉普拉斯的谱分析（Fiedler 向量）选出 NBV，相机移过去采集、再回到下一轮。与此并行，高斯优化阶段挂上 4D-Reg，用三种深度变体在流形空间的测地不一致检测 floater，并用置信加权随机 dropout 把它们的「光度责任」逐渐转移到被遮挡的真实表面高斯上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["RGB-D 观测<br/>(未知场景主动探索)"] --> B["增量高斯地图 + 体素占据<br/>采样候选视角"]
    B --> C["全局-局部信息增益"]
    C --> D["黎曼深度流形融合<br/>几何不确定性 g_geo"]
    C --> E["空间感知谱分析<br/>渲染质量 g_spec"]
    C --> F["成对连通性<br/>视角冗余 g_rel"]
    D --> G["GL-Graph 构图<br/>三类增益编码为边"]
    E --> G
    F --> G
    G --> H["归一化拉普拉斯谱分析<br/>Fiedler 向量选 NBV"]
    H -->|移动到 NBV 采集| B
    B --> I["高斯优化 + 4D-Reg<br/>流形检测 floater<br/>置信加权随机 dropout"]
    I --> J["重建结果<br/>完整几何 + 高保真渲染"]

关键设计¶

1. GL-Graph：把几何/渲染/冗余三个异质目标统一成一个图谱稳定性问题

这是全文的核心创新，直接针对「现有度量只会逐指标加权、又只看几何覆盖」的痛点。作者不再对每个候选视角算一个标量增益然后贪心取最大，而是构建一张无向带权图 \(\mathcal{G}=(V,E,A)\)：节点集 \(V=\{V_0,V_1,\dots,V_N\}\) 含一个虚拟全局地图节点 \(V_0\) 和 \(N\) 个候选视角节点。邻接矩阵被刻意做成「分区编码」——

\[A_{ij}=\begin{cases}\lambda_g g_i^g+\lambda_s g_i^s,& i=0 \text{ 或 } j=0,\ i\neq j\\ \lambda_r g_{ij}^r,& i,j\geq1,\ i\neq j\\ 0,&\text{otherwise}\end{cases}\]

即虚拟节点到候选视角的边编码该视角的「内在质量」（几何不确定性 \(g_i^g\) + 渲染质量 \(g_i^s\)），而候选视角之间的边编码「视角冗余」\(g_{ij}^r\)。这样内在质量和成对关系占据图的不同结构区域。然后用归一化拉普拉斯 \(L=I-D^{-1/2}AD^{-1/2}\) 做特征分解，取第二小特征值对应的 Fiedler 向量 \(v_1\) 来揭示结构中心性，NBV 选为

\[i^*=\arg\max_{i\in\{1,\dots,N\}}\frac{1}{|v_1[i]|+\epsilon}\]

Fiedler 向量分量越小代表拓扑中心性越强。为什么有效？贪心取单点最大增益容易引入观测偏置或空间不连续；而谱分析是「全局感知」的，它在频域里一次性权衡覆盖、质量、冗余三者，等于让最优视角从图的结构性质里自然浮现，而不是靠人调三个权重。消融里去掉 GL-Graph（退化成直接用有效像素计数当增益）会在五次尝试内直接探索失败，说明这个谱选择是不可或缺的。

2. 黎曼深度流形融合：没有 GT 深度时也能稳健量化几何不确定性

这是 \(g^{geo}\)（绝对信息增益的几何部分）的来源，也是后面 4D-Reg 的共享基础。痛点是：主动重建里没有真值深度，现有方法靠单一深度估计，极易被 floater 污染。作者从同一次渲染里抽出三种互补深度——\(\alpha\)-blending 深度 \(d_\alpha=\sum_i w_i d_i/\sum_i w_i\)、最大贡献深度 \(d_c=d_{\arg\max_i w_i}\)（\(w_i=\alpha_i T_i\) 是第 \(i\) 个高斯的贡献权重），并意识到深度值落在正实数流形 \(\mathbb{R}_{++}\) 上、应该用双曲度量。于是测地距离 \(\delta_g=|\log(d_\alpha/d_c)|\)、一致性 \(\kappa=(1+\gamma\delta_g)^{-1}\cdot\min(N_g/N_{min},1)\)，再用 Fisher 精度加权把两者沿测地线融合成 R-Depth：

\[d_r=d_\alpha^{w_\alpha}d_c^{1-w_\alpha}=\exp\big(w_\alpha\log d_\alpha+(1-w_\alpha)\log d_c\big)\]

不确定性则由三个深度变体的「逐点方差」\(\tilde\sigma_d^2\) 和「平滑度方差」\(\tilde\sigma_s^2\)（拉普拉斯算子作用后的方差）按局部纹理自适应融合：\(\mathcal{U}=\omega_s\sigma(\eta_d\tilde\sigma_d^2)+(1-\omega_s)\sigma(\eta_s\tilde\sigma_s^2)\)，其中纹理弱的区域更看重平滑度方差。几何信息增益 \(g_i^{geo}\) 就是 \(\mathcal{U}>\tau_u\) 的高不确定性像素数。为什么有效：在 floater 污染区，三种深度的不一致会在流形空间里被几何放大，单一深度看不出来的歧义在这里变成可量化的信号（图 4 显示 R-Depth 比 \(\alpha\)-Depth 明显更贴 GT）。消融里把它换成简单方差，精度从 1.12cm 退到 1.28cm、深度 RMSE 从 0.75 涨到 1.38cm。

3. 空间感知谱分析 + 成对连通性：补齐「渲染质量」和「视角冗余」两类边

这两块分别给出 \(g^{spec}\) 和 \(g^{rel}\)，与设计 2 一起填满 GL-Graph 的三类边。空间感知谱分析针对「没有 GT 图、没法直接评渲染质量」：传统全局频域分析忽略空间异质性（边界区不确定性高、纹理区要密采、平坦区贡献小）。作者把渲染灰度图按梯度幅值自适应切成 \(K\) 个块（梯度越大块越小），对每块算窗口功率谱 \(P_k=|\mathcal{F}\{I_k\odot W_k\}|^2\)，块得分 \(s_k=\beta_h\rho_k^{high}+\beta_a\rho_k^{aniso}+\beta_b\mathbb{I}[\mathcal{B}_k\in\text{boundary}]\) 综合高频能量、方向各向异性和边界重要性（边界块加权 \(\beta_b>1\)），再按复杂度和有效率聚合成视角级渲染增益 \(g_i^{spec}=\sum_k s_k c_k m_k/\sum_k c_k m_k\)。这让 NBV 选择显式地为「渲染质量」而非仅仅「几何新颖性」优化。成对连通性则用深度重投影重叠率 \(o_{ij}\) 乘归一化互相关 \(\text{NCC}(I_i,I_j)\) 得 \(s_{ij}\)，再按空间邻近度衰减 \(g_{ij}^{rel}=s_{ij}\cdot\exp(-\gamma_d\, d_{ij}/\bar d)\)，保证选出的 NBV 提供的是互补信息而非冗余观测。消融显示去掉谱分析 PSNR 掉 0.39dB，去掉相对增益 C.R. 从 99.48% 掉到 97.08%。

4. 4D-Reg：用流形不一致检测 floater，靠置信加权随机 dropout 抑制而不致渲染崩塌

这是治稀疏视角过拟合的关键。作者强调：直接删 floater 会导致不可恢复的渲染崩塌，因为优化器没法重新分配被删高斯的光度责任。所以改成「软抑制」。检测阶段复用三种深度变体，对真实表面点三种深度应一致、floater 会引入测地差异这一性质，算成对测地散度

\[\Delta_{geo}=\sqrt{|\log(d_\alpha/d_c)|^2+|\log(d_\alpha/d_r)|^2+|\log(d_c/d_r)|^2}\]

再结合多尺度一致性 \(C_i^{scale}\) 和邻域一致性 \(C_i^{nbr}\) 得 floater 置信 \(\phi_i^{detect}=\mathcal{N}\{\Delta_{geo,i}\}\cdot(1-C_i^{scale})\cdot(1-C_i^{nbr})\)。抑制阶段不是硬删，而是给每个 floater 算稳定性感知置信 \(\phi_i^{stab}\)，得到 dropout 概率 \(p_{drop,i}=p_{base}+\lambda_{drop}\cdot\mathcal{N}\{\phi_i^{stab}\}\cdot\phi_i^{detect}\)——高置信 floater 更激进地被丢，低置信的保守保留以免渲染断裂。为防止随机 dropout 引入优化不稳，保留的 floater 给不透明度补偿 \(\alpha_i^{comp}=\alpha_i(1+\gamma_{keep}p_{drop,i})\)，同时低散度的稳定表面高斯获得梯度增强，把梯度偏向 floater 密集区的真实表面几何；再加时间退火让正则强度随重建进度自适应。为什么有效：随机性让梯度动力学「自然地」把光度责任从虚假高斯转移到被遮挡的真实表面高斯，等于在不破坏光度质量的前提下挖出被遮挡几何。消融里关掉 dropout，PSNR 从 31.29 掉到 29.22dB、LPIPS 从 0.104 涨到 0.152。

损失函数 / 训练策略¶

作者特意不引入任何额外 loss 项，总损失就是标准的光度 + 几何两项：

\[\mathcal{L}_{total}=w_{rgb}\mathcal{L}_{rgb}+w_{depth}\mathcal{L}_{depth}\]

其中 \(\mathcal{L}_{rgb}=\frac{1}{|P|}\sum_p\|C(p)-C^{ref}(p)\|_1\)，\(\mathcal{L}_{depth}=\frac{1}{|P|}\sum_p\|\hat D(p)-D^{ref}(p)\|_1\)。所有提升都来自 NBV 选择策略和 4D-Reg 的优化动力学，而非 loss 设计——这也说明方法是「即插即用」式的规划/正则改进。

实验关键数据¶

主实验¶

在 Habitat 仿真器、单张 RTX 4090、每序列 2000 帧预算下，于 Replica（8 个室内场景）和 MP3D（5 个大型真实环境）评测。指标：几何精度 Acc(cm)↓、完整度 Com.(cm)↓、5cm 阈值覆盖率 C.R.(%)↑，以及渲染 PSNR↑/SSIM↑/LPIPS↓。

数据集	指标	ActivePolicy(本文)	ActiveGAMER	ActiveSplat	NARUTO	说明
Replica	Acc (cm)↓	1.03	1.28	1.43	-	比 ActiveGAMER 提升 19.5%
Replica	C.R. (%)↑	98.04	96.59	93.64	-	比 ActiveSplat 绝对高 4.40%
Replica	PSNR↑	31.89	30.99	24.72	-	高于稠密被动基线
MP3D	Acc (cm)↓	1.42	1.63	4.05	5.44	比 ActiveGAMER 提升 12.9%
MP3D	Com. (cm)↓	1.82	2.54	6.66	3.81	比 ActiveGAMER 提升 28.3%
MP3D	C.R. (%)↑	96.42	94.63	84.81	86.39	跨场景最稳定
MP3D	PSNR↑	26.86	25.43	21.79	21.63	比 ActiveGAMER 高 5.7%、比 NARUTO 高 24.2%

Table 1 揭示了一个普遍 trade-off：被动方法（MonoGS PSNR 29.28、SplaTAM）渲染高但覆盖低，主动方法（ActiveSplat/NARUTO）覆盖高但精度和 PSNR 低。ActivePolicy 是少数同时压住几何和渲染两端的。

消融实验（Replica Room2，Table 3）¶

配置	Acc↓	C.R.↑	PSNR↑	Depth RMSE↓	说明
Full	1.12	99.48	31.29	0.75	完整模型
w/o GL-Graph	1.27	94.55	24.20	2.82	退化为有效像素计数，PSNR 暴跌 7dB
w/o Riemann Depth	1.28	96.59	30.00	1.38	换成简单方差，深度 RMSE 近翻倍
w/o Spectral Analysis	1.21	97.49	30.90	0.93	PSNR 掉 0.39dB
w/o Abs. IG	-	-	-	-	五次尝试内探索失败
w/o Rel. IG	1.17	97.08	30.50	1.24	冗余上升、覆盖下降
w/o 4D-Reg	1.23	99.04	29.22	1.02	关 dropout，PSNR 掉 2dB、LPIPS 升到 0.152

关键发现¶

GL-Graph 和绝对信息增益是命门：去掉任一个都会让探索在五次尝试内直接失败，证明谱选择 + 几何不确定性是 NBV 的地基，naive 增益最大化撑不起整个流程。
黎曼深度融合主要救几何：换简单方差后深度 RMSE 从 0.75 涨到 1.38，但 PSNR 几乎不掉——说明它管的是几何稳健性。
谱分析和 4D-Reg 主要救渲染：前者影响 PSNR 0.39dB，后者关掉 PSNR 掉 2dB 且 LPIPS 大涨，但 depth 因为有黎曼深度渲染器兜底而稳定——两套机制职责清晰、互补。

亮点与洞察¶

把 NBV 选择重铸成图谱问题：最巧妙的是不再「逐指标加权 + 贪心取最大」，而是让最优视角从拉普拉斯 Fiedler 向量的结构中心性里浮现。这把「几何/渲染/冗余三个互相打架的目标怎么权衡」从调权重问题变成了谱分析问题，天然全局感知。
同一套三深度变体复用两次：黎曼深度融合既产出 NBV 选择要的几何不确定性，又是 4D-Reg floater 检测的依据（测地散度），一鱼两吃，工程上很经济。
「软抑制」floater 的思路可迁移：「直接删会崩、改成置信加权随机 dropout + 梯度增强让责任自然转移」这个套路，对任何稀疏视角/欠约束的高斯优化（如快速建图、SLAM）都有借鉴价值。
零额外 loss：所有增益来自规划策略和优化动力学而非新损失项，意味着可以相对干净地嫁接到已有 3D-GS 主动重建系统上。

局限与展望¶

依赖仿真器（Habitat）：实验全在 Replica/MP3D 仿真环境，真实机器人部署下的传感器噪声、动态物体、定位漂移如何，论文没验证。
超参数偏多：黎曼融合、谱分析、4D-Reg 里有 \(\gamma,\beta,\tau_w,\eta_d,\eta_s,\nu,\lambda_{drop}\) 等一长串阈值/缩放系数，论文未给敏感性分析，跨场景泛化和调参成本存疑。
谱分解的开销：每个规划迭代都要对 \((N+1)\times(N+1)\) 的拉普拉斯做特征分解，候选视角多时计算和实时性如何扩展，作者称「避免密集解析计算」但未给具体时间预算对比。
改进方向：可探索增量式/低秩谱更新避免每轮重分解；把 4D-Reg 的随机 dropout 与显式几何先验（如平面/曼哈顿假设）结合，进一步压 floater。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 NBV 选择重写成拉普拉斯图谱稳定性、用测地流形不一致治 floater，两个角度都新颖且自洽。
实验充分度: ⭐⭐⭐⭐ 双数据集 + 多基线 + 细致消融，但缺超参敏感性和真实机器人验证。
写作质量: ⭐⭐⭐⭐ 动机和方法逻辑清晰、公式完整；符号偏密集，部分阈值定义略仓促。
价值: ⭐⭐⭐⭐ 主动 3D-GS 重建的实用涨点方案，「软抑制 floater」和「图谱选视角」两个思路有迁移价值。