跳转至

AEDNet: Adaptive Embedding and Multiview-Aware Disentanglement for Point Cloud Completion

会议: ECCV 2024
arXiv: 无
代码: 无
领域: 3D视觉
关键词: 点云补全, Slot Attention, 多视角解耦, 全局嵌入, 几何理解

一句话总结

提出AEDNet,通过自适应点云嵌入与多视角感知解耦(AED)模块,在编码器和解码器中分别对点云进行全局嵌入和局部解耦,利用从单位球面生成的3D视点从外部观察点云,实现了对3D对象几何的全面理解,在MVP和PCN数据集上达到SOTA。

研究背景与动机

领域现状:点云补全是3D视觉中的基础任务,目标是从不完整的点云数据中推断出3D物体的缺失部分。该任务要求模型既能理解物体的全局结构,又能重建局部细节。现有方法通常采用编码器-解码器架构,通过编码器提取全局特征,解码器生成完整点云。

现有痛点:现有点云补全方法在全局结构理解和局部细节重建之间存在矛盾。许多方法要么过于关注全局形状而忽略细节,要么细节重建能力强但全局一致性差。传统方法通常将整个点云编码为单一全局特征向量,这导致不同部件的几何信息被混杂在一起,难以区分和重建。

核心矛盾:如何在一个统一框架中同时实现对点云的全局感知和局部关注?直接编码所有点的方法无法有效区分物体不同部件的几何信息,导致生成的点云在局部区域缺乏精确性。

本文目标 1) 如何将完整点云分解为多个有意义的部件嵌入;2) 如何从这些嵌入中有效解耦出局部几何信息;3) 如何灵活控制生成点的数量和特征。

切入角度:作者观察到,如果从3D物体外部的多个视角观察点云(而非从内部),可以获得更全面的几何理解。受Slot Attention启发,将点云分解为多个"slot"嵌入,每个slot关注物体的特定部分,然后通过在单位球面上生成的多个3D视点进行解耦。

核心 idea:用Slot Attention将点云嵌入为多个部件表示,再通过单位球面上的多视角投影解耦几何信息,实现从外到内的全局-局部联合理解。

方法详解

整体框架

AEDNet采用编码器-解码器架构。输入为不完整点云,输出为补全后的完整点云。核心是在编码器和解码器中都使用自适应嵌入与解耦(AED)模块。编码器中的AED模块将输入点云分解为多个全局嵌入,每个嵌入聚焦于物体的特定区域;解码器中的AED模块则从这些嵌入中解耦出几何信息,生成最终的完整点云。整个流程可以概括为:不完整点云 → 全局嵌入(分解为多个部件表示)→ 多视角解耦(从球面视角提取几何)→ 点云生成。

关键设计

  1. Adaptive Point Cloud Embedding(自适应点云嵌入):

    • 功能:将输入点云分解为多个独立的嵌入表示,每个嵌入关注物体的特定部分
    • 核心思路:借鉴Slot Attention的思想,设计了一种全局嵌入算子。首先初始化一组可学习的slot查询向量,然后通过迭代的注意力机制,让每个slot与输入点云的不同部分建立关联。具体来说,slot通过竞争机制(softmax归一化的注意力权重)来"争夺"对不同点的关注权,使得不同slot自然地聚焦于物体的不同区域。这种竞争式分配确保了嵌入的多样性和互补性
    • 设计动机:传统方法将所有点编码为单一向量,丢失了部件级别的结构信息。通过Slot Attention的分组机制,可以保留物体各部分的独立几何信息,为后续的精细重建提供基础
  2. Multiview-Aware Disentanglement(多视角感知解耦):

    • 功能:从全局嵌入中解耦出详细的几何信息,支持灵活的点数生成
    • 核心思路:在单位球面上均匀采样一组3D视点,每个视点代表一个从外部观察物体的角度。然后,将全局嵌入投影到这些视点方向上,通过视角感知的注意力机制解耦出对应区域的几何特征。关键创新在于"从外部观察"而非"从内部编码"——传统方法直接在点云内部处理特征,而本方法通过外部视点获得全面的几何理解。通过改变视点的数量,可以灵活控制解耦出的点数和特征粒度
    • 设计动机:从点云内部编码时,每个点只能感知其邻域信息,对整体几何结构的把握有限。通过从球面外部多个视角观察,每个视点都能获得物体的全局轮廓信息,同时关注特定区域的细节。这种设计还带来了高灵活性——视点数量可调,直接对应输出点的数量
  3. AED Module(自适应嵌入与解耦模块):

    • 功能:整合全局嵌入和多视角解耦,作为编码器和解码器的核心组件
    • 核心思路:AED模块将上述两个操作串联使用。在编码阶段,模块先通过Slot Attention将点云聚合为全局嵌入,再通过多视角解耦提取局部特征。在解码阶段,同样使用AED模块,但方向相反——从全局嵌入出发,通过渐进的多视角解耦逐步生成完整点云。编码器和解码器共享相同的模块设计,但参数独立,形成对称结构
    • 设计动机:在编码器和解码器中复用相同的AED结构,简化了网络设计,同时确保编码和解码过程在表示空间上的一致性。对称设计也有助于训练稳定性

损失函数 / 训练策略

训练采用Chamfer Distance(CD)作为主要损失函数,衡量预测点云与真实完整点云之间的距离。CD损失同时考虑从预测到真值和从真值到预测两个方向的最近邻距离,确保生成的点云既覆盖了所有区域又没有过多冗余点。此外,还在中间层使用多尺度监督策略,对粗糙级和精细级的预测分别计算CD损失,引导网络从粗到细地学习点云补全。

实验关键数据

主实验

数据集 指标 本文 (AEDNet) 之前SOTA 提升
MVP (CD-l2 ×10^4) 整体平均 最优 PCN/SnowFlakeNet等 显著提升
PCN (CD-l1 ×10^3) 整体平均 SOTA SeedFormer等 持续改进

消融实验

配置 关键指标 说明
Full AEDNet 最佳CD 完整模型
w/o Slot Attention CD上升 去掉全局嵌入,退化为普通编码
w/o 多视角解耦 CD上升 去掉球面视点解耦,用传统FoldingNet替代
不同视点数量 平滑变化 视点数与生成质量正相关但有饱和点
不同Slot数量 影响部件粒度 Slot太少丢失细节,太多增加冗余

关键发现

  • Slot Attention的全局嵌入机制对补全质量贡献最大,去掉后CD显著上升,说明部件级分解是方法的核心优势
  • 多视角解耦的视点数量提供了灵活的精度-效率权衡:增加视点可以提高重建精度但计算成本也随之增长
  • 在具有对称结构或规则形状的物体上表现尤为突出,因为球面视点天然适合捕获对称几何
  • 在高度不完整的输入上(缺失比例高)依然保持较好性能,得益于全局嵌入对整体结构的理解

亮点与洞察

  • 从外部观察的视角转换:将传统的"从内部编码点云"转变为"从外部球面视角观察点云",类似于人类理解3D物体时会从多个角度观察。这种视角转换使得每个视点都能获得全局信息,避免了局部感受野的限制
  • Slot Attention在点云中的创新应用:Slot Attention最初用于2D图像中的物体发现,本文将其成功迁移到3D点云处理,通过竞争式分配机制实现自动的部件分解,无需额外的部件标注
  • 灵活的点数控制:通过调整球面视点的数量即可改变输出点云的分辨率,这种设计在实际应用中非常实用

局限与展望

  • 球面视点均匀采样可能不是最优策略——对于细长或扁平的物体,某些视角可能提供更多信息,可以考虑基于物体形状自适应采样视点
  • Slot Attention的初始化依赖可学习参数,对于形状差异极大的类别可能需要类别特定的初始化策略
  • 方法在处理极度不完整的点云(如只有很小一部分可见)时,全局嵌入可能受限于输入信息不足
  • 当前方法可能对点云密度敏感,在稀疏输入上的鲁棒性值得进一步研究

相关工作与启发

  • vs SeedFormer:SeedFormer通过种子特征进行逐步上采样,强调局部几何生成;AEDNet通过全局嵌入+多视角解耦,同时捕获全局和局部信息,在全局一致性上更优
  • vs SnowFlakeNet:SnowFlakeNet使用雪花式点分裂策略逐步增加密度;AEDNet则通过视点控制直接生成目标密度的点云,避免了多步上采样的误差累积
  • vs PoinTr:PoinTr使用Transformer进行点云补全,但采用序列化处理方式;AEDNet通过Slot Attention实现了更自然的部件分组,且球面视角观察提供了独特的几何先验

评分

  • 新颖性: ⭐⭐⭐⭐ 将Slot Attention和球面多视角解耦引入点云补全,视角新颖
  • 实验充分度: ⭐⭐⭐⭐ 在MVP和PCN两个主流数据集上验证,消融实验较完整
  • 写作质量: ⭐⭐⭐ 方法描述清晰,但部分技术细节需要参考附录
  • 价值: ⭐⭐⭐⭐ 提供了一种灵活且有效的点云补全范式,球面视角的思路具有启发性