跳转至

🧊 3D 视觉

🤖 AAAI2026 · 74 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (252) · 🔬 ICLR2026 (65) · 🧠 NeurIPS2025 (116) · 📹 ICCV2025 (268) · 🧪 ICML2025 (11) · 💬 ACL2025 (1)

🔥 高频主题: 3D 高斯渲染 ×19 · 点云 ×14 · 语义分割 ×7 · 形状补全 ×5 · 动态场景 ×4

3D-ANC: Adaptive Neural Collapse for Robust 3D Point Cloud Recognition

将Neural Collapse(NC)机制引入3D点云对抗鲁棒性,用固定的ETF分类头+自适应训练框架(RBL+FDL)构建解耦的特征空间,在ModelNet40上将DGCNN的对抗准确率从27.2%提升到80.9%,超出最佳baseline 34个点。

3D-Free Meets 3D Priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

提出将 3D-free 方法(HawkI 风格的 test-time optimization)与 3D-based 先验(Zero123++ 的弱引导图)结合的框架,无需额外 3D 数据或训练即可从单张图片生成指定仰角/方位角的相机控制视图,在复杂场景下 LPIPS、CLIP-Score 等指标全面超越 Zero123++、HawkI 和 Stable Zero123。

3DTeethSAM: Taming SAM2 for 3D Teeth Segmentation

将SAM2基础模型迁移到3D牙齿分割任务,通过多视角渲染将3D mesh转为2D图像、设计三个轻量适配器(Prompt生成器、Mask精化器、Mask分类器)和可变形全局注意力插件(DGAP)来解决自动提示、边界精化和语义分类问题,在Teeth3DS上以91.90% T-mIoU刷新SOTA。

4DSTR: Advancing Generative 4D Gaussians with Spatial-Temporal Rectification for High-Quality and Consistent 4D Generation

提出4DSTR框架,通过基于Mamba的时序关联校正(修正高斯点的尺度和旋转)以及逐帧自适应稠密化与裁剪策略,显著提升4D高斯生成的时空一致性和对快速时序变化的适应能力。

Adapt-As-You-Walk Through the Clouds: Training-Free Online Test-Time Adaptation of 3D Vision-Language Foundation Models

提出 Uni-Adapter,一种面向3D视觉-语言基础模型(VLFM)的无训练在线测试时适应框架,通过基于聚类的动态原型缓存和图正则化标签平滑来应对分布偏移,在多个3D损坏基准上取得SOTA。

AnchorDS: Anchoring Dynamic Sources for Semantically Consistent Text-to-3D Generation

揭示 SDS 中源分布是动态演化而非静态的关键问题,提出 AnchorDS,通过将当前渲染图像作为图像条件输入双条件扩散模型来锚定源分布,解决了 SDS 的语义过度平滑和多视角不一致问题,在 T3Bench 上全面超越 SDS/VSD/SDS-Bridge。

AnchorHOI: Zero-shot Generation of 4D Human-Object Interaction via Anchor-based Prior Distillation

提出 AnchorHOI,通过锚点NeRF和锚点关键点两种中间桥梁,分别从图像/视频扩散模型中蒸馏交互先验和运动先验,实现零样本的文本驱动4D人物-物体交互生成,在静态3D和动态4D HOI生成上均超越已有方法。

Arbitrary-Scale 3D Gaussian Super-Resolution

提出Arbi-3DGSR集成框架,通过尺度感知渲染、生成先验引导优化和渐进超分三个核心组件,首次实现单个3DGS模型支持任意(包括非整数)倍率的高分辨率渲染,在×5.7倍率下PSNR比3DGS提升6.59dB,且保持85 FPS实时速度。

ASSIST-3D: Adapted Scene Synthesis for Class-Agnostic 3D Instance Segmentation

提出 ASSIST-3D 合成数据流水线,通过异构物体选择、LLM 引导的场景布局生成和仿真实点云构建三个阶段,为 class-agnostic 3D 实例分割生成高质量标注数据,显著提升模型泛化能力。

Can Protective Watermarking Safeguard the Copyright of 3D Gaussian Splatting?

首次系统性地揭示了 3DGS 水印框架的脆弱性,提出 GSPure 框架通过视角感知权重累积和几何特征聚类精准分离并去除水印相关的 Gaussian 原语,在水印 PSNR 最高降低 16.34dB 的同时保持原始场景损失不足 1dB。

Cheating Stereo Matching in Full-Scale: Physical Adversarial Attack against Binocular Depth Estimation

提出首个针对立体匹配模型的3D全表面纹理物理对抗攻击,通过立体对齐渲染模块和区域感知的融合攻击(merging attack),使对抗车辆在深度图中与背景无缝融合,导致自动驾驶感知系统严重失效。

Class-Partitioned VQ-VAE and Latent Flow Matching for Point Cloud Scene Generation

提出类别分区的 VQ-VAE(CPVQ-VAE)和潜空间流匹配模型(LFMM),实现了首个无需外部数据库检索的纯点云场景生成方法,在复杂客厅场景上将 Chamfer 距离降低了 70.4%。

DANCE: Density-Agnostic and Class-Aware Network for Point Cloud Completion

提出 DANCE 框架,通过基于射线的候选点采样和 opacity 预测机制实现密度无关的点云补全,并引入分类头提供语义先验,在 PCN 和 MVP 基准上取得 SOTA。

DAPointMamba: Domain Adaptive Point Mamba for Point Cloud Completion

首次将 Mamba(SSM)引入无监督域自适应点云补全(UDA PCC),提出 DAPointMamba 框架,通过跨域 Patch 级扫描、空间 SSM 对齐和通道 SSM 对齐三个模块,在保持线性复杂度和全局感受野的同时实现了跨域高质量点云补全。

Debiasing Diffusion Priors via 3D Attention for Consistent Gaussian Splatting

提出 TD-Attn 框架,通过 3D 感知注意力引导(3D-AAG)和层级注意力调制(HAM)两个模块,解决 T2I 扩散模型中先验视角偏差导致的 3D 生成/编辑多视图不一致问题(Janus problem),可作为通用插件集成到现有 3DGS 框架。

DeepRAHT: Learning Predictive RAHT for Point Cloud Attribute Compression

提出首个端到端可微的 RAHT(Region Adaptive Hierarchical Transform)框架 DeepRAHT,用于有损点云属性压缩,通过可学习的预测模型和基于 Laplace 分布的码率代理实现了超越 G-PCC 标准和现有深度学习方法的压缩性能。

Distilling Future Temporal Knowledge with Masked Feature Reconstruction for 3D Object Detection

提出 FTKD(Future Temporal Knowledge Distillation)框架,通过未来感知特征重建(FFR)和未来引导 logit 蒸馏(FLD)两个策略,将离线教师模型中的未来帧知识有效迁移到在线学生模型,在 nuScenes 上取得 1.3 mAP/1.3 NDS 提升且不增加推理开销。

Domain Generalized Stereo Matching with Uncertainty-guided Data Augmentation

提出 UgDA-Stereo,通过对 RGB 图像逐通道均值和标准差施加基于批次统计量的高斯不确定性扰动来模拟多种未知域的视觉风格,并结合特征一致性约束,以即插即用方式显著提升立体匹配模型的跨域泛化能力。

Dynamic Gaussian Scene Reconstruction from Unsynchronized Videos

提出了一个粗到精(coarse-to-fine)的时间对齐模块,可插入到现有 4D Gaussian Splatting 框架中,解决多视角视频时间不同步导致的动态场景重建质量退化问题,在 DyNeRF 数据集上显著提升了多个基线方法的 PSNR/SSIM/LPIPS。

Enhancing Generalization of Depth Estimation Foundation Model via Weakly-Supervised Adaptation with Regularization

提出 WeSTAR 框架,通过语义感知的分层归一化自训练 + 稀疏成对序数弱监督 + LoRA 权重正则化三者协同,以参数高效的方式提升深度估计基础模型(Depth Anything V2)在未见域和损坏数据上的泛化能力,在多个 OOD 基准上达到 SOTA。

Enhancing Rotation-Invariant 3D Learning with Global Pose Awareness and Attention Mechanisms

提出 Shadow-informed Pose Feature (SiPF) 和 RIAttnConv 算子,通过引入基于 Bingham 分布学习的全局"影子"参考点来增强局部旋转不变特征的全局姿态感知能力,解决对称结构(如飞机左右机翼)无法区分的"Wing-tip Feature Collapse"问题,在 ModelNet40 分类和 ShapeNetPart 分割上达到 SOTA。

EPSegFZ: Efficient Point Cloud Semantic Segmentation for Few- and Zero-Shot Scenarios

提出 EPSegFZ,一个无需预训练的3D点云少样本/零样本语义分割框架,通过 ProERA 提取高频特征、LGPE 融合文本信息更新原型、DRPE 建立精确的查询-原型对应关系,在 S3DIS 和 ScanNet 上分别超越 SOTA 5.68% 和 3.82%。

FantasyStyle: Controllable Stylized Distillation for 3D Gaussian Splatting

本文提出FantasyStyle,首个完全基于扩散模型蒸馏的3DGS风格迁移框架,通过多视图频率一致性(MVFC)机制抑制低频分量减少视角间冲突,并设计可控风格化蒸馏(CSD)引入负引导消除风格图像的内容泄漏,在风格化质量和内容保持上均超越现有VGG和扩散方法。

Fast 3D Surrogate Modeling for Data Center Thermal Management

本文开发了基于视觉的 3D 代理建模框架,通过将数据中心的服务器负载、风扇速度和空调温度设定点编码为 3D 体素表示,利用 3D CNN U-Net、3D 傅里叶神经算子和 3D Vision Transformer 等架构实现实时温度场预测,速度比传统 CFD 求解器快 20000 倍,同时实现 7% 的能耗节约。

FoundationSLAM: 释放深度基础模型在端到端稠密视觉SLAM中的潜力

将深度基础模型的几何先验注入光流式SLAM系统,通过混合光流网络、双向一致BA层和可靠性感知精炼三个模块形成闭环,在TUM/EuRoC/7Scenes/ETH3D四大数据集取得SOTA轨迹精度和稠密重建质量,18 FPS实时运行。

Free-Form Scene Editor: Enabling Multi-Round Object Manipulation like in a 3D Engine

提出FFSE——一个基于视频扩散模型的自回归3D感知图像编辑框架,配合混合数据集3DObjectEditor(真实+合成),能像3D引擎一样在真实图像上执行多轮物体平移/缩放/旋转操作,同时生成逼真的阴影/反射/遮挡等背景效果并保持跨轮编辑一致性,在单轮和多轮编辑中均大幅超越现有方法。

Gaussian Blending: Rethinking Alpha Blending in 3D Gaussian Splatting

重新审视3DGS中的标量alpha blending,指出其忽略像素内空间变化是多尺度渲染伪影(放大erosion/缩小dilation)的根源,提出Gaussian Blending——将alpha和transmittance建模为像素内的空间分布(2D uniform window),实现实时抗锯齿且无需重训练,在多尺度Blender上PSNR从31.59→35.80。

GaussianImage++: Boosted Image Representation and Compression with 2D Gaussian Splatting

提出 GaussianImage++,通过失真驱动的密度化机制和内容感知高斯滤波器,用有限数量的 2D Gaussian 原语实现高质量图像表示和压缩,并结合属性分离的可学习标量量化器实现高效压缩。

Generalized Geometry Encoding Volume for Real-time Stereo Matching

提出 GGEV,将单目深度基础模型(Depth Anything V2)的深度先验以轻量方式融入代价聚合过程,通过深度感知动态代价聚合(DDCA)自适应增强不同视差假设的匹配关系,在实时速度下实现强泛化能力。

Geometry Meets Light: Leveraging Geometric Priors for Universal Photometric Stereo under Limited Multi-Illumination Cues

提出 GeoUniPS,将大规模3D重建模型(VGGT)中学到的几何先验注入光度立体管线,通过光-几何双分支编码器在多光照线索不可靠时(阴影、自遮挡、偏差光照)仍能恢复合理的表面法线。

Graph Smoothing for Enhanced Local Geometry Learning in Point Cloud Analysis

分析了传统图构建方法(ball query)在边界点处产生稀疏连接、在交汇区产生噪声连接的问题,提出图平滑模块(对称邻接优化 + von Neumann核)和局部几何学习模块(自适应形状特征 + 柱坐标变换),在分类和分割任务上取得竞争性能。

Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark

提出 Griffin,一个空地协同(AGC)3D感知数据集和基准框架,包含250+动态场景(37K+帧),通过CARLA-AirSim联合仿真实现真实无人机动力学、变化巡航高度(20-60m)和遮挡感知标注,并提供系统化的鲁棒性评估协议。

GT2-GS: Geometry-aware Texture Transfer for Gaussian Splatting

提出GT2-GS框架,通过几何感知纹理迁移损失、自适应细粒度控制模块和几何保持分支,实现高质量、视图一致的3DGS纹理迁移,在纹理保真度和场景内容保持上均优于现有3D风格迁移方法。

Hierarchical Direction Perception via Atomic Dot-Product Operators for Rotation-Invariant Point Clouds Learning

提出 DiPVNet,基于 atomic dot-product operator 的双重属性(方向选择性 + 旋转不变性),构建局部 L2DP 算子和全局 DASFT 模块,实现层次化方向感知的旋转不变点云学习。

IE-SRGS: An Internal-External Knowledge Fusion Framework for High-Fidelity 3D Gaussian Splatting Super-Resolution

提出IE-SRGS框架,通过融合外部2D超分辨率模型提供的高频纹理先验(外部知识)与多尺度3DGS模型提供的跨视图一致深度/纹理特征(内部知识),配合掩码引导融合策略,从低分辨率输入实现高保真3DGS超分辨率重建,在合成和真实场景上均达到SOTA。

Learning Conjugate Direction Fields for Planar Quadrilateral Mesh Generation

提出一种基于DGCNN的数据驱动方法高效生成共轭方向场(CDF),避免了传统非线性优化的高计算开销,支持用户笔画引导的可控CDF生成,将CDF生成速度提升了1-2个数量级,同时配套发布了包含50000+自由曲面的大规模数据集。

MeshA*: Efficient Path Planning With Motion Primitives

提出 MeshA 算法,将 lattice-based 路径规划从"在运动基元层面搜索"转变为"在网格单元层面搜索并同时拟合基元序列",通过定义"扩展网格单元"(extended cell)新搜索空间,在保证完备性和最优性的同时,实现相比标准 LBA 1.5x-2x 的运行时加速。

MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting

提出MeshSplat,首个基于2DGS的可泛化稀疏视角表面重建框架,通过加权Chamfer Distance损失正则化深度预测和基于不确定性的法线预测网络对齐2DGS朝向,从新视角合成任务中以自监督方式学习几何先验,在稀疏视角网格重建和跨数据集泛化上均达到SOTA。

MoBGS: Motion Deblurring Dynamic 3D Gaussian Splatting for Blurry Monocular Video

MoBGS 提出了一种端到端的动态去模糊 3D Gaussian Splatting 框架,通过 Blur-adaptive Latent Camera Estimation (BLCE) 和 Latent Camera-induced Exposure Estimation (LCEE) 两个核心模块,从模糊单目视频中重建清晰的时空新视角,在 Stereo Blur 数据集上大幅超越现有 SOTA 方法。

MR-CoSMo: Visual-Text Memory Recall and Direct Cross-Modal Alignment Method for Query-Driven 3D Segmentation

提出MR-CoSMo,一种由粗到精的查询驱动3D分割模型,通过直接跨模态对齐模块(DCMA)建立3D点云与文本/2D图像的显式对齐,结合视觉-文本记忆模块(Memory Module)存储高置信度特征对来增强跨场景分割一致性,在3D指令分割、引用分割和语义分割三个任务上均达到SOTA。

Multi-Modal Assistance for Unsupervised Domain Adaptation on Point Cloud 3D Object Detection

提出 MMAssist,利用图像和文本特征作为"桥梁"对齐源域和目标域的 3D 特征,同时结合 2D 检测结果增强伪标签质量,显著提升了基于 LiDAR 的 3D 无监督域适应目标检测性能。

NURBGen: High-Fidelity Text-to-CAD Generation through LLM-Driven NURBS Modeling

首次提出基于NURBS表面表示的文本到CAD生成框架NURBGen,通过微调LLM将自然语言描述转换为结构化的NURBS参数JSON,并引入混合表示(untrimmed NURBS + 解析原语)和大规模partABC数据集,在几何保真度和尺寸精度上显著超越现有方法。

OceanSplat: Object-aware Gaussian Splatting with Trinocular View Consistency for Underwater Scene Reconstruction

提出 OceanSplat,通过三目视图一致性约束、合成对极深度先验和深度感知透明度调整,实现了散射介质下的高保真水下 3D 高斯泼溅场景重建,显著减少了浮动伪影并超越现有方法。

Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning

提出统一框架 OSU-3DSG,结合视觉-语言模型进行开放世界 3D 场景图生成,并通过检索增强推理支持场景问答、视觉定位、实例检索和任务规划四种交互任务,在无监督条件下达到与有监督方法可比的性能。

OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding

本文提出了广义开放词汇 3D 场景理解任务(GOV-3D)及对应的 OpenScan 基准,将 3D 场景理解从物体类别扩展到八种语言学属性维度,揭示了现有 OV-3D 方法在理解抽象物体属性方面的严重不足。

Opt3DGS: Optimizing 3D Gaussian Splatting with Adaptive Exploration and Curvature-Aware Exploitation

提出 Opt3DGS 框架,将 3DGS 训练分为探索和利用两阶段:探索阶段用自适应加权 SGLD 逃离局部最优,利用阶段用局部拟牛顿 Adam 优化器实现精确收敛,在不修改高斯表示的前提下达到 SOTA 渲染质量。

Parameter-Free Fine-tuning via Redundancy Elimination for Vision Foundation Models

发现视觉基础模型(SAM/SAM2/DINOv2)中存在大量冗余通道,提出无需更新任何参数的微调方法:通过基于输出差异的通道选择算法找到最优替换对,用有效通道替换冗余通道来增强下游任务的特征表示,平均提升 mIoU 5-11 个点。

Pb4U-GNet: Resolution-Adaptive Garment Simulation via Propagation-before-Update Graph Network

提出 Pb4U-GNet,通过将消息传播与特征更新解耦(Propagation-before-Update),结合分辨率感知的传播深度控制和更新缩放机制,实现了仅在低分辨率网格上训练即可泛化到高分辨率网格的服装仿真。

PFAvatar: Pose-Fusion 3D Personalized Avatar Reconstruction from Real-World Outfit-of-the-Day Photos

提出 PFAvatar,通过两阶段方法(姿态感知扩散模型微调 + NeRF蒸馏)从真实世界"每日穿搭"(OOTD)照片中重建高质量3D人物头像,在仅5分钟内完成个性化定制,较先前方法实现48倍加速。

Physics-Informed Deformable Gaussian Splatting: Towards Unified Constitutive Laws for Time-Evolving Material Field

将每个3D Gaussian视为拉格朗日物质点,引入时变材料场预测粒子速度和本构应力张量,通过Cauchy动量残差作为物理约束 + 拉格朗日粒子流匹配作为数据拟合项,在单目动态视图合成中实现了物理一致性和跨场景泛化能力,在自建物理驱动数据集和HyperNeRF真实数据集上均达到SOTA。

Point-SRA: Self-Representation Alignment for 3D Representation Learning

提出 Point-SRA,通过 Dual Self-Representation Alignment(MAE 层 + MFT 层)和 MeanFlow 概率建模,利用不同 mask ratio 下表征的互补性来增强 3D 点云表征学习,在 ScanObjectNN 上超越 Point-MAE 达 5.59%。

Point Cloud Quantization through Multimodal Prompting for 3D Understanding

提出 PCQ(Point Cloud Quantization),利用预训练视觉-语言模型的文本嵌入作为语义原型,通过 Gumbel-Softmax 可微量化将连续点云特征离散化到文本原型空间,结合跨模态特征融合实现3D理解的显著提升。

RadarLLM: Empowering Large Language Models to Understand Human Motion from Millimeter-Wave Point Cloud Sequence

提出 RadarLLM,首个利用大语言模型从毫米波雷达点云进行语义级人体运动理解的端到端框架,包含基于 Aggregate VQ-VAE 的运动引导雷达分词器和雷达感知语言模型,并通过物理感知仿真管线生成大规模雷达-文本配对数据。

Redundant Queries in DETR-Based 3D Detection: Unnecessary and Prunable

提出 GPQ(Gradually Pruning Queries),通过分类分数逐步裁剪 DETR 系 3D 检测器中大量冗余的 object queries,无需额外可学习参数,可直接在预训练 checkpoint 上微调完成,在边缘设备上最高实现 67.86% FLOPs 减少和 65.16% 推理时间下降。

Rethinking Multimodal Point Cloud Completion: A Completion-by-Correction Perspective

提出 Completion-by-Correction 新范式,用预训练 image-to-3D 模型生成拓扑完整的形状先验,再通过特征空间纠正使其与局部观测对齐,取代传统的 Completion-by-Inpainting 方法,在 ShapeNetViPC 上平均 CD 降低 23.5%、F-score 提升 7.1%。

Rethinking Rainy 3D Scene Reconstruction via Perspective Transforming and Brightness Tuning

提出 OmniRain3D 数据集(首次同时建模视角异质性和亮度动态性的雨天 3D 场景数据集)以及 REVR-GSNet 端到端框架(联合递归亮度增强 + 高斯基元优化 + GS引导去雨),实现从雨天退化图像到高保真干净 3D 场景的重建。

Retrieving Objects from 3D Scenes with Box-Guided Open-Vocabulary Instance Segmentation

提出 Box-Guided 方法,利用 2D 开放词汇检测器 YOLO-World 的检测框引导从超点构建 3D 实例 mask,无需 SAM 和 CLIP,在保持高效(<1分钟/场景)的同时显著提升对低频类别目标的检索能力。

RTGaze: Real-Time 3D-Aware Gaze Redirection from a Single Image

提出 RTGaze,一个实时 3D 感知视线重定向方法,通过混合频率特征编码器 + 视线注入模块 + 3D 面部几何先验蒸馏,从单张图像实现 61ms/帧的高质量视线重定向,比前 SOTA 3D 方法(GazeNeRF)快 800 倍。

Simba: Towards High-Fidelity and Geometrically-Consistent Point Cloud Completion via Transformation Diffusion

提出 Simba 框架,首次将点云补全重构为"对几何变换场做扩散"而非"对点坐标做扩散",通过 Sym-Diffuser 学习逐点仿射变换的条件分布来生成粗糙补全,再用级联 Mamba 架构(MBA-Refiner)逐步精修到高保真输出,在 PCN、ShapeNet、KITTI 多个基准上达到 SOTA。

SmartSplat: Feature-Smart Gaussians for Scalable Compression of Ultra-High-Resolution Images

提出SmartSplat,一种基于特征感知的2D Gaussian Splatting图像压缩框架,通过梯度-颜色引导的变分采样、排斥均匀采样和尺度自适应颜色初始化三大策略,首次实现了8K/16K超高分辨率图像在极端压缩比(最高5000×)下的高质量重建。

Sparse4DGS: 4D Gaussian Splatting for Sparse-Frame Dynamic Scene Reconstruction

首次提出稀疏帧动态场景重建方法Sparse4DGS,通过纹理感知变形正则化(TADR)和纹理感知规范优化(TACO)两个核心模块,从稀疏视频帧中实现高保真4D场景重建。

SparseSurf: Sparse-View 3D Gaussian Splatting for Surface Reconstruction

提出SparseSurf方法,通过立体几何-纹理对齐(SGTA)和伪特征增强几何一致性(PFEGC),在稀疏视角下同时实现高精度表面重建和高质量新视角合成。

Splat-SAP: Feed-Forward Gaussian Splatting for Human-Centered Scene with Scale-Aware Point Map Reconstruction

提出Splat-SAP,一种前馈式方法,从大间隔的双目相机输入中重建尺度感知的点图并通过高斯平面渲染人体中心场景的自由视角视频,无需逐场景优化且无需3D几何监督。

Splats in Splats: Robust and Effective 3D Steganography towards Gaussian Splatting

提出"Splats in Splats",首个在3DGS中嵌入3D隐藏内容而不修改任何vanilla 3DGS属性的隐写术框架,通过重要性分级的SH系数加密和自编码器辅助的不透明度映射实现安全、鲁棒且高效的版权保护。

SplatSSC: Decoupled Depth-Guided Gaussian Splatting for Semantic Scene Completion

提出SplatSSC,一种基于深度引导初始化和解耦高斯聚合器(DGA)的单目3D语义场景补全框架,通过紧凑的高斯基元初始化和鲁棒的几何-语义解耦聚合,在Occ-ScanNet上以更少基元获得SOTA性能。

Split-Layer: Enhancing Implicit Neural Representation by Maximizing the Dimensionality of Feature Space

提出 Split-Layer,将 MLP 全连接层拆分为多个并行分支并用 Hadamard 积整合输出,在不增加参数和计算的前提下将特征空间维度从 \(C\) 指数级扩展到 \(\binom{C/\sqrt{N}+N-1}{N}\),显著提升隐式神经表示(INR)的表征能力。

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

STMI提出一个三组件的多模态目标重识别框架,通过SAM分割引导的特征调制(SFM)抑制背景噪声、语义Token重新分配(STR)提取紧凑表示、以及跨模态超图交互(CHI)捕获高阶语义关系,在RGBNT201等benchmark上取得了显著提升。

StreamSTGS: Streaming Spatial and Temporal Gaussian Grids for Real-Time Free-Viewpoint Video

提出 StreamSTGS,一种可流式传输的时空高斯网格表示,将规范 3D 高斯属性编码为 2D 图像、时序特征编码为视频,实现实时自由视角视频流(帧大小仅 170KB),同时通过 Transformer 辅助训练和滑动窗口机制保证重建质量(PSNR 32.30dB)。

Surface-Based Visibility-Guided Uncertainty for Continuous Active 3D Neural Reconstruction

提出基于表面的可见性场(SBV),通过SDF推导的表面置信度和体素网格更新机制在连续主动学习过程中准确估计不确定性的可见性,指导Next-Best View选择,在DTU/Blender/TanksAndTemples/BlendedMVS四个基准上图像渲染质量提升最高11.6%。

TG-Field: Geometry-Aware Radiative Gaussian Fields for Tomographic Reconstruction

提出 TG-Field,一种面向极端稀疏视角 CT 重建的几何感知高斯形变框架,通过多分辨率哈希编码器建模空间几何先验、时空注意力模块和运动流网络处理动态 CT,在静态和动态 CT 重建中均实现了 SOTA 性能。

TOSC: Task-Oriented Shape Completion for Open-World Dexterous Grasp Generation from Partial Point Clouds

提出任务导向形状补全(TOSC)这一新任务,仅补全与操控任务相关的接触区域(而非整个物体),利用预训练基础模型生成候选形状、3D 判别自编码器筛选最优形状、FlowGrasp 流匹配模型生成灵巧抓取,在抓取位移和 Chamfer 距离上分别提升 16.17% 和 55.26%。

UniC-Lift: Unified 3D Instance Segmentation via Contrastive Learning

提出 UniC-Lift,一个统一的单阶段 3D 实例分割框架,通过在 3DGS 基元中学习可优化的向量嵌入,并利用对比损失和三元组损失训练,最终通过简单的"嵌入到标签"(Embedding-to-Label)过程直接解码出一致的 3D 分割标签,无需 HDBSCAN 等后处理聚类步骤,训练时间从 15+ 小时缩短至 40 分钟以内。

VGGT-DP: Generalizable Robot Control via Vision Foundation Models

提出 VGGT-DP,一个受生物视觉系统启发的视觉运动策略框架,将预训练的 3D 感知基础模型 VGGT 作为视觉编码器并与扩散策略(Diffusion Policy)结合,通过帧级 Token 复用机制、随机 Token 裁剪和本体感知引导视觉学习三个关键设计,在 MetaWorld 高精度操作任务上显著超越 DP 和 DP3 基线。

VPN: Visual Prompt Navigation

提出视觉提示导航(VPN)新范式:用户在 2D 俯视图上标注视觉轨迹(箭头连接关键路点)来引导智能体导航,替代自然语言指令和图像目标指令,构建了 R2R-VP 和 R2R-CE-VP 两个数据集及 VPNet 基线模型,结合视图级和轨迹级数据增强后在离散和连续环境中均取得优异性能。