跳转至

🧊 3D 视觉

📷 CVPR2025 · 359 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (252) · 🔬 ICLR2026 (65) · 🤖 AAAI2026 (74) · 🧠 NeurIPS2025 (116) · 📹 ICCV2025 (268) · 🧪 ICML2025 (11)

🔥 高频主题: 3D 高斯渲染 ×61 · 扩散模型 ×28 · 三维重建 ×18 · 点云 ×16 · 对抗鲁棒 ×14

3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

构建了3D-GRAND——首个百万级密集接地的3D场景-语言数据集(40K场景、6.2M指令),并提出3D-POPE幻觉评估基准,证明密集接地的指令微调能显著提升3D-LLM的接地能力并减少幻觉,还展示了合成数据到真实场景的迁移效果。

3D-GSW: 3D Gaussian Splatting for Robust Watermarking

提出3D-GSW,首个专为3D Gaussian Splatting设计的鲁棒数字水印方法,通过频率引导致密化(FGD)移除冗余高斯并在高频区域分裂高斯来增强鲁棒性,结合梯度掩码和小波子带损失保持渲染质量,在Blender/LLFF/Mip-NeRF 360数据集上同时实现了最优的水印鲁棒性和渲染质量。

3D-HGS: 3D Half-Gaussian Splatting

提出3D Half-Gaussian (3D-HGS)核函数——用一个分割平面将3D高斯分成两半,每半有独立不透明度,作为即插即用的重建核替换标准高斯核,在不牺牲渲染速度的前提下显著提升形状和颜色不连续处的渲染质量,在Mip-NeRF360/T&T/Deep Blending上全面超越所有SOTA方法。

3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint Transformer

提出3D-LLaVA,一个极简架构的通用3D大语言多模态模型,核心是Omni Superpoint Transformer (OST)作为多功能视觉连接器,同时充当视觉特征选择器、视觉提示编码器和分割掩码解码器,仅用点云输入就在ScanQA(92.6 CiDEr)、ScanRefer(43.3 mIoU)等5个基准上全面达到SOTA。

3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning

提出3D-Mem——基于"记忆快照"的3D场景记忆框架,用少量精选多视角图像紧凑表示已探索区域,结合Frontier Snapshot表示未探索区域,配合VLM实现高效的具身探索与推理。

3D-SLNR: A Super Lightweight Neural Representation for Large-scale 3D Mapping

提出 3D-SLNR,一种超轻量神经 3D 表示——基于锚定在点云支撑点上的带限局部 SDF 集合定义全局 SDF,每个局部 SDF 仅由一个共享的微型 MLP 参数化(无隐特征向量),通过可学习的位置/旋转/缩放几何属性调制 MLP 输出适应不同区域的复杂几何,配合并行查找算法和剪枝-扩展策略,以不到先前方法 1/5 的内存实现 SOTA 重建质量。

3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

用3D光滑凸体(Smooth Convex)替代高斯基元进行辐射场渲染,通过点集定义凸包+LogSumExp平滑化+自定义CUDA光栅化器,在T&T和Deep Blending上超越3DGS,且所需基元更少。

3D Dental Model Segmentation with Geometrical Boundary Preserving

提出 CrossTooth,通过基于曲率先验的选择性下采样(边界区域顶点密度提升 10-15%)和多视角渲染图像的跨模态边界特征融合,在 3DTeethSeg'22 公开数据集上实现 95.86% mIoU 和 82.05% boundary IoU,分别比之前 SOTA(ToothGroupNet)提升 2.3% 和 5.7%。

3D Gaussian Head Avatars with Expressive Dynamic Appearances by Compact Tensorial Representations

提出一种紧凑张量表示的3D高斯头部头像方法——用三平面存储中性表情的静态外观,用轻量1D特征线存储每个blendshape的动态纹理(不透明度偏移),仅需10MB存储即可实现300FPS实时渲染和准确的动态面部细节捕捉,在Nersemble数据集上PSNR和存储效率全面超越GA、GBS和GHA。

3D Gaussian Inpainting with Depth-Guided Cross-View Consistency

提出3DGIC,通过深度引导的跨视角一致修复框架实现3D高斯场景中的物体移除与修补——利用渲染深度图从其他视角发现被掩码区域中的可见背景像素来精化修补掩码,再用参考视角的2D修补结果通过3D投影约束其他视角的一致性,在SPIn-NeRF数据集上FID和LPIPS全面超越现有方法。

3D Student Splatting and Scooping (SSS)

提出SSS(Student Splatting and Scooping),用前所未有的三重创新改进3DGS范式:(1) 用Student-t分布替代高斯分布作为混合组件(可学习的尾部厚度,从Cauchy到Gaussian连续变化);(2) 引入负密度组件(scooping减去颜色)扩展到非单调混合模型;(3) 用SGHMC采样替代SGD解耦参数优化,在Mip-NeRF360/T&T/Deep Blending上6/9指标取得最优,且参数效率极高——用最少18%的组件数即可匹配或超越3DGS。

3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement

提出一个基于多视图潜在扩散模型的3D增强框架,通过姿态感知编码器、多视图行注意力和近视图极线聚合模块,在保持跨视图一致性的前提下显著提升低质量3D生成结果的纹理质量。

3DGUT: Enabling Distorted Cameras and Secondary Rays in Gaussian Splatting

4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video

将单目视频的4D马匹重建解耦为运动估计(AniMoFormer时空Transformer)和外观重建(EquineGS单图前馈3DGS),依托VAREN参数化模型和两个大规模合成数据集,在真实数据上达到SOTA几何+外观重建效果,且能零样本泛化到驴和斑马。

4DGC: Rate-Aware 4D Gaussian Compression for Efficient Streamable Free-Viewpoint Video

提出 4DGC,一个率失真感知的 4D 高斯压缩框架,通过运动感知动态高斯建模(多分辨率运动网格+稀疏补偿高斯)和端到端压缩(可微量化+隐式熵模型),在 3DGStream 基础上实现 16 倍压缩且不损失渲染质量。

4DTAM: Non-Rigid Tracking and Mapping via Dynamic Surface Gaussians

本文提出了首个基于可微渲染和2D高斯表面基元的4D跟踪与建图方法(4DTAM),通过联合优化相机位姿、场景几何、外观和动态变形场,从单目RGB-D视频流实现非刚性动态场景的实时重建,并发布了全新的合成4D数据集Sim4D用于评估。

A2Z-10M+: Geometric Deep Learning with A-to-Z BRep Annotations for AI-Assisted CAD Modeling and Reverse Engineering

构建了包含100万+复杂CAD模型、超1000万多模态标注(高分辨率3D扫描、手绘3D草图、文本描述、BRep拓扑标签)的A2Z数据集,是目前最大的CAD逆向工程数据集,并基于此训练了BRep边界和角点检测的基础模型。

A Lightweight UDF Learning Framework for 3D Reconstruction Based on Local Shape Functions

本文提出LoSF-UDF,一种基于局部形状函数学习无符号距离场(UDF)的轻量级框架,仅需在合成的局部点云patch上训练一次(653KB参数、0.5GB数据),即可泛化重建各种类型的3D表面,且对噪声和离群点具有鲁棒性。

A Unified Image-Dense Annotation Generation Model for Underwater Scenes

本文提出TIDE,一种统一的文本到图像和密集标注生成方法,仅以文本为输入就能同时生成高度一致的水下图像、深度图和语义掩码,通过隐式布局共享(ILS)和时间自适应归一化(TAN)机制确保多模态输出的一致性,合成的SynTIDE数据集显著提升了水下深度估计和语义分割性能。

ActiveGAMER: Active GAussian Mapping through Efficient Rendering

提出 ActiveGAMER,首次将 3D Gaussian Splatting 用于主动建图,通过基于渲染的信息增益模块高效选择最优下一视角,结合粗到细探索、后精修和全局-局部关键帧策略,在 Replica 和 MP3D 数据集上大幅超越 NeRF-based 方法的几何精度和渲染保真度。

AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis

本文提出AerialMegaDepth数据集生成框架,通过将Google Earth的伪合成航空渲染与MegaDepth的真实地面图像联合配准到统一坐标系中,构建了13.2万张混合高度图像的大规模训练数据,微调DUSt3R后将地空配对的相机旋转估计准确率从5%提升到56%,同时显著改善了新视角合成质量。

AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction

从单张图像生成可动画 3D 人体——先用适配的 CogVideo 生成多视角标准姿态图像(含法线),再将多视角不一致性建模为 4DGS 中的时序变化来提取一致的 canonical 空间高斯模型,最后通过 SMPL-X 蒙皮驱动动画。

Any3DIS: Class-Agnostic 3D Instance Segmentation by 2D Mask Tracking

提出Any3DIS,通过3D感知的2D掩码跟踪(利用SAM-2追踪每个超点在多帧中的2D分割)替代传统的无监督合并策略,并用动态规划优化3D Proposal,在ScanNet200和ScanNet++上的类别无关、开放词汇、开放式3D实例分割任务中均取得SOTA。

ARM: Appearance Reconstruction Model for Relightable 3D Generation

提出ARM框架,将几何和外观生成解耦,在UV纹理空间中通过反投影和全局感受野网络重建高质量纹理,并引入材质先验解决稀疏视角下材质与光照的歧义性,仅用8张H100训练即在GSO和OmniObject3D上超越现有方法。

ASHiTA: Automatic Scene-grounded Hierarchical Task Analysis

提出首个将高层任务自动分解为场景锚定(grounded)子任务层级的框架ASHiTA,通过交替执行LLM辅助的层次化任务分析和基于信息瓶颈原理的任务驱动3D场景图构建,实现了任务层级与场景表示的联合推理。

BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis

从错误分析角度重新审视3D语义分割,将分割误差分为四类(区域分类/位移/合并/误响应)并设计对应评估指标,提出BFANet通过边界-语义解耦模块和实时边界伪标签计算增强边界感知,在ScanNet200测试集上达到36.0 mIoU(不含辅助数据训练的最高成绩)。

BLADE: Single-view Body Mesh Learning through Accurate Depth Estimation

提出BLADE方法,通过准确估计人体骨盆Z方向深度\(T_z\)来解耦透视投影参数,再用\(T_z\)-aware的姿态估计器恢复人体网格,最后通过可微分光栅化求解焦距和XY平移,首次在不依赖正交相机启发式假设的情况下实现了从单张图像准确恢复透视投影参数和人体3D Mesh。

Blurry-Edges: Photon-Limited Depth Estimation from Defocused Boundaries

提出一种基于新型图像块表示 Blurry-Edges 的深度估计方法,通过对散焦边界的平滑度建模,实现在极低光照(光子受限)条件下从一对不同散焦图像中鲁棒地估计物体深度,噪声鲁棒性比现有 DfD 方法高 4 倍以上。

CADDreamer: CAD Object Generation from Single-view Images

提出 CADDreamer,通过语义增强的多视图扩散模型和几何拓扑提取模块,从单张RGB图像直接生成具有紧凑B-rep表示、清晰结构和锐利边缘的CAD模型,支持平面、圆柱、圆锥、球体、环面五种基元类型。

Category-Agnostic Neural Object Rigging

提出 CANOR(Category-Agnostic Neural Object Rigging),通过将可变形4D物体编码为稀疏的空间定位 blob 集合和实例感知特征体,以完全类别无关、数据驱动的方式自动发现可变形物体的低维姿态空间,实现直观的姿态操控。

CMMLoc: Advancing Text-to-PointCloud Localization with Cauchy-Mixture-Model Based Framework

提出 CMMLoc,一个基于柯西混合模型(CMM)的不确定性感知文本-点云定位框架,通过将粗检索阶段建模为部分相关检索问题并引入 CMM Transformer 和方位整合模块,在 KITTI360Pose 数据集上实现 SOTA 性能。

COB-GS: Clear Object Boundaries in 3DGS Segmentation Based on Boundary-Adaptive Gaussian Splitting

提出 COB-GS,一种通过语义梯度统计驱动的边界自适应高斯分裂技术,联合优化语义信息和视觉纹理,解决 3DGS 分割中物体边界模糊的问题,在保持视觉质量的同时实现清晰的物体边界分割。

CoCoGaussian: Leveraging Circle of Confusion for Gaussian Splatting from Defocused Images

提出CoCoGaussian,利用物理摄影散焦原理(弥散圆/Circle of Confusion)在3D高斯溅射框架中建模散焦模糊,仅使用散焦图像即可精确重建3D场景并渲染清晰的新视角图像。

Coherent 3D Portrait Video Reconstruction via Triplane Fusion

提出一种基于三平面融合(Triplane Fusion)的方法,将个人化3D先验与逐帧观测融合,在单目RGB视频中同时实现时间一致性和动态外观的忠实重建,用于3D远程呈现。

ColabSfM: Collaborative Structure-from-Motion by Point Cloud Registration

提出ColabSfM范式——通过3D点云配准(而非视觉描述子匹配)来融合分布式SfM重建结果,并构建了专用的SfM配准数据集生成管线和改进的配准模型RefineRoITr。

CoMapGS: Covisibility Map-based Gaussian Splatting for Sparse Novel View Synthesis

提出CoMapGS,利用像素级共视性图(covisibility map)来指导稀疏视角3DGS中初始点云增强和自适应加权监督,首次显式关注并恢复高不确定性的单视角区域。

CoMatcher: Multi-View Collaborative Feature Matching

提出CoMatcher,一种多视角协同特征匹配器,从两视角独立匹配范式转向1-to-N协同匹配范式,利用互补视角的上下文线索和跨视角投影一致性约束来提升复杂场景下的匹配可靠性。

Compass Control: Multi Object Orientation Control for Text-to-Image Generation

提出 Compass Control,通过引入轻量级方向编码器预测 compass token 并结合耦合注意力定位(CALL)机制,实现文本到图像扩散模型中多物体的精确3D方向控制,仅需合成数据训练即可泛化到未见类别和多物体场景。

Consistency-aware Self-Training for Iterative-based Stereo Matching

首次提出面向迭代式立体匹配的一致性感知自训练框架(CST-Stereo),通过多分辨率预测一致性滤波和迭代预测一致性滤波评估伪标签可靠性,结合软加权损失有效利用无标签真实数据提升模型性能和泛化能力。

Continuous 3D Perception Model with Persistent State

提出CUT3R(Continuous Updating Transformer for 3D Reconstruction),一个维持持续内部状态的循环模型,能从图像流中在线、增量地进行度量级3D重建、相机位姿估计,并能推断未观测区域的3D结构。

Cross-View Completion Models are Zero-shot Correspondence Estimators

揭示跨视图补全(CVC)模型中交叉注意力图(cross-attention map)本质上学到了精确的稠密对应关系,提出ZeroCo在零样本匹配和学习型几何匹配中利用这一发现,显著超越基于编码器/解码器特征的常规用法。

CrossOver: 3D Scene Cross-Modal Alignment

提出CrossOver框架,通过维度特定编码器和三阶段训练管线,在不要求完整模态配对的条件下,学习RGB图像、点云、CAD模型、平面图和文本描述的统一场景级跨模态嵌入空间,支持灵活的跨模态检索和定位。

Ctrl-D: Controllable Dynamic 3D Scene Editing with Personalized 2D Diffusion

通过单张编辑参考图像微调 InstructPix2Pix 模型以"学习"编辑能力,结合两阶段可变形3D高斯优化,实现可控、一致的动态3D场景编辑。

DAGSM: Disentangled Avatar Generation with GS-enhanced Mesh

提出 DAGSM,一种文本驱动的解耦数字人生成方法,通过 GS-enhanced Mesh(GSM)分别表示人体和各件衣物,支持换装、真实动画和纹理编辑。

DashGaussian: Optimizing 3D Gaussian Splatting in 200 Seconds

提出 DashGaussian,一种基于频率分析的渲染分辨率和高斯基元数量联合调度方案,将3DGS优化从逐步拟合高频分量的角度进行重新表述,平均加速 45.7% 且不牺牲渲染质量。

Decompositional Neural Scene Reconstruction with Generative Diffusion Prior

提出DP-Recon,将生成式扩散先验(SDS)引入分解式神经场景重建中,通过可见性引导动态调整逐像素SDS权重,解决重建目标与生成引导之间的冲突,实现稀疏视角下完整的物体几何与外观恢复。

DEFOM-Stereo: Depth Foundation Model Based Stereo Matching

将单目深度基础模型 (Depth Anything V2) 融入循环立体匹配框架 RAFT-Stereo,通过组合特征编码器和尺度更新模块,在保持强泛化能力的同时实现多个基准上排名第一的立体匹配性能。

Deformable Radial Kernel Splatting

提出可变形径向核 (DRK) 来泛化传统高斯泼溅,通过可学习的径向基函数、\(L_1\)/\(L_2\) 范数混合和边缘锐化机制,用更少的图元实现更高质量的3D场景渲染。

Denoising Functional Maps: Diffusion Models for Shape Correspondence

本文提出 DenoisFM,首次用去噪扩散模型直接预测形状间的功能图(functional map),通过模板匹配降低学习复杂度,并提出无监督方法解决拉普拉斯特征向量符号歧义问题,在人体和动物形状匹配上取得有竞争力的性能。

Dense-SfM: Structure from Motion with Dense Consistent Matching

提出 Dense-SfM 框架,通过高斯泼溅进行轨迹扩展解决稠密匹配产生的碎片化轨迹问题,结合基于 Transformer 和高斯过程的多视图核化匹配精炼模块,实现高精度稠密 SfM 重建。

Depth-Guided Bundle Sampling for Efficient Generalizable Neural Radiance Field Reconstruction

本文提出深度引导的束采样策略(GDB),将相邻光线打包成束并通过球面-锥体采样来联合处理,同时根据深度置信度自适应分配采样点数量,应用于ENeRF和MVSGaussian后在DTU数据集上实现PSNR提升1.27dB且FPS提升47%。

Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera

提出 Depth Any Camera (DAC) 框架,通过 ERP 统一表示、Pitch-aware 转换和 FoV 对齐等技术,实现仅用透视图像训练即可零样本泛化到鱼眼和360°相机的度量深度估计,在大视野数据集上 \(\delta_1\) 精度提升高达50%。

DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

利用预训练的视频扩散模型 (SVD) 进行视频深度估计,通过三阶段训练策略实现可变长度(最长110帧)的时间一致深度序列生成,并设计分段推理策略支持极长视频,在零样本设置下全面超越现有方法。

DepthCues: Evaluating Monocular Depth Perception in Large Vision Models

提出 DepthCues 基准,通过六个人类单目深度线索任务(高度、光影、遮挡、透视、大小、纹理梯度)系统评估 20 个大规模预训练视觉模型的深度感知能力,揭示了类人深度线索在现代视觉模型中的涌现现象。

DepthSplat: Connecting Gaussian Splatting and Depth

将高斯泼溅(3DGS)和深度估计两个通常独立研究的任务统一起来:利用预训练单目深度特征增强多视角深度模型以改善 3DGS 重建质量,同时用 3DGS 的光度渲染损失作为无监督预训练目标来学习强大的深度模型,双任务在多个数据集上均达到 SOTA。

DeSplat: Decomposed Gaussian Splatting for Distractor-Free Rendering

DeSplat提出将3D高斯泼溅分解为静态场景高斯和逐视角干扰物高斯两部分,纯粹基于体积渲染实现场景-干扰物分离,无需任何外部语义模型辅助,在三个基准数据集上取得与先前方法可比的去干扰新视角合成效果且不牺牲渲染速度。

DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

提出 DiET-GS 双阶段框架,通过事件双积分(EDI)先验和预训练扩散模型联合约束 3DGS 优化,从模糊多视角图像和事件流中重建清晰的 3D 表示,实现精确色彩和精细细节的高质量新视角合成。

DiffPortrait360: Consistent Portrait Diffusion for 360° View Synthesis

提出首个能从单张肖像生成一致的 360° 全头部视角的方法,通过双外观控制模块、背视图生成 ControlNet 和连续视角序列训练策略,支持真人、风格化和拟人化角色,并可转化为高质量 NeRF 进行实时自由视角渲染。

Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

提出 Difix3D+,利用微调的单步扩散模型(SD-Turbo)在训练阶段渐进式生成伪训练视角回馈 3D 表示,并在推理阶段作为实时后处理增强器,同时兼容 NeRF 和 3DGS,在 FID 上平均实现 2 倍以上提升。

Digital Twin Catalog: A Large-Scale Photorealistic 3D Object Digital Twin Dataset

提出 DTC 数据集,包含 2000 个毫米级几何精度和光真实 PBR 材质的 3D 物体数字孪生模型,配合 DSLR 和自中心 AR 眼镜的多视角评估数据,建立了首个面向数字孪生创建任务的综合真实世界评测基准。

Disco4D: Disentangled 4D Human Generation and Animation from a Single Image

Disco4D 提出将服装(用 Gaussian 模型表示)与人体(用 SMPL-X 模型表示)解耦的 4D 人体生成框架,从单张图像生成可动画、可编辑、分层的3D穿衣人体模型,并支持逼真的4D服装动力学。

DoF-Gaussian: Controllable Depth-of-Field for 3D Gaussian Splatting

提出 DoF-Gaussian,为 3D 高斯表示引入基于几何光学的可学习透镜成像模型,通过逐场景深度先验调整和离焦-对焦自适应策略,实现从浅景深(散焦模糊)输入图像重建清晰 3D 场景,并支持可控景深渲染(重对焦、光圈调节、散焦形状变换等交互应用)。

Doppelgangers++: Improved Visual Disambiguation with Geometric 3D Features

提出 Doppelgangers++,通过引入多样化的 VisymScenes 日常场景训练数据和利用 MASt3R 多层解码器 3D 感知特征训练 Transformer 分类器,显著提升了 doppelganger(视觉混淆图像对)检测的精度和泛化性,并无缝集成到 COLMAP 和 MASt3R-SfM 管线中改善重复结构场景的 3D 重建质量。

Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration

提出 Dr. Splat,绕过渲染过程直接将语言对齐的 CLIP 嵌入注册到 3D 高斯上,结合在大规模图像数据上预训练的乘积量化(PQ)实现 6.25% 的嵌入压缩,在完全不需要逐场景优化的前提下(~10 分钟 vs 现有方法 1-24 小时),在开放词汇 3D 语义分割、3D 物体定位和 3D 物体选择任务上显著超越现有方法。

DroneSplat: 3D Gaussian Splatting for Robust 3D Reconstruction from In-the-Wild Drone Imagery

DroneSplat 提出了一个面向野外无人机影像的鲁棒 3DGS 框架,通过自适应局部-全局掩膜策略消除动态干扰物,结合基于多视图立体的几何感知点采样和体素引导优化策略解决有限视角下的重建质量问题,并提供了 24 个场景的无人机 3D 重建数据集。

DropGaussian: Structural Regularization for Sparse-view Gaussian Splatting

DropGaussian 提出了一种无需额外先验的简单正则化方法,通过在 3DGS 训练中随机丢弃高斯并引入不透明度补偿因子,使被遮挡的远距离高斯获得更大梯度和可见性,并采用渐进式丢弃率策略有效缓解稀疏视角下的过拟合问题,在不增加计算复杂度的情况下达到与先验方法可比的性能。

DropoutGS: Dropping Out Gaussians for Better Sparse-view Rendering

DropoutGS 通过随机 Dropout 正则化(RDR)缓解稀疏视角 3DGS 的过拟合问题,再用边缘引导分裂策略(ESS)补偿低复杂度模型丢失的高频细节,作为即插即用模块可与多种 3DGS 方法结合,在 LLFF、DTU、Blender 上达到 SOTA。

DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering

DSPNet 提出了一种双视觉场景感知网络,通过文本引导的多视图融合(TGMF)、自适应双视觉感知(ADVP)和多模态上下文引导推理(MCGR)三个模块,综合利用点云和多视图图像信息来解决 3D 问答中的精细感知和鲁棒推理问题,在 SQA3D 和 ScanQA 数据集上达到 SOTA。

Dual Exposure Stereo for Extended Dynamic Range 3D Imaging

提出双曝光立体方法(Dual-Exposure Stereo),通过自动控制立体相机的双曝光参数扩展有效动态范围,并设计运动感知的双曝光深度估计网络,在宽动态范围场景中实现鲁棒的 3D 成像。

Dual Exposure Stereo for Extended Dynamic Range 3D Imaging

提出双曝光立体成像(Dual-Exposure Stereo)方法,通过自动双曝光控制(ADEC)在交替帧中使用不同曝光,结合运动感知的双曝光特征融合网络进行视差估计,将立体相机的有效动态范围扩展至 160%,实现极端光照条件下的鲁棒 3D 成像。

DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction

提出 Dual Point Maps(DualPM),通过同时预测相机空间和规范空间的点图对,将可变形物体的 3D 形状和姿态重建简化为点图预测问题,仅用合成数据训练即可泛化到真实图像。

DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction

提出 Dual Point Maps (DualPM) 表示——从单张图像预测一对点图(相机空间 P + 规范空间 Q),将可变形物体的 3D 形状和姿态重建简化为点图预测问题,并引入分层 amodal 点图实现完整形状恢复(含自遮挡部分),仅用 1-2 个合成 3D 模型训练即可泛化到真实图像。

DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers

DUNE 提出了异构教师联合蒸馏(co-distillation)框架,将来自不同任务和数据域的 2D(DINOv2)与 3D(MASt3R、Multi-HMR)教师模型统一蒸馏为一个 ViT-Base 通用编码器,在语义分割、深度估计、3D 重建和人体姿态恢复等多任务上均达到或超越各自 ViT-Large 教师的性能。

DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers

提出 DUNE,首次研究异构教师蒸馏(co-distillation)问题——从任务目标和训练数据都显著不同的教师模型(DINOv2 + MASt3R + Multi-HMR)中蒸馏出一个 ViT-Base 通用编码器,在 2D 视觉、3D 场景理解和 3D 人体感知任务上均达到教师级性能。

Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera

Dyn-HaMR 是首个从动态相机单目视频中恢复 4D 全局手部运动的优化方法,通过三阶段流水线(分层初始化→SLAM 全局运动→交互精炼)将手部与相机运动解耦,在 H2O 上 G-MPJPE 从 96.9mm (HaMeR) 降至 45.6mm,加速度误差从 9.21 降至 4.2。

Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera

Dyn-HaMR 提出首个从动态相机单目视频中恢复双手 4D 全局运动轨迹的优化框架,通过三阶段流水线(层级初始化 → SLAM 引导全局运动优化 → 交互运动先验优化)解耦相机运动与手部运动,在多个数据集上大幅超越现有方法。

Dynamic Neural Surfaces for Elastic 4D Shape Representation and Analysis

本文提出 Dynamic Spherical Neural Surfaces (D-SNS),用 MLP 将 genus-0 的 4D 表面建模为时空连续函数,然后在 SRNF/SRVF 空间中直接完成时空配准、测地线计算和均值估计,无需离散化,在 4D 人体和面部数据集上超越了 4D Atlas。

Efficient Depth Estimation for Unstable Stereo Camera Systems on AR Glasses

提出 MultiHeadDepth 和 HomoDepth 两个模型,分别通过硬件友好的多头代价体积(LayerNorm+点积近似余弦相似度 + 分组点卷积)和单应性矩阵估计网络 + 2D 矫正位置编码 (RPE) 来优化立体深度估计中代价体积和预处理的延迟瓶颈,在 AR 眼镜场景下精度提升 11.8-30.3% 的同时端到端延迟降低 44.5%。

Instruct-4DGS: Efficient Dynamic Scene Editing via 4D Gaussian-based Static-Dynamic Separation

提出 Instruct-4DGS,利用 4D 高斯 (4DGS) 中静态 3D 高斯和 Hexplane 变形场的内在可分离性,仅编辑静态典范高斯即可实现高效动态场景编辑,再通过 Coherent-IP2P 驱动的分数蒸馏精炼时序对齐以消除运动伪影,将编辑时间缩短一半以上且仅需单 GPU。

EgoPressure: A Dataset for Hand Pressure and Pose Estimation in Egocentric Vision

EgoPressure 提出首个第一人称视角的手部触觉压力和姿态数据集,包含 21 名参与者 5 小时的 RGB-D 交互数据、基于多视角优化的高保真 MANO 手部网格标注和压力传感器的真实压力映射,并建立了从 RGB 图像估计手部压力和姿态的基准模型。

EigenGS: Representation from Eigenspace to Gaussian Image Space

本文提出 EigenGS,将经典 PCA 的特征空间表示与 2D 高斯 Splatting 图像表示相桥接,通过在特征基上学习统一的高斯参数实现新图像的即时初始化(无需从头优化),并引入频率感知学习机制避免高分辨率重建伪影,在收敛速度和最终质量上全面超越 GaussianImage。

Empowering Large Language Models with 3D Situation Awareness

本文提出利用 RGB-D 视频的相机轨迹自动生成情境感知(situation-aware)数据集 View2Cap(20 万+描述、55 万+ QA),并设计情境定位模块(SG)将位姿估计转为锚点分类任务,使 3D LLM 能理解第一人称视角下的空间关系描述(如"左边""右边"随视角变化),在 SQA3D 上 EM@1 达 54.0%。

End-to-End HOI Reconstruction Transformer with Graph-based Encoding

提出 HOI-TG 框架,用 Transformer 的自注意力机制隐式学习人物交互关系,并在编码器中嵌入图残差模块分别增强人体和物体的拓扑结构建模,在 BEHAVE 和 InterCap 数据集上实现 SOTA 的 HOI 三维重建。

End-to-End Implicit Neural Representations for Classification

提出 Meta Weight Transformer (MWT),通过端到端元学习 SIREN 初始化参数和学习率调度,让 INR 的权重结构同时优化重建质量和分类性能,使用简单标准 Transformer 在 SIREN 权重上分类即可超越所有等变架构方法,首次在高分辨率 ImageNet-1K 上实现 INR 分类。

EnvGS: Modeling View-Dependent Appearance with Environment Gaussian

本文提出EnvGS,用一组环境高斯原语(Environment Gaussian)作为显式3D表示来捕获场景反射,通过基于GPU RT Core的可微光线追踪渲染器联合优化环境高斯和基础高斯,在真实场景中首次实现了实时(26+ FPS)且高质量的镜面反射新视角合成,显著超越所有实时方法。

ERUPT: Efficient Rendering with Unposed Patch Transformer

ERUPT 提出了一种高效的潜在视角合成模型,通过 patch-based 解码器替代像素级解码、可学习的潜在相机位姿以及冻结 DINOv2 特征提取器,在不需要精确相机位姿的情况下仅用 5 张无位姿图像即可实现 600fps 的新视角合成,在 MSN 数据集上达到 SOTA 性能。

Estimating Body and Hand Motion in an Ego-sensed World

EgoAllo 提出了一种从头戴设备的自中心 SLAM 位姿和图像估计佩戴者全身姿态、身高和手部参数的系统,通过设计满足空间和时间不变性的头部运动条件化参数,将人体运动估计误差降低高达 18%,并利用运动学约束将手部世界坐标误差降低 40%。

Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation

本文提出 Eval3D,一个细粒度、可解释的 3D 生成质量评估工具,核心思路是利用多种基础模型和工具作为探针(probes)来检测生成 3D 资产在语义、几何、结构和文本对齐等方面的不一致性,实现了像素级精确测量和 3D 空间反馈,相比已有指标更贴近人类判断。

Event Fields: Capturing Light Fields at High Speed, Resolution, and Dynamic Range

本文提出 Event Fields——一种利用事件相机捕获高速、高分辨率、高动态范围光场的新范式,设计了万花筒(空间复用,捕获时间导数)和振镜(时间复用,捕获角度导数)两种互补光学方案,实现了 250fps 百万像素动态场景重聚焦和 100Hz 实时深度估计等前所未有的能力。

EventFly: Event Camera Perception from Ground to the Sky

EventFly 提出了首个事件相机跨平台域适应框架,通过事件激活先验(EAP)识别高激活区域、EventBlend 混合源/目标域事件数据、EventMatch 双判别器对齐特征分布,在车辆→无人机→四足机器人三个平台间的语义分割任务上,相比 source-only 训练平均提升准确率 23.8%、mIoU 77.1%。

Evolving High-Quality Rendering and Reconstruction in a Unified Framework with Contribution-Adaptive Regularization

本文提出CarGS,通过发现高斯基元对渲染和重建任务的贡献冲突根源在于协方差,设计了轻量残差结构Lite-Geo来自适应解耦两个任务的几何贡献,并引入法线+SDF双引导的致密化策略,在统一模型中同时实现SOTA的渲染质量和重建精度,且存储仅为双模型方法的9%。

Exploiting Deblurring Networks for Radiance Fields

本文提出DeepDeblurRF,首次将DNN去模糊网络引入辐射场构建流程,通过设计RF引导去模糊机制和迭代交替框架,在模糊图像输入下实现高质量新视角合成,训练速度比现有方法快10-100倍,同时支持体素网格和3D高斯溅射等多种3D表示。

Extreme Rotation Estimation in the Wild

本文提出了一种面向真实互联网图像的极端三维旋转估计方法,构建了ExtremeLandmarkPairs (ELP)基准数据集,通过渐进式学习方案(全景裁剪→FoV+外观增强→真实数据微调)和辅助通道增强的Transformer模型,在无重叠视角的互联网图像对上显著超越现有方法。

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

提出 Fast3R,将 DUSt3R 的配对 pointmap 回归推广到多视图,通过 Transformer 的 all-to-all attention 在单次前向传播中处理 N 张无序无位姿图像,彻底消除了 \(O(N^2)\) 配对推理和全局对齐优化。

FASTer: Focal Token Acquiring-and-Scaling Transformer for Long-term 3D Object Detection

本文提出FASTer,通过Adaptive Scaling机制自适应选取焦点token并压缩序列、分组层次融合策略渐进式聚合长时序点云信息,在Waymo Open Dataset上以最低延迟(75ms)和显存(2856M)取得了新SOTA性能。

Feat2GS: Probing Visual Foundation Models with Gaussian Splatting

本文提出 Feat2GS,一个统一框架,通过将视觉基础模型(VFM)的 2D 特征经轻量级 MLP 读出为 3D 高斯属性,在新视角合成任务上分别探测 VFM 的几何感知和纹理感知能力,无需 3D 真值数据即可在大规模多样数据集上全面评测 10+ 种 VFM 的 3D 意识。

Feature-Preserving Mesh Decimation for Normal Integration

将经典的 quadric error metric(QEM)推导到屏幕空间并以法线贴图为输入,结合最优 Delaunay 三角化实现各向异性网格简化,在 90%+ 压缩率下仍保持亚毫米级精度,将高分辨率法线积分从小时级加速到分钟级。

Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models

FADE 提出邻接感知(adjacency-aware)的细粒度概念擦除框架,通过 Concept Neighborhood 识别语义邻近类别并设计 Mesh Modules(Erasing + Adjacency + Guidance 三重损失),在精确删除目标概念的同时保留语义相关概念的生成能力,相比 SOTA 方法在邻接保留性能上提升至少 12%。

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

FLARE 提出级联学习范式(cascade learning),以相机位姿为桥梁将 3D 重建分解为位姿估计→局部几何→全局几何→高斯外观四个渐进阶段,在 0.5 秒内从 2-8 张未标定稀疏图像实现高质量的相机位姿、几何重建和新视角合成。

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

提出 FLARE,一个前馈可微系统,从未标定的稀疏视角图像(2-8 张)在 0.5 秒内同时推断高质量的相机位姿、3D 几何和外观,通过级联学习范式将相机位姿作为桥梁逐步简化复杂的 3D 学习任务。

Floating No More: Object-Ground Reconstruction from a Single Image

提出 ORG 框架,首次从单张图像联合建模物体3D几何、相机参数和物体-地面关系,通过预测像素高度图和透视场两个紧凑的密集表示,解决了重建物体"悬浮/倾斜"的问题,显著提升阴影生成和姿态操控的真实感。

Flow-NeRF: Joint Learning of Geometry, Poses, and Dense Flow within Unified Neural Representations

提出 Flow-NeRF,首次在无位姿 NeRF 框架中将场景几何、相机位姿和密集光流作为统一的联合优化目标,通过共享点采样、位姿条件化双射映射和特征消息传递机制,在新视角合成和深度估计上大幅超越先前方法,同时首次定义并实现了新视角光流估计。

Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution

提出 CrossFlow,一个通用的跨模态 Flow Matching 框架,直接从一种模态的数据分布演化到另一种模态的分布(而非从噪声出发),无需交叉注意力条件机制,在文本到图像生成上略优于标准 Flow Matching 基线,并展现出更好的模型规模和训练步数的缩放特性。

Floxels: Fast Unsupervised Voxel Based Scene Flow Estimation

提出 Floxels,用简单的体素网格替代 MLP 作为场景流的隐式表示,结合多帧距离变换损失和聚类一致性约束,在 Argoverse 2 基准上取得仅次于 EulerFlow 的无监督方法第二名,同时将运行时间从一天缩短到10分钟(60-140倍加速)。

FluidNexus: 3D Fluid Reconstruction and Prediction from a Single Video

提出 FluidNexus,首次从单个视频实现3D流体外观和速度场的重建与未来预测,通过结合视频生成模型合成多视角参考视频,以及物理-视觉粒子耦合表示桥接可微分仿真与渲染,在新视角合成和未来预测上大幅超越现有多视角方法。

FoundationStereo: Zero-Shot Stereo Matching

提出 FoundationStereo,一个大规模立体深度估计基础模型,通过百万级高保真合成数据集、Side-Tuning Adapter 融合单目深度先验、以及混合代价体过滤(含 Axial-Planar Convolution 和 Disparity Transformer),实现了无需目标域微调的强零样本泛化性能。

FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation

提出 FoundHand,一个在千万级手部数据集(FoundHand-10M)上训练的领域专用扩散模型,以 2D 关键点热力图为通用控制表示,实现精确的手部姿态/视角控制和外观保持,并展现出修复畸形手、视频生成、手物交互视频等零样本涌现能力。

FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT

提出 FrameVGGT,将流式 VGGT 的 KV 缓存从 token 级保留重组为帧级证据块保留,通过中期记忆库+稀疏锚点的双层有界内存结构,在固定内存预算下保持更连贯的几何支撑,实现长序列3D重建/深度/位姿估计的精度-内存最优权衡。

FreeGave: 3D Physics Learning from Dynamic Videos by Gaussian Velocity

提出 FreeGave,一个从多视角动态视频中学习 3D 场景几何、外观和物理速度的通用框架,通过为每个 3D 高斯核引入可学习的物理编码(physics code)并设计无散度(divergence-free)速度场参数化,在不依赖 PINN 损失和目标先验的条件下实现精准的未来帧外推。

FreeScene: Mixed Graph Diffusion for 3D Scene Synthesis from Free Prompts

FreeScene 提出了一个用户友好的室内场景合成框架,通过 VLM 驱动的 Graph Designer 将自由形式的文本/图像输入转化为场景图,再用 Mixed Graph Diffusion Transformer (MG-DiT) 在混合连续-离散空间上进行图感知去噪,统一支持 text-to-scene、graph-to-scene 等多种任务,在生成质量和可控性上均超越现有方法。

FruitNinja: 3D Object Interior Texture Generation with Gaussian Splatting

FruitNinja 首次提出为 3DGS 物体生成内部纹理的方法,通过渐进式截面修复 + 体素平滑 + OpaqueAtom GS 策略,实现切割后实时渲染无需额外优化,在语义对齐和纹理一致性上显著优于基线。

Functionality Understanding and Segmentation in 3D Scenes

Fun3DU 首次提出针对 3D 场景功能性理解的方法,通过 LLM 链式思维解析任务描述 + VLM 多视角分割功能性物体 + 2D-3D 投票聚合,在 SceneFun3D 上大幅超越开放词汇 3D 分割基线(mIoU +13.2)。

GA3CE: Unconstrained 3D Gaze Estimation with Gaze-Aware 3D Context Encoding

提出 GA3CE 方法,通过将主体 3D 姿态和场景物体位置编码到以主体为中心的自我中心空间中,并设计方向-距离分解的 D3 位置编码,在 Transformer 中学习 3D 注视方向与场景上下文的空间关系,在无约束设置下将 3D 注视角度误差降低 13%–37%。

GASP: Gaussian Avatars with Synthetic Priors

提出 GASP,利用合成数据训练 Gaussian Avatar 的生成式先验模型(auto-decoder),通过三阶段拟合过程和学到的 per-Gaussian 语义特征关联来跨越合成-真实域差距,仅从单张图片或短视频即可创建支持 360° 渲染的高质量实时可动画头像(70fps)。

GaussHDR: High Dynamic Range Gaussian Splatting via Learning Unified 3D and 2D Local Tone Mapping

提出 GaussHDR,通过统一 3D 和 2D 局部色调映射来改进 HDR 高斯溅射,设计残差局部色调映射器和不确定性自适应调制机制,同时提升 HDR 重建稳定性和 LDR 拟合质量,在合成和真实场景上大幅超越现有方法。

Gaussian Eigen Models for Human Heads

提出 Gaussian Eigen Models (GEM),通过 PCA 将高质量 CNN-based Gaussian Avatar 蒸馏为轻量级线性特征基表示,仅需低维系数的线性组合即可生成面部动画,实现高质量、超轻量(7MB起)和超快速(200+ fps)的可动画头像,并支持从单目视频的实时跨人表情驱动。

Gaussian Splatting Feature Fields for Privacy-Preserving Visual Localization

提出 Gaussian Splatting Feature Fields (GSFFs),将 3DGS 的显式几何与隐式特征场结合,通过自监督对比学习训练尺度感知的 3D 特征和 2D 编码器,并利用基于 Delaunay 图的空间聚类将特征转化为分割标签,实现了高精度的非隐私和隐私保护视觉定位。

Gaussian Splatting for Efficient Satellite Image Photogrammetry (EOGS)

本文提出 EOGS,首个基于 3D 高斯溅射的地球观测框架,通过仿射相机近似、阴影映射和三种正则化策略,在卫星图像三维重建任务上达到与 EO-NeRF 相当的精度,同时训练速度快 300 倍(3 分钟 vs 15 小时)。

GaussianUDF: Inferring Unsigned Distance Functions through 3D Gaussian Splatting

本文提出 GaussianUDF,通过将 2D 高斯平面贴合到曲面上,利用自监督和梯度推断为近场和远场分别提供无符号距离监督,首次在 3DGS 框架内高效推断连续 UDF,实现高质量开放曲面重建。

GauSTAR: Gaussian Surface Tracking and Reconstruction

GauSTAR 提出一种将高斯原语绑定到网格面上的"高斯曲面"表示,通过自适应解绑和重网格化机制处理拓扑变化,配合基于曲面的场景流初始化,首次实现了动态场景中同时兼顾照片级渲染、精确曲面重建和可靠三维跟踪的统一框架。

GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency

GEAL 提出双分支架构,用 3D 高斯溅射将点云渲染为逼真 2D 图像从而利用预训练 2D 基础模型的泛化能力,通过粒度自适应融合和 2D-3D 一致性对齐实现跨模态知识迁移,在标准和腐败数据基准上全面超越现有 3D 功能可供性方法。

Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D Objects

本文提出Gen3DEval,一个基于vLLM微调的text-to-3D生成质量评估框架,通过对Llama3模型在合成+人工标注数据上微调,实现对3D物体外观、表面质量和文本一致性的自动评估,在与人类偏好对齐上显著超越GPT-4o等通用模型。

Generating 3D-Consistent Videos from Unposed Internet Photos

本文提出KFC-W,一种从无位姿互联网照片生成3D一致视频的自监督方法,通过在视频扩散模型上联合训练多视角修复和视角插值两个目标,无需任何3D标注(如相机参数),生成的视频在几何和外观一致性上超越商业模型Luma Dream Machine。

Generative Multiview Relighting for 3D Reconstruction under Extreme Illumination Variation

本文提出先用多视图重光照扩散模型将不同光照下拍摄的图像统一到参考光照条件,再用带有"shading embedding"的鲁棒 NeRF 模型重建 3D 表示,在极端光照变化下实现了远超现有方法的高保真外观重建,尤其擅长恢复镜面/高光效果。

Generative Omnimatte: Learning to Decompose Video into Layers

Generative Omnimatte 通过微调视频 inpainting 扩散模型(Casper)学会物体及其关联效果(阴影、反射)的联合移除,结合 trimask 条件和 omnimatte 优化,在无需静态背景假设或相机位姿的前提下实现了高质量的视频图层分解和被遮挡区域补全。

GenFusion: Closing the Loop between Reconstruction and Generation via Videos

提出 GenFusion,通过重建驱动的视频扩散模型修复 3D 重建伪影并生成不可见区域内容,设计循环融合管线迭代地将生成结果加入训练集,实现稀疏视图下高质量 3D 场景重建和内容扩展。

GenPC: Zero-shot Point Cloud Completion via 3D Generative Priors

提出 GenPC 零样本点云补全框架,通过 Depth Prompting 模块将部分点云转化为深度图再生成 RGB 图像作为 Image-to-3D 模型的输入,再通过 Geometric Preserving Fusion 模块将生成的 3D 形状与原始点云对齐融合,实现了比 SDS 优化方法更快更好的真实世界扫描补全。

GenVDM: Generating Vector Displacement Maps From a Single Image

提出首个从单张图像生成 Vector Displacement Map (VDM) 的方法,通过微调 Zero123++ 生成多视角法线图、使用神经 SDF 重建网格、再用神经变形场参数化为 VDM 图像,并构建了首个学术 VDM 数据集,为 3D 艺术家提供了按需生成自定义几何细节印章的能力。

Geometry Field Splatting with Gaussian Surfels

本文将 Geometry Field(几何场)理论引入 Gaussian Surfel 框架,推导出高效且近乎精确的可微渲染算法用于不透明表面重建,同时解决了 surfel 聚集时的损失不连续问题,并采用基于反射向量的潜在表示来更好地处理高光表面。

Geometry in Style: 3D Stylization via Surface Normal Deformation

提出通过优化三角网格的表面法线方向、结合可微分ARAP(dARAP)层恢复顶点位置的方法,实现文本驱动的网格风格化,能产生表达力强但保持形状身份的几何变形。

GIFStream: 4D Gaussian-based Immersive Video with Feature Stream

提出GIFStream,一种基于canonical空间+变形场的4D高斯表示方法,通过为每个anchor点附加时间相关的特征流(feature stream)来增强复杂运动建模能力,同时利用时间对齐的结构和端到端压缩实现30 Mbps高质量1080p沉浸式视频。

Glossy Object Reconstruction with Cost-effective Polarized Acquisition

提出一种低成本偏振辅助3D重建方法,仅需在普通RGB相机前加一块线性偏振片,每视角拍摄一张偏振图像(无需校准偏振角),通过神经隐式场端到端优化偏振渲染损失来恢复光泽物体的高保真几何和材质分解。

GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding

提出 GREAT 框架,通过多头 Affordance Chain-of-Thought (MHACoT) 微调 InternVL 推理交互图像中的物体几何属性和潜在交互意图,形成 affordance 知识字典,并通过跨模态自适应融合模块(CMAFM)将知识注入点云和图像特征,实现开放词汇 3D 物体 affordance 定位。同时构建最大规模 3D affordance 数据集 PIADv2(15K 图像 + 38K 点云)。

Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions

提出首个多模态多视角 3D 功能区域定位任务和 AGPIL 数据集(30,972 对点云-图像-语言三元组),并设计基于 VLM 的 LMAffordance3D 框架,融合 2D/3D 空间特征与语言语义实现从 full-view 到 partial/rotation-view 的泛化。

GS-2DGS: Geometrically Supervised 2DGS for Reflective Object Reconstruction

在 2DGS 基础上引入基础模型(Marigold + Depth Pro)的深度/法线伪标签监督和延迟着色(Deferred Shading)的物理渲染管线,在反射物体重建上显著超越 GS 方法、媲美 SDF 方法且快了一个数量级。

GuardSplat: Efficient and Robust Watermarking for 3D Gaussian Splatting

提出 GuardSplat,通过 CLIP 引导的消息解耦优化(仅训练解码器 5 分钟)和 SH-aware 水印嵌入(仅修改球谐偏移量),实现对 3DGS 资产的高容量、高保真、鲁棒版权保护,总优化时间仅 15 分钟。

Guiding Human-Object Interactions with Rich Geometry and Relations

本文提出ROG框架,通过在物体网格上采样富含几何信息的关键点构建交互距离场(IDF),并利用基于扩散的关系模型在推理时引导运动生成模型产生关系感知且语义对齐的人物-物体交互动作,在FullBodyManipulation数据集上显著超越SOTA。

HandOS: 3D Hand Reconstruction in One Stage

HandOS 提出了一个端到端的单阶段3D手部重建框架,通过冻结预训练检测器并引入交互式2D-3D解码器,将手部检测、2D姿态估计和3D mesh重建统一到一个pipeline中,消除了传统多阶段方法的冗余计算和累积误差,在 FreiHand 上达到 5.0 PA-MPJPE 的 SOTA 性能。

Hardware-Rasterized Ray-Based Gaussian Splatting

本文提出了首个基于硬件光栅化的射线型3D高斯泼溅(RayGS)渲染方案 VKRayGS,通过严谨的数学推导在3D空间中构建最小包围四边形,实现了约40倍的渲染加速,同时保持了RayGS的高质量渲染效果,并额外提出了RayGS的MIP抗锯齿方案。

Hash3D: Training-free Acceleration for 3D Generation

Hash3D 发现 SDS 优化过程中扩散模型对相邻相机位姿和时间步的特征高度冗余,通过自适应网格哈希表缓存和复用中间特征,在无需训练的情况下将多种text-to-3D和image-to-3D方法加速1.3~4倍,同时还提升了多视角一致性。

HaWoR: World-Space Hand Motion Reconstruction from Egocentric Videos

HaWoR 首次实现了从第一人称视频重建世界坐标系下的3D手部运动,通过将任务解耦为相机空间手部重建 + 自适应SLAM相机轨迹估计,并引入运动补全网络处理手部出视野的情况,在 HOT3D 数据集上取得 SOTA 的全局轨迹精度(ATE 3.36mm)和手部重建质量(PA-MPJPE 4.79mm)。

HD-EPIC: A Highly-Detailed Egocentric Video Dataset

HD-EPIC 提供了41小时非脚本厨房第一人称视频,具有前所未有的标注密度(每分钟263条标注),涵盖食谱步骤、细粒度动作、营养信息、3D数字孪生、物体运动轨迹和注视方向等多层级互联标注,并构建了26K问题的VQA基准——最强的 Gemini Pro 仅达37.6%。

Hearing Hands: Generating Sounds from Physical Interactions in 3D Scenes

本文提出通过在3D重建场景中记录人手交互的动作-声音对,训练基于rectified flow的生成模型,实现从3D手部轨迹预测对应交互声音,生成结果在人类评估中约47%无法与真实声音区分。

High-fidelity 3D Object Generation from Single Image with RGBN-Volume Gaussian Reconstruction Model

GS-RGBN 提出混合 Voxel-Gaussian 表示为无结构高斯提供 3D 空间约束,并设计跨体积融合(CVF)模块在特征层面融合 RGB 语义信息和法线几何信息,从单张图像在数秒内生成高保真 3D 对象,在 GSO 数据集上 PSNR 超出次优方法 5.59dB。

HOI3DGen: Generating High-Quality Human-Object-Interactions in 3D

提出 HOI3DGen 框架,通过MLLM自动标注高质量交互数据 + 视角条件化微调扩散模型 + 3D提升与SMPL配准,首次实现从文本精确控制接触语义的高质量3D人物交互生成,在文本一致性上超越基线4-15倍。

Horizon-GS: Unified 3D Gaussian Splatting for Large-Scale Aerial-to-Ground Scenes

本文提出 Horizon-GS,通过粗到精两阶段训练策略、相机分布平衡机制和多分辨率 LOD 结构,首次实现了航空视角和街景视角的统一 3D 高斯溅射重建和实时渲染,在多个城市场景数据集上达到 SOTA 渲染质量。

HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos

Meta 发布 HOT3D,首个基于真实头戴设备(Project Aria + Quest 3)的大规模自中心多视角手物交互数据集,包含 833 分钟 370 万+图像、19 名受试者与 33 个物体的交互,并通过实验证明多视角方法在 3D 手部追踪、6DoF 物体位姿估计等任务上显著优于单视角方法。

HRAvatar: High-Quality and Relightable Gaussian Head Avatar

HRAvatar 提出了一种基于3DGS的单目视频头部重建方法,通过可学习blendshapes和LBS实现灵活变形,结合端到端表情编码器减少追踪误差,并引入物理渲染模型实现高质量实时重光照。

Hybrid eTFCE-GRF: Exact Cluster-Size Retrieval with Analytical p-Values for Voxel-Based Morphometry

将 eTFCE 的并查集精确聚类大小查询与 pTFCE 的解析 GRF p 值推断结合,首次在单一框架中实现精确聚类检索+无需置换检验的统计推断,速度比置换 TFCE 快 1300 倍,在全脑体素形态测量中保持严格 FWER 控制。

HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting

HybridGS首次提出混合2D+3D高斯表示,用多视角一致的3D高斯建模静态场景、用单视图独立的2D高斯建模瞬态物体,配合多视角监督和多阶段训练实现了含干扰元素场景下SOTA的新视角合成质量。

HyperGS: Hyperspectral 3D Gaussian Splatting

首次将 3DGS 成功扩展到高光谱新视角合成(HNVS),通过在学习的潜在空间中进行高光谱渲染,配合自适应密度控制与像素级光谱剪枝,实现高维光谱数据的高效准确重建。

IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments

构建基于 3DGS 的层次化语义特征场,融合 CLIP/SAM/DINOv2 的语义信息,实现铰接物体的交互式 affordance 预测和跨状态运动参数恢复,支持任意类别、多可动部件的复杂室内场景。

Identity-preserving Distillation Sampling by Fixed-Point Iterator

提出 Identity-preserving Distillation Sampling (IDS),通过不动点迭代正则化(FPR)修正文本条件分数函数中导致身份丢失的梯度误差,生成引导噪声替代随机噪声,在 2D 图像编辑和 3D NeRF 编辑中实现结构和姿态的高度保持。

IMFine: 3D Inpainting via Geometry-guided Multi-view Refinement

本文提出IMFine,一种用于无约束场景(包括360°环绕)的3D修复流水线,通过几何先验引导的warping和基于测试时适应的多视角refinement网络生成多视角一致的修复图像,并提出了一种新的修复mask检测技术来精确区分真正需要修复的遮挡区域,在多样化的benchmark上显著超越现有方法。

Improving Gaussian Splatting with Localized Points Management

本文提出局部化点管理(LPM)策略,通过多视角几何约束定位导致渲染误差的 3D 区域,在这些区域内执行针对性的点加密和不透明度重置,作为即插即用模块可提升多种 3DGS 模型的重建质量,同时保持实时渲染速度。

IncEventGS: Pose-Free Gaussian Splatting from a Single Event Camera

本文提出 IncEventGS,首个仅用单目事件相机、无需已知位姿即可增量重建 3D 高斯溅射场景的方法,采用跟踪-建图 SLAM 范式联合优化相机运动和场景表示,在新视角合成和位姿估计上均超越现有方法。

Instant3dit: Multiview Inpainting for Fast Editing of 3D Objects

将 3D 编辑问题转化为多视角一致的 2D inpainting 问题,通过微调 SDXL-inpainting 模型在 2×2 视角网格上同时生成一致的填充内容,再用 LRM 重建 3D,实现约 3 秒完成高质量 3D 编辑——比 SDS 方法快数百倍。

InstantHDR: Single-forward Gaussian Splatting for High Dynamic Range 3D Reconstruction

提出 InstantHDR,首个前馈式 HDR 新视角合成方法,通过几何引导的外观建模进行多曝光融合 + MetaNet 预测场景自适应色调映射器,从未标定多曝光 LDR 图像一次前向推理重建 HDR 3D 高斯,速度比优化方法快 ~700 倍。

InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

InteractVLM 利用大规模视觉语言模型(VLM)的广泛视觉知识,通过"渲染-定位-提升"(Render-Localize-Lift)框架将2D基础模型的推理能力迁移到3D空间,实现了从单张野外图像估计人体和物体3D接触点,并用于人物交互联合重建,在接触估计任务上F1分数提升20.6%。

IRGS: Inter-Reflective Gaussian Splatting with 2D Gaussian Ray Tracing

本文提出IRGS框架,首次在高斯泼溅中集成完整渲染方程(无简化),通过提出的可微分2D高斯光线追踪技术实时计算入射光的可见性和间接辐射,在多个逆渲染基准上取得了显著优于先前方法的重光照和材质估计效果。

IRIS: Inverse Rendering of Indoor Scenes from Low Dynamic Range Images

IRIS提出了一个从多视角LDR图像中联合恢复HDR光照、物理材质和相机响应函数的逆渲染框架,通过显式建模色调映射、自动检测发光体和迭代优化策略,在真实和合成室内场景上实现了高质量的材质估计、重光照和虚拟物体插入。

iSegMan: Interactive Segment-and-Manipulate 3D Gaussians

iSegMan提出了一个无需场景特定训练的交互式3DGS分割与操作框架,通过极线引导的交互传播(EIP)和基于可见性的高斯投票(VGV)实现精确的3D区域控制,配合完整的操作工具箱支持语义编辑、上色、缩放、复制粘贴、组合和删除等多种功能。

Joint Optimization of Neural Radiance Fields and Continuous Camera Motion from a Monocular Video

将相机运动建模为时间连续的角速度和线速度,通过速度积分避免直接优化大范围 camera-to-world 变换,结合时间依赖 NeRF 和 SDF flow 约束,无需深度先验即可从单目视频联合优化位姿和场景几何。

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

提出 JOPP-3D 框架,通过将全景图切线分解为透视图像、利用 SAM+CLIP 进行3D实例-语义对齐,首次实现对3D点云和全景图像的联合开放词汇语义分割,在 Stanford-2D-3D-s 和 ToF-360 数据集上超越现有方法。

Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation

将 3D 资产生成转化为 2D 图像生成问题——微调 Flux DiT 模型生成"3D Bundle Image"(四视图 RGB + 法线图拼贴),再用 ISOMER 重建 3D mesh,并通过 ControlNet 扩展支持 3D 增强和编辑。

Layered Motion Fusion: Lifting Motion Segmentation to 3D in Egocentric Videos

本文提出 Layered Motion Fusion(LMF),将 2D 运动分割模型的预测融合到分层神经辐射场的动态和半静态层中,结合测试时精修策略,首次证明 3D 方法能在第一人称视频的动态目标分割中超越 2D 基线,动态目标分割 mAP 提升 30.5%。

Learnable Infinite Taylor Gaussian for Dynamic View Rendering

提出可学习无穷 Taylor 级数(Learnable Infinite Taylor Formula)建模动态场景中高斯基元的位置/旋转/缩放随时间的演化,用三阶 Taylor 展开捕捉大运动、MLP+LBS 构造 Peano 余项补偿高阶项,实现无近似误差的运动建模,N3DV 和 Technicolor 数据集上超越 SOTA。

Light3R-SfM: Towards Feed-forward Structure-from-Motion

Light3R-SfM提出了首个前馈式端到端SfM框架,通过可学习的潜在全局对齐模块替代传统的优化式全局对齐,结合基于检索分数的最短路径树构建场景图,在Tanks&Temples 200图设置下仅需33秒完成重建(比MASt3R-SfM快49倍),同时保持相当的精度。

LIM: Large Interpolator Model for Dynamic Reconstruction

提出 LIM——首个前馈式跨类别动态 4D 资产重建模型,通过在隐式 triplane 表示间进行 Transformer 插值并引入因果一致性损失,实现秒级高质量连续时间插值与一致拓扑的网格跟踪。

LookCloser: Frequency-aware Radiance Field for Tiny-Detail Scene (FA-NeRF)

FA-NeRF 提出一种频率感知的神经辐射场框架,通过 3D 频率量化方法分析场景频率分布,结合频率网格、频率感知特征重加权和自适应光线行进,在单一模型中同时捕捉场景整体结构和高清微小细节,在多频率数据集上显著超越所有基线方法。

LT3SD: Latent Trees for 3D Scene Diffusion

提出 LT3SD,将 3D 场景渐进分解为潜在树(每层包含几何体积 + 高频潜在特征体积),在此表征上训练基于 patch 的扩散模型,实现从粗到细、逐 patch 的高质量无限 3D 场景生成,FID 相对 SOTA 提升 70%。

LUCAS: Layered Universal Codec Avatars

提出 LUCAS,首个将人脸和头发解耦为分层 mesh 的通用先验 Avatar 模型,通过共享表情编码 + 独立解码实现自然的面部-头发交互,同时支持实时 mesh 渲染(45 FPS mobile)和高保真 Gaussian 渲染,在跨身份零样本驱动中达到 SOTA。

MAC-Ego3D: Multi-Agent Gaussian Consensus for Real-Time Collaborative Ego-Motion and Photorealistic 3D Reconstruction

提出 MAC-Ego3D 框架,通过统一的 3D 高斯泼溅(Gaussian Splatting)表示让多个智能体独立构建、对齐和迭代优化局部地图,利用智能体内和智能体间高斯共识机制实现实时协作位姿估计和逼真 3D 重建,达到 15 倍推理加速、位姿误差降低一个数量级、RGB PSNR 提升 4-10 dB。

MAGiC-SLAM: Multi-Agent Gaussian Globally Consistent SLAM

提出基于刚性可变形3D高斯场景表示的多智能体SLAM系统MAGiC-SLAM,通过新颖的追踪、地图融合机制和基于DinoV2的回环检测,实现了比CP-SLAM快24倍的处理速度、7倍低的GPU占用,以及更精确的轨迹估计和高保真新视角渲染。

Mani-GS: Gaussian Splatting Manipulation with Triangular Mesh

Mani-GS 提出了一种基于三角网格操控 3D Gaussian Splatting 的方法——通过在每个三角形上定义局部坐标系来绑定高斯,使得网格变形时高斯的位置、旋转和缩放能自适应调整,从而实现大变形、局部编辑和软体仿真等多种操控类型,同时保持高质量渲染且对网格精度有高容忍度。

MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation

提出金字塔 VAE + 级联 MAR(MAR-LR → MAR-HR)的渐进式 3D 生成框架,通过随机遮罩适配 3D token 的无序特性,并用条件增强策略缓解分辨率上扩展时的累计误差,在开源方法中达到 SOTA。

MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

构建了包含 890 万 3D 资产、4000 万+多层级文本标注的大规模 3D 描述数据集 MARVEL-40M+,通过多阶段自动标注管线(InternVL2 + Qwen2.5)生成从详细描述到简洁标签的五级标注,并基于此微调 SD3.5 实现 15 秒内的高保真文本到 3D 生成。

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

提出 MPEC(Masked Point-Entity Contrastive learning),通过跨视角 point-to-entity 对比学习和 entity-to-language 对齐两个层次的对比损失来训练 3D 编码器,在保持实体级几何-空间信息的同时实现开放词汇语义理解,在 ScanNet 上取得 66.0% f-mIoU 的 SOTA 并在 8 个数据集的下游任务上展现强泛化能力。

MaskGaussian: Adaptive 3D Gaussian Representation from Probabilistic Masks

将 3DGS 中的高斯剪枝从确定性移除改为概率性存在建模,提出 masked-rasterization 技术使未被采样的高斯仍能接收梯度以动态评估其贡献,在 Mip-NeRF360/T&T/DeepBlending 上实现 62-75% 的高斯剪枝率且仅损失 0.02 PSNR。

MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors

首个以双视图 3D 重建先验 MASt3R 为基础构建的实时单目稠密 SLAM 系统,通过高效的点图匹配、光线误差跟踪、局部融合、回环检测和二阶全局优化,在无需相机标定的情况下实现 15 FPS 的全局一致位姿估计和稠密几何重建,性能达到 SOTA。

MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views

提出 MAtCha Gaussians,将场景表面建模为 2D 流形上的图表集合(Atlas of Charts)并用 2D Gaussian Surfels 渲染,通过单目深度初始化 + 轻量神经变形模型 + 结构保持损失,在仅 3-10 张稀疏视图下数分钟内同时实现高质量表面网格重建和逼真新视角合成。

Material Anything: Generating Materials for Any 3D Object via Diffusion

提出 Material Anything,一个全自动的统一扩散框架,通过三头 U-Net 架构、置信度掩码和渲染损失适配预训练图像扩散模型生成 PBR 材质(albedo/roughness/metallic/bump),配合置信度引导的渐进式多视角生成策略和 UV 空间精化模型,为不同光照条件(无纹理/纯 albedo/扫描/生成)下的 3D 物体统一生成高质量材质贴图。

Matrix3D: Large Photogrammetry Model All-in-One

Matrix3D 提出一个基于多模态扩散 Transformer 的统一摄影测量模型,通过掩码学习策略在单一模型中同时完成位姿估计、深度预测和新视角合成三大任务,在 CO3D 上位姿估计旋转精度达 96.5%,显著超越所有专用方法。

MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos

MegaSaM 通过在深度视觉 SLAM 框架中集成单目深度先验、运动概率图和不确定性感知全局 BA,实现了对日常拍摄的动态视频进行精确、快速且鲁棒的相机参数和深度图估计,在合成和真实数据集上显著优于现有方法。

MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data

MegaSynth 提出通过消除语义信息依赖来实现可扩展的 3D 场景数据合成,生成了包含 70 万个场景的数据集(比真实数据集 DL3DV 大 50 倍),用于训练大规模重建模型(LRM),在多个基准上带来 1.2-1.8dB PSNR 的显著提升。

Mesh Mamba: A Unified State Space Model for Saliency Prediction in Non-Textured and Textured Meshes

本文提出Mesh Mamba,首个基于状态空间模型(SSM)的统一网格显著性预测模型,通过纹理对齐、子图嵌入和双向SSM,实现对有纹理和无纹理3D网格的高质量视觉注意力预测,并构建了首个系统对比有/无纹理条件下显著性差异的数据集。

MeshArt: Generating Articulated Meshes with Structure-Guided Transformers

MeshArt提出了一种层次化Transformer方法,通过将铰接物体分解为高层关节结构和低层部件网格两阶段生成,自回归地生成紧凑、清晰的三角网格铰接物体,在结构覆盖率上提升57.1%,网格FID提升209分。

MEt3R: Measuring Multi-View Consistency in Generated Images

本文提出MEt3R,一种基于DUSt3R重建和DINO特征比较的多视角一致性评价指标,无需相机位姿即可衡量生成图像的3D一致性,并附带开源了一个多视角潜在扩散模型MV-LDM。

MetaScenes: Towards Automated Replica Creation for Real-world 3D Scans

MetaScenes 构建了一个大规模可仿真3D场景数据集(15366个物体, 831类),通过从真实扫描中自动替换物体资产实现 Real-to-Sim 转换,并提出多模态对齐模型 Scan2Sim 实现自动化资产选择,在场景合成和VLN跨域迁移任务上验证了数据集的价值。

MICAS: Multi-grained In-Context Adaptive Sampling for 3D Point Cloud Processing

MICAS 针对 3D 点云 in-context learning 中的任务间(inter-task)和任务内(intra-task)采样敏感性问题,提出了多粒度自适应采样机制——包含任务自适应点采样(Gumbel-softmax 可微采样)和查询特定 prompt 采样(基于概率排序选择最优 prompt),在 ShapeNet 基准上将 part segmentation 提升了 4.1%。

MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

MIDI 将预训练的 image-to-3D 单物体生成模型扩展为多实例扩散模型,通过新颖的多实例注意力机制在 3D 生成过程中直接捕获物体间的空间交互关系,从单张图片同时生成多个具有正确空间布局的 3D 实例,在合成和真实数据集上均大幅超越现有方法。

Mitigating Ambiguities in 3D Classification with Gaussian Splatting

本文首次探索用 3D Gaussian Splatting (GS) 点云替代传统点云作为 3D 分类的输入表示,利用 GS 中的 scale/rotation 系数区分线状和平坦表面、利用 opacity 区分透明/反射物体,构建了首个真实世界 GS 点云数据集,在多种分类方法上均验证了 GS 点云消除歧义的有效性。

MNE-SLAM: Multi-Agent Neural SLAM for Mobile Robots

提出首个完全分布式的多智能体协作神经 SLAM 框架 MNE-SLAM,每个智能体独立运行神经建图与追踪,通过点对点通信进行分层回环检测(内到外)和多子地图融合实现去中心化协作,在 Replica、ScanNet、TUM RGB-D 和自建 INS 数据集上验证;同时发布首个覆盖单/多智能体场景的真实室内神经 SLAM(INS)数据集。

Mobile-GS: Real-time Gaussian Splatting for Mobile Devices

提出 Mobile-GS,通过深度感知的无序渲染(消除排序瓶颈)+ 神经视角依赖增强 + 一阶SH蒸馏 + 神经向量量化 + 贡献度剪枝,首次在 Snapdragon 8 Gen 3 手机 GPU 上实现 116 FPS 实时高斯溅射渲染,存储仅 4.6MB 且视觉质量与原始 3DGS 相当。

MGGTalk: Monocular and Generalizable Gaussian Talking Head Animation

提出MGGTalk框架,仅用单目数据集训练即可泛化到未见身份,核心思路是利用深度估计和面部对称先验来弥补单目数据中几何与外观信息的不完整性,实现基于3DGS的高质量说话头动画。

MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection

提出MonoPlace3D,一个场景感知的3D数据增强系统,核心是学习一个从场景图像到合理3D边界框分布的放置网络(SA-PlaceNet),配合基于ControlNet的真实感渲染管线,显著提升单目3D检测器性能和数据效率。

Morpheus: Text-Driven 3D Gaussian Splat Shape and Color Stylization

提出Morpheus,一种自回归3DGS风格化方法,核心贡献包括:(1) 新的RGBD扩散模型实现外观和形状风格化的独立强度控制;(2) Warp ControlNet通过变形合成帧传播风格;(3) 深度引导的特征共享确保多视角一致性。

MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds

提出4D Motion Scaffold (MoSca)表示,通过稀疏6-DoF轨迹图紧凑编码场景运动,结合2D基础模型先验和物理正则化,从无位姿的随手拍单目视频实现全自动4D场景重建。

MoST: Efficient Monarch Sparse Tuning for 3D Representation Learning

提出首个基于重参数化的3D PEFT方法MoST,设计Point Monarch结构化矩阵(在Monarch基础上加入KNN局部特征平滑),仅调3.6%参数在多个3D benchmark上超越全量微调。

MotionAnyMesh: Physics-Grounded Articulation for Simulation-Ready Digital Twins

提出 MotionAnyMesh,一种零样本框架,通过 SP4D 运动学先验引导 VLM 推理消除幻觉 + 物理约束轨迹优化保证无碰撞,将静态3D网格自动转化为仿真可用的铰接数字孪生,物理可执行率达 87%,是现有最好方法的近两倍。

MotionPRO: Exploring the Role of Pressure in Human MoCap and Beyond

构建大规模压力-RGB-光学动捕数据集 MotionPRO(70人/400类动作/12.4M帧),并提出 FRAPPE 基线将压力信号与单目 RGB 融合,显著提升全身姿态估计的物理合理性和全局轨迹精度,进一步将压力先验扩展至人形机器人驱动。

MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

针对多物体室内场景的新视角合成(NVS),通过注入结构感知特征(深度+物体掩码)、引入辅助掩码预测任务、设计结构引导的时间步采样调度器三项设计,显著提升跨视角的物体放置和几何一致性。

MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion

将单目深度和法线先验紧密集成到经典增量 SfM 中,通过不确定性传播和交替优化突破三视图轨迹的根本限制,首次实现仅凭两视图轨迹的可靠 3D 重建,在极端低重叠和低视差场景下显著超越所有现有方法。

Multi-View Pose-Agnostic Change Localization with Zero Labels

提出首个无标签、位姿无关的多视角变化检测方法,通过在 3D Gaussian Splatting 中嵌入变化通道(change-aware 3DGS),融合多视角的特征感知和结构感知变化掩码,在复杂多物体场景中实现 1.7× mIoU 和 1.5× F1 的 SOTA 性能提升,并能为未见视角生成变化掩码。

Multi-view Reconstruction via SfM-guided Monocular Depth Estimation

提出 Murre,将 SfM 稀疏点云作为条件注入扩散模型单目深度估计,生成多视角一致的度量深度图后进行 TSDF 融合,在仅用少量合成数据微调后即可在室内、街景、航拍等多种真实场景中超越 SOTA MVS 和神经隐式重建方法。

Murre: Multi-view Reconstruction via SfM-guided Monocular Depth Estimation

提出 Murre,一种新的多视角 3D 重建框架,通过将 SfM 稀疏点云注入扩散模型指导单目深度估计,绕过了传统 MVS 的多视角匹配步骤,在多种真实场景(室内、街景、航拍)上超越 SOTA。

MUSt3R: Multi-view Network for Stereo 3D Reconstruction

本文提出MUSt3R,将DUSt3R从成对架构扩展为多视图架构:通过对称化解码器(参数减半)+多层memory机制实现任意数量图像在统一坐标系下的高帧率3D重建,同一网络可同时处理离线SfM和在线Visual Odometry场景,在TUM-RGBD无标定VO中ATE仅5.5cm。

MV-DUSt3R(+): Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds

MV-DUSt3R 提出单阶段前馈网络,通过多视图解码器块联合处理任意数量的无位姿输入视图,完全省去 DUSt3R 所需的全局优化,实现比 DUSt3R 快 48~78 倍的场景重建,同时 Chamfer Distance 降低 1.6~3.2 倍;进一步的 MV-DUSt3R+ 引入跨参考视图注意力块,在大场景上进一步提升重建质量。

Multi-View Pose-Agnostic Change Localization with Zero Labels

提出首个无标签、姿态无关的多视角变化检测方法,通过构建变化感知的 3DGS 表示融合多视角变化信息,在 mIoU 上比基线提升 1.7 倍,并能为未见视角生成变化掩码。

MVBoost: Boost 3D Reconstruction with Multi-View Refinement

MVBoost 提出了一种通过多视图精炼策略生成伪真值数据来增强 3D 重建的框架,巧妙结合多视图生成模型的高精度和 3D 重建模型的一致性优势,在 GSO 数据集上实现了 SOTA 的单图到 3D 重建效果(PSNR 18.561, CD 0.101)。

MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model

MVGenMaster 提出了一种融合度量深度几何先验的多视图扩散模型,配合 160 万场景的 MvD-1M 数据集和无训练的 key-rescaling 技术,能在单次前向推理中从任意参考视图生成多达 100 个新视角,在域内外 NVS 基准上全面超越 CAT3D 和 ViewCrafter。

MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D

MVPaint 提出了一个三阶段的 3D 纹理生成框架——同步多视图生成 (SMG) + 空间感知 3D 补绘 (S3I) + UV 精炼 (UVR),通过在图像域而非 latent 域进行多视图同步、在 3D 点云空间而非 UV 空间进行补绘、以及空间感知的接缝平滑算法,在 Objaverse 和 GSO 两个 T2T 基准上全面超越 SOTA。

MVSAnywhere: Zero-Shot Multi-View Stereo

本文提出MVSAnywhere (MVSA),一个通用多视角立体匹配架构,通过Cost Volume Patchifier将代价体信息高效tokenize后与单目ViT特征融合(Mono/Multi Cue Combiner),结合视角数/尺度无关的元数据编码和级联自适应深度范围估计,在Robust MVS Benchmark上取得零样本SOTA,同时支持任意数量的源视角和任意深度范围。

NeRFPrior: Learning Neural Radiance Field as a Prior for Indoor Scene Reconstruction

NeRFPrior 用快速训练的 Grid-NeRF(TensoRF,30 分钟)作为场景特定先验,通过多视图一致性约束和置信度加权深度一致性损失指导 SDF 学习,ScanNet 上 F1 从 MonoSDF 的 0.310 提升至 0.930(+200%),总训练时间仅 4.7 小时(比 MonoSDF 快 2.2 倍)。

Neuro-3D: Towards 3D Visual Decoding from EEG Signals

Neuro-3D 是首个从脑电信号(EEG)重建彩色 3D 点云的工作,构建了 EEG-3D 数据集(12 名受试者、72 类 Objaverse 物体、动态视频+静态图像刺激),通过动态-静态 EEG 融合编码器、CLIP 对齐对比学习和扩散点云生成+颜色预测实现跨模态 3D 视觉解码。

Node-RF: Learning Generalized Continuous Space-Time Scene Dynamics with Neural ODE-based NeRFs

提出 Node-RF,将 Neural ODE 与动态 NeRF 紧密耦合,用潜在向量的 ODE 演化建模场景连续时间动力学,实现超出训练序列的长程时序外推和跨轨迹泛化,无需光流或深度监督。

NoPain: No-box Point Cloud Attack via Optimal Transport Singular Boundary

NoPain 提出首个无盒(no-box)点云对抗攻击方法,利用半离散最优传输(OT)计算从噪声到特征空间的映射,在映射的奇异边界(非可微点)处采样生成对抗扰动,无需目标分类器或替代模型,在 PointNet 上 ASR 达 100%,生成速度仅 28ms/样本。

Novel View Synthesis with Pixel-Space Diffusion Models

VIVID 用 EDM2 像素空间扩散模型实现端到端新视角合成,通过双 U-Net 编解码器+交叉注意力转移几何信息、简单的位姿嵌入(而非复杂几何编码)和基于同形变换的单视角数据增强,在 RealEstate10K 上 FID 2.89(比 GenWarp 低 51%),PSNR 17.36(+29%)。

Odd-One-Out: Anomaly Detection by Comparing with Neighbors

OddOneOutAD 把工业质检中的"在一组同类产品里找异常品"形式化为场景级异常检测:用稀疏 5 视角图像在 3D 体素空间构建对象表示,通过 DINOv2 知识蒸馏 + 可微渲染获得部件感知特征,再用 cross-instance sparse voxel attention 比较实例间相似度,识别每个实例是否异常;同时贡献 ToysAD-8K 与 PartsAD-15K 两个新基准。

ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos

ODHSR 提出首个统一框架,从单目 RGB 视频中以在线方式同时完成相机追踪、人体姿态估计和人-场景联合稠密重建,基于 3D Gaussian Splatting 实现了比离线方法快 75 倍的速度,且重建质量达到或超越 SOTA。

OffsetOPT: Explicit Surface Reconstruction without Normals

提出 OffsetOPT,一种无需法线的显式曲面重建方法,通过在均匀分布点云上训练三角形预测网络,再通过逐点偏移优化将其推广到任意点云,在整体质量和尖锐细节保持上均达到 SOTA。

Olympus: A Universal Task Router for Computer Vision Tasks

Olympus 将多模态大模型(MLLM)作为统一的任务路由器,通过设计任务特定路由 token 和构建大规模指令数据集,将超过 20 种计算机视觉任务(涵盖图像/视频/3D)分派到专用模型,实现了 94.75% 的单任务路由准确率和 91.82% 的链式动作精度。

On Denoising Walking Videos for Gait Recognition

提出 DenoisingGait,结合"知识驱动去噪"(利用生成式扩散模型在特定 timestep 下滤除步态无关信息)和"几何驱动去噪"(Feature Matching 模块将多通道扩散特征压缩为二维方向向量),生成全新的 Gait Feature Field 表示,在多个 RGB 步态数据集上取得 SOTA。

One Diffusion to Generate Them All

提出 OneDiffusion,一个 2.8B 参数的统一扩散模型,将所有条件和目标图像建模为噪声尺度不同的帧序列,单个模型即可支持文生图、条件生成、深度估计、分割、多视图生成和 ID 定制等多种任务。

Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces

提出功能性3D场景图新任务,利用VLM和LLM通过渐进式检测-描述-推理pipeline从RGB-D图像中构建包含物体、交互元素及其功能关系的3D场景图,并建立了FunGraph3D真实世界数据集。

Open-World Amodal Appearance Completion

提出一种免训练的开放世界 amodal 外观补全框架,接受灵活的自然语言查询(包括直接名称和抽象描述),通过统一分割、遮挡分析和迭代 inpainting 重建被遮挡物体的完整外观,输出 RGBA 格式支持 3D 重建和图像编辑等下游应用。

Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion

提出Ouroboros3D,通过将多视图生成与3D重建整合为递归扩散过程,利用3D感知反馈机制(渲染CCM和颜色图作为去噪条件)和联合训练策略,解决了两阶段方法中的3D一致性不足和域间差距问题,在GSO数据集上取得SOTA。

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

提出 P-SLCR,一种原型库驱动的无监督点云语义分割方法,通过将点分离为"一致"和"模糊"两类,用一致结构学习对齐一致点与原型 + 语义关系一致性推理约束两个原型库,在 S3DIS 上无监督达 47.1% mIoU,超越全监督 PointNet。

Pano360: Perspective to Panoramic Vision with Geometric Consistency

提出 Pano360,首个在3D摄影测量空间进行全景拼接的 Transformer 框架,利用预训练 VGGT 骨干获取3D感知的多视角特征对齐 + 多特征联合优化接缝检测,支持2到数百张输入图像,在弱纹理/大视差/重复模式场景下成功率达97.8%。

Parametric Point Cloud Completion for Polygonal Surface Reconstruction

提出参数化点云补全新范式 PaCo,从不完整点云中推理参数化平面基元(而非单个点),通过层次编码、代理生成和二分匹配优化,实现了从不完整数据到高质量多面体表面重建的直接桥接。

PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model

PartRM 提出了一个基于大规模3D高斯重建模型的4D重建框架,能够从多视图图像同时建模物体的外观、几何和部件级运动,通过构建 PartDrag-4D 数据集、多尺度拖拽嵌入模块和两阶段训练策略,在部件级运动学习上达到 SOTA,并可应用于机器人操作任务。

PBR-NeRF: Inverse Rendering with Physics-Based Neural Fields

PBR-NeRF 在 NeILF++ 的基础上引入了两个基于物理的先验损失(能量守恒损失和 NDF 加权高光损失),有效约束了逆渲染中材质-光照的分解歧义,在不牺牲新视角合成质量的前提下实现了 SOTA 的材质估计。

PCDreamer: Point Cloud Completion Through Multi-view Diffusion Priors

提出 PCDreamer,利用大规模多视图扩散模型为部分点云"梦想"出缺失区域的多视图图像,通过多模态形状融合模块和置信度引导的形状巩固模块实现高保真点云补全,尤其擅长恢复精细局部细节。

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

本文提出 Perception Tokens,一种将中间视觉表示(如深度图、目标框)编码为辅助推理 token 的方法,使多模态语言模型能像语言 chain-of-thought 一样,通过生成感知 token 作为中间步骤来增强视觉推理能力。

Perceptual Inductive Bias is What You Need Before Contrastive Learning

受 David Marr 多阶段视觉处理理论启发,提出在标准对比学习之前增加一个"预预训练"(pre-pretraining)阶段,利用前景-背景分割的形状轮廓和内在图像分解(反照率+着色)作为感知归纳偏置,在 ResNet18 上实现 2 倍加速收敛,并在分割、深度估计和识别等下游任务上取得全面提升。

PerLA: Perceptive 3D Language Assistant

提出 PerLA,一种感知型 3D 语言助手,通过 Hilbert 曲线分区实现高分辨率局部细节的并行捕获,并通过交叉注意力和图卷积网络将局部信息与低分辨率全局上下文聚合,在不增加 LLM 输入 token 数的前提下显著提升 3D 场景理解的细粒度感知能力。

PERSE: Personalized 3D Generative Avatars from A Single Portrait

PERSE 从单张肖像照出发,通过合成大规模面部属性编辑视频数据集并训练基于 3DGS 的生成式头像模型,实现了在连续可解耦的潜在空间中对面部属性进行平滑插值编辑,同时保持个体身份一致性。

Perturb-and-Revise: Flexible 3D Editing with Generative Trajectories

Perturb-and-Revise 通过在 NeRF 参数空间中进行自适应扰动使参数跳出局部最小值,然后利用多视图扩散模型的 Score Distillation 沿生成轨迹优化,配合身份保持梯度实现灵活的 3D 编辑,首次支持包括姿态变化和添加新物体在内的大幅几何/外观修改。

PGC: Physics-Based Gaussian Cloth from a Single Pose

提出 PGC 方法,仅从单帧多视角拍摄重建可模拟的逼真服装资产,通过网格嵌入 3D 高斯 + 基于物理的渲染(PBR)的混合策略,实现了新姿态下同时具备高频细节和正确光照效果的服装渲染。

PhysAnimator: Physics-Guided Generative Cartoon Animation

PhysAnimator将物理仿真(2D变形体模拟)与数据驱动的视频扩散模型结合,从静态动漫插画生成物理合理且具有动漫风格的动态动画,支持用户通过能量笔触和绑定点进行交互控制。

PhysGen3D: Crafting a Miniature Interactive World from a Single Image

提出 PhysGen3D 框架,将单张图像转化为以相机为中心的交互式 3D 场景,通过组合视觉基础模型的几何/语义理解与基于物理的模拟和渲染,生成比商业 I2V 模型更加物理真实且可控的视频。

PICO: Reconstructing 3D People In Contact with Objects

PICO 提出了一个包含数据集 (PICO-db) 和拟合方法 (PICO-fit) 的完整框架,通过建立人体与物体之间的稠密双射接触对应关系,从单张自然图像中恢复逼真的 3D 人-物交互场景,支持任意物体类别。

PMA: Towards Parameter-Efficient Point Cloud Understanding via Point Mamba Adapter

提出 Point Mamba Adapter (PMA),通过 Mamba 架构将预训练点云模型所有中间层的互补特征构造为有序序列并进行融合,配合几何约束门控提示生成器 (G2PG) 动态优化 3D 空间的序列排序,在仅训练 1% 参数的情况下达到甚至超越全量微调的性能。

PO3AD: Predicting Point Offsets toward Better 3D Point Cloud Anomaly Detection

PO3AD 提出通过预测伪异常点的偏移向量(而非重建完整点云)来学习正常点云表征,使模型注意力聚焦于异常区域,结合法向量引导的伪异常生成方法(Norm-AS),在 Anomaly-ShapeNet 和 Real3D-AD 上分别比现有方法提升 9.0% 和 1.4% 的检测 AUC-ROC。

PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning

PointLoRA 将低秩适配 (LoRA) 与多尺度 token 选择结合,为点云预训练模型提供了一种简单高效的参数微调方案,仅用 3.43% 的可训练参数即达到与全量微调竞争的性能,在 ScanObjectNN、ModelNet40 和 ShapeNetPart 上均取得 SOTA 或接近 SOTA 的结果。

POp-GS: Next Best View in 3D-Gaussian Splatting with P-Optimality

将经典最优实验设计中的 P-Optimality 理论引入 3D-GS,推导出基于 Hessian 矩阵的通用协方差矩阵,提出对角和块对角两种近似方案,在 D-Optimality 和 T-Optimality 准则下显著超越 FisherRF 的信息增益量化。

Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors

提出 Pow3R,一个在 DUSt3R 基础上增强的通用 3D 视觉回归模型,能灵活接收相机内参、相对位姿、稀疏/稠密深度等任意组合的辅助信息,在多项 3D 视觉任务上取得 SOTA 并解锁原生分辨率推理等新能力。

PRaDA: Projective Radial Distortion Averaging

PRaDA 提出了一种完全在射影空间中工作的径向畸变标定方法,通过将多对图像的畸变估计在函数空间中进行加权平均,无需 3D 点重建或相机位姿估计即可获得高精度的畸变校正,在多个具有严重畸变的数据集上显著超越 COLMAP、GLOMAP 等传统方法。

PreciseCam: Precise Camera Control for Text-to-Image Generation

PreciseCam 通过 4 个相机参数(roll、pitch、vFoV、畸变 ξ)和 Perspective Field-Unified Spherical 表示,实现文本到图像生成中的精确相机视角控制,无需 3D 几何或多视图数据。

Preconditioners for the Stochastic Training of Neural Fields

本文提出了一个用于神经场随机训练的预条件理论框架,证明了曲率感知对角预条件器(如 ESGD)能显著加速 sine/Gaussian/wavelet 激活神经场的训练,而对 ReLU(PE) 激活则无明显帮助,为神经场优化器选择提供了理论指导。

PrEditor3D: Fast and Precise 3D Shape Editing

本文提出 PrEditor3D,一种免训练的 3D 编辑方法,通过同步多视图扩散编辑+前馈 3D 重建的管线,结合基于颜色编码的 3D 分割和体素特征融合,实现了快速(数分钟内)、精确(仅修改目标区域)的高质量 3D 形状编辑。

ProbeSDF: Light Field Probes for Neural Surface Reconstruction

ProbeSDF 重新设计了 SDF 基神经表面重建的外观模型,将空间特征和角度特征解耦存储在不同分辨率的体素网格中,用极少参数(每体素 4 个)和微型 MLP 实现了更好的几何和图像质量,训练仅需 1-2 分钟并支持实时渲染。

ProtoDepth: Unsupervised Continual Depth Completion with Prototypes

ProtoDepth提出基于原型(Prototype)的持续学习方法,通过冻结预训练模型并为每个新域学习轻量原型集来调制隐层特征,在室内和室外场景中将遗忘率降低超过50%。

ProxyTransformation: Preshaping Point Cloud Manifold with Proxy Attention for 3D Visual Grounding

提出Proxy Transformation,通过可变形点云聚类和代理注意力机制,利用文本信息引导子流形平移、图像信息引导子流形内部变换,在训练前高效增强点云流形结构,在自我中心3D视觉定位任务上实现7.49%的显著提升。

PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting

提出基于 Fisher 信息矩阵的有原则的 3D 高斯溅射剪枝方法 PUP 3D-GS,通过空间参数(位置+尺度)的二阶敏感度评分实现 90% 高斯剪枝率,同时保持比现有启发式方法更好的视觉质量和前景细节。

QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge

提出 QuartDepth,一个面向ASIC边缘设备的训练后量化框架,通过LogNP激活磨光(将异常分布的激活值变换为量化友好的分布)、激活量化补偿(更新权重补偿激活量化误差)和Fisher信息引导的权重重建,将深度估计基础模型量化到W4A4/W4A8,并设计可编程硬件加速器实现实时推理。

RainyGS: Efficient Rain Synthesis with Physically-Based Gaussian Splatting

RainyGS 将基于物理的雨滴仿真和浅水动力学与 3D 高斯溅射渲染框架结合,首次实现了开放世界场景中高保真、物理准确且实时(>30fps)的动态雨天效果合成,支持从小雨到暴雨的灵活控制。

RASP: Revisiting 3D Anamorphic Art for Shadow-Guided Packing of Irregular Objects

RASP 从 3D 变形艺术(Anamorphic Art)中获取灵感,利用可微渲染框架,以多视角影子/轮廓图像为引导来优化不规则 3D 物体在容器中的排列,同时提出了基于 SDF 的碰撞与溢出处理方案,实现了高占用率的装箱、零件组装以及多视角艺术创作。

RDD: Robust Feature Detector and Descriptor Using Deformable Transformer

RDD 提出了一种双分支架构,用卷积网络做关键点检测、用可变形Transformer做描述子提取,通过可变形注意力建模几何不变性和全局上下文,在大视角/尺度变化的稀疏和半稠密特征匹配任务上全面超越现有方法。

ReCap: Better Gaussian Relighting with Cross-Environment Captures

ReCap 利用同一物体在不同光照环境下的多组图像作为多任务监督信号,共享材质属性并独立优化光照表示,从根本上解决了 albedo-lighting 歧义问题,配合简化的着色函数和 HDR 后处理,在扩展的重光照基准上显著超越所有现有方法。

ReCapture: Generative Video Camera Controls for User-Provided Videos Using Masked Video Fine-Tuning

ReCapture 通过两阶段方法——先用深度点云渲染或多视角扩散模型生成带新相机轨迹的粗糙锚定视频,再用 masked video fine-tuning(时空 LoRA)修复补全——实现了对用户已有视频的相机轨迹控制,能保持原始场景运动同时从全新角度观看视频。

Reconstructing Animals and the Wild

本文提出RAW方法,用LLM自回归解码CLIP图像嵌入为结构化的组合式3D场景表示(动物+自然环境),创新性地引入CLIP投影头替代离散的资产名称预测,使模型能在更大规模的资产集合上泛化,首次实现了从单张自然图像同时重建动物和环境。

Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning

本文提出一个双分支优化框架,通过结合人体外观(3D Gaussian Splatting)约束、社会距离学(proxemics)扩散先验和物理约束,从单目野外视频中重建紧密人体交互的准确 3D 姿态、自然交互关系和合理身体接触,在 Hi4D 和 3DPW 上达到 SOTA。

Reconstructing Humans with a Biomechanically Accurate Skeleton

HSMR 首次实现从单张图像估计生物力学准确的骨骼模型(SKEL)参数,通过伪标签迭代精炼策略解决无真值训练数据的困难,在标准人体姿态估计基准上匹配 HMR2.0 的性能,在极端姿态场景(MOYO 瑜伽数据集)上 MPJPE 大幅领先超过 18mm,同时有效避免不自然的关节旋转。

Reconstructing In-the-Wild Open-Vocabulary Human-Object Interactions

提出首个开放词汇野外3D人物交互(HOI)数据集 Open3DHOI(2.5k+图像,133类物体,120类动作),并设计基于3D Gaussian Splatting的HOI优化器,通过Gaussian渲染实现人物空间交互重建和接触区域学习。

Reconstructing People, Places, and Cameras

HSfM 将人体网格估计与传统 SfM 框架统一,通过联合优化人体、场景点云和相机参数,在无标定的稀疏多视角图像上实现度量尺度的世界坐标重建,人体定位误差从 3.59m 降至 0.50m。

Recovering Dynamic 3D Sketches from Videos

Liv3Stroke 提出了首个从视频中提取动态 3D 草图的方法,用可变形的三维 Bézier 曲线集合抽象表示物体运动,通过学习点云运动引导和逐笔画变形实现视点一致的运动草图重建。

Ref-GS: Directional Factorization for 2D Gaussian Splatting

提出 Ref-GS,在 2D 高斯泼溅 (2DGS) 中引入延迟渲染和方向分解,通过 Sph-Mip 球形特征网格建模远场光照和表面粗糙度变化,再经紧凑的张量分解实现空间变化的视角相关效果,在反射场景渲染和几何恢复上达到 SOTA 且保持 45+ FPS 实时性能。

Reference-Based 3D-Aware Image Editing with Triplanes

基于 EG3D 的三平面(triplane)表示空间,提出集成编码器、自动定位、空间解耦和融合学习四个模块的参考图像引导 3D 感知编辑框架,在人脸、360度头部、动物、卡通、全身服装等多种领域实现了超越现有 2D/3D GAN 和扩散方法的编辑效果。

Regularizing INR with Diffusion Prior for Self-Supervised 3D Reconstruction of Neutron CT Data

提出 DINR (Diffusive INR),将隐式神经表示 (INR/SIREN) 与预训练扩散模型先验结合,通过 proximal loss 在每个 DDIM 时间步用扩散去噪输出正则化 INR 重建,在稀疏视角中子 CT(低至 4-5 个视角)上超越 FBP、纯 INR、DD3IP 和经典 MBIR(qGGMRF) 方法。

Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation

Relation3D 通过自适应超点聚合模块(ASAM)、对比学习引导的超点精炼(CLSR)和关系感知自注意力(RSA)三个组件增强了 Transformer-based 3D 实例分割中场景特征内部关系和 query 间关系的建模,在 ScanNetV2/ScanNet++/ScanNet200/S3DIS 上取得 SOTA。

RelationField: Relate Anything in Radiance Fields

RelationField 首次将物体间关系建模引入神经辐射场,通过从多模态大语言模型(如 GPT-4o)蒸馏关系知识到 NeRF 中的隐式关系特征头,实现了开放词汇的3D场景关系查询与场景图生成,在 3DSSG 基准上显著超越现有方法。

Relative Pose Estimation through Affine Corrections of Monocular Depth Priors

本文提出三个新的相对位姿求解器,通过显式建模单目深度预测的仿射(尺度+偏移)模糊性来利用深度先验,并设计混合估计框架将深度感知求解器与经典点求解器结合,在标定和非标定设置下均大幅提升位姿估计精度。

Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting

提出 Unified-Lift,一种基于 3DGS 的端到端对象感知 2D-to-3D 分割方法,通过学习全局对象级码本与高斯级特征的关联,消除了现有方法对前/后处理的依赖,在多视角一致实例分割上显著超越 SOTA。

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

Rewis3d 利用前馈 3D 重建(MapAnything)从 2D 视频中获取 3D 点云作为辅助监督信号,通过双 Student-Teacher 架构和加权跨模态一致性 (CMC) 损失,在仅使用稀疏标注(点/涂鸦/粗标记)的情况下将弱监督 2D 语义分割性能提升 2-7% mIoU,推理时仍为纯 2D。

RigGS: Rigging of 3D Gaussians for Modeling Articulated Objects in Videos

提出 RigGS,一种无需模板先验的自动化骨架驱动建模方法,从单目视频中提取 3D 骨架并绑定 3D 高斯表示,支持新视角合成、姿态编辑、运动插值和运动迁移。

RNG: Relightable Neural Gaussians

提出可重光照神经高斯 (RNG) 框架,通过学习每个高斯点的潜向量并以视角和光照方向为条件,结合阴影线索和混合前向-延迟优化策略,实现软边界物体的高质量重光照。

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation

RoomTour3D利用网络房屋参观视频构建了一个几何感知的视频-指令数据集,通过3D重建获取行走轨迹的几何信息,结合GPT-4生成开放词汇指令,显著提升了多个VLN基准任务的性能并支持可训练的零样本导航。

S2Gaussian: Sparse-View Super-Resolution 3D Gaussian Splatting

提出 S2Gaussian 两阶段框架,首次解决稀疏+低分辨率视图联合场景重建问题:第一阶段用深度正则化优化低分辨率高斯并通过 Gaussian Shuffle Split 初始化高分辨率高斯,第二阶段用去模糊不一致性建模和 3D 鲁棒优化策略精炼高分辨率场景。

SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

SAR3D 提出了一个基于多尺度 3D VQVAE 的自回归框架,通过"next-scale prediction"(而非 next-token prediction)在 0.82 秒内完成高质量 3D 物体生成,并且同一套 VQVAE token 可以微调 LLM 实现详细的 3D 物体理解与描述。

SAT-HMR: Real-Time Multi-Person 3D Mesh Estimation via Scale-Adaptive Tokens

提出 SAT-HMR,一种基于 DETR 的实时多人 3D 人体网格估计框架,通过引入尺度自适应 token——对小尺度人物使用高分辨率 token、大尺度人物使用低分辨率 token、背景 token 进行池化压缩——在保持高分辨率输入精度的同时将推理速度提升至 24 FPS,实现了精度和速度的最佳平衡。

Scalable Autoregressive Monocular Depth Estimation

提出深度自回归模型 DAR,通过分辨率自回归(从低到高分辨率逐步生成深度图)和粒度自回归(从粗到细递归细化深度区间)两个有序目标,将单目深度估计任务转化为自回归预测范式,模型可扩展至 2.0B 参数并在 KITTI 和 NYU Depth v2 上达到 SOTA。

Scaling Mesh Generation via Compressive Tokenization

本文提出 Blocked and Patchified Tokenization (BPT),一种将三角网格序列压缩约 75% 的高效表征方法,使自回归 Transformer 首次能处理超过 8k 面的高精度网格,在点云/图像条件生成中达到产品级质量,并验证了网格面数对生成性能的正相关 scaling 规律。

Scaling Properties of Diffusion Models for Perceptual Tasks

本文系统研究了扩散模型在深度估计、光流预测和 amodal 分割等感知任务上的 scaling 特性,建立了训练和推理的 power law 缩放规律,并证明通过增加测试时计算(更多去噪步数和多预测集成)可以显著提升性能,在使用远少于 SOTA 的数据和计算量的情况下达到了竞争力性能。

SceneFactor: Factored Latent 3D Diffusion for Controllable 3D Scene Generation

提出SceneFactor,通过分解式潜空间扩散(先生成粗语义box布局,再生成精细几何),实现文本引导的大规模3D室内场景生成,并支持通过语义box操作进行直观的局部编辑。

SCFlow2: Plug-and-Play Object Pose Refiner with Shape-Constraint Scene Flow

SCFlow2 提出了一个即插即用的 6D 物体位姿精修框架,将 3D 场景流的刚体运动嵌入引入基于形状约束的循环匹配网络中,并将深度图作为迭代正则化嵌入端到端训练,在 BOP 基准的 7 个数据集上作为后处理一致地提升了 6 个 SOTA 方法的精度,无需任何重新训练。

SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding

本文提出 SeeGround,一个免训练的零样本 3D 视觉定位框架,通过将 3D 场景表示为查询对齐的渲染图像和空间增强文本描述的混合形式,利用 2D 视觉语言模型实现了在 ScanRefer 上超越之前零样本方法 7.7% 的精度。

Seeing A 3D World in A Grain of Sand

设计了一种基于八对平面镜的折反射成像系统,通过单次快照捕获微缩场景的360°环绕多视角图像,并结合视觉锥体(visual hull)深度约束改进3DGS稀疏视角重建质量。

SelfSplat: Pose-Free and 3D Prior-Free Generalizable 3D Gaussian Splatting

SelfSplat 提出了一个无需相机位姿和 3D 预训练先验的可泛化 3D 高斯溅射框架,通过将自监督深度/位姿估计与 3D-GS 表示统一,配合匹配感知位姿网络和深度细化模块,在 RealEstate10K、ACID 和 DL3DV 数据集上显著超越现有无位姿方法。

SemAlign3D: Semantic Correspondence Between RGB-Images Through Aligning 3D Object-Class Representations

利用单目深度估计构建类别级 3D 物体表示,在推理时通过最小化对齐能量函数(结合语义和空间似然)将 3D 表示与输入图像对齐,在 SPair-71k 上将 PCK@0.1 总分从 85.6% 提升至 88.9%,三个类别提升超过 10 个百分点。

Seurat: From Moving Points to Depth

本文提出 Seurat,一种基于 2D 点轨迹的单目视频深度估计方法,通过空间和时序 Transformer 分析跟踪点的运动模式来推断深度随时间的变化,仅在合成数据上训练即可实现零样本泛化到真实场景。

SfM-Free 3D Gaussian Splatting via Hierarchical Training

提出无需SfM预处理的3DGS方法(SFGS),通过层次化训练策略合并多个局部3DGS模型为统一场景表示,并利用视频帧插值改善相机位姿估计,在Tanks and Temples上PSNR提升2.25dB。

SGCR: Spherical Gaussians for Efficient 3D Curve Reconstruction

SGCR提出了球形高斯(Spherical Gaussians)这一简洁的3D表示,将标准3D高斯的各向异性椭球简化为统一大小的球体,仅用2D边缘图监督即可忠实地对齐到3D物体边缘,再通过新颖的有理Bézier曲线提取算法高效重建精确的3D参数化曲线,比NEF和EMAP快50倍且精度更优。

ShapeShifter: 3D Variations Using Multiscale and Sparse Point-Voxel Diffusion

ShapeShifter提出了一种从单个3D参考模型生成高质量形状变体的方法,通过将稀疏体素网格(fVDB)与点-法线-颜色采样结合的多尺度扩散模型,在消费级GPU上实现分钟级训练和交互式推理。

Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation

提出Sharp-It,一个多视角到多视角的扩散模型,将Shap-E等3D生成模型输出的低质量物体通过2D扩散增强为高质量多视角图像,FID降至6.60且支持外观编辑,仅需10秒。

SharpDepth: Sharpening Metric Depth Predictions Using Diffusion Distillation

提出 SharpDepth,通过扩散蒸馏将生成式深度模型(如 Lotus)的精细边缘细节知识注入判别式度量深度模型(如 UniDepth)的预测中,利用噪声感知门控和无标注训练实现度量精度与边缘锐利度的最佳平衡。

SimAvatar: Simulation-Ready Avatars with Layered Hair and Clothing

SimAvatar提出首个完全仿真就绪的文本驱动3D虚拟人生成框架,通过将身体、服装和头发分层表示为SMPL网格、服装网格和发丝,并在其上附着3D高斯学习外观,既能利用扩散模型先验获得逼真纹理,又能直接接入物理/神经模拟器产生真实的动态效果。

SimVS: Simulating World Inconsistencies for Robust View Synthesis

SimVS 利用视频扩散模型模拟真实场景捕获中的不一致性(光照变化、物体运动等),用模拟数据训练多视图协调网络,将不一致的稀疏观测转化为一致的多视图图像,从而实现对野外随意拍摄场景的高质量静态 3D 重建。

SiNR: Sparsity Driven Compressed Implicit Neural Representations

发现INR权重空间呈高斯分布这一关键性质,基于压缩感知理论用随机感知矩阵将权重向量转换为高维稀疏编码,实现了不依赖量化方案的基础性INR压缩,可与任何现有INR压缩方法叠加使用。

SIR-DIFF: Sparse Image Sets Restoration with Multi-View Diffusion Model

提出 SIR-Diff,一种多视角扩散模型,通过联合去噪多张同场景退化图像来实现跨视角一致的图像修复,利用 Spatial-3D ResNet 和 3D 自注意力 Transformer 融合多视角互补信息,在去模糊和超分辨率任务上超越单视角和视频修复方法。

Sketchy Bounding-Box Supervision for 3D Instance Segmentation

提出 Sketchy-3DIS 框架,首次将不精确(sketchy)的3D包围盒标注引入弱监督3D实例分割,通过自适应 box-to-point 伪标签生成器和粗到精实例分割器的联合训练,在 ScanNetV2 和 S3DIS 上达到 SOTA,甚至超越部分全监督方法。

SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos

SLAM3R提出了一个两层级的前馈神经网络系统,通过Image-to-Points(I2P)网络从视频片段直接回归局部3D点图,再通过Local-to-World(L2W)网络渐进式对齐到全局坐标系,全程无需显式求解相机参数,在20+ FPS下实现了SOTA的稠密重建精度和完整度。

SOGS: Second-Order Anchor for Advanced 3D Gaussian Splatting

提出 SOGS,在基于锚点的 3D-GS 中引入二阶锚点(利用协方差矩阵捕获特征维度间相关性进行特征增强)和选择性梯度损失,在将锚点特征维度从 32 降至 12-16 的同时实现了超越 Scaffold-GS 的渲染质量。

Sonata: Self-Supervised Learning of Reliable Point Representations

提出 Sonata,一个可靠的点云自监督学习方法,通过识别并解决"几何捷径"问题(表示坍塌到表面法线/点高度等低级空间特征),在ScanNet上将线性探测mIoU从21.8%提升至72.5%(3.3倍),并在多个3D感知任务上达到SOTA。

SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic Binding

SoundVista 提出了一种从稀疏分布式麦克风录音合成任意新视角环境声的方法,通过视觉-声学绑定(VAB)模块从全景 RGB-D 数据推断声学属性,优化参考麦克风布局,并用 Transformer 自适应加权参考录音的贡献,在模拟和真实场景上均显著超越现有方法。

SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images

SPAR3D 提出两阶段单图 3D 物体重建方法:第一阶段用轻量点云扩散模型生成稀疏点云处理遮挡不确定性,第二阶段用 triplane transformer 将点云转化为带 PBR 材质的高质量 mesh,实现 0.7 秒推理和交互式编辑。

SPARS3R: Semantic Prior Alignment and Regularization for Sparse 3D Reconstruction

提出 SPARS3R,结合 SfM 精确位姿估计与 DUSt3R/MASt3R 的稠密深度先验:通过全局融合对齐将稠密点云映射到 SfM 稀疏点云,再利用 SAM 语义分割对 RANSAC 识别的 outlier 区域进行局部对齐,生成兼具稠密性和位姿精度的初始化点云,大幅提升稀疏视角下 3DGS 的渲染质量。

Sparse Point Cloud Patches Rendering via Splitting 2D Gaussians

提出直接从点云预测 2D Gaussians 进行照片级真实渲染的方法,通过 entire-patch 架构实现跨类别泛化,通过 splitting decoder 将稀疏点云上采样为更密集的高斯原语,在仅用2K-100K点的条件下实现了 SOTA 渲染质量和 142 FPS 的实时渲染速度。

Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering

本文提出 SVRaster,一种无需神经网络或 3D 高斯的高效辐射场渲染方法,通过自适应多层次稀疏体素表示和基于方向相关 Morton 排序的定制光栅化器,实现了无伪影的实时高保真渲染。

Spectral Defense Against Resource-Targeting Attack in 3D Gaussian Splatting

针对 3DGS 的资源瞄准攻击(通过投毒训练图像触发高斯过度增长导致资源耗尽),提出频域防御:3D 频率滤波器通过将高斯协方差与频谱响应关联实现频率感知剪枝,2D 频谱正则化通过熵惩罚渲染图像的角向能量各向异性来抑制攻击噪声,实现高斯数量压缩 5.92×、内存减少 3.66×、速度提升 4.34×。

Spectral Informed Mamba for Robust Point Cloud Processing

提出基于图拉普拉斯谱的点云 Mamba 遍历策略 SST,通过表面感知谱遍历(SAST)实现等距变换不变的分类、分层局部遍历(HLT)实现精确分割、遍历感知重定位(TAR)解决 Mamba 中 MAE 的 token 放置问题。

SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes

SpectroMotion 基于 3DGS 框架,通过可变形高斯 MLP 建模动态物体、可变形反射 MLP 建模时变光照效果,并结合规范环境贴图和粗到细的三阶段训练策略,首次实现了对动态镜面场景的高质量 3D 重建和实时渲染。

Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives

提出 Speedy-Splat,通过两条互补路线加速 3DGS 渲染:(1) SnugBox/AccuTile 精确定位高斯在图像平面的范围减少无效像素处理,(2) 高效剪枝(Soft+Hard Pruning)将高斯数量减少 90% 以上,两者结合实现平均 6.71× 渲染加速,同时减少 10.6× 模型大小和 1.4× 训练时间。

SphereUFormer: A U-Shaped Transformer for Spherical 360 Perception

SphereUFormer 提出直接在球面域(icosphere 网格)上运行的 U 形 Transformer 架构,通过球面局部自注意力机制和球面特化的上下采样操作,避免了等距柱状投影带来的畸变,在 360° 深度估计和语义分割任务上全面超越现有方法。

SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

提出 SplatFlow 框架,由多视图整流流(RF)模型和高斯溅射解码器(GSDecoder)组成,在潜空间中联合生成多视图图像、深度和相机位姿,并通过免训练反演和修复技术实现统一的 3DGS 生成与编辑。

SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular Video

SplineGS 提出了一种基于三次 Hermite 样条的动态 3DGS 框架,通过运动自适应样条(MAS)和运动自适应控制点剪枝(MACP)建模动态高斯的连续轨迹,同时联合优化相机参数,在无需 COLMAP 的情况下实现了 SOTA 动态新视角合成和实时渲染。

Stable-SCore: A Stable Registration-Based Framework for 3D Shape Correspondence

Stable-SCore 重新审视了"配准-对应"范式,通过利用 2D 基础模型(Stable Diffusion + DINO)建立稳健的 2D 字符对应,并提出语义流引导的配准方法(基于 Neural Jacobian Fields)通过可微渲染桥接 2D 对应与 3D 形变,在非等距字符形状对应任务中大幅超越了函数映射系列方法。

StageDesigner: Artistic Stage Generation for Scenography via Theater Scripts

提出首个 AI 驱动的艺术舞台生成框架 StageDesigner,利用 LLM 分析剧本提取场景与意象描述,通过多级碰撞图实现前景实体布局,结合前景投影模块和布局控制扩散模型生成与叙事氛围一致的背景。

StdGEN: Semantic-Decomposed 3D Character Generation from Single Images

StdGEN 提出了一个从单张图像高效生成语义分解(身体/衣服/头发分离)的高质量 3D 角色的流水线,核心是 Semantic-aware Large Reconstruction Model (S-LRM),通过在 NeRF/SDF 中引入语义场实现前馈式的几何-颜色-语义联合重建,3 分钟内即可生成可直接用于游戏/动画的分层 3D 角色。

Steepest Descent Density Control for Compact 3D Gaussian Splatting

SteepGS 从非凸优化理论出发,揭示了 3DGS 中密度控制的本质是帮助高斯基元逃离鞍点,并推导出最优分裂策略——分裂为两个后代、透明度减半、沿分裂矩阵最小特征向量方向位移——在保持渲染质量的同时将高斯点数减少约 50%。

Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos

Stereo4D 提出了一套从互联网立体鱼眼视频(VR180)中自动挖掘高质量 4D 重建数据的流水线,生成了超过 100K 段带有世界坐标系下伪度量 3D 点云和长程运动轨迹的数据,并训练了 DynaDUSt3R 模型,实现了从图像对预测 3D 结构和运动的能力。

Structure from Collision

提出全新任务"碰撞中的结构重建"(SfC),旨在通过观察物体碰撞时的外观变化来推断其不可见的内部结构(如空腔),并设计 SfC-NeRF 模型在物理约束、外观保持约束、关键帧约束和体积退火策略下优化内部密度场,在包含 115 个不同结构/材料的物体数据集上验证了方法的有效性。

Structured 3D Latents for Scalable and Versatile 3D Generation

提出 Structured LATents (SLat/TRELLIS),一种统一的 3D 隐空间表示,将稀疏 3D 网格与 DINOv2 多视图特征融合,支持解码为辐射场/3D 高斯/网格等多种格式,在 500K 3D 资产上训练高达 2B 参数的整流流 Transformer,约 10 秒生成高质量 3D 资产并支持灵活局部编辑。

SUM Parts: Benchmarking Part-Level Semantic Segmentation of Urban Meshes

提出首个大规模城市纹理网格部件级语义分割基准数据集 SUM Parts(覆盖 \(2.5\,\text{km}^2\),21类),包含面标注和纹理像素标注两种标签类型,并开发了结合3D模板匹配和2D模板匹配的高效交互式标注工具。

SVG-IR: Spatially-Varying Gaussian Splatting for Inverse Rendering

本文提出 SVG-IR 框架,通过引入空间变化高斯(SVG)表示让单个高斯原语拥有空间变化的材质和法线参数,并结合基于物理的间接光照模型,在保持实时渲染速度的同时,重光照质量超越 NeRF 方法 2.5 dB、超越现有高斯方法 3.5 dB。

Symmetry Strikes Back: From Single-Image Symmetry Detection to 3D Generation

Reflect3D 提出一个可扩展的零样本 3D 反射对称检测器,通过 Transformer 架构和多视图扩散模型生成的多角度聚合来解决单视图歧义,并将检测到的对称性集成到单图 3D 生成流水线中显著提升结构精度和纹理质量。

Synthetic Prior for Few-Shot Drivable Head Avatar Inversion

SynShot 提出用大规模合成头部数据训练生成式 3D 高斯先验模型,仅需 3 张真实图像即可通过 pivotal fine-tuning 反演出可驱动的高保真头部虚拟人,显著优于单目和 GAN 方法。

Text-Guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

提出TSP3D,首个基于多层稀疏卷积架构的单阶段3D视觉定位框架,通过文本引导剪枝(TGP)和基于补全的添加(CBA)实现高效的3D-文本交互,在ScanRefer上以12.43 FPS的速度取得46.71% Acc@0.5的SOTA精度。

Textured Gaussians for Enhanced 3D Scene Appearance Modeling

Textured Gaussians 将传统图形学中的纹理映射和Alpha映射引入 3DGS,为每个高斯体分配独立的 2D RGBA 纹理图,使单个高斯体能表达空间变化的颜色和透明度,大幅提升了3DGS的表达能力——在相同高斯数量下提升渲染质量,在 1% 高斯数量下 PSNR 提升近 2dB。

Thin-Shell-SfT: Fine-Grained Monocular Non-Rigid 3D Surface Tracking with Neural Deformation Fields

Thin-Shell-SfT 提出了基于连续神经变形场和 Kirchhoff-Love 薄壳物理先验的单目非刚性 3D 表面跟踪方法,结合表面诱导的 3D 高斯泼溅进行可微渲染,实现了前所未有的细粒度褶皱重建精度。

Touch2Shape: Touch-Conditioned 3D Diffusion for Shape Exploration and Reconstruction

提出 Touch2Shape,利用触觉条件扩散模型在低维隐空间中生成紧凑的形状表示,结合强化学习训练触摸探索策略,实现了基于触觉图像的3D形状主动探索与重建,无需每步生成完整形状即可指导下一次触摸位置。

Toward Robust Neural Reconstruction from Sparse Point Sets

提出基于分布鲁棒优化(DRO)框架的神经 SDF 学习方法,通过 Wasserstein 和 Sinkhorn 距离定义不确定性集合,从模型不确定性区域采样来正则化训练,在稀疏噪声点云上实现鲁棒的 3D 重建。

Towards High-fidelity 3D Talking Avatar with Personalized Dynamic Texture

提出TexTalk4D数据集(100分钟扫描级8K动态纹理)和TexTalker框架,首次实现从语音同时生成面部运动和对应的动态纹理(皱纹变化),并通过基于风格锚点(style pivot)的注入策略实现解耦的运动/纹理风格控制。

Towards Realistic Example-Based Modeling via 3D Gaussian Stitching

提出首个基于 3D 高斯表示的真实感示例建模方法,通过采样式克隆(S-phase)和聚类式调优(T-phase)实现多个 3D 高斯场的无缝拼接与和谐外观融合,支持交互式实时编辑。

Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos

本文提出 World Scene Graph Generation (WSGG) 任务和 ActionGenome4D 数据集,将视频场景图从以帧为中心的 2D 表示升级为以世界为中心的 4D 表示,要求模型对所有物体(包括被遮挡或离开视野的不可见物体)在世界坐标系中进行 3D 定位和关系预测,并提出三种互补方法(PWG/MWAE/4DST)探索不同的不可见物体推理归纳偏置。

TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing

提出 TreeMeshGPT,通过基于三角形邻接关系的动态树结构遍历来序列化网格,实现每面仅需 2 个 token 的高效表示(压缩率约 22%),将艺术网格生成能力扩展到 5500 面,同时显著减少法线翻转问题。

TriTex: Learning Texture from a Single Mesh via Triplane Semantic Features

提出 TriTex,一种从单个纹理网格学习体积纹理场(volumetric texture field)的方法,利用Diff3F语义特征投影到三平面(triplane)表示中,通过卷积网络和MLP实现语义感知的前馈式纹理迁移,在推理速度和纹理保真度上超越现有方法。

Turbo3D: Ultra-Fast Text-to-3D Generation

Turbo3D 通过双教师蒸馏将多步多视图扩散模型压缩为4步生成器,并引入潜空间 GS-LRM 重建器,在单张 A100 上仅需 0.35 秒即可从文本生成高质量 3D 高斯泼溅资产,同时在 CLIP Score 和 VQA Score 上超越现有方法。

Twinner: Shining Light on Digital Twins in a Few Snaps

提出 Twinner,首个能从少量图像同时恢复场景光照、物体几何和 PBR 材质属性的大型前馈重建模型,通过 tricolumn 表示、程序化合成数据和可微 PBR 渲染器在真实数据上微调,在 StanfordORB 上超越前馈方法并媲美逐场景优化方法。

UnCommon Objects in 3D

Meta 推出 uCO3D——目前最大的公开物体中心 3D 数据集,包含 1,000+ 物体类别的高分辨率视频和 360° 全覆盖 3D 标注(相机位姿、深度图、点云、3D 高斯泼溅重建、文本描述),在多个 3D 学习任务上训练效果显著优于 MVImgNet 和 CO3Dv2。

UniK3D: Universal Camera Monocular 3D Estimation

提出 UniK3D,首个支持任意相机模型(针孔到全景)的通用单目3D估计方法,通过球面3D输出空间(径向距离替代垂直深度)和基于球谐函数的无模型相机光线表示,在13个数据集上零样本SOTA,特别在大视场和全景设置下大幅领先现有方法。

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting

UniPre3D 提出了首个统一的3D预训练方法,通过预测高斯原语并利用可微高斯溅射渲染图像来提供像素级监督,同时引入尺度自适应的跨模态融合策略,使得预训练方法能同时适用于物体级和场景级的任意尺度点云与任意架构的3D模型。

UVGS: Reimagining Unstructured 3D Gaussian Splatting using UV Mapping

UVGS通过球面映射将无序的3D高斯溅射(3DGS)转化为结构化的2D UV图表示,并进一步压缩为3通道Super UVGS图像,使预训练的2D图像基础模型(VAE、扩散模型)可以零样本直接应用于3DGS的生成与压缩。

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

VarSplat 在 3DGS-SLAM 框架中为每个 Gaussian splat 学习外观方差 \(\sigma^2\),通过全方差定律推导出可微分的逐像素不确定性图 \(V\),并将其用于 tracking、loop detection 和 registration,在 Replica/TUM/ScanNet/ScanNet++ 四个数据集上取得了更鲁棒的位姿估计和有竞争力的重建质量。

VGGT: Visual Geometry Grounded Transformer

VGGT是一个大型前馈Transformer,能在不到一秒内从一张到数百张图像中直接预测相机参数、深度图、点云图和3D点轨迹,无需后处理优化即可超越现有方法。

Vid2Avatar-Pro: Authentic Avatar from Videos in the Wild via Universal Prior

提出Vid2Avatar-Pro,利用从千人级多视角穿衣人体动态捕捉数据中学习的通用先验模型(UPM),从单目野外视频创建照片级逼真且可动画化的3D人体头像,在新视角/新姿态合成上大幅超越现有方法。

Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation

Vid2Sim 提出一个从单目视频到真实感+可交互仿真环境的 real2sim 框架,通过几何一致的高斯溅射重建和混合场景表示(GS+Mesh),支持城市导航智能体的强化学习训练,在数字孪生和真实世界中分别提升 31.2% 和 68.3% 的成功率。

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

Video Depth Anything 在 Depth Anything V2 基础上引入轻量时空头和时间梯度匹配损失,无需几何先验或视频生成先验,即可以 30 FPS 实时速度为任意长度视频生成时间一致的高质量深度图。

Video Depth Without Video Models

本文提出 RollingDepth,不使用视频扩散模型而是将单帧潜在扩散模型(Marigold)扩展为多帧 snippet 处理器,配合多尺度膨胀采样和鲁棒全局对齐算法,将短片段深度拼接为时序一致的长视频深度,在多个基准上超越了专门的视频深度模型和单帧模型。

Vision-Language Embodiment for Monocular Depth Estimation

提出一种具身深度估计框架,将相机模型的物理特性具身化到深度学习系统中,计算Embodied Scene Depth作为几何先验,同时利用视觉-语言互补(深度文本描述 + 文本VAE + 条件采样器),融合RGB图像特征和物理深度先验进行单目深度估计。

Volumetric Surfaces: Representing Fuzzy Geometries with Layered Meshes

提出 Volumetric Surfaces 表示方法,通过学习自适应间距的多层半透明 SDF 网格壳(k-SDF),以固定顺序光栅化渲染,实现在低功耗笔记本和智能手机上对毛发等模糊几何的实时高质量视图合成。

Volumetrically Consistent 3D Gaussian Rasterization

本文指出 3DGS 的 splatting 渲染中存在不必要的物理近似,提出在光栅化框架内直接解析积分 3D 高斯的透射率来计算更精确的 alpha 值,既保持了光栅化的速度优势,又达到了接近光线追踪的物理精度。

WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

本文提出 WildGS-SLAM,一个基于 3D Gaussian Splatting 的单目 RGB SLAM 系统,通过 DINOv2 特征驱动的不确定性预测来引导追踪和建图中的动态物体去除,在动态环境下的追踪精度(ATE RMSE 0.46cm)和无伪影的新视角合成质量上大幅超越现有方法。

Wonderland: Navigating 3D Scenes from a Single Image

Wonderland 提出了一种从单张图像生成高质量、宽范围 3D 场景的流水线:先用带双分支相机控制的视频扩散 Transformer 生成 3D 感知的视频潜变量,再用 Latent Large Reconstruction Model (LaLRM) 直接在潜空间中前馈式回归 3D 高斯溅射表示,首次证明可以在视频扩散模型的潜空间上高效构建 3D 重建模型。

WonderWorld: Interactive 3D Scene Generation from a Single Image

提出 WonderWorld,首个支持交互式 3D 场景生成的框架,用户可通过移动相机和文本提示实时控制场景内容与布局,每个场景在单块 A6000 GPU 上不到 10 秒即可生成,比现有方法快 ~80 倍。

You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

本文提出 See3D,一个在大规模互联网视频(320M 帧/16M 视频片段)上训练的无位姿视觉条件多视图扩散模型,通过自动化数据筛选管线和时间依赖的视觉条件设计,实现了零样本开放世界 3D 生成能力。

Zero-Shot Monocular Scene Flow Estimation in the Wild

提出首个能在野外场景零样本泛化的单目场景流估计方法,通过联合预测几何与运动、构建百万级多样训练数据、采用点图+3D偏移参数化,在 3D端点误差上全面超越现有方法。

MVGD: Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion

MVGD提出了一种基于像素级扩散的多视图几何框架,无需中间3D表示即可从任意数量的已知视角图像直接生成新视角的图像和尺度一致的深度图,在6000万+多视图样本上训练实现多项SOTA。

ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping

ZeroGrasp 提出了一个基于八叉树条件变分自编码器(CVAE)的统一框架,从单张 RGB-D 图像同时完成高分辨率 3D 物体重建和 6D 抓取姿态预测,通过多物体编码器和 3D 遮挡场建模物体间关系,在 GraspNet-1B 基准上达到 SOTA,并在真实机器人上验证了泛化能力。