🧊 3D 视觉¶
📹 ICCV2025 · 268 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (252) · 🔬 ICLR2026 (65) · 🤖 AAAI2026 (74) · 🧠 NeurIPS2025 (116) · 🧪 ICML2025 (11) · 💬 ACL2025 (1)
🔥 高频主题: 3D 高斯渲染 ×50 · 扩散模型 ×28 · 点云 ×18 · 动态场景 ×15 · 对抗鲁棒 ×12
- TRAN-D: 2D Gaussian Splatting-based Sparse-view Transparent Object Depth Reconstruction via Physics Simulation for Scene Update
-
提出TRAN-D,一种基于2D Gaussian Splatting的稀疏视角透明物体深度重建方法,通过分割引导的object-aware损失优化遮挡区域Gaussian分布,并利用物理仿真(MPM)实现物体移除后的场景动态更新,仅需单张图像即可完成场景刷新。
- 3D Gaussian Map with Open-Set Semantic Grouping for Vision-Language Navigation
-
提出基于3D高斯溅射的场景地图表示(3D Gaussian Map),结合开放集语义分组机制,为视觉-语言导航(VLN)构建兼顾几何结构与丰富语义的3D环境表示,并设计多层级动作预测策略(Multi-Level Action Prediction)融合多粒度空间-语义线索辅助导航决策。
- 3D Mesh Editing using Masked LRMs
-
提出MaskedLRM,将3D形状编辑重构为条件重建问题——训练时随机生成3D遮挡物遮盖多视角输入,用一张干净条件视图引导被遮挡区域的补全;推理时用户定义编辑区域并提供单张编辑图像,模型在<3秒单次前传中完成3D网格编辑,比优化方法快2-10倍,能执行拓扑变化编辑(加孔/加把手),重建质量与SOTA持平。
- 3D Test-time Adaptation via Graph Spectral Driven Point Shift
-
提出 GSDTTA,将3D点云测试时自适应从空间域转移到图谱域,仅优化最低10%频率分量即可适配点云的全局结构,配合特征图引导的自训练策略,在 ModelNet40-C 和 ScanObjectNN-C 上达到 SOTA。
- 3D Test-time Adaptation via Graph Spectral Driven Point Shift
-
提出GSDTTA,首次将3D点云的测试时适应从空间域转移到图谱域,通过仅优化最低10%频率分量(减少约90%参数)实现全局结构调整,并结合特征图引导的自训练策略生成伪标签,在ModelNet40-C和ScanObjectNN-C上显著超越现有3D TTA方法。
- 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
-
本文提出3DGraphLLM,将3D场景中物体间的语义关系编码为可学习的图表示并输入LLM,在object grounding、场景描述和视觉问答等多个3D视觉-语言任务上显著超越不使用语义关系的基线方法,同时推理速度比LVLM方法快5倍。
- 3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt
-
本文提出3DGS-LM,用定制的Levenberg-Marquardt优化器替换3DGS中的ADAM优化器,通过高效的GPU缓存驱动并行化方案实现Jacobian-向量积的快速计算,在保持相同重建质量的前提下将3DGS优化速度提升20%。
- 3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt
-
本文提出 3DGS-LM,通过将 3D Gaussian Splatting 的 ADAM 优化器替换为定制的 Levenberg-Marquardt (LM) 二阶优化器,并设计了高效的 GPU 并行化方案和梯度缓存结构,在保持相同重建质量的前提下实现了 20% 的训练加速。
- 3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt
-
将3D Gaussian Splatting的ADAM优化器替换为定制化的Levenberg-Marquardt(LM)二阶优化器,通过高效CUDA并行化的PCG算法和梯度缓存结构实现Jacobian-向量积加速,在保持相同重建质量的前提下将优化时间缩短约20%。
- 4D Gaussian Splatting SLAM
-
提出首个完整的4D Gaussian Splatting SLAM系统,在动态场景中同时进行相机位姿跟踪和4D高斯辐射场重建——将高斯原语分为静态/动态集合,通过稀疏控制点+MLP建模动态物体运动,并创新性地设计2D光流图渲染算法来监督动态高斯的运动学习。
- 4D Visual Pre-training for Robot Learning
-
FVP提出了一种基于4D(3D空间+时间)点云预测的视觉预训练框架,通过将预训练目标建模为"下一帧点云预测"并用扩散模型实现,显著提升了多种3D模仿学习方法在真实机器人操作任务上的成功率(DP3平均提升28%)。
- 4D Visual Pre-training for Robot Learning
-
FVP提出将3D视觉预训练建模为"下一帧点云预测"问题,用条件扩散模型从历史帧点云预测未来帧点云来学习3D视觉表示,在12个真实世界操作任务中将DP3的平均成功率提升28%,达到SOTA水平。
- 7DGS: Unified Spatial-Temporal-Angular Gaussian Splatting
-
将3DGS扩展到7维(空间3D+时间1D+方向3D),通过条件切片机制将7D高斯投影为与3DGS管线兼容的3D高斯,在具有视角依赖效果的动态场景上PSNR提升最高7.36dB,同时维持401 FPS实时渲染。
- 7DGS: Unified Spatial-Temporal-Angular Gaussian Splatting
-
提出7DGS,将场景元素建模为7维高斯分布(3D空间+1D时间+3D视角方向),通过条件切片机制将7D高斯转换为与时间和视角相关的条件3D高斯,统一处理动态场景+视角依赖效果,在自定义7DGS-PBR数据集上比4DGS PSNR提升高达7.36dB,仅用15.3%的高斯点数,401FPS实时渲染。
- A3GS: Arbitrary Artistic Style into Arbitrary 3D Gaussian Splatting
-
提出A3GS——首个前馈式零样本3DGS风格迁移框架,通过GCN自编码器将3DGS场景编码到潜在空间并用AdaIN注入任意风格特征,仅需10秒即可完成任意风格到任意3D场景的迁移,速度比优化方法快两个数量级。
- A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision
-
本文提出了一种仅使用2D图像监督来训练3D扩散模型的新框架——通过将确定性3D重建模型作为"噪声教师"生成3D噪声样本,并结合多步去噪策略和循环一致性正则化,实现了超越教师模型的3D高斯喷溅生成质量(PSNR提升0.5-0.85)。
- A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision
-
提出一种用2D图像监督训练3D扩散模型的框架:利用预训练的确定性3D重建模型作为"噪声教师"生成3D噪声样本,通过多步去噪策略和渲染损失实现跨模态(3D去噪+2D监督)训练,在用更小模型的情况下超越教师模型0.5-0.85 PSNR。
- A Recipe for Generating 3D Worlds from a Single Image
-
将单图到3D世界生成分解为两个更简单的子问题——全景合成(无训练in-context learning)和点云条件修复(仅5k步微调ControlNet),结合3DGS重建出可在VR中2米立方体范围内导航的沉浸式3D环境,在图像质量指标上全面超越WonderJourney和DimensionX等SOTA方法。
- A Simple yet Mighty Hartley Diffusion Versatilist for Generalizable Dense Vision Tasks
-
提出HarDiff——基于离散Hartley变换的频域学习策略,通过低频训练(从源域提取结构先验)和高频采样(利用目标域细节引导)增强扩散模型在稠密视觉任务上的跨域泛化能力,在语义分割、深度估计和去雾等12个基准上取得SOTA。
- A Unified Interpretation of Training-Time Out-of-Distribution Detection
-
从输入变量间"交互"的新视角出发,统一解释了不同训练时 OOD 检测方法为何有效——它们都促使模型编码更多高阶交互,并进一步验证了高阶交互在 OOD 检测中的主导作用,以及 near-OOD 样本难以检测的交互分布原因。
- AAA-Gaussians: Anti-Aliased and Artifact-Free 3D Gaussian Rendering
-
AAA-Gaussians提出了一种统一的3D高斯光栅化框架,通过自适应3D平滑滤波器、视空间透视正确边界计算和基于视锥体的3D裁剪,在单一框架内同时解决了3DGS的锯齿、投影畸变和闪烁三大顽疾,在分布外视角评估中大幅领先其他方法,同时保持实时渲染性能。
- AAA-Gaussians: Anti-Aliased and Artifact-Free 3D Gaussian Rendering
-
本文提出 AAA-Gaussians,通过自适应 3D 平滑滤波器、视空间透视正确包围盒、基于视锥体的 3D 裁剪三项技术,在统一框架内系统解决了 3DGS 的锯齿、投影失真、弹出伪影等问题,在 in-distribution 和 out-of-distribution 视角下均实现了 SOTA 的无伪影实时渲染。
- AAA-Gaussians: Anti-Aliased and Artifact-Free 3D Gaussian Rendering
-
通过在3DGS渲染管线的所有环节中融入完整的3D评估(而非2D splat近似),提出自适应3D平滑滤波器、视空间边界计算和基于视锥的tile剔除,统一解决了3DGS中的锯齿、投影伪影和弹出伪影(popping),在OOD视角下大幅优于现有方法,同时保持实时渲染(>100 FPS)。
- Advancing Text-to-3D Generation with Linearized Lookahead Variational Score Distillation
-
通过分析 VSD 中 LoRA 模型与 3D 模型的优化顺序不匹配问题,提出线性化前瞻(Linearized Lookahead)修正项 \(L^2\)-VSD,仅需额外一次前向传播即可显著提升 text-to-3D 生成质量。
- Adversarial Exploitation of Data Diversity Improves Visual Localization
-
提出RAP框架,通过外观可变的3DGS合成多样化训练数据,并引入对抗判别器弥合合成-真实域差距,使绝对姿态回归方法在多个数据集上大幅超越SOTA——室内平移/旋转误差降低50%/41%,室外降低38%/44%。
- AllTracker: Efficient Dense Point Tracking at High Resolution
-
提出AllTracker,将点跟踪问题转化为多帧长距离光流估计问题,通过低分辨率迭代推理(2D卷积+时间注意力)加高分辨率上采样,以16M参数实现高分辨率(768-1024像素)全像素稠密点跟踪的SOTA精度。
- Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images
-
提出Amodal3R,一个端到端的遮挡感知3D重建模型,通过在TRELLIS基础上引入mask加权交叉注意力和遮挡感知注意力层,直接在3D潜空间中从部分遮挡的2D图像重建完整的3D物体形状和外观,大幅超越先前"2D补全→3D重建"的两阶段方法。
- Amodal Depth Anything: Amodal Depth Estimation in the Wild
-
提出非模态相对深度估计新范式,构建大规模真实数据集ADIW(564K),基于Depth Anything V2和DepthFM设计两个互补框架(Amodal-DAV2和Amodal-DepthFM),通过最小化修改预训练模型实现遮挡区域深度预测,在ADIW上RMSE比之前SOTA提升27.4%。
- AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation
-
提出AnimateAnyMesh,首个前馈式文本驱动通用Mesh动画框架:通过DyMeshVAE将动态Mesh分解为初始位置和相对轨迹并压缩到潜空间,再用基于Rectified Flow的MMDiT模型学习文本条件下的轨迹分布,配合4M+规模的DyMesh数据集训练,在6秒内即可为任意拓扑Mesh生成高质量动画,全面碾压DG4D、L4GM和Animate3D。
- AnyI2V: Animating Any Conditional Image with Motion Control
-
提出AnyI2V,一个无需训练的框架,可接受任意模态图像(mesh、点云、深度图、骨架等)作为首帧条件,结合用户定义的轨迹实现运动控制的视频生成,在FID/FVD/ObjMC指标上优于现有training-free方法并与训练方法竞争。
- AR-1-to-3: Single Image to Consistent 3D Object Generation via Next-View Prediction
-
提出AR-1-to-3,一种基于扩散模型的自回归下一视角预测框架,通过"先近后远"的渐进式生成策略,配合Stacked-LE(堆叠局部特征编码)和LSTM-GE(全局特征编码)两种条件注入机制,显著提升了单图到多视角生成的一致性,在GSO数据集上PSNR达13.18(相比InstantMesh的10.67提升23.5%),Chamfer Distance降至0.063(InstantMesh为0.117)。
- ArgMatch: Adaptive Refinement Gathering for Efficient Dense Matching
-
提出自适应细化聚合(Adaptive Refinement Gathering)管线,通过内容感知偏移估计器、局部一致性匹配校正器和局部一致性上采样器,大幅降低对重型特征提取器和全局匹配器的依赖,以轻量级网络实现与SOTA竞争的稠密匹配性能。
- Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description
-
本文提出Articulate3D——首个大规模真实世界室内场景铰接标注数据集(280个高质量扫描),以及USDNet统一框架,能从3D点云同时预测可移动/可交互部件分割和运动参数,为具身AI的物理仿真提供了simulation-ready的场景数据。
- ATLAS: Decoupling Skeletal and Shape Parameters for Expressive Parametric Human Modeling
-
提出 ATLAS 参数化人体模型,通过显式解耦外部表面形状与内部骨骼参数,结合稀疏非线性姿态校正,在 60 万高分辨率扫描上训练,实现比 SMPL-X 更精确可控的人体建模。
- Auto-Regressively Generating Multi-View Consistent Images
-
提出 MV-AR,首次将自回归模型引入多视图图像生成,利用所有先前视图作为条件逐步生成后续视图,配合统一的多模态条件注入模块和 Shuffle View 数据增强,在文本/图像/形状条件下均达到与扩散模型可比的一致性。
- AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting
-
提出AutoOcc,一个以视觉为中心的全自动开放式语义占据标注流水线,通过视觉-语言模型引导的可微高斯泼溅(VL-GS)实现无需人工标签的3D语义占据生成,在Occ3D-nuScenes上以纯视觉输入就达到IoU 83.01/mIoU 20.92,大幅超越现有自动标注方法。
- Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction
-
提出 BA-Track 框架,利用 3D 点追踪器将观测运动分解为相机运动和物体运动,使传统 Bundle Adjustment 能同时处理静态与动态场景元素,实现精确的相机位姿估计和时间一致的稠密重建。
- Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation and Reconstruction
-
提出DiffusionGS,将3D高斯点云"烘焙"进扩散模型的去噪器中,实现单阶段、视图一致的单视图3D物体生成和场景重建,配合场景-物体混合训练策略和RPPC相机条件编码,在PSNR/FID上大幅超越现有方法,推理速度仅需约6秒。
- BANet: Bilateral Aggregation Network for Mobile Stereo Matching
-
提出双边聚合网络BANet,通过空间注意力将代价体分离为高频细节体和低频平滑体并分别聚合,仅使用2D卷积即可在移动设备上实时运行并大幅超越MobileStereoNet-2D(KITTI 2015上精度提升35.3%),3D版本在GPU上达到实时方法最高精度。
- Benchmarking and Learning Multi-Dimensional Quality Evaluator for Text-to-3D Generation
-
构建了包含1280个文本生成3D模型的多维度基准MATE-3D(8类prompt × 8种方法 × 4维评分 × 21名标注者),并提出基于超网络的多维度质量评估器HyperScore,通过条件特征融合和自适应映射在所有评估维度上超越现有指标。
- Benchmarking and Learning Multi-Dimensional Quality Evaluator for Text-to-3D Generation
-
构建MATE-3D基准(8类prompt×8种方法=1280个textured mesh,4维度×21人主观评分=107520标注)并提出HyperScore多维质量评估器:通过可学习条件特征+条件特征融合(模拟注意力转移)+超网络生成维度自适应映射函数(模拟决策过程变化),在语义对齐、几何、纹理、整体4个维度上全面超越现有指标。
- Benchmarking Egocentric Visual-Inertial SLAM at City Scale
-
提出 LaMAria——首个城市尺度的第一人称多传感器 VIO/SLAM 基准数据集,利用测绘级控制点提供厘米精度的地面真值,系统评估了学术界主流 SLAM 方案在真实第一人称场景下的表现,揭示了现有方法与商业系统之间的巨大差距。
- BezierGS: Dynamic Urban Scene Reconstruction with Bézier Curve Gaussian Splatting
-
提出用可学习的Bézier曲线建模动态物体运动轨迹的3D高斯溅射方法(BezierGS),摆脱对精确目标标注框的依赖,在Waymo和nuPlan数据集上的动态和静态场景重建均达到SOTA。
- BillBoard Splatting (BBSplat): Learnable Textured Primitives for Novel View Synthesis
-
提出BBSplat——用可学习的RGB纹理和alpha贴图替代2D Gaussian Splatting中的高斯分布不透明度,使每个平面基元具有任意形状和逐像素颜色控制,在用更少基元的情况下弥补2DGS与3DGS之间的渲染质量差距,同时保留精确网格提取能力并实现最高×17的存储压缩。
- Blended Point Cloud Diffusion for Localized Text-guided Shape Editing
-
提出 BlendedPC,将局部文本引导的3D形状编辑重新定义为语义inpainting问题,通过在Point·E基础上训练Inpaint-E模型,并在推理时引入无需反演(inversion-free)的坐标混合(coordinate blending)机制,在保持原始形状身份的同时实现精准局部编辑,在ShapeTalk数据集上全面超越现有方法。
- BokehDiff: Neural Lens Blur with One-Step Diffusion
-
BokehDiff提出基于预训练扩散模型的单步推理散景渲染方法,通过物理启发的自注意力模块(PISA)融入能量守恒、弥散圆约束和自遮挡效果,配合合成前景数据训练,在深度不连续区域显著优于传统方法。
- Bolt3D: Generating 3D Scenes in Seconds
-
提出一种基于潜在扩散模型的前馈式3D场景生成方法,通过将3D场景表示为多组Splatter Image并使用专门训练的几何VAE,在单GPU上7秒内生成完整3D场景,推理成本比优化式方法(CAT3D)降低300倍。
- Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration
-
提出 DM-Calib,利用 Stable Diffusion 先验进行单目相机内参估计,设计了 Camera Image 表示将内参无损编码为图像,结合 RANSAC 解算焦距和光心,在5个零样本数据集上大幅超越现有标定方法,并推进了度量深度估计、位姿估计和稀疏视图重建等下游任务。
- Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration
-
提出DM-Calib——基于扩散模型的单目相机内参估计方法:设计Camera Image表示(将内参无损编码为3通道图像=方位角+仰角+灰度图),微调Stable Diffusion生成Camera Image,用RANSAC提取内参,在5个零样本数据集上超越所有基线,并将相机标定扩展到度量深度估计、位姿估计和稀疏视角3D重建。
- Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data
-
提出 Bootstrap3D 框架,利用 2D/视频扩散模型自动生成 100 万张高质量多视角图像配精细文本描述,并通过训练时间步重调度(TTR)策略在微调多视角扩散模型时平衡图像质量与视角一致性,显著提升文本到 3D 生成的质量。
- Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data
-
提出Bootstrap3D框架,利用视频扩散模型生成合成多视图数据,并通过微调的MV-LLaVA进行质量过滤与密集描述重写,结合Training Timestep Reschedule (TTR)策略训练多视图扩散模型,在不牺牲视图一致性的前提下大幅提升图像质量和文本对齐能力。
- BoxDreamer: Dreaming Box Corners for Generalizable Object Pose Estimation
-
提出 BoxDreamer,以 3D 包围盒角点作为中间表示,通过基于参考视角的点合成器预测查询图像中的 2D 角点投影,建立 2D-3D 对应关系后用 PnP 算法恢复物体位姿,在稀疏视角和严重遮挡场景下显著优于现有方法。
- Bridging 3D Anomaly Localization and Repair via High-Quality Continuous Geometric Representation
-
提出 PASDF 框架,通过姿态感知的签名距离函数(SDF)实现连续几何表征,统一了3D异常检测与修复任务,在 Real3D-AD 和 Anomaly-ShapeNet 上取得 SOTA。
- Bridging 3D Anomaly Localization and Repair via High-Quality Continuous Geometric Representation
-
提出 PASDF 框架,通过姿态感知的签名距离函数(SDF)实现连续几何表征,统一了3D异常检测与修复任务,在 Real3D-AD 和 Anomaly-ShapeNet 上取得 SOTA。
- PASDF: Bridging 3D Anomaly Localization and Repair via High-Quality Continuous Geometric Representation
-
提出PASDF框架,通过姿态对齐模块(PAM)将点云对齐到标准姿态 + 神经SDF网络学习连续几何表示 + 基于SDF偏差的异常评分,统一实现3D点云异常检测与异常修复(Marching Cubes提取零等值面作为修复模板),在Real3D-AD上O-AUROC 80.2%、Anomaly-ShapeNet上90.0%均达SOTA。
- Bridging Diffusion Models and 3D Representations: A 3D Consistent Super-Resolution Framework
-
提出3DSR框架,将扩散模型的2D超分辨率与3D高斯溅射(3DGS)表示相结合,在每个扩散去噪步骤中通过3DGS渲染来强制多视图3D一致性,实现高保真且空间一致的3D场景超分辨率。
- BUFFER-X: Towards Zero-Shot Point Cloud Registration in Diverse Scenes
-
提出 BUFFER-X,一种无需人工参数调优的零样本点云配准方法,通过自适应体素大小/搜索半径估计、FPS 替代学习型关键点检测器、以及 patch 级坐标归一化,在 11 个数据集上实现开箱即用的跨域泛化。
- BUFFER-X: Towards Zero-Shot Point Cloud Registration in Diverse Scenes
-
通过几何自适应bootstrapping确定体素大小/搜索半径、用FPS替代学习型关键点检测器、以及patch级坐标归一化,构建了一个无需人工调参即可在11个跨域数据集上实现零样本点云配准的pipeline BUFFER-X,在室内外多传感器多场景下取得了平均排名第一的成功率。
- CA-I2P: Channel-Adaptive Registration Network with Global Optimal Selection
-
提出 CA-I2P,通过 Channel Adaptive Adjustment Module (CAA) 增强并过滤图像-点云特征的通道差异,并用 Global Optimal Selection (GOS) 基于最优传输替代 top-k 选择减少多对一匹配误差,在 RGB-D Scenes V2 和 7-Scenes 上实现图像-点云配准 SOTA。
- Can3Tok: Canonical 3D Tokenization and Latent Modeling of Scene-Level 3D Gaussians
-
提出 Can3Tok,首个可将场景级3DGS编码到低维潜空间的变分自编码器,通过规范化查询(canonical query)的交叉注意力实现高效tokenization,配合3DGS归一化和语义感知过滤解决尺度不一致问题,在DL3DV-10K上成功泛化到新场景。
- CasP: Improving Semi-Dense Feature Matching Pipeline Leveraging Cascaded Correspondence Priors for Guidance
-
提出 CasP,一种级联匹配流水线,将匹配阶段分解为 1/16 尺度的一对多先验匹配和 1/8 尺度的一对一精细匹配,在保持精度的同时实现最高 2.2× 加速,并显著提升跨域泛化能力。
- CATSplat: Context-Aware Transformer with Spatial Guidance for Generalizable 3D Gaussian Splatting from A Single-View Image
-
提出CATSplat——单视图前馈3DGS重建的泛化Transformer框架:利用VLM文本嵌入(上下文先验)和3D点云特征(空间先验)通过双重cross-attention增强图像特征,在RE10K等数据集上在PSNR/SSIM/LPIPS全面超越Flash3D,且跨数据集泛化性优异。
- CF³: Compact and Fast 3D Feature Fields
-
提出 CF³ 管线,通过 top-down 特征提升、per-Gaussian 自编码器压缩和自适应稀疏化,仅使用原始 Gaussian 数量的 5% 即可构建紧凑高速的 3D 特征场,实现 121–245× 的存储压缩和实时渲染。
- CHARM3R: Towards Unseen Camera Height Robust Monocular 3D Detector
-
通过数学证明回归深度和地平面深度在相机高度变化时具有相反的外推趋势,提出CHARM3R在模型内简单平均两种深度估计来抵消趋势,实现Mono3D对未见相机高度的鲁棒泛化,AP3D提升超过45%。
- CL-Splats: Continual Learning of Gaussian Splatting with Local Optimization
-
提出 CL-Splats,一种基于 3D Gaussian Splatting 的持续学习框架,通过 DINOv2 变化检测、2D→3D 掩码提升和球体约束的局部优化,从稀疏新视图高效增量更新场景重建,在合成和真实场景上大幅超越 CL-NeRF 等方法(PSNR:40.1 vs 30.1 dB),并支持历史恢复和并发更新等应用。
- CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting
-
提出 CLIP-GS,首个基于 3D Gaussian Splatting (3DGS) 的多模态表示学习框架。通过 GS Tokenizer 将 3DGS 序列化为 token,结合图像投票损失 (Image Voting Loss) 进行多模态对齐,在跨模态检索、零样本和少样本 3D 分类任务上全面超越基于点云的方法。
- CMT: A Cascade MAR with Topology Predictor for Multimodal Conditional CAD Generation
-
提出 CMT,首个基于 B-Rep 表示的多模态 CAD 生成框架,通过级联 MAR(先边后面)和拓扑预测器实现精确拓扑和几何生成,并构建了 130 万级多模态 CAD 数据集 mmABC。
- CoMoGaussian: Continuous Motion-Aware Gaussian Splatting from Motion-Blurred Images
-
用Neural ODE建模曝光时间内的连续相机运动轨迹,结合刚体变换和可学习的连续运动修正(CMR)变换,从运动模糊图像重建清晰3D高斯场景,在所有benchmark上大幅超越SOTA。
- Compression of 3D Gaussian Splatting with Optimized Feature Planes and Standard Video Codecs
-
本文提出 CodecGS,通过将 3DGS 的所有高斯属性用紧凑的 Tri-plane 特征平面表示,并结合频率域 DCT 熵建模和通道级比特分配策略,使特征平面能高效利用标准视频编解码器(HEVC)压缩,实现在保持高渲染质量的同时将存储大小减少至约10MB以内(相比原始3DGS压缩比高达146×)。
- CstNet: Constraint-Aware Feature Learning for Parametric Point Cloud
-
提出首个面向参数化点云的约束感知特征学习方法 CstNet,将 CAD 约束编码为点级别的 MAD-Adj-PT 三元组表示,通过两阶段网络(约束获取 + 约束特征学习)在自建的 Param20K 数据集上实现分类精度 +3.49%、旋转鲁棒性 +26.17% 的 SOTA 提升。
- Contact-Aware Amodal Completion for Human-Object Interaction via Multi-Regional Inpainting
-
提出首个面向人物交互(HOI)场景的非模态补全框架,利用人体拓扑和接触信息通过凸包操作识别遮挡区域,结合多区域修复策略在预训练扩散模型上无需额外训练即可完成高质量的遮挡物体补全。
- Curve-Aware Gaussian Splatting for 3D Parametric Curve Reconstruction
-
提出 CurveGaussian,通过在参数曲线与边缘导向高斯原语之间建立双向耦合机制,实现从多视图边缘图直接端到端优化 3D 参数曲线的一阶段方法,消除了两阶段管线的误差累积,在精度、效率和紧凑性上全面超越先前方法。
- CutS3D: Cutting Semantics in 3D for 2D Unsupervised Instance Segmentation
-
提出CutS3D方法,首次将3D信息(单目深度估计)引入无监督实例分割,通过在3D点云中切割语义区域来分离2D中重叠的实例,并引入空间置信度机制提升伪标签质量,在多个基准上超越CutLER等SoTA。
- DAP-MAE: Domain-Adaptive Point Cloud Masked Autoencoder for Effective Cross-Domain Learning
-
提出 DAP-MAE,通过异构域适配器(HDA)和域特征生成器(DFG)协同学习多域点云数据,仅需一次预训练即可适配物体分类、表情识别、部件分割和3D检测等多种下游任务。
- DAP-MAE: Domain-Adaptive Point Cloud Masked Autoencoder for Effective Cross-Domain Learning
-
提出一种域自适应点云MAE框架(DAP-MAE),通过异构域适配器(HDA)和域特征生成器(DFG)两个模块,让一次跨域预训练即可在物体分类、人脸表情识别、部件分割、目标检测等多个不同域的下游任务上都达到SOTA。
- DAViD: Data-efficient and Accurate Vision Models from Synthetic Data
-
证明通过高保真程序化合成数据即可训练出精度媲美基础模型(如 Sapiens-2B)的以人为中心的稠密预测模型,仅需 30 万合成图像、0.3B 参数、训练成本不到同级方案的 1/16,在深度估计、表面法线估计、软前景分割三项任务上实现 SOTA 或近 SOTA 性能。
- DeepMesh: Auto-Regressive Artist-Mesh Creation with Reinforcement Learning
-
提出 DeepMesh 框架,通过改进的高效mesh tokenization算法(72%压缩率)和首次将DPO强化学习引入3D网格生成来实现人类偏好对齐,能够生成最高3万面的高质量Artist-like三角网格。
- DeGauss: Dynamic-Static Decomposition with Gaussian Splatting for Distractor-free 3D Reconstruction
-
提出 DeGauss,一种基于解耦的动态-静态高斯泼溅的自监督框架,通过前景动态高斯和背景静态高斯的概率掩码组合,实现从随意捕获的图像集到高度动态的自我中心视频的广泛场景下的无干扰 3D 重建。
- Demeter: A Parametric Model of Crop Plant Morphology from the Real World
-
Demeter 是一个数据驱动的参数化植物形态模型,将植物形态分解为拓扑、关节、形状和变形四个因素,支持形状生成、3D 重建和生物物理仿真。
- Depth AnyEvent: A Cross-Modal Distillation Paradigm for Event-Based Monocular Depth Estimation
-
提出跨模态蒸馏范式,利用图像域的视觉基础模型(Depth Anything v2)生成伪标签来训练事件相机深度估计网络,并设计了基于 VFM 的循环架构 DepthAnyEvent-R,在无需昂贵深度标注的情况下实现了事件相机单目深度估计的 SOTA 性能。
- Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval
-
提出 DAC 框架,通过 "描述-适配-组合" 三步策略协同 CLIP 与多模态大语言模型 (MLLM),仅使用多视图图像即可在开放集 3D 物体检索任务上大幅超越此前使用全模态(点云+体素+图像)的 SOTA 方法,平均 mAP 提升超过 +10%。
- Diorama: Unleashing Zero-shot Single-view 3D Indoor Scene Modeling
-
提出Diorama,首个零样本开放世界系统,从单张RGB图像通过模块化管线(开放世界感知+基于CAD的场景建模)生成完整的3D室内场景,包含建筑结构和物体摆放,无需端到端训练或人工标注。
- Diorama: Unleashing Zero-shot Single-view 3D Indoor Scene Modeling
-
提出首个零样本开放世界系统 Diorama,通过模块化地组合 foundation model(GPT-4o、SAM、DinoV2、Metric3D 等),将单张 RGB 图像转化为包含建筑结构和 CAD 物体的完整可组合 3D 室内场景,无需任何端到端训练或人工标注。
- Discretized Gaussian Representation for Tomographic Reconstruction
-
提出离散化高斯表示(DGR)用于 CT 重建,通过离散化高斯函数直接端到端重建 3D 体素,并设计高度并行化的快速体积重建技术,在稀疏视角和有限角度 CT 场景中以零训练数据超越深度学习和实例重建方法。
- Disentangling Instance and Scene Contexts for 3D Semantic Scene Completion
-
提出 DISC,一种基于类别感知的双流架构用于 3D 语义场景补全,通过将实例类别和场景类别解耦到独立的查询流中并设计针对性的解码模块,在 SemanticKITTI 上仅用单帧输入即超越多帧 SOTA 方法,实例类别 mIoU 提升 17.9%。
- Diving into the Fusion of Monocular Priors for Generalized Stereo Matching
-
深入分析单目先验融合中的三大问题(仿射不变性 vs 绝对深度的对齐、迭代更新中的局部最优、噪声视差对融合的干扰),提出二元局部排序图和全局配准模块,在 SceneFlow→Middlebury/Booster 泛化实验中将 bad2 错误减半甚至更多,且几乎不增加计算开销。
- DMesh++: An Efficient Differentiable Mesh for Complex Shapes
-
本文提出DMesh++,通过Minimum-Ball算法替代加权Delaunay三角剖分实现可微网格的tessellation函数,将计算复杂度从 \(O(N)\) 降至 \(O(\log N)\),在处理复杂形状时速度提升最高32倍,同时保持无自交叉和少薄三角形的优良特性。
- Do It Yourself: Learning Semantic Correspondence from Pseudo-Labels
-
本文提出 DIY-SC,通过3D感知的伪标签生成策略(链式传播+松弛循环一致性+球面原型过滤)训练轻量适配器来改进基础模型特征的语义对应能力,在 SPair-71k 上实现了超越先前 SOTA 4.5%(PCK@0.1 per-keypoint)的性能,且无需人工关键点标注。
- DriveX: Driving View Synthesis on Free-form Trajectories with Generative Prior
-
提出驾驶视图合成框架DriveX,通过渐进式地将视频扩散模型的生成先验蒸馏到3DGS表示中——设计inpainting-based视频修复任务来生成新轨迹伪标注,迭代优化3D重建,实现自由轨迹上的高质量实时渲染。
- DSO: Aligning 3D Generators with Simulation Feedback for Physical Soundness
-
提出 Direct Simulation Optimization (DSO) 框架,利用物理仿真器的(非可微)稳定性反馈作为奖励信号,通过 DPO 或新提出的 DRO 目标函数微调 3D 生成器,使其前馈式地直接输出物理上自支撑的 3D 物体,无需测试时优化。
- Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction
-
提出 Dynamic Point Maps (DPM),将 DUSt3R 的视点不变点图扩展为同时控制视点和时间的时空不变表示,仅通过预测4组点图即可在前馈方式下同时解决深度估计、场景流、运动分割和3D目标跟踪等多种4D任务。
- Easi3R: Estimating Disentangled Motion from DUSt3R Without Training
-
提出 Easi3R,一种免训练的即插即用方法,通过分析和操控 DUSt3R 交叉注意力层中隐含的运动信息,实现动态物体分割、相机位姿估计和 4D 密集点云重建。
- Easy3D: A Simple Yet Effective Method for 3D Interactive Segmentation
-
提出 Easy3D,一种简洁高效的 3D 交互式实例分割方法,结合体素稀疏编码器、轻量 Transformer 解码器和隐式点击融合策略,在域内和域外数据集上一致性地超越 SOTA,并首次将学习的负嵌入 (learned negative embedding) 成功应用于隐式点击融合。
- Efficient Spiking Point Mamba for Point Cloud Analysis
-
SPM(Spiking Point Mamba)提出首个基于 Mamba 的 3D 脉冲神经网络框架,通过层次化动态编码(HDE)和脉冲 Mamba 模块(SMB),在大幅降低能耗(3.5× 以上)的同时,在 ScanObjectNN 上比前 SOTA SNN 方法提升 6-7% 的准确率。
- Egocentric Action-aware Inertial Localization in Point Clouds with Vision-Language Guidance
-
EAIL 框架利用头戴式 IMU 信号中的第一人称动作线索,通过层次化多模态对齐(视觉-语言引导)学习动作与环境结构的关联,在 3D 点云中实现精确的惯性定位,同时附带动作识别能力。
- EgoM2P: Egocentric Multimodal Multitask Pretraining
-
EgoM2P 是首个面向自我中心(egocentric)4D理解的多模态多任务大模型,通过时序感知的掩码建模框架统一处理 RGB 视频、深度、注视和相机轨迹四种模态,在多个下游任务上匹配或超越专用模型且快一个数量级。
- EmbodiedSplat: Personalized Real-to-Sim-to-Real Navigation with Gaussian Splats from a Mobile Device
-
提出 EmbodiedSplat,一个利用 iPhone 手机拍摄视频 → 3D 高斯溅射重建 mesh → 在 Habitat-Sim 中微调导航策略 → 部署到真实世界的完整流程,在真实场景 ImageNav 任务上比零样本基线提升 20%-40% 绝对成功率,sim-vs-real 相关系数达 0.87-0.97。
- Estimating 2D Camera Motion with Hybrid Motion Basis
-
提出 CamFlow,通过混合运动基(12 个物理基 + 随机噪声基)表示复杂的 2D 相机运动,揭示了多个单应性流场叠加的非线性特性,结合基于 Laplace 分布的概率损失函数,在标准和跨数据集零样本条件下均大幅超越现有单应性和 meshflow 方法。
- ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness
-
提出ETCH框架,通过建模从衣物表面到体表的SE(3)等变紧密度向量(tightness vector),将穿衣人体的body fitting简化为tightness-aware的稀疏marker拟合任务,在CAPE和4D-Dress数据集上相比SOTA方法(含tightness-agnostic和tightness-aware方法)在宽松衣物上提升16.7%~69.5%的关节误差,形状精度平均提升49.9%。
- EvaGaussians: Event Stream Assisted Gaussian Splatting from Blurry Images
-
提出EvaGaussians框架,利用事件相机的高时间分辨率事件流辅助3D高斯泼溅从运动模糊图像中学习,通过事件辅助初始化、模糊/事件联合重建损失和事件辅助几何正则化,实现高保真新视图合成并保持实时渲染效率。
- Event-based Tiny Object Detection: A Benchmark Dataset and Baseline
-
提出首个大规模事件相机反无人机小目标检测基准EV-UAV数据集(147序列/230万事件级标注/平均目标仅6.8×5.4像素),并设计EV-SpSegNet——基于稀疏3D点云分割的检测框架,利用小目标在时空事件点云中形成连续曲线的特征,配合时空相关性损失(STC loss)引导网络保留目标事件,在IoU/ACC/检测概率上全面超越13种SOTA方法,推理速度快10-100倍。
- Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction
-
首次将事件相机与可变形 3D 高斯溅射(3D-GS)结合用于动态场景重建,提出 GS-阈值联合建模策略和动静分解策略,在新构建的事件-4D 基准上实现了 SOTA 的渲染质量和速度(合成数据平均 PSNR 提升 2.73dB,渲染速度达 4D-GS 的 1.71 倍)。
- Event-Driven Storytelling with Multiple Lifelike Humans in a 3D Scene
-
提出基于事件驱动的LLM框架,将3D场景中多角色行为规划分解为叙述者逐事件生成和事件解析器的精细空间推理两个模块,首次实现了大规模多房间3D场景中4-5+角色的长时序自然交互运动生成。
- ExCap3D: Expressive 3D Scene Understanding via Object Captioning with Varying Detail
-
提出 ExCap3D,一个在 3D 室内场景中对物体生成多粒度描述的方法,包含物体级和部件级两个描述层次,通过部件→物体的信息共享和语义/文本一致性损失确保描述的准确性与一致性,在新建的 190K 描述数据集上 CIDEr 评分比 SOTA 分别提升 17% 和 124%。
- FaceLift: Learning Generalizable Single Image 3D Face Reconstruction from Synthetic Heads
-
提出 FaceLift,一种仅在合成数据上训练但能良好泛化到真实图像的单图360度高质量3D人头重建方法,通过多视图潜扩散模型生成身份一致的多视角图像,再用基于 Transformer 的重建器生成像素对齐的3D高斯表示。
- Faster and Better 3D Splatting via Group Training
-
提出 Group Training 策略,通过将高斯基元周期性分组为"训练组"和"缓存组"来加速 3DGS 训练,结合基于透明度的优先采样(OPS),在4个标准数据集上实现约 30% 训练加速的同时提升渲染质量和减少模型体积,且可即插即用于 3DGS 和 Mip-Splatting 等框架。
- FiffDepth: Feed-forward Transformation of Diffusion-Based Generators for Detailed Depth Estimation
-
提出FiffDepth,将预训练的扩散模型转化为确定性前馈架构进行单目深度估计,通过保持扩散轨迹维持細节生成能力,并引入可学习滤波器蒸馏DINOv2的鲁棒泛化能力到扩散骨干网络,在效率、精度和细节丰富度三方面同时超越现有方法。
- Find Any Part in 3D
-
提出Find3D,构建了一个由2D基础模型(SAM + Gemini)驱动的自动化3D数据标注引擎,生成210万个部件标注,训练出首个同时具备开放世界、跨类别、部件级和前馈推理能力的3D分割模型,零样本mIoU提升260%,推理速度比现有方法快6-300倍。
- FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution
-
提出FlashDepth,在Depth Anything v2基础上添加Mamba循环模块实现帧间尺度一致性,并设计Small-Large混合架构在2K分辨率下达到24 FPS的实时流式视频深度估计,边界清晰度远超现有方法。
- FlexGen: Flexible Multi-View Generation from Text and Image Inputs
-
本文提出 FlexGen,一个灵活的多视角图像生成框架,通过 GPT-4V 生成 3D-aware 文本标注并设计自适应双控制模块,支持单图、文本或二者联合控制生成一致的多视角图像,实现未可见区域补全、材质编辑和纹理控制等多种可控能力。
- From Gallery to Wrist: Realistic 3D Bracelet Insertion in Videos
-
提出一种混合管线将 3D 手镯逼真插入视频:利用 3D 高斯泼溅(3DGS)保证时序一致性,用 2D 扩散模型增强光照真实感,并通过光照驱动(Shading-Driven)管线分离 albedo/shading/反射残差分别优化,在用户研究中以 81.7% 的真实感偏好率大幅超越现有方法。
- From Image to Video: An Empirical Study of Diffusion Representations
-
系统对比了相同架构(WALT)在图像 vs 视频生成目标下训练的扩散模型在下游视觉理解任务上的表现,发现视频扩散模型在所有任务上一致优于图像对应物,尤其在需要运动和3D空间理解的任务上优势显著(点跟踪+68%、相机位姿+60%)。
- From One to More: Contextual Part Latents for 3D Generation
-
提出CoPart框架,通过上下文部件潜码表示3D物体并利用互引导策略微调预训练扩散模型,实现高质量的部件级3D生成,同时支持部件编辑、铰接体生成和小场景生成。
- FROSS: Faster-than-Real-Time Online 3D Semantic Scene Graph Generation from RGB-D Images
-
提出FROSS方法,通过将2D场景图直接提升到3D空间并用高斯分布表示物体,实现了超实时(144 FPS)的在线3D语义场景图生成,无需精确点云重建。
- G2SF: Geometry-Guided Score Fusion for Multimodal Industrial Anomaly Detection
-
提出 G2SF 框架,将基于 memory bank 的异常分数重新解释为局部特征空间中的各向同性欧氏距离,进而通过 Local Scale Prediction Network (LSPN) 学习方向感知的缩放因子,将其渐进演化为各向异性的统一融合度量,实现多模态工业异常检测 SOTA。
- GAS: Generative Avatar Synthesis from a Single Image
-
提出GAS框架,通过将泛化NeRF重建的密集外观线索与视频扩散模型结合,统一新视角和新姿态合成为视频生成任务,配合模态切换器解耦两种任务,实现从单张图像生成视角一致和时序连贯的人体Avatar。
- Gaussian Splatting with Discretized SDF for Relightable Assets
-
本文提出将连续SDF离散化为高斯基元的额外属性,通过SDF-to-opacity变换统一高斯和SDF表示,配合投影一致性损失和球面初始化,在仅用4G显存的前提下实现了超越现有高斯逆渲染方法的重光照质量。
- Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis
-
提出一种视频到4D生成框架,通过Direct 4DMesh-to-GS Variation Field VAE将动画数据直接编码为紧凑的高斯变化场潜在空间,再训练时序感知的扩散模型生成动态3D内容,在4.5秒内实现高保真4D合成,并展示了对真实视频输入的优越泛化能力。
- GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs
-
GaussianProperty 提出了一个免训练框架,利用 SAM 分割和 GPT-4V 识别能力,通过全局-局部推理模块和多视角投票策略,将物理属性(密度、弹性模量、摩擦系数等)赋予 3D Gaussians,支持物理仿真和机器人抓取两大下游任务。
- GaussianUpdate: Continual 3D Gaussian Splatting Update for Changing Environments
-
提出GaussianUpdate,首次将3D高斯表示与持续学习结合,通过三阶段更新策略(外观更新→几何布局更新→联合精炼)和可见性感知生成式回放,实现时变场景的实时渲染和变化可视化。
- GazeGaussian: High-Fidelity Gaze Redirection with 3D Gaussian Splatting
-
提出GazeGaussian,首个基于3D高斯溅射(3DGS)的高保真视线重定向方法,通过双流3DGS模型分别建模面部和眼部区域,设计显式的高斯眼球旋转表示和表情引导神经渲染器,在视线精度、合成质量和渲染速度上全面超越现有方法。
- Generating Physically Stable and Buildable Brick Structures from Text
-
BrickGPT 首次实现从文本提示生成物理稳定且可组装的互锁砖块结构,核心思想是将积木组装问题建模为自回归文本生成任务,并在推理时集成物理感知的有效性检查和回滚机制,确保生成结构的稳定性和可构建性。
- Geometry Distributions
-
提出Geometry Distributions (GeomDist),将3D几何建模为表面点的概率分布并用扩散模型学习,无需假设亏格、连通性或边界条件,可从高斯噪声采样无限多表面点来表示任意拓扑的几何。
- GeoProg3D: Compositional Visual Reasoning for City-Scale 3D Language Fields
-
提出 GeoProg3D,首个支持城市级高保真3D场景自然语言交互的视觉编程框架,通过地理感知的城市级3D语言场(GCLF)和地理视觉API(GV-APIs),结合LLM推理引擎实现组合式地理空间推理,在新提出的952条查询的GeoEval3D基准上全面超越现有3D语言场和VLM方法。
- GeoSplatting: Towards Geometry Guided Gaussian Splatting for Physically-based Inverse Rendering
-
提出 GeoSplatting,通过从可优化的显式网格可微分地生成表面对齐的高斯点,为3DGS提供精确的几何引导,实现SOTA逆渲染性能(材质-光照解耦),同时训练仅需10-15分钟。
- Global-Aware Monocular Semantic Scene Completion with State Space Models
-
提出GA-MonoSSC,一种结合Transformer(2D全局上下文)和Mamba(3D长程依赖)的混合架构用于室内单目语义场景补全,创新引入Frustum Mamba Layer解决体素序列化中的特征不连续性问题,在Occ-ScanNet和NYUv2上达到SOTA。
- Global Motion Corresponder for 3D Point-Based Scene Interpolation under Large Motion
-
提出Global Motion Corresponder (GMC),通过学习将两个时刻的3D Gaussian映射到共享规范空间的一元势场,实现大运动条件下的鲁棒场景插值和外推。
- GSOT3D: Towards Generic 3D Single Object Tracking in the Wild
-
提出 GSOT3D,目前最大的通用3D单目标跟踪基准,包含620个多模态序列(点云+RGB+深度)覆盖54类物体,支持PC/RGB-PC/RGB-D三种3D跟踪任务,并提出渐进式时空跟踪器PROT3D以9DoF包围盒实现最优性能。
- GUAVA: Generalizable Upper Body 3D Gaussian Avatar
-
提出 GUAVA,首个从单张图像通过前馈推理快速重建可动画上半身3D高斯虚拟人的框架,结合模板高斯和 UV 高斯表示,支持丰富面部表情和手势驱动,约0.1s完成重建并实时渲染。
- Guiding Diffusion-Based Articulated Object Generation by Partial Point Cloud Alignment and Physical Plausibility Constraints
-
提出 PhysNAP,通过点云对齐损失和基于SDF的物理合理性约束(部件穿透+关节移动)引导预训练扩散模型 NAP 的逆扩散过程,实现类别感知的铰接物体生成,在对齐精度和物理合理性上显著优于无引导基线。
- HairCUP: Hair Compositional Universal Prior for 3D Gaussian Avatars
-
本文提出 HairCUP,一种将头部建模分解为面部和头发两个独立潜空间的组合式通用先验模型,通过合成无发数据创建管线实现有效解耦,支持灵活的面部/发型交换和少样本单目适配。
- Hierarchical Material Recognition from Local Appearance
-
提出面向视觉应用的层级式材质分类学体系(taxonomy)与野外数据集 Matador(含深度图的 ~7200 张材质图像,57类),并基于图注意力网络(GAT)利用分类学的层级亲缘关系进行材质识别,在多个基准数据集上达到 SOTA,同时支持新材质的小样本学习和场景中任意点的材质探测。
- HORT: Monocular Hand-held Objects Reconstruction with Transformers
-
提出 HORT,基于 Transformer 的粗到细框架,从单目图像高效重建手持物体的稠密3D点云,通过整合图像特征和3D手部几何信息联合预测物体点云及其相对手部的位姿,在准确率和推理速度上均达到 SOTA。
- HouseTour: A Virtual Real Estate A(I)gent
-
提出 HouseTour,给定一组已知位姿的室内图像,联合生成类人的3D相机轨迹和房地产文字描述,通过 Residual Diffuser 进行基于扩散的轨迹规划并将空间特征集成到 Qwen2-VL-3D 中生成3D-grounded文本摘要。
- How Far are AI-generated Videos from Simulating the 3D Visual World: A Learned 3D Evaluation Approach
-
提出 Learned 3D Evaluation (L3DE),一种基于单目3D线索(运动、深度、外观)和对比学习的客观可量化评估方法,用于衡量AI生成视频在3D视觉一致性方面与真实视频的差距,无需人工标注缺陷或质量标签。
- HumanOLAT: A Large-Scale Dataset for Full-Body Human Relighting and Novel-View Synthesis
-
提出HumanOLAT——首个公开可用的大规模全身人体多视角OLAT(One-Light-at-a-Time)数据集,包含21个被试×3个姿态×40视角×344种光照≈850K帧,为人体重打光和新视角合成提供了高质量基准。
- Identity Preserving 3D Head Stylization with Multiview Score Distillation
-
提出基于负对数似然蒸馏(LD)的3D头部风格化框架,通过多视角网格评分、镜像梯度和秩加权评分张量,实现在360度一致渲染下的高质量风格化与身份保持。
- IM360: Large-scale Indoor Mapping with 360 Cameras
-
本文提出 IM360,一个面向稀疏扫描大规模室内环境的三维建图流水线,通过将球面相机模型深度集成到 SfM 各环节、结合稠密特征匹配和可微渲染纹理优化,在 Matterport3D 和 Stanford2D3D 上实现了远超现有方法的相机定位准确率和渲染质量(PSNR 提升 3.5)。
- Image-Guided Shape-from-Template Using Mesh Inextensibility Constraints
-
提出一种纯图像引导的无监督 Shape-from-Template (SfT) 方法,仅利用颜色、梯度和轮廓等视觉线索配合网格不可伸展性约束来重建变形物体 3D 形状,比最优无监督方法快 400 倍且精度大幅领先。
- Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image
-
本文将运动模糊从"不需要的伪影"转变为"有价值的运动线索",通过从单张模糊图像预测稠密光流场和单目深度图,再用可微分最小二乘求解器恢复相机6DoF瞬时速度,实现媲美甚至超越IMU的运动估计精度和30FPS实时性能。
- InstaScene: Towards Complete 3D Instance Decomposition and Reconstruction from Cluttered Scenes
-
InstaScene 提出统一的杂乱场景实例分解与完整重建框架,通过追踪高斯光栅化构建空间对比学习实现精准实例分割,并设计 in-situ 生成管线利用已知观测和几何线索引导 3D 生成模型重建完整物体。
- JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers
-
JointDiT 基于 Flux 扩散 Transformer 构建 RGB-Depth 联合分布模型,通过自适应调度权重和非平衡时间步采样策略,使单一模型通过控制各模态的时间步即可灵活执行联合生成、深度估计和深度条件图像生成三种任务。
- χ: Symmetry Understanding of 3D Shapes via Chirality Disentanglement
-
提出无监督手性特征提取管线,从2D基础模型特征中蒸馏左右手性信息用于装饰3D形状顶点描述子,有效解决形状分析中的左右歧义问题。
- LACONIC: A 3D Layout Adapter for Controllable Image Creation
-
提出 LACONIC,一种基于参数化 3D 语义包围盒的轻量级适配器,通过解耦交叉注意力机制将显式 3D 几何信息注入预训练 text-to-image 扩散模型,首次实现了相机控制、3D 物体级语义引导以及对屏幕外物体的全面场景上下文建模,在 FID 上比 SceneCraft 降低 75.8%。
- LayerLock: Non-collapsing Representation Learning with Progressive Freezing
-
提出 LayerLock,一种通过渐进式冻结网络层并动态切换预测目标(从像素到越来越深的中间层特征)的自监督视频表征学习方法,兼具像素预测的稳定性和潜变量预测的高效语义捕获能力,用于训练高达 4B 参数的视频模型。
- Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models
-
提出从预训练 2D 扩散模型合成图像中学习物体间 3D 空间关系(OOR),通过 3D 提升管线构建配对数据集,训练文本条件化的 score-based 扩散模型对物体对的相对位姿和尺度分布建模,并扩展至多物体场景布局和场景编辑。
- Learning 3D Scene Analogies with Neural Contextual Scene Maps
-
提出3D场景类比任务,通过神经上下文场景映射(neural contextual scene maps)在共享相似语义上下文的场景区域间建立稠密三维映射,支持轨迹迁移与物体放置迁移等下游应用。
- Learning Robust Stereo Matching in the Wild with Selective Mixture-of-Experts
-
提出 SMoEStereo,通过在冻结的视觉基础模型(VFM)中集成变秩MoE-LoRA和变核MoE-Adapter,结合轻量决策网络选择性激活MoE模块,实现了场景自适应的鲁棒立体匹配,在跨域和联合泛化上达到SOTA。
- Lightweight Gradient-Aware Upscaling of 3D Gaussian Splatting Images
-
提出专门为3DGS设计的轻量图像上采样技术,利用高斯原语的解析图像梯度进行梯度感知双三次样条插值,无需深度学习推理即可实现3-4倍渲染加速,且重建质量优于标准双三次插值和DL-based上采样。
- LINR-PCGC: Lossless Implicit Neural Representations for Point Cloud Geometry Compression
-
LINR-PCGC 提出了首个基于隐式神经表征(INR)的点云几何无损压缩方法,通过设计轻量级多尺度 SparseConv 网络(含尺度上下文提取 SCE 和子节点预测 CNP 模块),结合 GoP 级帧共享解码器和初始化策略,在不依赖特定训练数据分布的前提下,在 MVUB 数据集上比 G-PCC TMC13v23 降低 21.21% 码率,比 SparsePCGC 降低 21.95%。
- LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities
-
本文提出 LLaVA-3D,通过将 3D 位置嵌入注入 2D CLIP patch 特征构建"3D Patch",以最小改动将 2D LMM(LLaVA-Video)扩展为统一的 2D/3D 理解模型,训练收敛速度比现有 3D LMM 快 3.5 倍,在多个 3D 基准上达到 SOTA 且保持 2D 能力不下降。
- LocalDyGS: Multi-view Global Dynamic Scene Modeling via Adaptive Local Implicit Feature Decoupling
-
提出 LocalDyGS——将全局复杂动态场景分解为种子点定义的局部空间、并通过静态-动态特征解耦生成时序高斯来建模各局部运动的框架,首次实现了大尺度复杂动态场景的高质量重建。
- LONG3R: Long Sequence Streaming 3D Reconstruction
-
提出 LONG3R,一种基于循环记忆机制的流式多视图3D重建模型,通过记忆门控、双源精炼解码器和3D时空记忆三大创新,在保持实时推理速度的同时显著提升长序列重建质量。
- LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos
-
LongSplat 针对无相机位姿的随拍长视频场景,提出增量联合优化框架同时优化相机位姿和 3DGS,设计基于 MASt3R 先验的鲁棒位姿估计模块和自适应八叉树锚点形成机制,解决位姿漂移、几何初始化不准和内存限制问题。
- MaskHand: Generative Masked Modeling for Robust Hand Mesh Reconstruction in the Wild
-
提出 MaskHand,首个将生成式掩码建模引入 3D 手部网格重建的方法,通过 VQ-MANO 将连续手部姿态离散化为 token,再利用上下文引导的掩码 Transformer 学习 2D-to-3D 映射的概率分布,在推理时通过置信度引导的迭代采样生成高精度手部网格,在 HO3Dv3 零样本评估中 PA-MPJPE 降低 19.5%。
- MaterialMVP: Illumination-Invariant Material Generation via Multi-view PBR Diffusion
-
MaterialMVP是一个端到端的多视图PBR纹理生成模型,通过一致性正则化训练解耦光照、双通道材质生成框架(MCAA + Learnable Material Embeddings)对齐albedo和metallic-roughness贴图,从3D网格和图像prompt一步生成高质量、光照不变、多视图一致的PBR材质。
- MEGA: Memory-Efficient 4D Gaussian Splatting for Dynamic Scenes
-
提出 MEGA,一个面向4D Gaussian Splatting的内存高效框架,通过DC-AC颜色分解消除冗余球谐系数(8×压缩),结合熵约束Gaussian形变技术扩大每个Gaussian的作用范围并减少数量,最终在Technicolor和Neural 3D Video数据集上分别实现约190×和125×存储压缩,同时保持可比的渲染质量和实时速度。
- MemoryTalker: Personalized Speech-Driven 3D Facial Animation via Audio-Guided Stylization
-
提出 MemoryTalker,通过两阶段训练策略(Memorizing + Animating)利用键值记忆网络存储通用面部运动,并通过音频驱动的风格化记忆实现仅凭音频即可生成个性化 3D 面部动画,无需任何额外先验信息。
- MeshAnything V2: Artist-Created Mesh Generation with Adjacent Mesh Tokenization
-
MeshAnything V2 提出 Adjacent Mesh Tokenization (AMT),通过用单个顶点(而非传统三个顶点)表示相邻面,将网格的 token 序列长度平均缩短一半,从而在不增加计算成本的前提下将最大生成面数从 800 提升到 1600,显著提高了自回归网格生成的效率和质量。
- MeshMamba: State Space Models for Articulated 3D Mesh Generation and Reconstruction
-
MeshMamba 提出基于 Mamba 状态空间模型的 3D 关节体网格生成与重建方法,通过设计基于身体部位 UV 图和模板网格坐标的顶点序列化技术,实现了万级顶点网格的高效生成和重建,速度比 Transformer 快 6-9 倍。
- MeshPad: Interactive Sketch-Conditioned Artist-Reminiscent Mesh Generation and Editing
-
MeshPad 将草图驱动的 3D 网格创建与编辑解耦为"添加"和"删除"两个子任务,基于三角序列表示和 Transformer 自回归生成,并提出顶点对齐推测解码器实现 2.2× 加速,让交互式网格编辑在几秒内完成。
- MinCD-PnP: Learning 2D-3D Correspondences with Approximate Blind PnP
-
本文提出 MinCD-PnP,通过三重近似将计算昂贵的 Blind PnP 简化为最小化 2D-3D 关键点间 Chamfer 距离的问题,设计轻量级多任务学习模块 MinCD-Net 集成到现有 I2P 配准框架中,在跨场景和跨数据集设置下显著提升内点率和配准召回率。
- MoGA: 3D Generative Avatar Prior for Monocular Gaussian Avatar Reconstruction
-
提出MoGA,通过学习生成式3D头像先验并将其作为初始化、正则化和姿态优化的强约束,从单张图像重建高保真3D高斯头像,显著超越现有方法。
- Momentum-GS: Momentum Gaussian Self-Distillation for High-Quality Large Scene Reconstruction
-
Momentum-GS 提出基于动量的自蒸馏机制来解决大规模场景3D高斯溅射中分块并行训练的一致性问题,通过动量教师高斯解码器提供全局引导并解耦分块数量与GPU数量的限制,在多个大规模场景数据集上取得SOTA,LPIPS较CityGaussian提升18.7%。
- Monocular Semantic Scene Completion via Masked Recurrent Networks
-
提出 MonoMRN,一个两阶段单目语义场景补全框架:先做粗粒度预测,再用 Masked Sparse GRU(MS-GRU)循环精炼被遮挡区域,并引入距离注意力投影减少深度投影误差,在 NYUv2 和 SemanticKITTI 上均达到 SOTA。
- MonoMobility: Zero-Shot 3D Mobility Analysis from Monocular Videos
-
MonoMobility提出首个从单目视频零样本分析关节物体运动部件及运动属性(运动轴和运动类型)的框架,通过组合深度估计、光流分割等现成工具进行初始分析,再用2D高斯泼溅和专门设计的关节物体动态场景优化算法自监督精细化结果,无需任何标注数据即可处理旋转、平移和复合运动。
- MuGS: Multi-Baseline Generalizable Gaussian Splatting Reconstruction
-
本文提出 MuGS,首个面向多基线设定的泛化 3D 高斯溅射方法,通过融合多视角立体(MVS)和单目深度估计(MDE)特征,并设计投影-采样深度一致性网络,实现在小基线和大基线场景下的 SOTA 新视角合成。
- Multi-View 3D Point Tracking
-
提出 MVTracker——首个数据驱动的多视角3D点跟踪器,通过将多视图深度图反投影为统一的3D特征点云,利用 kNN 关联和 Transformer 迭代优化,在仅需4个相机的实用配置下实现鲁棒的长程3D点轨迹估计,在 Panoptic Studio 和 DexYCB 上分别达到 3.1 cm 和 2.0 cm 的中位轨迹误差。
- MV-Adapter: Multi-view Consistent Image Generation Made Easy
-
提出首个基于Adapter的多视角图像生成方案MV-Adapter,通过复制self-attention层+并行注意力架构实现即插即用的多视角生成,在SDXL上达到768分辨率,兼容各种T2I衍生模型。
- MVGBench: a Comprehensive Benchmark for Multi-view Generation Models
-
提出 MVGBench——多视图生成模型的综合评估框架,创新性地引入基于 3DGS 自一致性的 3D 一致性指标(无需 3D GT),系统评估了 12 个 SOTA 方法在最佳性能、泛化和鲁棒性三方面的表现,并基于分析提出的最佳实践构建了新方法 ViFiGen。
- Nautilus: Locality-aware Autoencoder for Scalable Mesh Generation
-
Nautilus 提出一种局部性感知的自编码器进行可扩展的 artist-like 网格生成,通过 Nautilus 式壳结构网格分词算法将序列长度压缩到 1/4,并结合双流点云条件器提高局部结构保真度,首次实现最多 5000 面的高质量网格直接生成。
- Neural Compression for 3D Geometry Sets
-
提出NeCGS,首个能将包含数千个多样3D网格模型的几何集合压缩高达900倍的神经压缩范式,通过TSDF-Def隐式表示和量化感知自解码器实现高精度保持。
- NeuraLeaf: Neural Parametric Leaf Models with Shape and Deformation Disentanglement
-
NeuraLeaf 将叶片的 3D 几何解耦为 2D 基础形状和 3D 变形两个潜在空间,利用大量 2D 叶片图像数据集学习形状空间,提出无骨架蒙皮模型处理叶片的高度柔性变形,并构建了首个专注叶片变形建模的 3D 数据集 DeformLeaf。
- No Pose at All: Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views
-
提出SPFSplat,首个在训练和推理时均不需要真值位姿的自监督3DGS框架,通过共享ViT骨干同时预测Gaussian基元和相机位姿,在极端视角变化下超越需要位姿的SOTA方法。
- Noise2Score3D: Tweedie's Approach for Unsupervised Point Cloud Denoising
-
提出Noise2Score3D,基于Tweedie公式的全无监督点云去噪框架,从噪声数据直接学习得分函数,实现单步去噪;引入点云全变分度量估计未知噪声参数。
- Not All Frame Features Are Equal: Video-to-4D Generation via Decoupling Dynamic-Static Features
-
DS4D 首次提出在video-to-4D生成中沿时间轴和空间轴解耦动静态特征,通过动静态特征解耦模块(DSFD)获取动态表征,并通过时空相似性融合模块(TSSF)跨视角自适应聚合动态信息,在Consistent4D和Objaverse数据集上达到SOTA。
- OccluGaussian: Occlusion-Aware Gaussian Splatting for Large Scene Reconstruction and Rendering
-
提出遮挡感知的场景划分策略和基于区域的渲染技术,通过相机共可见性图聚类实现与场景布局对齐的分区,显著提升大场景3DGS重建质量和渲染速度。
- One Look is Enough: Seamless Patchwise Refinement for Zero-Shot Monocular Depth Estimation on High-Resolution Images
-
提出 PRO(Patch Refine Once),通过分组块一致性训练(GPCT)和无偏遮罩(BFM)策略,在高分辨率图像上实现无缝的逐块深度精炼,仅需每块单次精炼即可消除边界伪影,推理速度比 PatchRefiner 快12倍。
- Online Language Splatting
-
首个在 3DGS-SLAM 系统中实现在线、近实时、开放词汇语言建图的框架,通过高分辨率 CLIP 嵌入、两阶段在线自编码器压缩和颜色-语言解耦优化三项创新,在精度超越离线 SOTA 的同时实现 40×–200× 的效率提升。
- Open-Vocabulary Octree-Graph for 3D Scene Understanding
-
提出 Octree-Graph,一种将自适应八叉树与图结构结合的新颖场景表示,通过时序分组式段合并(CGSM)和实例特征聚合(IFA)获取准确的语义对象,实现高效的开放词汇3D场景理解。
- Outdoor Monocular SLAM with Global Scale-Consistent 3D Gaussian Pointmaps
-
提出 S3PO-GS,通过将 3DGS 渲染的 pointmap 作为锚点建立尺度自一致的跟踪模块,结合基于 patch 的 pointmap 动态建图机制,在 RGB-only 室外场景中实现了无累积尺度漂移的高精度定位与高保真新视角合成。
- PanSt3R: Multi-view Consistent Panoptic Segmentation
-
基于MUSt3R构建PanSt3R,在单次前向传播中同时完成3D重建和多视角全景分割,无需相机参数、无需测试时优化,比现有方法快数个量级。
- PCR-GS: COLMAP-Free 3D Gaussian Splatting via Pose Co-Regularizations
-
提出 PCR-GS,通过 DINO 特征重投影正则化和基于小波变换的频率正则化对相机位姿进行协同约束,在无需 COLMAP 先验的条件下实现了复杂相机轨迹场景的高质量 3D-GS 重建与位姿估计。
- PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes
-
提出语言引导的真实3D场景中物体放置任务(PlaceIt3D),包含基准测试、大规模数据集和基于3D LLM的基线方法PlaceWizard,实现对场景、物体和语言指令的联合推理。
- PLMP -- Point-Line Minimal Problems for Projective SfM
-
对射影 SfM 中所有点-线最小问题进行了完整分类,发现了 291 个最小问题(其中 73 个有唯一解可线性求解),并通过稳定子群分析发展了系统化的问题分解与非最小性证明方法。
- PolarAnything: Diffusion-based Polarimetric Image Synthesis
-
提出 PolarAnything,首个基于单张 RGB 图像生成偏振图像的扩散模型框架,通过对编码后的 AoLP 和 DoLP 进行去噪扩散,实现了物理准确且逼真的偏振属性合成,无需 3D 资产或偏振相机。
- Predict-Optimize-Distill: A Self-Improving Cycle for 4D Object Understanding
-
提出 Predict-Optimize-Distill (POD) 框架,通过预测-优化-蒸馏的自改进循环,从单目长视频中恢复铰接物体的4D部件姿态,性能随视频长度和迭代次数持续提升。
- Proactive Scene Decomposition and Reconstruction
-
提出基于主动人-物交互的在线场景分解与重建任务,通过观察自我中心视角下的交互行为来定义分解粒度,实现渐进式对象解耦和高质量全局重建。
- PseudoMapTrainer: Learning Online Mapping without HD Maps
-
提出 PseudoMapTrainer,首次实现完全不依赖 GT HD Map 训练在线建图模型:利用 2D Gaussian Splatting(RoGS)从多视角相机图像重建道路表面并结合预训练语义分割(Mask2Former)生成矢量化伪标签,同时设计 mask-aware 匹配算法与损失函数处理部分遮挡的伪标签,支持单次行程和多次行程(众包数据)两种模式。
- Radiant Foam: Real-Time Differentiable Ray Tracing
-
提出 Radiant Foam,一种基于体积网格(tetrahedral mesh)光线追踪的新型可微场景表示,在不依赖光栅化的前提下达到了与 Gaussian Splatting 相当的渲染速度和质量,同时天然支持反射、折射等光传输现象。
- RapVerse: Coherent Vocals and Whole-Body Motion Generation from Text
-
构建大规模说唱数据集 RapVerse 并提出统一自回归变换器框架,首次实现从歌词文本同时生成连贯的歌声和全身3D运动。
- RayletDF: Raylet Distance Fields for Generalizable 3D Surface Reconstruction from Point Clouds or Gaussians
-
提出 RayletDF,一种基于"raylet"(光线片段)距离场的泛化3D表面重建方法,通过raylet特征提取器、距离场预测器和多raylet混合器三个模块,从点云或3D高斯直接预测表面点,在未见数据集上实现单次前向传播的高精度跨数据集泛化。
- RayZer: A Self-supervised Large View Synthesis Model
-
提出 RayZer,一个无需任何3D监督(无相机位姿/无场景几何标注)的自监督多视角3D视觉模型,通过将图像解耦为相机参数和场景表示实现3D感知自编码,在新视角合成任务上达到甚至超越依赖位姿标注的"oracle"方法。
- RegGS: Unposed Sparse Views Gaussian Splatting with 3DGS Registration
-
提出 RegGS 框架,通过基于最优传输 MW2 距离的可微 3DGS 配准模块,将前馈网络生成的局部3D高斯增量式地对齐到全局一致的3D表示中,实现无位姿稀疏视角的高质量3D重建。
- Relative Illumination Fields: Learning Medium and Light Independent Underwater Scenes
-
提出相对光照场(Relative Illumination Fields),通过在相机局部坐标系中用MLP建模非均匀光照分布,结合体积介质表示,实现对水下场景的干净重建——去除光源和介质的影响。
- REPARO: Compositional 3D Assets Generation with Differentiable 3D Layout Alignment
-
提出REPARO,通过先分别重建单个物体3D网格再利用基于最优传输的可微渲染进行布局对齐,实现从单张图像生成多物体组合式3D资产。
- RePoseD: Efficient Relative Pose Estimation with Known Depth Information
-
本文提出了一组高效的相对位姿最小求解器,将单目深度估计(MDE)的尺度和仿射参数与相对位姿联合估计,在标定/共焦距/不同焦距三种配置下均超越SOTA深度感知求解器,并通过大规模实验回答了"MDE深度是否有助于相对位姿估计"这一核心问题。
- Representing 3D Shapes with 64 Latent Vectors for 3D Diffusion Models
-
提出COD-VAE,通过两阶段自编码器方案(渐进式编码器 + Triplane解码器 + 不确定性引导Token剪枝),将3D形状编码为仅64个1D潜在向量,在保持重建质量的同时实现16×压缩比和20.8×生成加速。
- Repurposing 2D Diffusion Models with Gaussian Atlas for 3D Generation
-
提出 Gaussian Atlas 表示法,将无序3D高斯通过最优传输映射到球面再展平为规整2D网格,从而直接微调预训练2D Latent Diffusion模型实现高质量文本到3D生成。
- ResGS: Residual Densification of 3D Gaussian for Efficient Detail Recovery
-
提出残差分裂(residual split)操作替代3D-GS中split/clone的二元选择机制,配合图像金字塔渐进监督和可变梯度阈值选择策略,自适应地同时解决过重建和欠重建问题,在减少高斯数量的同时实现SOTA渲染质量。
- Revisiting Point Cloud Completion: Are We Ready For The Real-World?
-
通过代数拓扑和持久同调(PH)工具揭示现有合成点云数据集缺乏真实世界中丰富的拓扑特征,贡献了首个真实世界工业点云补全数据集RealPC(~40,000对、21类),并提出BOSHNet通过采样代理同调骨架作为拓扑先验,在真实世界点云补全上取得显著改进。
- RI3D: Few-Shot Gaussian Splatting With Repair and Inpainting Diffusion Priors
-
提出 RI3D,将稀疏视图合成分解为"修复可见区域"和"补全缺失区域"两个子任务,引入两个个性化扩散模型(repair + inpainting)配合两阶段优化策略,在极端稀疏输入下实现高质量 3DGS 重建。
- RoboPearls: Editable Video Simulation for Robot Manipulation
-
提出 RoboPearls,基于 3D 高斯溅射(3DGS)构建的可编辑视频仿真框架,从演示视频中构建照片级真实感仿真环境,通过增量语义蒸馏(ISD)和3D正则化NNFM损失支持丰富的场景编辑操作,并利用 LLM 智能体自动化仿真生成流程,形成以 VLM 闭环驱动的机器人学习增强系统。
- RoboTron-Mani: All-in-One Multimodal Large Model for Robotic Manipulation
-
提出多模态机器人操作模型 RoboTron-Mani 和综合数据集 RoboData,通过相机参数与占用监督增强3D感知、Modality-Isolation-Mask 实现灵活多模态融合,首次作为通才策略在多个数据集上同时超越专家模型。
- Robust and Efficient 3D Gaussian Splatting for Urban Scene Reconstruction
-
提出一套面向城市级场景的高效鲁棒3DGS重建框架——通过可见性分区策略、可控LOD生成、细粒度外观变换模块及多种正则化技术,实现了在外观差异大、含瞬态物体的城市数据上高质量重建与实时渲染。
- RobuSTereo: Robust Zero-Shot Stereo Matching under Adverse Weather
-
提出 RobuSTereo 框架,通过基于扩散模型的立体数据生成管线和结合去噪 ViT 与 VGG19 的鲁棒特征编码器,大幅提升立体匹配模型在雨、雾、雪等恶劣天气下的零样本泛化能力。
- RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS
-
本文发现 3DGS 的高斯致密化过程是导致瞬态物体伪影的关键因素,提出延迟高斯生长策略和尺度级联掩码自举方法来解耦致密化与动态区域建模,在多个基准数据集上实现了最优的无瞬态新视角合成效果。
- RoCo-Sim: Enhancing Roadside Collaborative Perception through Foreground Simulation
-
提出 RoCo-Sim,首个路侧协同感知仿真框架,通过外参优化、遮挡感知3D资产放置、DepthSAM深度建模和风格迁移后处理,从单张图像生成多视图一致的仿真数据,大幅(83%+)提升路侧 3D 检测性能。
- Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness
-
Ross3D 提出将3D感知的视觉重建预训练任务(跨视图重建 + 全局BEV重建)注入2D大型多模态模型的训练流程中,在不修改输入表示的前提下通过输出级监督信号显著提升3D场景理解能力,在SQA3D、ScanQA、Scan2Cap、ScanRefer、Multi3DRefer五个基准上均达到SOTA。
- S3E: Self-Supervised State Estimation for Radar-Inertial System
-
提出S3E,首次实现从雷达信号频谱和惯性数据的互补自监督状态估计,通过基于旋转的跨融合技术增强有限角分辨率下的空间结构信息。
- S3R-GS: Streamlining the Pipeline for Large-Scale Street Scene Reconstruction
-
S3R-GS 通过识别传统街景重建管线中的三大计算冗余(不必要的局部-全局坐标变换、过多的3D-2D投影、低效的远距离内容渲染),提出实例特定投影、时序可见性过滤和自适应LOD策略,将重建时间降至竞争方法的20%-50%,同时保持SOTA渲染质量。
- SAS: Segment Any 3D Scene with Integrated 2D Priors
-
提出 SAS 框架,首次整合多个 2D 开放词汇模型的互补能力来学习更好的 3D 表示:通过 Model Alignment via Text 对齐不同模型的特征空间,通过 Annotation-Free Model Capability Construction 利用扩散模型合成图像来量化各模型识别不同类别的能力,以此指导多模型特征融合和 3D 蒸馏,在 ScanNet v2/Matterport3D/nuScenes 上大幅超越前作。
- Sat2City: 3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
-
提出 Sat2City,首个从单张卫星图像同时生成城市级几何和外观的3D生成框架,通过将稀疏体素与级联潜扩散模型结合,引入 Re-Hash 多尺度特征网格和逆采样策略,在自建3D城市数据集上实现了优于现有方法的高保真生成。
- Scene Coordinate Reconstruction Priors
-
提出场景坐标回归(SCR)的概率化训练框架,引入手工设计的深度分布先验和基于3D点云扩散模型的学习先验,在多视角约束不足时显著改善场景重建质量、相机位姿估计和下游任务表现。
- SceneMI: Motion In-betweening for Modeling Human-Scene Interactions
-
首次正式研究场景感知运动插值(scene-aware motion in-betweening)问题,提出 SceneMI 框架,通过双层场景描述符(全局体素 + 局部 BPS)全面编码场景上下文,利用扩散模型的去噪特性处理含噪关键帧,在 TRUMANS 上碰撞帧率降低 56.9%,在真实世界 GIMO 上脚部滑动减少 37.5%、抖动减少 56.5%。
- Seeing and Seeing Through the Glass: Real and Synthetic Data for Multi-Layer Depth Estimation
-
提出多层深度估计(multi-layer depth estimation)新任务,构建了包含1500张真实图像的LayeredDepth基准和程序化合成数据生成器,揭示了现有深度估计方法在透明物体上的严重不足。
- SegmentDreamer: Towards High-Fidelity Text-to-3D Synthesis with Segmented Consistency Trajectory Distillation
-
本文提出SegmentDreamer,通过分段一致性轨迹蒸馏(SCTD)重新表述SDS损失,解决了现有一致性蒸馏(CD)方法中自一致性和交叉一致性之间的不平衡问题,在单张A100 GPU上仅需~32分钟即可通过3DGS生成高保真3D资产。
- SeHDR: Single-Exposure HDR Novel View Synthesis via 3D Gaussian Bracketing
-
提出 SeHDR,首个从单曝光多视角 LDR 图像合成 HDR 新视角的框架,通过在 3D 高斯空间中生成包围曝光(Bracketed 3D Gaussians)并用可微神经曝光融合(NeEF)合并为 HDR 场景表示。
- Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis
-
SE-GS 通过不确定性感知扰动策略在训练过程中动态生成多样化的 3DGS 模型,并利用自集成机制使 Σ-model 聚合扰动模型的信息,有效缓解稀疏视角下的过拟合问题,在多个数据集上实现 SOTA 的少样本新视角合成性能。
- Sequential Gaussian Avatars with Hierarchical Motion Context
-
提出 SeqAvatar,利用显式3DGS表示结合层次化运动上下文(粗粒度骨骼运动 + 细粒度逐点速度)建模人体化身的运动相关外观变化,并通过时空多尺度采样增强运动条件的鲁棒性,在多个数据集上取得SOTA渲染质量同时保持实时渲染速度。
- Shape of Motion: 4D Reconstruction from a Single Video
-
提出基于 \(\mathbb{SE}(3)\) 运动基的动态 3D 高斯表示,从单目视频中恢复全局一致的 3D 运动轨迹,同时实现实时新视角合成和长程 3D 跟踪,在 iPhone 和 Kubric 数据集上全面超越先前方法。
- SHeaP: Self-Supervised Head Geometry Predictor Learned via 2D Gaussians
-
提出SHeaP,利用2D Gaussian Splatting替代传统可微mesh渲染进行自监督3DMM预测训练,通过将Gaussians绑定到3DMM mesh上实现重动画,并设计graph卷积Gaussians生成器和几何一致性正则化,在NoW和Nersemble基准上超越所有自监督方法。
- SiM3D: Single-Instance Multiview Multimodal and Multisetup 3D Anomaly Detection Benchmark
-
提出 SiM3D,首个面向多视角多模态3D异常检测与分割的基准,聚焦工业制造中的单实例场景,通过工业级传感器采集高分辨率数据,使用体素化异常体积(Anomaly Volume)替代2D异常图,并首次支持合成到真实的跨域评估。
- Simulating Dual-Pixel Images From Ray Tracing For Depth Estimation
-
Sdirt 提出基于光线追踪的双像素(DP)图像模拟方案,通过精确计算包含像差和相位分裂信息的空间变化 DP PSF,弥合仿真与真实 DP 数据之间的域间差距,使深度估计模型在真实 DP 图像上具有更好的泛化能力。
- Single-Scanline Relative Pose Estimation for Rolling Shutter Cameras
-
本文提出了一种不需要显式建模相机运动的卷帘快门相对位姿估计方法,仅利用每张图像一条扫描线与直线投影的交点信息来恢复位姿,并为平行线和已知重力方向等特殊场景开发了多种最小求解器。
- SL2A-INR: Single-Layer Learnable Activation for Implicit Neural Representation
-
提出SL2A-INR,通过单层基于Chebyshev多项式的可学习激活函数块与ReLU-MLP融合块的混合架构,有效缓解隐式神经表示中的频谱偏差问题,在图像拟合、3D形状重建和新视角合成任务上达到SOTA。
- Sparfels: Fast Reconstruction from Sparse Unposed Imagery
-
提出Sparfels方法,将3D基础模型(MASt3R)与高效的测试时优化(2DGS)相结合,通过MASt3R提供初始化点云/相机和对应关系引导优化,并创新性地引入泼溅色彩方差损失,在3分钟内从稀疏无位姿图像实现SOTA几何重建。
- Spatial-Temporal Aware Visuomotor Diffusion Policy Learning
-
提出 4D Diffusion Policy(DP4),通过动态高斯世界模型为扩散策略注入3D空间和4D时空感知能力,在17个仿真任务和3个真实机器人任务上大幅超越基线(Adroit +16.4%, DexArt +14%, RLBench +6.45%, 真实任务 +8.6%)。
- SpatialSplat: Efficient Semantic 3D from Sparse Unposed Images
-
提出SpatialSplat,通过双场语义表示和选择性Gaussian机制,从稀疏无位姿图像前馈生成紧凑的语义3D Gaussian,将表示参数量减少60%同时超越SOTA方法。
- SpinMeRound: Consistent Multi-View Identity Generation Using Diffusion Models
-
提出 SpinMeRound,一种基于身份嵌入的多视角扩散模型,能从单张或少量人脸图像生成 360° 全头部一致性肖像及对应法线图,在人脸新视角合成任务上超越现有多视角扩散方法。
- SplatTalk: 3D VQA with Gaussian Splatting
-
提出SplatTalk,利用可泛化的3D Gaussian Splatting框架生成与LLM兼容的3D token,仅需多视角RGB图像即可实现零样本3D视觉问答,性能超越2D LMM方法并接近3D LMM。
- Stable Score Distillation
-
提出 Stable Score Distillation (SSD),通过单分类器跨提示词引导和 null-text 分支的跨轨迹正则化,实现更稳定精准的文本引导 2D/3D 编辑,在保持源内容结构的同时提升编辑对齐度。
- StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions
-
首次针对3D高斯泼溅(3DGS)提出密度引导的投毒攻击方法,通过在低密度区域注入幻觉物体的高斯点并引入自适应噪声破坏多视角一致性,实现从目标视角清晰可见而不干扰其余视角的隐蔽攻击。
- Stereo Any Video: Temporally Consistent Stereo Matching
-
提出Stereo Any Video框架,通过融合单目视频深度基础模型先验(Video Depth Anything)、全对全配对相关(all-to-all-pair correlation)和时序凸上采样(temporal convex upsampling)三大核心模块,在不依赖相机位姿或光流的前提下实现空间精确且时序一致的视频立体匹配,在多个数据集零样本设定下达到SOTA。
- StochasticSplats: Stochastic Rasterization for Sorting-Free 3D Gaussian Splatting
-
StochasticSplats 将随机透明度(Stochastic Transparency)引入 3DGS,通过无偏 Monte Carlo 估计替代深度排序的 alpha 混合,实现免排序、无 popping 的渲染,在 1 SPP 下比标准 CUDA 3DGS 快 4×,并可通过采样数灵活权衡质量与速度。
- StrandHead: Text to Hair-Disentangled 3D Head Avatars Using Human-Centric Priors
-
提出 StrandHead,首个通过蒸馏人体特定2D扩散模型来生成发丝级3D头部化身的框架,提出可微棱柱化算法实现发丝到水密网格的转换和梯度反传,并设计基于统计发丝几何先验的正则化损失保证发型的真实性。
- StruMamba3D: Exploring Structural Mamba for Self-supervised Point Cloud Representation Learning
-
提出 StruMamba3D,通过为 SSM 的隐含状态赋予空间位置属性(空间状态)来维护 3D 点的邻接关系,并引入序列长度自适应策略解决预训练与下游任务之间的序列长度差异问题,在 ScanObjectNN 最难分割上达到 92.75% 准确率,ModelNet40 达到 95.1%,均为单模态 SOTA。
- SuperDec: 3D Scene Decomposition with Superquadric Primitives
-
提出SuperDec,基于Transformer的学习方法将点云分解为紧凑的超二次曲面基元集合,在ShapeNet上训练即可泛化到真实场景,支持机器人操作和可控生成。
- SuperMat: Physically Consistent PBR Material Estimation at Interactive Rates
-
提出SuperMat,一个单步推理的PBR材质分解框架,通过结构化专家分支和调度器修正实现端到端训练,引入re-render loss确保物理一致性,将推理速度从秒级提升至毫秒级。
- SurfaceSplat: Connecting Surface Reconstruction and Gaussian Splatting
-
SurfaceSplat 提出了一种混合方法,将 SDF(有符号距离函数)和 3D 高斯溅射(3DGS)双向连接:SDF 提供粗糙几何来增强 3DGS 的渲染质量,而 3DGS 渲染的新视角图像反过来用于细化 SDF 的表面重建精度,在 DTU 和 MobileBrick 数据集上同时超越了表面重建和新视角合成的 SOTA。
- SVG-Head: Hybrid Surface-Volumetric Gaussians for High-Fidelity Head Reconstruction and Real-Time Editing
-
提出SVG-Head,通过表面高斯(显式纹理图)和体积高斯(非朗伯区域补充建模)的混合表示,首次实现高保真高斯头部化身的实时外观编辑。
- TAPNext: Tracking Any Point (TAP) as Next Token Prediction
-
TAPNext 将视频中任意点跟踪(TAP)问题重新建模为序列化的掩码 token 解码任务,去除了传统跟踪方法中的各种特定归纳偏置和启发式规则,实现了因果式在线跟踪,在 online 和 offline 跟踪器中均达到新的 SOTA,同时推理延迟极低。
- TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction
-
提出TAR3D框架——首次将三平面表示量化为离散几何部件并用GPT自回归生成,通过3D VQ-VAE编码任意面数网格为固定长度序列+TriPE位置编码保留3D空间信息,在文本/图像→3D任务上全面超越现有方法。
- Text2VDM: Text to Vector Displacement Maps for Expressive and Interactive 3D Sculpting
-
提出Text2VDM,首个从文本生成VDM雕刻笔刷的框架,通过Sobolev预条件网格变形和语义增强SDS损失解决子对象结构生成中的语义耦合问题。
- Textured 3D Regenerative Morphing with 3D Diffusion Prior
-
提出基于3D扩散先验的再生式3D morphing方法,通过在初始噪声、模型参数和条件特征三个层级进行插值,结合Attention Fusion、Token Reordering和Low-Frequency Enhancement三种策略,首次实现了跨类别纹理3D物体的平滑、合理变形序列生成。
- TimeFormer: Capturing Temporal Relationships of Deformable 3D Gaussians for Robust Reconstruction
-
提出TimeFormer模块,通过跨时间Transformer编码器隐式学习可变形3D Gaussian的时序关系,并设计双流优化策略在训练时迁移运动知识,推理时无额外开销。
- TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation
-
提出 TokenUnify,通过统一随机 token 预测、下一 token 预测和下一全部 token 预测三种互补学习目标,在大规模电子显微镜数据上实现层次化预测编码,将自回归误差累积从 O(K) 降至 O(√K),下游神经元分割提升 44%。
- Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views
-
提出Point-PQAE,首个将跨视图重建(Cross Reconstruction)引入3D生成式自监督学习的框架,通过点云裁剪机制生成解耦视图、设计视图相对位置编码(VRPE)和位置查询模块,使预训练更具挑战性和信息量,在ScanObjectNN上以Mlp-Linear协议平均超越Point-MAE 6.7%。
- Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting
-
提出一个可扩展的数据生成管线,通过集成深度估计、相机标定和尺度校准,将单视图2D图像自动转换为包含点云、相机位姿、深度图的尺度真实3D表示,生成了约200万场景的COCO-3D和Objects365-v2-3D数据集,显著提升多种3D任务性能。
- Trace3D: Consistent Segmentation Lifting via Gaussian Instance Tracing
-
提出Gaussian Instance Tracing (GIT)机制,通过反向光栅化为每个高斯核维护跨视角的实例权重矩阵,统一解决2D分割多视角不一致和边界高斯模糊两大问题,在离线对比学习和在线自提示两种设定下均显著提升3D分割质量。
- TRACE: Learning 3D Gaussian Physical Dynamics from Multi-view Videos
-
提出TRACE框架,将每个3D高斯核视为刚性粒子并为其学习独立的平移-旋转动力学系统(包含速度、加速度、角速度、角加速度等完整物理参数),无需任何人工标注即可从多视角动态视频中学习3D场景的物理运动规律并准确外推未来帧。
- Tune-Your-Style: Intensity-Tunable 3D Style Transfer with Gaussian Splatting
-
提出 Tune-Your-Style,首个强度可调的 3D 风格迁移范式,通过 Gaussian 神经元显式建模风格强度并参数化可学习 style tuner,配合两阶段优化策略,实现用户自由调节风格注入的程度。
- TurboReg: TurboClique for Robust and Efficient Point Cloud Registration
-
提出 TurboReg 框架,通过定义轻量级 3-clique(TurboClique)替代传统最大团搜索,并设计高度可并行的 Pivot-Guided Search(PGS)算法,在保持SOTA配准精度的同时将速度提升 208× 以上。
- UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation
-
提出 UniEgoMotion,首个统一的自中心运动模型,通过条件运动扩散框架和头部中心运动表示,在单一模型中实现自中心视角下的3D人体运动重建、预测和生成三项任务,并发布大规模EE4D-Motion数据集。
- Unified Category-Level Object Detection and Pose Estimation from RGB Images using 3D Prototypes
-
首次提出将物体检测与类别级位姿估计统一到单一模型的 RGB-only 框架,利用 Neural Mesh Models 作为3D原型表示,通过特征匹配和多模型 RANSAC PnP 同时实现检测和 9D 位姿估计,在 REAL275 上所有 scale-agnostic 指标均超越 SOTA。
- UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing
-
提出UniVG,基于MM-DiT的统一图像生成模型,通过通道维拼接输入、渐进式多任务训练和外部条件注入,用单套权重支持T2I生成、编辑、ID保持、布局引导、深度估计等多种任务。
- Unleashing Vecset Diffusion Model for Fast Shape Generation (FlashVDM)
-
FlashVDM 提出系统性框架加速 Vecset Diffusion Model(VDM)的 DiT 采样和 VAE 解码:通过渐进式流蒸馏将扩散步骤降至 5 步,通过自适应 KV 选择 + 层次体素解码 + 高效解码器将 VAE 解码加速 45×,整体实现 32× 加速至 1 秒内生成高质量 3D 形状。
- UPP: Unified Point-Level Prompting for Robust Point Cloud Analysis
-
提出统一点级提示方法UPP,将点云去噪和补全重新定义为下游任务的提示机制,通过Rectification Prompter过滤噪声、Completion Prompter补全缺失、Shape-Aware Unit捕获几何特征,在噪声和不完整点云上以6.3%参数实现超越全量微调的鲁棒分析。
- UST-SSM: Unified Spatio-Temporal State Space Models for Point Cloud Video Modeling
-
提出UST-SSM,通过时空选择扫描(STSS)、时空结构聚合(STSA)和时序交互采样(TIS)三个核心模块,将选择性状态空间模型扩展到点云视频分析,以线性复杂度实现优于Transformer的性能。
- VertexRegen: Mesh Generation with Continuous Level of Detail
-
提出VertexRegen,受渐进网格启发将网格生成重新定义为边折叠(edge collapse)的逆操作——顶点分裂(vertex split)的学习,实现连续细节层级的"随时停止"网格生成。
- ViT-Split: Unleashing the Power of Vision Foundation Models via Efficient Splitting Heads
-
基于"VFM 层可分为低层特征提取器和高层任务适配器"的关键观察,提出 ViT-Split,通过冻结 VFM + task head(复制最后 \(K_t\) 层)+ prior head(轻量 CNN 聚合多尺度先验特征)的设计,在 ADE20K 上仅用线性头即达到 58.2 mIoU(DINOv2-L),训练速度提升 4 倍,可训练参数仅为传统适配器的 1/4~1/5。
- Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting
-
本文提出Vivid4D,将单目视频的多视角增广任务转化为视频修复(inpainting)问题——先用单目深度先验将视频warp到新视角,再用视频扩散模型修复遮挡区域,通过迭代视角扩展策略和鲁棒重建损失显著改善了单目4D动态场景的重建质量。
- VoluMe: Authentic 3D Video Calls from Live Gaussian Splat Prediction
-
微软提出首个从单目2D摄像头实时预测3D高斯泼溅重建的方法,实现真实感、保真性、实时性和时序稳定性四项要求的统一,使任何人仅用标准笔记本摄像头即可进行体积3D视频通话。
- VolumetricSMPL: A Neural Volumetric Body Model for Efficient Interactions, Contacts, and Collisions
-
提出 VolumetricSMPL,一种基于 Neural Blend Weights(NBW)的高效神经体积人体模型,相比前代 COAP 实现 10× 推理加速、6× 显存节省,并通过 SDF(而非占据函数)表示提供更精确的可微碰撞建模。
- WonderPlay: Dynamic 3D Scene Generation from a Single Image and Actions
-
WonderPlay 提出混合生成模拟器(Hybrid Generative Simulator),将物理求解器的粗糙3D动态仿真与视频扩散模型的高质量生成相结合,实现从单张图像加用户动作输入生成逼真多材质动态3D场景,支持刚体、布料、液体、烟雾、颗粒等多种材质。
- WonderTurbo: Generating Interactive 3D World in 0.72 Seconds
-
WonderTurbo 提出首个实时交互式3D场景生成框架,通过 StepSplat(前馈式3DGS)、QuickDepth(轻量深度补全)和 FastPaint(2步扩散修复)三个模块协同加速,将单次场景扩展时间从 10+ 秒压缩到 0.72 秒,实现 15 倍加速的同时保持了与 WonderWorld 相当的生成质量。
- Zero-Shot Inexact CAD Model Alignment from a Single Image
-
提出一种弱监督的9-DoF CAD模型对齐方法,通过增强DINOv2特征的几何感知能力并在归一化物体坐标(NOC)空间进行稠密对齐优化,实现无需位姿标注、可泛化到未见类别的零样本3D对齐。
- ZeroStereo: Zero-shot Stereo Matching from Single Images
-
提出 ZeroStereo 管线:从任意单张图像出发,利用单目深度估计生成伪视差,再用微调的扩散修复模型合成高质量右视图,实现只需 35K 合成数据即达到 SOTA 零样本立体匹配泛化性能。