跳转至

🧊 3D 视觉

🔬 ICLR2026 · 194 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (751) · 🧪 ICML2026 (30) · 🤖 AAAI2026 (79) · 🧠 NeurIPS2025 (116) · 📹 ICCV2025 (267) · 🧪 ICML2025 (17)

🔥 高频主题: 3D 高斯渲染 ×37 · 三维重建 ×15 · 动态场景 ×14 · 点云 ×10 · 新视角合成 ×8

3DGEER: 3D Gaussian Rendering Made Exact and Efficient for Generic Cameras

提出 3DGEER 框架,通过推导沿光线积分高斯密度的闭式解、设计粒子包围截锥体 (PBF) 进行精确高效的光线-粒子关联、以及引入双极等角投影 (BEAP) 统一宽视场相机表示,在任意相机模型下实现了几何精确且实时高效的 3D 高斯渲染,在鱼眼和针孔数据集上全面超越现有方法。

3DSMT: A Hybrid Spiking Mamba-Transformer for Point Cloud Analysis

3DSMT 把脉冲神经网络(SNN)的事件驱动低功耗特性,与 Transformer 的局部建模、Mamba 的线性复杂度全局建模拧成一个混合架构,用「脉冲局部偏移注意力 + 脉冲 Mamba 块」在分类、少样本、分割任务上拿下 SNN 方法的 SOTA,能耗只有 ANN 同行的几十分之一,还反超了不少 ANN 模型。

A²TG: Adaptive Anisotropic Textured Gaussians for Efficient 3D Scene Representation

A²TG 给每个 2D 高斯配一张分辨率和长宽比都自适应的「各向异性纹理」,用梯度驱动的选择 + 升采样规则把纹理参数只花在真正需要高频细节的高斯上,从而在相同显存预算下比固定方形纹理的高斯泼溅画质更高、显存更省。

A Scene is Worth a Thousand Features: Feed-Forward Camera Localization from a Collection of Image Features

FastForward 把"建图"压缩成一次特征提取:用一组从带位姿建图图像中随机采样、并锚定在 3D 空间的特征当作场景地图,再用一个 DUSt3R 风格的前馈网络一次性预测查询图像的 3D 坐标并解算位姿,做到几秒建图 + 0.5 秒定位的同时,精度追平甚至超越需要几分钟到几小时建图的 SCR / 结构化方法。

A Step to Decouple Optimization in 3DGS

深入分析 3DGS 优化中被忽视的更新步耦合(不可见视点下的隐式更新和动量重缩放)和梯度耦合(正则化与光度损失在 Adam 动量中的耦合),通过解耦和重组提出 AdamW-GS 优化器,在不引入额外剪枝操作的情况下同时提升重建质量和减少冗余原语。

Active Learning of 3D Gaussian Splatting with Consistent Region Partition and Robust Pose Estimation

本文给 3D Gaussian Splatting 设计了一套在线主动学习算法:边训练边告诉用户"下一张该从哪个角度拍",通过可见性特征聚类把模型切成一致区域、用语义特征方差找出最欠重建的区域、再用 von Mises-Fisher 分布直接生成下一最佳位姿,并配一套鲁棒位姿优化来吃掉手持拍摄带来的位姿噪声,在 NeRF-Synthetic 上以 10/20 张图的少视角设定超过 FisherRF 等 SOTA。

Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation

把多视角新视角合成重新表述为"图像 + 几何"的双分支扩散修复任务,并用 MoAI(cross-Modal Attention Instillation) 把图像分支的注意力图注入几何分支,从无位姿参考图直接生成对齐的新视角图像与点云,在外推视角下达到 SOTA。

All That Glitters Is Not Gold: Key-Secured 3D Secrets within 3D Gaussian Splatting

KeySS 把"在一个 3DGS 封面场景里藏多个 3DGS 秘密场景"做成端到端可训练框架:用 CLIP 编码的密钥控制一个解码器把封面高斯直接变换成秘密高斯,错误密钥只会还原封面;同时发现高斯的不同属性对藏秘贡献并不相等(不透明度有用、球谐几乎无用),并提出 3D-Sinkhorn 距离在高斯参数空间里度量隐写隐蔽性,最终在重建保真度与抗检测安全性上都超过 GS-Hider。

Anime-Ready: Controllable 3D Anime Character Generation with Body-Aligned Component-Wise Garment Modeling

Anime-Ready 把文本或单图先规范到 A-pose 动漫角色图,再用 Anime-SMPL、身体对齐的部件式服饰 DiT 和分组件纹理生成,把 3D 动漫角色从“看起来像”推进到带骨骼、可换装、可表情控制的动画可用资产。

ARTDECO:用分层高斯结构 + 前馈先验做高保真在线 3D 重建

ARTDECO 把前馈 3D 基础模型(MASt3R / π³)当作模块化的位姿与点云先验,接上一个能从多尺度特征解码出结构化高斯的 Gaussian decoder,再配上带 LoD 的分层半隐式高斯表示,从单目视频流里同时拿到 SLAM 级速度、前馈级鲁棒性和接近逐场景优化的渲染质量。

ArtUV: Artist-style UV Unwrapping

ArtUV 把"专业美术师手工拆 UV"这件事自动化成端到端两阶段流程——先用 SeamGPT 预测语义切缝、再用一个图卷积+金字塔自编码器把传统软件拆出的"粗糙 UV"回归成偏移量、调成整洁低畸变的艺术家风格 UV 图,在畸变、利用率、速度上都超过 Blender/Maya 乃至人工手拆。

AssetFormer: Modular 3D Assets Generation with Autoregressive Transformer

提出 AssetFormer,基于 Llama 架构的自回归 Transformer,将模块化 3D 资产(由 primitive 序列组成)建模为离散 token 序列,通过 DFS/BFS 图遍历重排序和联合词汇表解码实现从文本描述生成可直接用于游戏引擎的模块化 3D 资产。

Augmented Radiance Field: A General Framework for Enhanced Gaussian Splatting

提出增强辐射场 (Augmented Radiance Field) 框架,通过设计具有视角相关不透明度的增强高斯核来显式建模高光分量,并引入误差驱动的补偿策略(2D 高斯初始化 → 逆投影至 3D → 联合优化),作为后处理即插即用地增强现有 3DGS 场景,在多个数据集上超越 SOTA NeRF 方法,同时仅需二阶球谐即可捕获复杂光照。

BigMaQ: A Big Macaque Motion and Animation Dataset Bridging Image and 3D Pose Representations

BigMaQ 用 16 路标定相机对真实猕猴做无标记多视角动捕,把"个体专属带纹理 3D 表面网格 + 逐帧关节旋转姿态"和"民族行为学动作标签"绑在一起,构成首个面向非人灵长类、能把生成式 3D 姿态向量直接喂进动作识别的大规模数据集,并证明加入该姿态描述能稳定抬高各视觉骨干的 mAP。

CHROMA: Consistent Harmonization of Multi-View Appearance via Bilateral Grid Prediction

CHROMA 用一个多视角感知的 Transformer 一次性为整段图像序列预测逐帧 3D 双边网格仿射变换,把因相机 ISP/曝光差异造成的外观不一致前馈式地校正到同一参考帧,从而在不拖慢 3DGS 训练的前提下显著提升新视角合成质量。

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

CLAP 提出首个面向「相机+LiDAR 融合感知」的无监督联合预训练方法:用曲率采样只挑场景里信息量大的点/像素来扛住可微渲染的显存开销,再用可学习原型 + EM 训练把两个模态拉到同一特征空间挖掘互补性,在 NuScenes / Waymo 上比此前 SOTA(UniPAD)多拿一倍的下游提升。

CLoD-GS: Continuous Level-of-Detail via 3D Gaussian Splatting

CLoD-GS 给每个 3D 高斯加一个可学习的"距离衰减因子",让基元的不透明度随观察距离平滑下降,从而在单个模型里实现连续可调的细节层次(CLoD),既消除了传统离散 LoD 的多份存储与切换"跳变",又顺带把基元数量和显存压了下来。

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

CloDS 提出首个从多视角视频中无监督学习布料动力学的框架,通过 Spatial Mapping Gaussian Splatting 建立 2D 图像到 3D 网格的可微映射,结合双位置不透明度调制解决自遮挡问题,使 GNN 在无物理参数监督下就能学到接近全监督水平的布料动力学。

Color3D: Controllable and Consistent 3D Colorization with Personalized Colorizer

Color3D 提出"只上色一张关键视角→微调个性化 colorizer→传播颜色到所有视角和时间步"的范式,将复杂的 3D 上色问题转化为单图上色+颜色传播问题,在静态和动态 3D 场景上都实现了丰富色彩、跨视角一致性和用户可控性的统一。

ComGS: Efficient 3D Object-Scene Composition via Surface Octahedral Probes

ComGS 用"表面八面体探针(SOPs)"把间接光照与遮挡缓存成贴在物体/场景表面的八面体纹理,靠 KNN 插值代替逐次光线追踪,再把复杂场景测光简化为"放置点局部环境图补全",从而以约 26 FPS、36 秒编辑时间完成既和谐又带真实阴影的 3D 物体-场景合成,PSNR 比现有方法高 +1.4 dB。

CompMarkGS: Robust Watermarking for Compressed 3D Gaussian Splatting

针对现有 3DGS 水印在量化压缩后被冲毁的问题,本文把水印嵌进 anchor-based 3DGS 的 anchor feature、再用「量化失真层」在训练时模拟压缩噪声,使水印在 HAC/ContextGS 压缩前后都能保持 ~94% 比特准确率,同时靠频率感知 anchor 生长和 HSV loss 维持渲染质量。

Contact-guided Real2Sim from Monocular Video with Planar Scene Primitives

CRISP 从单目视频中重建"可仿真"的人体动作与场景几何——核心是把点云聚类成约 50 个干净凸的平面基元、并用人-场景接触线索补全被遮挡的支撑面,再用 RL 驱动人形控制器验证物理合理性,把动作跟踪失败率从 55.2% 降到 6.9%(8 倍)。

COOPERTRIM: Adaptive Data Selection for Uncertainty-Aware Cooperative Perception

提出 CooperTrim 自适应特征选择框架,通过共形时序不确定性度量评估特征相关性,并用数据驱动机制动态决定共享数量,在协同语义分割中实现 80.28% 带宽降低且性能可比,首次将选择性共享应用于协同分割任务。

Ctrl&Shift: High-Quality Geometry-Aware Object Manipulation in Visual Generation

提出Ctrl&Shift,一个端到端扩散框架,通过将物体操纵分解为物体移除+参考引导修复,并注入相对相机位姿控制,首次在不依赖显式3D重建的情况下实现几何一致的细粒度物体操纵。

CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

CylinderSplat 用一套"像素分支 + 体素分支"的前馈式 3D 高斯泼溅框架做全景(360°)新视角合成,核心是把传统的笛卡尔三平面换成贴合全景几何与曼哈顿世界假设的柱面三平面,用体素分支去补像素分支补不出的遮挡/稀疏区域,在单视角和多视角全景 NVS 上都取得了 SOTA。

D²GS: Depth-and-Density Guided Gaussian Splatting for Stable and Accurate Sparse-View Reconstruction

D²GS 针对稀疏视图下 3DGS 的「近处过拟合、远处欠拟合」两大失效模式,用「深度+密度引导的 Dropout」抑制近场冗余高斯、用「距离感知保真增强」补强远场监督,并提出基于最优传输的 Inter-Model Robustness 指标量化重建稳定性,在 LLFF / MipNeRF360 上同时刷新画质与鲁棒性。

DA\(^{2}\): Depth Anything in Any Direction

DA2 用一个「透视→全景」数据引擎把约 54 万张透视 RGB-深度对转成全景训练数据(总量提到约 60.7 万),再配上显式注入球面坐标的 SphereViT 骨干,做到端到端、单张 360° 全景直接预测尺度不变距离,在零样本设定下 AbsRel 比最强基线平均提升约 38%,甚至反超此前的 in-domain 方法。

Depth Anything with Any Prior

Prior Depth Anything 用"先粗后细"的两段式流程,把传感器测出来的精确但稀疏的度量深度先验,和单目深度模型预测出来的完整但相对的几何结构融合起来,单个模型零样本统一了深度补全、超分、修复三类任务,在 7 个真实数据集上追平甚至超过各自的专用 SOTA。

DepthLM: Metric Depth from Vision Language Models

DepthLM 证明标准 VLM 不需要 dense prediction head 或专门深度损失,只靠视觉标记、相机内参条件的数据增强和文本式 SFT,就能在像素级 metric depth 上首次接近甚至超过多种专家型纯视觉深度模型。

DiffPBR: Point-Based Rendering via Spatial-Aware Residual Diffusion

DiffPBR 把彩色点云直接渲染成照片级、跨视角一致的图像:先用自适应 CoNo-Splatting 把稀疏点云光栅化成"恰到好处"的初始彩色图与几何感知噪声图,再用空间感知残差扩散(RDDM)只补缺失的高频细节,在三个数据集上 PSNR 比 SOTA 高 3∼5 dB,训练从 41 降到 8 GPU 小时、渲染从 3.6 提到 10 FPS。

DiffTrans: Differentiable Geometry-Materials Decomposition for Reconstructing Transparent Objects

DiffTrans 面向复杂拓扑和内部吸收纹理的透明物体,从多视角图像与 mask 中先初始化几何和环境光,再用可微递归 mesh ray tracer 端到端联合优化几何、折射率和吸收率,在合成与真实场景中取得更好的几何重建和 relighting 效果。

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

提出 DiffWind,一个物理约束的可微分框架,通过将风建模为网格物理场、物体表示为 3D Gaussian Splatting 粒子系统、用 Material Point Method(MPM)建模风-物交互,并引入 Lattice Boltzmann Method(LBM)作为物理约束,实现了从视频中联合重建风力场和物体运动,并支持新风条件下的前向仿真和风力迁移等应用,在自建的 WD-Objects 数据集上显著超越已有动态场景建模方法。

DiMeR: Disentangled Mesh Reconstruction Model with Normal-only Geometry Training

DiMeR 把"从稀疏视图前馈重建网格"拆成两条互不干扰的支路——几何只看法线图、纹理只看 RGB 图,再给几何支路配上精简版 FlexiCubes 提取器和真正的 3D 监督(eikonal + GT SDF + PBR 期望损失),在 GSO / OmniObject3D 上把 Chamfer Distance 降低 30% 以上。

DispViT: Direct Stereo Disparity Regression with a Single-Stream Vision Transformer

DispViT 抛弃立体匹配领域几十年的"构造代价体 + 迭代精修"范式,改用一个单流 ViT 把左右目图像 token 化成同一序列后直接回归视差,靠移位嵌入 tokenizer、非对称初始化、概率化视差参数化和视差感知 RoPE 这几个轻量设计撑起来,在 Scene Flow 等基准上达到 SOTA 精度,且对遮挡、反光、透明等匹配歧义场景明显更鲁棒、更快。

Do 3D Large Language Models Really Understand 3D Spatial Relationships?

作者发现现有 3D 大语言模型(3D-LLM)在 SQA3D 等基准上的高分很大程度是"语言捷径"刷出来的——一个完全不看 3D 输入、只在文本问答对上微调的"盲模型"就能打平甚至超过 SOTA;为此他们构造了更严苛的 Real-3DQA 基准(过滤掉不依赖 3D 就能猜对的题 + 引入视角旋转一致性评测),并提出 3D 重加权微调(3DR-FT)逼模型真正用上 3D 线索。

DreamCS: Geometry-Aware Text-to-3D Generation with Unpaired 3D Reward Supervision

DreamCS 提出第一个直接在 3D 几何上做监督的偏好对齐框架:先用 LLM + 人工标注造出 3 万条非配对 3D 网格偏好数据集 3D-MeshPref,再用 Cauchy-Schwarz 散度训练一个不需要成对样本的几何感知奖励模型 RewardCS,最后通过可微网格化 + 自适应网格融合 + 渐进式奖励引导把它插进 SDS 文本到 3D 管线,显著缓解 Janus 多脸和几何残缺问题。

Dynamic Novel View Synthesis in High Dynamic Range

首次提出 HDR 动态新视角合成 (HDR DNVS) 问题,并设计 HDR-4DGS 框架,通过动态色调映射模块在时变场景中实现时序一致的 HDR 辐射场重建,在合成和真实数据集上均超越现有方法。

EA3D: Event-Augmented 3D Diffusion for Generalizable Novel View Synthesis

EA3D 把事件相机的连续几何线索和稀疏 RGB 帧的外观线索,融合成视角相关的 3D 特征,再用一个 3D 感知的视频扩散模型(改造自 CogVideoX)解码成时序一致的新视角视频,从而在快速相机运动、大基线、跨场景设定下实现无需逐场景优化的可泛化新视角合成。

EasyCreator: Empowering 4D Creation through Video Inpainting

EasyCreator 把"从单目视频生成可换相机轨迹、可编辑内容的 4D 视频"这件事,重新表述成一个视频修复(inpainting)任务——用动态点云渲染出"换视角后看不到的空洞掩码",再用一个强视频修复基座(Wan2.1)把空洞补全;配合复合掩码、自迭代调优和时序打包推理,在几乎不额外大规模训练的情况下,超过了一众相机重定向 SOTA。

Efficient-LVSM: Faster, Cheaper, and Better Large View Synthesis Model via Decoupled Co-Refinement Attention

提出 Efficient-LVSM,通过解耦输入视图编码与目标视图生成的双流架构,将新视图合成的复杂度从 \(O(N_{in}^2)\) 降至 \(O(N_{in})\),在 RealEstate10K 上以 50% 训练时间达到 SOTA(29.86 dB PSNR),推理速度提升 4.4 倍。

EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

提出首个夜间第一人称视觉基准 EgoNight,包含日夜对齐视频和 3658 个人工验证 QA 对,揭示 MLLM 在低光照下存在高达 32.8% 的性能下降。

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

EgoWorld 提出一种端到端的外部-第一人称视角转换框架:从单张第三人称图像中提取 3D 点云、手部姿态和文本描述三种互补观测,通过点云重投影获得稀疏第一人称 RGB 映射,再以扩散模型 inpainting 方式重建完整的第一人称高保真图像,在 H2O 等四个数据集的多种 unseen 设置下全面超越 SOTA。

Einstein Fields: A Neural Perspective To Computational General Relativity

提出EinFields,首个将神经隐式表示应用于四维广义相对论模拟压缩的框架,通过将度量张量场编码为紧凑神经网络权重,实现4000倍存储压缩、5-7位数值精度,且通过自动微分获得的张量导数比有限差分精度高5个数量级。

ETGS: Explicit Thermodynamics Gaussian Splatting for Dynamic Thermal Reconstruction

ETGS 把"每个高斯都遵守一阶传热 ODE"的显式热力学模型嵌进 3D Gaussian Splatting,给 ODE 推出任意时刻可直接求值的闭式解,从而以接近静态 3DGS 的训练/渲染效率重建随时间快速变化的动态热场景,在自建 RHD 数据集上平均 PSNR 比此前最好方法高约 5 dB。

Exploring the Potential of Encoder-free Architectures in 3D LMMs

本文提出首个无编码器(encoder-free)3D 大多模态模型 ENEL,把原本由预训练 3D 编码器承担的「高层语义提取」和「局部几何归纳偏置」两件事直接交给 LLM 自己完成,7B 模型在分类/描述/VQA 上追平 PointLLM-PiSA-13B。

FantasyWorld: Geometry-Consistent World Modeling via Unified Video and 3D Prediction

FantasyWorld 在冻结的视频基础模型(Wan2.1)旁挂一条可训练的几何分支,让一次前向传播同时吐出相机条件下的视频帧和一个隐式 3D 场(深度/点图/相机位姿),并通过双向交叉注意力让几何约束视频、视频先验补全几何,在 WorldScore 的多视角一致性与风格一致性上超过近期几何一致基线。

Fast Estimation of Wasserstein Distances via Regression on Sliced Wasserstein Distances

利用 Sliced Wasserstein(SW)距离既能提供 Wasserstein 距离的下界、lifted SW 距离又能提供上界这一数学性质,构建极简的线性回归模型(RG 框架),仅用少量分布对的精确 Wasserstein 作为监督信号就能训练出高精度的 Wasserstein 代理估计器,在低数据场景下全面碾压 Transformer 方法 Wasserstein Wormhole。

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

用一个统一的前馈 Transformer(LGRT)把任意数量(1~16 帧)的人脸观测——单图、多视角、单目视频——在几秒内重建成可驱动的高质量 3DGS 头像,并首次实现"观测越多质量越好"的增量式重建。

FastGHA: Generalized Few-Shot 3D Gaussian Head Avatars with Real-Time Animation

提出 FastGHA,一个前馈式少样本 3D 高斯头部化身生成框架,从 4 张任意表情/视角的输入图像在 ~1 秒内重建可动画的 3D 高斯头部,支持 62 FPS 实时动画,在 Ava-256 上 PSNR 达到 22.5 dB(超越 Avat3r 的 20.7,且快 7.75 倍)。

FastVGGT: Fast Visual Geometry Transformer

针对前馈 3D 重建大模型 VGGT 的全局注意力瓶颈,本文发现其 token 注意力图高度同质化("token collapse"),据此提出一套训练无关、面向 3D 多视图的三分区 token 合并策略,在 1000 张图输入下实现 4× 加速并同时抑制长序列误差累积。

FieryGS: In-the-Wild Fire Synthesis with Physics-Integrated Gaussian Splatting

FieryGS 把真实场景的 3D Gaussian Splatting 重建、MLLM 材料属性推理、可控燃烧仿真和统一体渲染接在一起,让用户能在野外采集的多视角场景中自动合成既像真火、又遵守材料与几何约束的动态火焰、烟雾和炭化效果。

Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM

用一个循环前馈模型直接预测每帧相机位姿和像素对齐的 2D 高斯面元,把单目 GS-SLAM 从"每帧从零训练高斯"换成"预测+轻量精修",在保证 SOTA 渲染与跟踪质量的同时实现约 10 倍提速。

Fracture-GS: Dynamic Fracture Simulation with Physics-Integrated Gaussian Splatting

Fracture-GS 把"增强版碰撞物质点法 (Collision-MPM)"和"断裂感知的 3D 高斯连续体表示"统一进一条从多视角图像到渲染的管线,专门处理极端机械碰撞下的脆性断裂——既用动量守恒的界面力消除碎块之间的非物理粘连,又用 MVEE 高斯重建填补断裂界面的渲染空洞,在 PSNR/LPIPS/FID 和人评断裂保真度上都明显超过 PhysGaussian、GIC。

Frequency-Aware Dynamic Gaussian Splatting

本文从频率视角揭示动态 3DGS 运动模糊的根因——"高频渲染细节"与"高频运动"在固定高斯核上互相争抢表达力,提出频率分化高斯核(FDGK)+ 傅里叶形变网络(FDN),把细节表达与运动建模解耦,在合成/真实 4D 基准上显著减少模糊并刷新 SOTA。

From Tokens to Nodes: Semantic-Guided Motion Control for Dynamic 3D Gaussian Splatting

用视觉基础模型的语义与运动先验把控制点"按运动复杂度"而非"按几何均匀"地分配,并用三次样条参数化节点轨迹替代 MLP 形变场,从单目视频中又快又好地重建动态 3DGS 场景。

FullPart: Generating each 3D Part at Full Resolution

FullPart 把"先用隐式 vecset 扩散生成包围盒布局、再让每个部件在自己独立的全分辨率体素网格里生成细节"这两套范式拼到一起,配合中心-角点编码解决不同尺寸部件拼接时的尺度错位,并发布了迄今最大的人工标注 3D 部件数据集 PartVerse-XL(40K 物体 / 320K 部件),在部件级 3D 生成上取得 SOTA。

Fused-Planes: Why Train a Thousand Tri-Planes When You Can Share?

提出 Fused-Planes,通过宏观-微观分解将 Tri-Plane 表示分为共享的类级基平面(macro)和对象特有的细节平面(micro),结合潜空间渲染,实现 7× 训练加速、3× 内存压缩,同时保持甚至超越独立 Tri-Plane 的重建质量。

G4Splat: Geometry-Guided Gaussian Splatting with Generative Prior

G4Splat 主张"准确几何是用好生成先验的前提",先用人造场景中普遍存在的平面结构推出尺度准确的 plane-aware 深度,再把这套几何贯穿到可见性估计、新视角选择和视频扩散修补全流程,从而在观测区和未观测区都拿到几何与外观双优的稀疏视角场景重建。

Generalizable Coarse-to-Fine Robot Manipulation via Language-Aligned 3D Keypoints

CLAP(Coarse-to-fine Language-Aligned manipulation Policy)通过任务分解、VLM微调的3D关键点预测和3D感知表征三个核心组件,实现了对新指令和新环境的强泛化能力,在 GemBench 上以 1/5 的训练数据比 SOTA 高出 12%。

Generative Human Geometry Distribution

把"单个几何体的分布表示(Geometry Distribution)"升级成"可在数据集上扩展的生成模型",用 2D 特征图替代网络权重存几何、用 SMPL 模板替代高斯做流匹配源分布,首次让几何分布支持大规模 3D 人体生成,几何质量较 SOTA 提升 57%。

GenFusion: Feed-forward Human Performance Capture via Progressive Canonical Space Updates

GenFusion 把单目 RGB 视频流逐帧累积进一个不断"补全"的 canonical 特征空间作为时序上下文,再用扩散式概率回归把这份上下文 warp 回当前帧并渲染新视角,从而在只有侧视输入时也能合成出与历史观测一致的正面细节,且比确定性回归更锐利。

GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation

提出 GeoPurify 框架,通过从 3D 自监督教师模型蒸馏几何先验来净化 2D VLM 投影到 3D 的噪声特征,仅用约 1.5% 的训练数据即可达到或超越全量训练的 SOTA 开放词汇 3D 分割性能。

GIQ: Benchmarking 3D Geometric Reasoning of Vision Foundation Models with Simulated and Real Polyhedra

提出 GIQ 基准数据集,包含 224 种合成和真实多面体,通过单目 3D 重建、对称性检测、心理旋转测试和零样本分类四项任务系统评估视觉基础模型的几何推理能力,揭示了当前模型在基本几何理解上的显著不足。

GOLDILOCS: General Object-Level Detection and Labeling of Changes in Scenes

GOLDILOCS 把跨时间场景变化检测重新表述为“静态 3D 重建假设被破坏在哪里”的问题,用 MASt3R 的密集重建、深度冲突过滤、SAM2 掩码跟踪和 SSIM 结构差异,在零训练条件下同时检测并标注 added、removed、moved、warped 等对象级变化。

GOOD: Geometry-guided Out-of-Distribution Modeling for Open-set Test-time Adaptation in Point Cloud Semantic Segmentation

把开放集测试时自适应(OSTTA)从「逐点」搬到「几何连通的超点」粒度上做,用超点纯度+熵的置信度配 GMM 区分 ID/OOD,再加超点 ID 原型纠错,解决 3D 点云里 ID 点压倒性多、OOD 点稀疏甚至缺席导致的严重类别失衡。

Gradient-Direction-Aware Density Control for 3D Gaussian Splatting

GDAGS 指出 3DGS 密度控制只看视空间梯度的"模长"而忽略了"方向",提出梯度一致性比 GCR 与一条非线性动态加权规则,在分裂时优先处理方向冲突的大高斯、在克隆时优先处理方向一致的小高斯,从而同时缓解过重建与过密化,在更省显存的前提下拿到相当或更好的渲染质量。

Guaranteed Simply Connected Mesh Reconstruction from an Unorganized Point Cloud

从带噪点云重建闭合三角网格,并通过 Helmholtz-Hodge 分解从代数上保证重建曲面单连通(同胚于二维球面),填补了既有方法无法做拓扑控制的空白。

H2OFlow: Grounding Human-Object Affordances with 3D Generative Models and Dense Diffused Flows

H2OFlow 用 3D 生成模型造合成 HOI 数据、再以点云上的"稠密扩散流"(dense diffused flow)建模人体到目标姿态的逐点位移分布,完全不用人工标注就同时学出接触、朝向、空间占据三种 3D 可供性,并能泛化到真实点云。

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

提出 HDR-NSFF,将 HDR 视频重建从传统的 2D 像素级融合范式转变为 4D 时空建模,从交替曝光单目视频中联合重建 HDR 辐射场、3D 场景流、几何和色调映射,实现了时空一致的动态 HDR 新视角合成。

HoloPart: Generative 3D Part Amodal Segmentation

HoloPart 把 2D 的"非模态分割"(amodal segmentation)概念引入 3D,提出"3D 部件非模态分割"新任务——把一个整体网格拆成几何完整的语义部件(而非破碎的表面片),并用一个带局部注意力 + 全局形状上下文注意力的扩散模型做部件形状补全来实现它。

Horseshoe Splatting: Handling Structural Sparsity for Uncertainty-Aware Gaussian-Splatting Radiance Field Rendering

给 3DGS 每个高斯的协方差尺度套上一个全局-局部 Horseshoe 收缩先验,用变分推断把"自动剪掉噪声方向 + 输出像素级不确定性"一并解决,既匹配 SOTA 渲染质量又给出可标定的不确定性图。

Human3R: Everyone Everywhere All at Once

Human3R 把在线 4D 重建基础模型 CUT3R 冻住、只用视觉提示微调插入「人体提示」,就能在单次前馈中同时吐出多人 SMPL-X 网格(everyone)、稠密场景点云(everywhere)和相机轨迹(all-at-once),15 FPS、8 GB 显存、单卡一天训练即达 SOTA。

Hyden: A Hybrid Dual-Path Encoder for Monocular Geometry of High-resolution Images

Hyden 用低分辨率 ViT 抓全局几何、全分辨率 CNN 补局部细节,并通过全图与局部裁剪伪标签自蒸馏,把 DepthAnything-v2 和 MoGe2 这类单目几何模型升级到高分辨率输入下更快、更锐利、更准确的版本。

IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

IGGT 用一个多视角 Geometry Transformer 同时预测相机、深度、点图和实例级特征,并通过 3D 一致对比学习把几何重建与实例语义绑在同一表示里,从而在语义 3D 重建、多视图实例匹配和开放词汇场景理解上取得更稳定的结果。

Implicit 4D Gaussian Splatting for Fast Motion with Large Inter-Frame Displacements

SPIN-4DGS 把快速运动下"高斯属性学不好导致动态物体糊掉/消失"的问题,重构成"先按 \((x,y,z,t)\) 显式切片拿到可靠的时空位置、再用一个轻量前馈网络从位置直接解码出尺度/旋转/颜色/透明度",在 CMU Panoptic Sports 六个体育场景上平均 PSNR 比最强基线高 1.4–1.7 dB,篮球场景超 D3DGS +1.83 dB。

IncVGGT: Incremental VGGT for Memory-Bounded Long-Range 3D Reconstruction

IncVGGT 在完全免训练的前提下,用「输入端配准合成 + 历史端 Top-k 缓存剪枝」两个正交模块改造 VGGT/StreamVGGT,把注意力的二次增长压成近乎常数级,从而在 80GB GPU 上处理 1 万帧仍不爆显存,相比 StreamVGGT 在 500 帧上算子数减少 58.5×、显存降 9×、能耗降 25.7×、推理快 4.9×,且精度基本持平。

Interp3D: Correspondence-aware Interpolation for Generative Textured 3D Morphing

Interp3D 提出一个免训练框架,借助 TRELLIS 的 3D 生成先验,把"语义对齐→结构对齐→纹理对齐"的渐进式三阶段对应关系注入扩散生成过程,从而在两个带纹理 3D 资产之间生成结构连贯、外观合理、过渡平滑的形变序列。

Into the Rabbit Hull: From Task-Relevant Concepts in DINO to Minkowski Geometry

通过在 DINOv2 上训练 32,000 单元的 Sparse Autoencoder 字典,系统分析了下游任务如何招募不同概念,发现表征几何偏离线性稀疏假说(LRH),进而提出 Minkowski Representation Hypothesis(MRH),认为 token 表征是多个凸多面体的 Minkowski 和,概念由原型点的邻近性而非线性方向定义。

Joint Optimization for 4D Human-Scene Reconstruction in the Wild

JOSH 提出用「人-场景接触」作为桥梁,把相机位姿、全局人体运动和稠密场景点云放进单阶段联合优化,从网络上随手拍的单目视频里同时重建出物理一致的 4D 人-场景交互;并进一步用 JOSH 给 20 小时网络视频打伪标签,训练出可实时推理的端到端模型 JOSH3R。

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

提出 Light-Geometry Interaction (LGI) maps,一种从单目深度估计中编码光照-遮挡关系的 2.5D 表示,嵌入 bridge matching 生成框架中实现阴影生成与物体重光照的联合建模,在合成和真实图像上均取得 SOTA 效果。

Large Depth Completion Model from Sparse Observations

LDCM 用一个"不堆复杂模块"的极简框架做稀疏深度补全:前端用泊松重建把单目深度基础模型的相对深度和稀疏观测对齐成度量一致的粗深度,后端把传统深度回归头换成逐像素 3D 点图回归头,从而在六个 benchmark 的零样本深度补全与点图估计上全面刷到 SOTA。

Learning Hierarchical and Geometry-Aware Graph Representations for Text-to-CAD

Graph-CAD 把"文本→CAD 代码"这个长程任务拆成三段,先让 LLM 生成一张显式表达装配层级与几何约束的分解图作为中间表示,再依次规划动作、生成 bpy 代码,并配一套结构感知的渐进式课程学习不断逼近模型能力边界,在 CADBench 上的几何约束满足率(GCS)从端到端的 ~0.40 拉到 0.90。

Learning Physics-Grounded 4D Dynamics with Neural Gaussian Force Fields

提出NGFF框架,从多视角RGB图像构建3D高斯表示并学习显式神经力场驱动物理动力学,通过ODE求解实现交互式物理真实4D视频生成,比传统高斯模拟器快两个数量级,超越Veo3和NVIDIA Cosmos。

Learning Unified Representation of 3D Gaussian Splatting

3DGS原生参数 \(\boldsymbol{\theta}=\{\mu,\mathbf{q},\mathbf{s},\mathbf{c},o\}\) 存在非唯一性与数值异质性,不适合作为神经网络的学习空间。本文提出子流形场 (Submanifold Field) 表示:将每个高斯基元映射到其等概率椭球面上的连续颜色场,证明该映射是单射的,从根源上消除参数歧义,并配合基于最优传输的流形距离 (M-Dist) 训练 VAE 嵌入,在重建保真度、跨域泛化与潜空间稳定性上全面优于参数基线。

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

LINO UniPS 用「带光照对齐监督的 Light Register Token + 交错注意力」在编码器内显式把光照从法线特征中剥离,再用「小波双分支 + 法线梯度感知损失」保住高频几何细节,在 DiLiGenT / Luces 等基准上把通用光度立体的法线误差刷到新 SOTA。

LiTo: Surface Light Field Tokenization

提出LiTo——通过将表面光场(surface light field)编码为紧凑latent向量集合来同时建模3D几何和视角依赖外观:输入RGB-D多视角图像的光场随机子采样 -> Perceiver IO编码器(支持100万token输入的3D局部attention) + flow-matching几何解码器 + 高阶球谐Gaussian解码器 -> 实现重建和单图到3D生成都超越TRELLIS,首次在latent 3D表示中建模高光/菲涅尔反射等视角依赖效果。

LumiTex: Towards High-Fidelity PBR Texture Generation with Illumination Context

LumiTex 面向给定网格和参考图像的 PBR 纹理生成,把多视角光照上下文、分支式 albedo / metallic-roughness 材质推理和基于 LVSM 的几何引导视角补全接到一个流程里,在纹理质量、重光照一致性和人工偏好上都超过了开源与商业基线。

Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation

Lyra 用一个相机可控的视频扩散模型当"老师"、用 RGB 解码分支去监督一个新加的 3DGS 解码分支当"学生",实现完全不用真实多视角数据、仅靠合成视频自蒸馏就能从单图/单视频前馈生成显式 3D(乃至 4D)高斯场景。

Mango-GS: Enhancing Spatio-Temporal Consistency in Dynamic Scenes Reconstruction using Multi-Frame Node-Guided 4D Gaussian Splatting

Mango-GS 用一组「位置 + 隐编码」解耦的稀疏控制节点驱动稠密 4D 高斯,并在节点空间上跑多帧时序 Transformer,把"逐帧记忆瞬态"换成"建模运动趋势",在动态场景重建上同时拿到 SOTA 画质、最优时序一致性和 149.5 FPS 实时渲染。

MAVEN: A Mesh-Aware Volumetric Encoding Network for Simulating 3D Flexible Deformation

MAVEN 把网格里的 2D 面(facet)和 3D 体元(cell)也当成显式节点参与消息传递,用"几何感知的体素编码"在稀疏网格上更准确地模拟 3D 固体的柔性形变与接触。

MEGS2: Memory-Efficient Gaussian Splatting via Spherical Gaussians and Unified Pruning

提出MEGS2——从渲染VRAM角度出发压缩3DGS:用可裁剪的任意方向球面高斯(SG)完全替代球谐函数(SH)降低每个primitive的参数量 + 统一软剪枝框架将primitive数量和lobe数量的裁剪建模为单一内存约束优化问题 -> 实现8x静态VRAM压缩和6x渲染VRAM压缩,同时保持渲染质量,首次让3DGS在移动端实时运行。

Mesh Splatting for End-to-end Multiview Surface Reconstruction

把一张网格沿法线"软化"成多层半透明壳、并让这些层对底层网格可微,从而用体渲染端到端优化网格表面,20 分钟内重建出顶点最少、质量最高的网格。

Mobile-GS: Real-time Gaussian Splatting for Mobile Devices

Mobile-GS 通过"深度感知的免排序渲染 + 神经视角增强 + 一阶 SH 蒸馏 + 神经向量量化 + 贡献度剪枝"五件套,把 3DGS 压到 4.6 MB 并在桌面端跑到 1100+ FPS,首次在骁龙 8 Gen 3 手机上实现 116 FPS 的实时高斯泼溅渲染。

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

提出 MoE-GS,首个将混合专家架构引入动态高斯泼溅的框架,通过 Volume-aware Pixel Router 自适应融合多种异构变形先验(HexPlane/逐高斯/多项式/插值),在 N3V 和 Technicolor 数据集上一致超越 SOTA,并通过单次渲染、门控剪枝和知识蒸馏保持效率。

MoGen: Detailed Neuronal Morphology Generation via Point Cloud Flow Matching

MoGen 用流匹配在高分辨率 3D 点云上生成逼真的小鼠皮层轴突/树突片段形态,并把上百万合成样本喂给生产级连接组重建管线里的形状可信度分类器,把残余重建错误降了 4.4%,相当于全脑重建省下约 157 人年的人工校对。

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

首次解决从无位姿交替曝光单目视频重建可渲染 4D HDR 场景的问题,通过两阶段优化(正交视频空间 → 世界空间)、Video-to-World 高斯变换策略和时间亮度正则化,在合成数据上达到 37.64 dB HDR PSNR、161 FPS,全面超越现有方法。

MOSIV:从视频中做多物体系统辨识

MOSIV 首次把"多物体系统辨识"形式化为一个任务——从多视角视频里同时重建每个物体的 4D 几何并逐物体优化连续的本构材料参数(刚度、塑性、摩擦),用几何对齐损失驱动可微 MPM 仿真器,从而摆脱过去"从固定材料库里选类别"的离散建模,能在接触密集的多物体场景里复现观测并预测长程未来动力学。

MultiMat: Multimodal Program Synthesis for Procedural Materials using Large Multimodal Models

提出 MultiMat,首个将大型多模态模型(LMM)用于程序化材质节点图合成的框架,通过在自回归生成过程中融合中间节点的视觉渲染反馈(混合调节/图调节两种模式),并配合增量式约束树搜索推理实现即时校验与回溯纠错,在 6878 个产级 Substance Designer 材质上训练后,无条件生成与条件生成均大幅超越纯文本基线。

Nano3D: A Training-Free Approach for Efficient 3D Editing Without Masks

把 2D 的免训练编辑方法 FlowEdit 搬进 TRELLIS 的几何-外观两阶段生成里,再用一套基于连通域分析的 Voxel/Slat-Merge 把"该改的区域"贴回原物体,从而无需 mask、无需训练、无需多视图重建就能对 3D 物体做局部一致的增删改,并据此造出首个 10 万规模的 3D 编辑数据集。

Neural Compression of 3D Meshes using Sparse Implicit Representation

把网格转成「只在表面附近存 SDF」的稀疏隐式张量(SIR),再用一个 0.42 MB 的稀疏卷积自编码器(SNC)端到端做率失真压缩,在多类网格上以近实时速度比 Draco / V-DMC / G-PCC / NeCGS 节省 30%–90% 码率。

NGS-Marker: Robust Native Watermarking for 3D Gaussian Splatting

NGS-Marker 把水印直接刻进 3D 高斯基元本身,而不是渲染图像里,因此即便攻击者只抠走场景的一小撮高斯拼进新场景,也能从任意局部区域解码出归属信息,专治现有方法束手无策的「部分侵权」。

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

提出NOVA3R——从无位姿图像进行非像素对齐的完整3D重建:用可学习场景token跨视角聚合全局信息 + 基于flow-matching的扩散3D解码器生成完整(含遮挡区域)的点云,解决像素对齐方法只能重建可见面且重叠区域有冗余几何的两大根本限制,在SCRREAM/GSO等数据集上场景级和物体级重建均超越SOTA。

ODE-GS: Latent ODEs for Dynamic Scene Extrapolation with 3D Gaussian Splatting

ODE-GS 把动态 3D 高斯泼溅的"重建"和"未来预测"解耦:先训一个时间形变模型在观测窗口内生成高斯参数轨迹,再用 Transformer + 神经 ODE 在连续隐空间里把过去轨迹外推到未来时刻,从而摆脱"时间戳条件化"导致的分布外失效,在 D-NeRF / NVFi / HyperNeRF 上把外推指标平均提升约 19.8%。

Omni-View: Unlocking How Generation Facilitates Understanding in Unified 3D Model based on Multiview images

构建统一的3D场景理解与生成模型 Omni-View,通过纹理模块(新视角合成)和几何模块(深度/位姿估计)的生成能力增强理解性能,在 VSI-Bench 上达到 55.4 分超越所有现有专用3D理解模型。

OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

作者用游戏引擎自采 + 整合 12 个公开数据集,构建了一个横跨模拟器/机器人/人类/互联网四大域、带深度/相机位姿/文本/光流/前景掩码五种模态、规模超 3 亿帧的 4D 世界建模数据集 OmniWorld,并配套一套自动标注流水线与基准,实测把现有 SOTA 在它上面微调后能在 3D 几何重建和相机可控视频生成上明显涨点。

One2Scene: Geometric Consistent Explorable 3D Scene Generation from a Single Image

提出One2Scene——将单图到可探索3D场景的病态问题分解为三个子任务:(1)全景图生成扩展视觉覆盖 (2)前馈3DGS网络从稀疏锚点视角构建显式3D几何scaffold (3)scaffold引导的新视角合成,通过Dual-LoRA融合高质量锚点视角和几何先验,在大视角变化下实现几何一致且逼真的场景生成,显著超越SOTA。

Open-Set Semantic Gaussian Splatting SLAM with Expandable Representation

本文给 3DGS-SLAM 接上一个可动态扩容的语义特征池,让每个 3D 高斯只存一个低维索引键、按需从共享池里软聚合出语义,从而以极小内存在线重建带开放词表语义的三维场景,并用一致性目标 + 语义稳定引导解决跨视图语义不一致,在 Replica 与手机实拍场景上同时提升渲染、轨迹与分割质量。

OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation

构建OpenFly——航空视觉-语言导航(VLN)综合平台:集成4种渲染引擎(UE/GTA V/Google Earth/3DGS)+开发全自动数据生成工具链(点云获取→语义分割→轨迹生成→GPT-4o指令)+构建10万轨迹大规模数据集(18场景)+提出关键帧感知VLN模型OpenFly-Agent(关键帧选择+视觉token融合),在已见/未见场景分别以14.0%/7.9%的成功率优势超越现有方法。

ORCaS: Unsupervised Depth Completion via Occluded Region Completion as Supervision

ORCaS 让无监督深度补全模型在训练时去预测「输入视角看不见、相邻视角才可见」的遮挡区域特征,以此强迫模型学到一种关于 3D 物体形状的归纳偏置,从而在 VOID1500 / NYUv2 上平均超过此前最优方法 8.91%,并在跨数据集泛化和稀疏输入上大幅领先。

OVSeg3R: Learn Open-vocabulary Instance Segmentation from 2D via 3D Reconstruction

OVSeg3R 是一套训练方案:直接拿 2D 视频经 3D 重建得到的点云当输入,把开放词汇 2D 实例分割结果借助重建提供的 2D-3D 对应关系投影到 3D 当标注,再用「视角级实例划分」(VIP) 和「2D 实例边界感知超点」(IBSp) 稳住训练,把一个闭集 SOTA 3D 分割器扩成开放词汇模型,在 ScanNet200 上整体 +2.3 mAP、新类 +7.7 mAP。

PAGE-4D: VGGT-4D Perception via Disentangled Pose and Geometry Estimation

PAGE-4D 给前馈式 3D 基础模型 VGGT 接上一个「动态感知聚合器」,用一张自监督学出来的动态掩码把运动信息按任务拆开——估位姿时压制它、重几何时放大它——只微调中间 10 层就让 VGGT 在动态场景的位姿、深度和点云重建上全面超过原版。

PAINET: A Principled Efficient Transformer for 3D Dynamics Modeling

PAINET 将 3D 多体系统中未观测的长程全对交互写成一个能量最小化问题,并由此推导出带粒子类型自适应映射的等变 Transformer 编码器,再用并行 EGNN 解码未来轨迹,在人体动作、小分子、大分子和蛋白动力学上以接近同级的计算成本取得更低预测误差。

Parameterization-Based Dataset Distillation of 3D Point Clouds through Learnable Shape Morphing

本文首次把"蒸馏数据集参数化"(DDP)思想引入 3D 点云数据集蒸馏:用多个低分辨率锚点(anchor)加可学习权重的凸组合形状变形,在相同存储预算下生成数量更多、更多样的合成样本,并配上一致性感知(uniformity-aware)的匹配损失,在 5 个标准 3D 基准上大幅超过现有蒸馏方法。

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Part-X-MLLM 是一个原生 3D、部件感知的多模态大模型,它把生成、编辑、问答这些异构的 3D 任务统一成"用一套部件语法写程序"——输入 RGB 点云 + 自然语言,自回归吐出一条同时编码部件包围盒、语义描述、编辑指令的 token 序列,再交给现成几何引擎执行,从而用一个语言原生前端驱动各种 3D 资产操作,在 11 类任务上达到 SOTA。

PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data

提出首个在大规模原生 3D 数据上训练的可提示部件分割模型 PartSAM,采用 triplane 双分支编码器(冻结 SAM 先验 + 可学习 3D 分支)和 SAM 风格解码器,通过模型在环标注流程构建 500 万+形状-部件对,在开放世界设置下单次点击即超越 Point-SAM 90%+。

PAT3D: Physics-Augmented Text-to-3D Scene Generation

PAT3D 把视觉语言模型推理和可微刚体接触仿真接进文本到 3D 场景生成流水线,先用参考图抽出物体间的支撑依赖搭成场景树、再生成一个无穿插的初始布局,最后用「仿真在环」的可微优化让场景在重力下收敛到既稳定又不穿插、还贴合文本语义的静态平衡,成为第一个能直接拿去做编辑和机器人操作的「仿真就绪」场景生成方法。

PatchRefiner V2: Fast and Lightweight Real-Domain High-Resolution Metric Depth Estimation

PatchRefiner V2 把 tile-based 高分辨率度量深度框架里"又大又慢"的精修分支换成轻量编码器,再用一个 Coarse-to-Fine 去噪模块 + Noisy 预训练救回掉的精度,并在合成到真实迁移阶段用局部窗口梯度匹配损失提升边界质量——在 UnrealStereo4K 上做到比前代 SOTA 更准、参数少 9.2 倍、推理快 10.7 倍。

Path Matters: Unveiling Geometric Implicit Bias via Curvature-Aware Sparse View Optimization

这篇论文揭示了稀疏视角下 3DGS 存在两类几何隐式偏置——对高曲率区域监督需求更强、对输入视角轨迹的平滑度敏感——并据此提出一套"曲率感知的相机轨迹优化 + 合成视角生成"框架,让伪标签视角既覆盖更多曲面细节又保持平滑,在 DTU、Mip-NeRF 360、Tanks & Temples 等多个数据集上把稀疏视角重建的渲染质量与几何精度推到 SOTA。

PD²GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

提出 PD²GS 框架,通过学习共享的 canonical 高斯场并将每个交互状态建模为其连续形变,实现铰接物体的部件级解耦、重建和连续控制,采用粗到细的运动轨迹聚类 + SAM 引导的边界细化,无需手动监督。

Peering into the Unknown: Active View Selection with Neural Uncertainty Maps for 3D Reconstruction

提出 PUN(Peering into the UnkNowN),用轻量前馈网络 UPNet 从单张图像直接预测球面上所有候选视点的不确定性分布(neural uncertainty map),替代了需要迭代重训 NeRF/3DGS 的传统主动视点选择流程。仅用上界一半的视点就达到可比的重建质量,选点阶段实现 400 倍加速和 50%+ 的计算资源节省。

\(\pi^3\): Permutation-Equivariant Visual Geometry Learning

\(\pi^3\) 提出一个完全置换等变的前馈网络,彻底丢掉「固定参考视角」这个延续自传统 SfM 的归纳偏置,改为预测每帧自己坐标系下的「仿射不变相机位姿 + 尺度不变局部点图」,从而对输入顺序天然鲁棒,并在相机位姿、单目/视频深度、稠密点图等多个任务上刷新 SOTA,同时跑到 57.4 FPS。

Pixel3DMM: Versatile Screen-Space Priors for Single-Image 3D Face Reconstruction

Pixel3DMM 用 DINOv2 驱动的像素级法线与 UV 坐标先验约束 FLAME 优化,在单张图像尤其是夸张表情场景下显著提升 3D 人脸重建精度,并提出同时评测 posed 与 neutral 几何的新基准。

Plan then Act: Bi-level CAD Command Sequence Generation

针对"LLM 直接生成 CAD 命令序列质量很差"的问题,本文提出 PTA:先用一个微调过的 Planner(Qwen3-8B)把用户文字指令解析成"链式高层操作计划",再用一个带需求感知机制(RAM)的 Actioner 把计划落实成可执行的低层 CAD 命令序列,在 Text2CAD 数据集上把无效率压到 0.85%、各项几何指标全面领先。

Point-Focused Attention Meets Context-Scan State Space: Robust Biological Visual Perception for Point Cloud Representation

PointLearner 用「先聚焦后扫视」的仿生设计——点聚焦注意力(模拟中央凹视觉)+ 上下文扫描状态空间(模拟眼跳推理)——在线性复杂度下同时建模点云的局部细粒度结构与全局长程依赖,在 ModelNet40/ScanObjectNN/ShapeNet/S3DIS 上拿到 SOTA 并展现出对噪声与稀疏采样的强鲁棒性。

Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

把稀疏激活的 Mixture-of-Experts(MoE)模块嵌进 Point Transformer V3(PTv3)的注意力输出投影层,让一个统一模型在不依赖任何「数据集标签」的情况下联合训练室内外多种异构点云数据集,靠路由器自发地让 token 选择专家,在 7 个数据集(含零样本)上的语义分割 mIoU 超过需要数据集标签的 PPT,同时推理 FLOPs 反而省 30.9%。

Point-UQ:面向点云小样本类增量学习的不确定性量化范式

Point-UQ 把 3D 小样本类增量学习的重心从"反复微调特征"挪到"动态优化决策",用预测熵衡量每个样本的认知不确定性,在语义分类器和几何原型之间自适应仲裁,从而在不重训的前提下同时守住旧类知识、认对新类样本。

PointRePar: SpatioTemporal Point Relation Parsing for Robust Category-Unified 3D Tracking

PointRePar 是一个"类别统一"的 3D 单目标跟踪器:用 Mamba 搭建的 U 型空间关系解析骨干 + 动态特征聚合学到更可分的形状特征,再用点级 / 框级双层时序解析捕捉运动,配合稀疏自适应的高斯扰动训练,使得一个模型联合训练所有类别就能超过此前的类别统一方法 CUTrack,并与逐类别训练的 SOTA 掰手腕。

Positional Encoding Field

本文发现 DiT 中图像 token 之间高度独立、空间连贯性几乎完全由位置编码决定,据此把 2D 位置编码扩展成一个带深度、带层级的 3D「位置编码场」(PE-Field),让扩散 Transformer 仅靠改位置编码就能在 3D 空间里重排图像内容,从而在单图新视角合成上取得 SOTA,并自然泛化到可控的空间编辑。

Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction

PG-Occ 用一组带文本对齐特征的稀疏 3D 高斯来表示驾驶场景,并通过"渐进在线稠密化"边推理边在欠重建区域补高斯、配合"各向异性感知采样"按高斯形状自适应取特征,在 Occ3D-nuScenes 开放词汇占据预测上相对前 SOTA 提升 14.3% mIoU。

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

pySpatial 是一个视觉编程框架,让 MLLM 通过生成 Python 代码自动调用 3D 空间工具(3D 重建、相机位姿恢复、新视角渲染等),将有限的 2D 图像输入转化为可交互探索的 3D 场景,实现零样本、即插即用的显式 3D 空间推理,在 MindCube 基准上以 58.56% 的整体准确率超越 GPT-4.1-mini 12.94%、超越 VLM-3R 16.5%,并成功驱动真实四足机器人完成室内导航。

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

提出 QuadGPT——首个端到端自回归生成原生四边形网格的框架,通过统一的混合拓扑tokenization(三角形面 padding 为4顶点块)、Hourglass Transformer 架构、以及基于拓扑奖励的截断 DPO (tDPO) 微调,在 Chamfer Distance、Hausdorff Distance、四边形比例和用户偏好上全面超越现有的三角形→四边形转换流水线和十字场引导方法。

Quantized Visual Geometry Grounded Transformer

针对十亿级 3D 重建模型 VGGT 的部署需求,提出首个专用 PTQ 框架 QuantVGGT,通过双重平滑细粒度量化(Hadamard 旋转 + 通道平滑)解决特殊 token 导致的重尾分布,以及噪声过滤多样化采样解决校准不稳定问题,4-bit 量化实现 3.7× 内存压缩和 2.5× 加速,保持 98%+ 精度。

Quartet of Diffusions: Structure-Aware Point Cloud Generation through Part and Symmetry Guidance

这篇论文把点云生成拆成形状潜变量、对称群、语义部件和部件装配四个扩散过程,用显式部件与对称性先验生成更一致、更可控、且在 ShapeNetPart 上更接近真实分布的 3D 点云。

RadioGS: Radiometrically Consistent Gaussian Surfels for Inverse Rendering

RadioGS 提出辐射一致性损失——通过最小化每个 Gaussian surfel 的学习辐射与其物理渲染辐射之间的残差,为未观测方向提供基于物理的监督信号,构建自纠正反馈循环,实现了准确的间接照明和材质分解,并支持分钟级重新打光。

RayI2P: Learning Rays for Image-to-Point Cloud Registration

本文把图像-点云配准从"建立 2D-3D 对应点"改写成"为每个图像 patch 预测一束 3D 射线",再用一个可微的射线引导回归模块直接估计相机 6-DoF 位姿,从根上绕开了投影歧义与尺度不一致,在 KITTI / nuScenes 上刷新了配准精度。

ReconViaGen: Towards Accurate Multi-view 3D Object Reconstruction via Generation

ReconViaGen 把强重建先验(VGGT)当作多视图感知条件注入到扩散式 3D 生成器(TRELLIS)里,并在推理期用渲染对齐的速度补偿约束去噪轨迹,从而在保留生成"补全不可见部分"能力的同时,让重建结果在全局结构和局部细节上都与输入视图高度一致,在 Dora-bench 和 OmniObject3D 上取得 SOTA。

Reducing Class-Wise Performance Disparity via Margin Regularization

提出 MR2(Margin Regularization for performance disparity Reduction),通过在 logit 和表征空间动态调整类别相关的 margin,基于理论推导的泛化界减少类间性能差异,同时提升整体准确率。

ReLi3D: Relightable Multi-View 3D Reconstruction with Disentangled Illumination

ReLi3D 是第一个端到端前馈系统,能在不到 1 秒内从稀疏多视图图像同时重建出完整几何、空间变化的 PBR 材质和一致的 HDR 环境光照,核心思想是用"多视图约束"作为材质-光照解耦的主驱动力,把单图本质病态的逆渲染问题变成可解的约束问题。

ReSplat: Degradation-agnostic Feed-forward Gaussian Splatting via Self-guided Residual Diffusion

ReSplat 把一个扩散式通用图像复原模型和一个前馈 3D 高斯泼溅模型耦合成互导闭环——复原模型用扩散采样中途生成的 3D 高斯中心做"自引导"实现多视角一致的复原,复原后的图又喂给高斯模型重建场景,从而在模糊/低光/雾/雨/雪等任意退化下都能做出更清晰、更鲁棒的新视角合成。

RobustSpring: Benchmarking Robustness to Image Corruptions for Optical Flow, Scene Flow and Stereo

本文提出 RobustSpring——首个面向光流 / 场景流 / 立体匹配(稠密匹配)的图像损坏鲁棒性基准,把 20 种损坏以时间 / 双目 / 深度一致的方式注入高分辨率 Spring 数据集,配上一个基于 Lipschitz 连续性、与精度解耦的损坏鲁棒性指标,对 17 个模型做了首轮评测,揭示出"精度高 ≠ 鲁棒"的隐藏短板。

RoRE: Rotary Ray Embedding for Generalised Multi-Modal Scene Understanding

RoRE 把图像 patch 直接编码成一条「射线」并通过可学习的旋转式位置编码(RoPE)注入 Transformer,再配合非对称旋转和模态共享的射线嵌入,让同一个网络能无重训练地处理透视、鱼眼、RGB-热成像等任意相机几何与模态,显著提升跨几何/跨模态的泛化与一致性。

Sat3DGen: Comprehensive Street-level 3D Scene Generation from Single Satellite Image

给定一张俯视卫星图,Sat3DGen 在前馈 tri-plane NeRF 框架上注入三类几何约束(重力密度先验、卫星视深度先验、边界空间 token)外加全景转透视的视角增训,把街景 3D 的几何 RMSE 从 6.76m 降到 5.20m,同时让渲染 FID 从 ~40 降到 19。

Scaling Sequence-to-Sequence Generative Neural Rendering

提出 Kaleido,一系列将 3D 视为视频特殊子域的 decoder-only rectified flow transformer 生成模型,通过统一位置编码(Unified Positional Encoding)、掩码自回归框架和视频预训练策略,实现无需任何显式 3D 表示的 "any-to-any" 6-DoF 新视角合成,首次在多视角设置下匹配逐场景优化方法(InstantNGP)的渲染质量,并将分辨率从 512/576px 提升至 1024px。

Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

Scenethesis 是一个免训练的智能体框架,用 LLM 起草粗布局、视觉基础模型做视觉接地与场景图提取、物理感知优化器(语义对应 + SDF 接触/支撑约束)逐物体校正位姿,再用 GPT-5 裁判验证空间一致性并触发重规划,从而生成室内外通吃、碰撞少、稳定性高的可交互 3D 场景。

SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation

SceneTransporter 通过在组合 3D latent 扩散模型的去噪循环中引入熵最优传输(OT)框架,将 open-world 结构化 3D 场景生成重新建模为全局关联分配问题:OT 计划门控交叉注意力实现排他性的 patch-to-part 路由(防止特征纠缠),边缘正则化的分配代价鼓励在图像边缘处分离不同实例,在 74 张多样化 open-world 场景图像上实现了 SOTA 的实例级一致性和几何保真度。

ShapeGen4D: Towards High Quality 4D Shape Generation from Videos

ShapeGen4D 把一个大规模预训练的 3D 形状扩散模型直接改造成「视频→4D 网格序列」的前馈生成器,通过时序对齐的潜在编码、时空注意力和跨帧共享噪声三招,端到端生成几何一致、能处理拓扑变化与体积涨缩的动态网格序列,几何精度全面超过 L4GM、V2M4、GVFD 等基线。

Sharp Monocular View Synthesis in Less Than a Second

SHARP 通过单次前馈神经网络从单张照片生成约 120 万个 3D Gaussian,在 A100 GPU 上不到 1 秒完成推理,渲染速度超 100 FPS,在 6 个数据集上零样本泛化均达 SOTA,相比最强先前方法 LPIPS 降低 25–34%、合成时间缩短三个数量级。

Signal Structure-Aware Gaussian Splatting for Large-Scale Scene Reconstruction

本文把大规模 3DGS 场景重建重新看作"信号结构恢复"问题,推导出 3D 高斯表示的平均采样频率与场景带宽,提出按场景频率收敛自适应切换图像分辨率与致密化时机的调度器 SIG,再配合球约束高斯抑制悬浮物,最终在多个大规模基准上取得 +0.9 dB PSNR 提升并把单块训练加速约 1.5×。

SkyEvents: A Large-Scale Event-Enhanced UAV Dataset for Robust 3D Scene Reconstruction

本文构建了 SkyEvents——首个面向大规模无人机 3D 场景重建的「事件 + RGB + LiDAR」三模态数据集(45 段序列、>8 小时、0.72 km² 点云),并配套提出几何约束时间戳对齐(GTA)模块与区域级事件渲染(RER)损失,证明在低光、运动模糊等极端条件下引入事件模态能显著提升 3DGS 重建的纹理与几何保真度。

SMAGA: Secondary Motion-Aware 3D Clothed Gaussian Avatars from Monocular Videos

针对单目视频重建的 3DGS 人体 avatar 难以表现松散服装(如裙子)的随动飘逸,本文提出一个两阶段框架:先用无模板的个性化高斯初始化对齐着衣轮廓,再用一个把高斯结构成图、自回归预测二阶动力学(质点-弹簧-阻尼)的 GNN 形变器,从而在单视角约束下生成逼真、随时间连贯的服装动态。

SpaceControl: Introducing Test-Time Spatial Control to 3D Generative Modeling

SpaceControl 提出一种训练无关的测试时方法,把用户给定的 3D 几何(从粗糙的超二次曲面到精细网格)体素化后编码进预训练 3D 生成模型(Trellis)的潜空间,再用 SDEdit 式"加噪到 \(t_0\) 再去噪"的机制注入空间引导,并用单一参数 \(\tau_0\) 平滑调节"几何忠实度↔生成真实感",在不微调任何参数的前提下,几何对齐度(Chamfer 距离)大幅超过训练式与优化式 baseline。

SpatialHand: Generative Object Manipulation from 3D Perspective

SpatialHand 把生成式物体插入从 2D 图像平面提升到「3D 视角」,通过把 6DoF 位姿拆解成 2D 位置(mask)+ 深度(depth map)+ 3D 朝向(latent 嵌入)三路条件喂给 FLUX 扩散 Transformer,再配上一条全自动的合成数据构造管线和渐进式多阶段训练,实现了对插入物体精确的 3D 定位、任意角度旋转和正确遮挡关系控制。

Special Unitary Parameterized Estimators of Rotation

本文用特殊酉矩阵 \(SU(2)\) 重新推导经典 Wahba 旋转估计问题,得到线性四元数约束、两点闭式解和两个面向神经网络的连续旋转表示,其中 2-vec 在同维度下通常优于 Gram-Schmidt,QuadMobius 在多个旋转学习任务上达到或接近最优结果。

SpikeStereoNet: 面向 Spike 流的类脑双目深度估计框架

本文提出 SpikeStereoNet,直接从一对原始 spike 流(脉冲相机输出的二值高频流)估计双目深度,用一个三层循环脉冲神经网络(RSNN)作为迭代细化算子反复更新视差,并配套发布了大规模合成与真实 spike 双目数据集,在两个数据集上都超过现有 frame-based / event-based 立体匹配方法,且在仅用 10% 训练数据时仍保持高精度。

Spiking Discrepancy Transformer for Point Cloud Analysis

针对脉冲神经网络(SNN)做点云分析时"点积注意力抹平边缘、且难以同时建模局部与全局"的痛点,本文提出用脉冲序列之间的差异(discrepancy)代替点积相似度作为注意力,配合一个把坐标注入初始膜电位的空间感知脉冲神经元,搭出层次化的 Spiking Discrepancy Transformer,在 SNN 阵营中取得 SOTA,且能耗只有 ANN SOTA 的百分之几。

Splat and Distill: Augmenting Teachers with Feed-Forward 3D Reconstruction for 3D-Aware Distillation

在 student-teacher 蒸馏框架中,用预训练的前馈式 3D 重建模型(MVSplat)增强 teacher,将 2D 特征提升到 3D Gaussian 表示后渲染到新视角,从而让 student 学到几何一致的 3D-aware 2D 特征,在深度估计、法线估计、语义分割和多视图对应等下游任务上全面超越现有方法。

Splat Feature Solver

将3D splat表示的特征提升(feature lifting)问题统一建模为稀疏线性逆问题 \(AX=B\),提出闭式求解器并证明其在凸损失下的 \((1+\beta)\)-近似误差上界,配合 Tikhonov 引导和后聚合过滤两种正则化策略,在开放词汇3D分割任务上达到SOTA。

Splat the Net: Radiance Fields with Splattable Neural Primitives

这篇论文提出"可 splatting 的神经基元"——把每个基元的密度场用一个浅层神经网络(SIREN)表示、空间上由椭球包围,并推导出密度沿视线积分的闭式解,从而既保留神经表示的强表达力、又能像 3DGS 那样高效 splatting;在新视角合成上用 10× 更少的基元、6× 更少的参数达到与 3DGS 相当的质量和速度。

SSD-GS: Scattering and Shadow Decomposition for Relightable 3D Gaussian Splatting

SSD-GS 在 3D 高斯泼溅里把外观从「球谐系数」换成「漫反射 + 镜面 + 阴影 + 次表面散射」四项物理可解释的着色分解,配合可学习偶极子散射、遮挡感知两阶段软阴影和渐进式训练,让重光照在金属、半透明等复杂材质上的保真度显著超过现有方法。

Station2Radar: Query-Conditioned Gaussian Splatting for Precipitation Field

提出 Query-Conditioned Gaussian Splatting (QCGS),首次将 2D 高斯溅射引入降水场生成任务,融合卫星图像与自动气象站稀疏观测,实现无雷达条件下分辨率灵活的降水场重建,RMSE 较传统网格化产品提升超 50%。

STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

STREAM3R 把稠密 3D 重建重新表述成「decoder-only Transformer 的逐帧因果注意力」问题——每来一张新图就让它对历史帧缓存做因果 cross-attention 并回归点图,从而像 LLM 一样用 KVCache / 滑窗注意力做在线增量重建,在静态和动态场景的深度估计与 3D 重建上都优于或持平现有流式方法,且推理更快。

Streaming Visual Geometry Transformer

本文提出 StreamVGGT,把离线全局注意力的 VGGT 改造成「时序因果注意力 + 缓存记忆 token」的因果 Transformer,让 3D 几何重建可以随视频帧逐帧增量更新(延迟从 \(O(N^2)\) 降到 \(O(N)\)),并用原版 VGGT 作教师蒸馏来低成本训练,在多个 3D 重建/深度/位姿基准上逼近离线 VGGT、超过现有流式方法。

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

StreamSplat 提出了一个完全前馈的在线动态3D重建框架,通过概率位置采样、双向形变场和自适应高斯融合三大创新,能从未标定视频流中即时生成动态3DGS表示,速度比优化方法快1200倍。

Stroke3D: Lifting 2D Strokes into Rigged 3D Model via Latent Diffusion Models

Stroke3D 首次实现从用户绘制的2D笔画和文本提示直接生成绑骨3D网格模型,采用骨骼优先的两阶段流水线:先用图VAE+图DiT生成可控3D骨骼,再通过TextuRig数据集增强和SKA-DPO优化生成高质量网格。

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Stylos 提出了一个单次前馈的3D风格迁移框架,通过共享Transformer骨干的双路径设计(几何自注意力+风格交叉注意力)和体素级3D风格损失,实现从未标定输入的零样本3D风格化,支持单视角到数百视角的扩展。

SurfSplat: Conquering Feedforward 2D Gaussian Splatting with Surface Continuity Priors

SurfSplat 提出基于2DGS的前馈3D重建框架,通过表面连续性先验将高斯的旋转和尺度与邻域位置绑定、以及强制透明度混合策略解决颜色偏差,并引入HRRC指标揭示高分辨率下的重建质量差异。

Test-Time Optimization of 3D Point Cloud LLM via Manifold-Aware In-Context Guidance and Refinement

本文提出 Point-Graph LLM(PGLLM),在不重训任何模型的前提下,于测试时把无标注支持集组织成一张 KNN 图,用近邻样本的 3D caption 作为上下文示例(in-context guidance)注入第二阶段 LLM,再用基于标签传播的置信度分数细化(score refinement)来纠正噪声预测,几乎零额外算力地提升了 3D 识别、OOD 检测和 captioning 的准确率与鲁棒性。

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

提出VIST3A框架——通过模型拼接(model stitching)将预训练视频生成器的latent空间与前馈3D重建模型(如AnySplat/MVDUSt3R/VGGT)无缝对接,再用直接奖励微调(direct reward finetuning)对齐生成模型与拼接后的3D解码器,实现高质量端到端text-to-3DGS和text-to-pointmap生成,在T3Bench/SceneBench/DPG-Bench上全面超越现有方法。

The Less You Depend, the More You Learn: Synthesizing Novel Views from Sparse, Unposed Images with Minimal 3D Knowledge

本文系统论证了「越少依赖显式 3D 知识,越能从大数据中学到东西」这一可扩展性规律,并据此提出 UP-LVSM——一个完全不需要显式场景结构和相机位姿标注的纯 Transformer 前馈 NVS 框架,靠自监督学到的「Latent Plücker Learner」从无位姿的 2D 图像直接合成高保真新视角,性能反超了用真值位姿训练的方法。

TIGaussian: Disentangle Gaussians for Spatial-Aware Text-Image-3D Alignment

TIGaussian 把 3D 高斯(3DGS)的各个内在属性拆开分支编码、再用扩散先验把单视图图像补成多视图融合特征、并用一个 query transformer 把 3D 特征投影到文本空间,从而在文本-图像-3DGS 三模态对齐上全面刷新 SOTA。

TINKER: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

TINKER 把大规模 2D 图像编辑模型和视频扩散模型改造成面向 3D 的多视角一致编辑流水线,只用一张或少量已编辑参考图就能生成密集一致视角,并在无需逐场景优化编辑模型的情况下完成高质量 3DGS 编辑。

Topology-Preserved Auto-regressive Mesh Generation in the Manner of Weaving Silk

提出一种类似"织丝"的网格 tokenization 算法,通过顶点分层和排序提供规范的拓扑框架,保证生成网格的流形性、水密性、法线一致性和部件感知性,同时达到 SOTA 压缩效率。

Towards Physically Executable 3D Gaussian for Embodied Navigation

本文提出 SAGE-3D 范式,给原本只能用来"渲染好看"的 3DGS 场景补上了物体级语义物理碰撞结构,把它升级成可训练、可评测具身智能体的导航环境,并配套发布了 1k 标注场景的 InteriorGS 数据集与首个基于 3DGS 的 VLN 基准 SAGE-Bench(2M 轨迹-指令对)。

Trace Anything: Representing Any Video in 4D via Trajectory Fields

Trace Anything 把视频里的每个像素表示成一条连续 3D 轨迹,并用一次前馈推理直接预测整段视频的轨迹场,从而在无需深度、光流、2D跟踪器或逐场景优化的情况下完成高效的 4D 动态场景表示。

True Self-Supervised Novel View Synthesis is Transferable

本文提出用「可迁移性」作为判断一个模型是否真正会做新视角合成(NVS)的核心判据,并据此设计出 XFactor——第一个完全不依赖多视图几何、纯自监督就能学到可跨场景迁移的相机位姿表示的模型,靠「双视图单目模型 + 保位姿增强的可迁移性目标」两个简单设计大幅超越 RayZer / RUST。

TTT3R: 3D Reconstruction as Test-Time Training

把循环式 3D 重建模型 CUT3R 的状态更新重新解读为一个测试时在线学习问题,用记忆状态与新观测之间的对齐置信度推导出一个闭式的、逐 token 的自适应学习率来门控状态更新,从而在不训练、不加参数的前提下大幅缓解长序列遗忘——全局位姿精度比基线提升 2×,同时仍保持 20 FPS、6 GB 显存处理上千张图像。

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

提出 UFO-4D,一个统一的前馈框架,仅从两张无位姿图像直接预测动态 3D 高斯表示,实现 3D 几何、3D 运动和相机位姿的联合一致估计,在几何和运动基准上比现有方法提升达 3 倍。

ULTRA-360: Unconstrained Dataset for Large-scale Temporal 3D Reconstruction across Altitudes and Omnidirectional Views

ULTRA-360 构建了一个覆盖校园级建筑、四季外观、地面与空中多海拔、透视与 360 全景相机的大规模真实图像数据集,并用半自动标定流程和多类重建基准揭示了当前大规模时序 3D/4D 重建在跨海拔匹配、doppelganger 消歧、密集化和多外观建模上的关键短板。

Uncertainty-Aware 3D Reconstruction for Dynamic Underwater Scenes

本文提出 UDF(Uncertainty-aware Dynamic Field),在一个统一的 4D 场里同时建模水下动态几何与随时间变化的参与介质,并用「表面观测模糊 + 帧间光流不一致」推出的逐像素不确定性去加权渲染损失,从而在受控和野外水下视频上同时拿到高质量重建与新视角合成。

Uncertainty Matters in Dynamic Gaussian Splatting for Monocular 4D Reconstruction

提出 USplat4D,一种不确定性感知的动态高斯泼溅框架,通过估计每个高斯的时变不确定性并构建不确定性引导的时空图来传播可靠运动线索,显著提升了遮挡区域和极端新视角下的单目 4D 重建质量。

Unified 3D Scene Understanding Through Physical World Modeling

3WM 把 RGB 图像块、光流块和相机位姿统一成一个可随机访问的概率图模型,用 GPT 式自回归预测在同一套提示接口下零样本完成新视角合成、3D 物体操控和自监督深度估计,并在多个真实场景基准上超过专门模型。

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

UniUGG 是第一个面向 3D 模态的「统一理解与生成」框架:用一个几何-语义联合预训练的 ViT 编码视觉表征,再让 LLM 结合扩散模型在压缩后的隐 token 上做条件去噪,从一张参考图 + 任意视角变换「想象」出几何一致的 3D 场景,同时保留空间 VQA 能力,在 VSI-Bench 上比次优方法高 17.9%。

Universal Beta Splatting

提出 Universal Beta Splatting (UBS),将 3D 高斯 Splatting 推广为 N 维各向异性 Beta 核,通过逐维度形状控制在单一表示中统一建模空间几何、视角依赖外观和场景动态,实现了可解释的场景分解和 SOTA 渲染质量。

UnLoc: Leveraging Depth Uncertainties for Floorplan Localization

UnLoc 把单目预测的"楼层图深度"显式建模成带不确定性的 Laplace 分布,再用现成的预训练单目深度模型(Depth Anything v2)替换掉逐场景训练的专用深度网络,在序列视觉楼层图定位上对 SOTA(F3Loc)实现大幅提升——在真实数据集 LaMAR HGE 的 15 帧短序列上召回率提升 42.2 倍。

Unsupervised Representation Learning for 3D Mesh Parameterization with Semantic and Visibility Objectives

这篇论文把无监督神经 UV 参数化从“只追求低几何畸变”推进到“服务真实贴图工作流”:先用语义分块让 UV island 对齐 3D 部件,再用环境光遮蔽引导 seam 落到不显眼区域,从而得到更适合编辑、纹理生成和资产复用的 3D mesh UV atlas。

UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections

UP2You 提出"数据矫正器"范式,把一堆姿态/视角/裁剪/遮挡各不相同的随手照片,用一次前向在几秒内矫正成干净的正交多视图 RGB 与法线图,再交给传统重建算法生成高保真带纹理人体网格,整套流程 1.5 分钟、显存几乎恒定,几何与纹理指标全面超过此前需要数小时优化的方法。

UrbanGS:面向几何精确的大规模城市高斯泼溅的高效可扩展架构

UrbanGS 用「深度一致的 D-Normal 双监督正则 + 几何感知置信度加权 + 空间自适应高斯剪枝 + 统一分区」四件套,把 3DGS 扩展到城市级场景,在渲染质量、几何精度和显存效率上同时超过 CityGaussian-v2、VCR-GauS 等方法,且单卡 A5000 也能跑不爆显存。

Variation-Aware Flexible 3D Gaussian Editing

VF-Editor 把 3D 高斯编辑重新定义为「逐基元属性变分预测」问题,用一个从多源 2D 编辑知识蒸馏出来的前馈变分预测器,约 0.3 秒就能原生地编辑整个高斯场,既根除了「先 2D 编辑、再 3D 重建」范式的多视角不一致,又支持自由混合、强度调节等灵活编辑。

VoMP: Predicting Volumetric Mechanical Property Fields

VoMP 是首个前馈式预测 3D 物体体内力学材料场(杨氏模量 \(E\)、泊松比 \(\nu\)、密度 \(\rho\))的方法:把任意可体素化、可渲染的 3D 表示(网格 / 高斯泼溅 / NeRF / SDF)逐体素聚合多视角 DINOv2 特征,经 Geometry Transformer 预测每体素材料隐码,再由约束在"物理可行材料流形"上的 MatVAE 解码出真实材料三元组,几秒内即可给出可直接用于精确仿真的材料,精度与速度都大幅超越此前方法。

WAFT: Warping-Alone Field Transforms for Optical Flow

WAFT 用高分辨率的特征 warping 彻底替换掉光流方法里被奉为标配的代价体(cost volume),靠一个 DPT/ViT 的迭代更新模块隐式处理大位移,在 Spring、Sintel、KITTI 上拿下第一档精度的同时显存只用同类方法的 1/3、速度快 1.3–4.1 倍。

Weight Space Representation Learning on Diverse NeRF Architectures

提出首个能处理多种 NeRF 架构(MLP/tri-plane/hash table)权重的表示学习框架,通过 Graph Meta-Network 编码器 + SigLIP 对比损失构建架构无关的潜在空间,在 13 种 NeRF 架构上实现分类、检索和语言任务,并能泛化到训练时未见的架构。

World2Minecraft: Occupancy-Driven Simulated Scenes Construction

把真实世界室内场景用「3D 语义占据预测」转成体素对齐的 Minecraft 可编辑环境,并顺手造了一个能直接跑 VLN 的仿真平台;同时反向用 Minecraft 自动批量生成 10 万张占据标注(MinecraftOcc 数据集),既当难 benchmark 又当真实数据集的增强料。

WorldTree: Towards 4D Dynamic Worlds from Monocular Video Using Tree-Chains

WorldTree 用一棵「时序划分树」把单目视频按时间二分成由粗到细的子区间逐层优化,再用「空间祖先链」把每个子节点和它的所有祖先节点串起来做空间互补与运动表征特化,从而在单目动态重建上同时解决「全局时序优化」和「层级空间耦合」两大顽疾,LPIPS 在 NVIDIA-LS 上比次优方法降 8.26%、mLPIPS 在 DyCheck 上降 9.09%。

YoNoSplat: You Only Need One Model for Feedforward 3D Gaussian Splatting

YoNoSplat 用一个前馈模型,从任意数量、无位姿、无标定的多视图图像里直接预测每视图局部 3D 高斯 + 相机位姿 + 内参,再聚合成全局场景;靠"混合强迫(mix-forcing)"训练策略和成对距离归一化 + 内参条件嵌入两招,解决位姿/几何纠缠和尺度歧义,在有位姿/无位姿两种设定下都做到 SOTA,100 张图 2.69 秒重建一个场景。