🧊 3D 视觉¶
📷 CVPR2026 · 751 篇论文解读
📌 同领域跨会议浏览: 🔬 ICLR2026 (194) · 🧪 ICML2026 (30) · 🤖 AAAI2026 (79) · 🧠 NeurIPS2025 (116) · 📹 ICCV2025 (267) · 🧪 ICML2025 (17)
🔥 高频主题: 3D 高斯渲染 ×125 · 动态场景 ×65 · 三维重建 ×44 · 点云 ×33 · 扩散模型 ×30
- 240FPS Stereo Vision from Monocular Mixed Spikes
-
用一台单目脉冲相机把左右两路视图光学混合到同一传感器、并对其中一路做 60 Hz 周期调制,再通过"最小二乘基线解耦 + SMS-Net 深度精修"两阶段,从混合脉冲流里重建出 240FPS 的双目视频,在保持单目硬件紧凑、数据高效的同时把深度估计精度做到接近"理论上界"。
- 2D-LFM: Lifting Foundation Model without 3D Supervision
-
只用 2D 关键点(不碰任何 3D 真值),通过在 Transformer 每一层都注入「对应关系位置编码」,训出第一个跨类别的 2D→3D 提升基础模型,在物体级几何上反而超过 VGGT 等依赖 RGB 深度的大模型(Pascal3D+ 8.1mm vs VGGT 89.4mm)。
- 3D-Aware Multi-Task Learning with Cross-View Correlations for Dense Scene Understanding
-
给标准多任务学习(MTL)网络挂一条轻量、与任务无关的"几何旁路"——跨视角模块 CvM(空间感知编码器 + 多视角 Transformer + 代价体),把相邻视角之间的几何对应作为几何一致性注入共享特征,让单网络同时预测深度/分割/法向/边界时更"懂 3D",在 NYUv2、PASCAL-Context 上即插即用地涨点(∆MTL 最高 +3.09)。
- 3D-Fixer: Coarse-to-Fine In-place Completion for 3D Scenes from a Single Image
-
提出"就地补全"(in-place completion)新范式,将预训练物体级生成先验扩展到场景级,直接在原始位置对碎片化几何进行补全,无需显式位姿对齐,同时构建110K规模场景级数据集 ARSG-110K,大幅超越 MIDI 和 Gen3DSR 等基线。
- 3D-IDE: 3D Implicit Depth Emergent
-
提出"隐式几何涌现原则"(IGEP),通过训练时的轻量级几何验证器和全局3D教师进行特权监督,使视觉编码器在仅输入RGB视频时即具备3D感知能力,推理时零延迟开销,在多个3D场景理解基准上超越同类方法。
- 3D-LATTE: Latent Space 3D Editing from Textual Instructions
-
3D-LATTE 把指令式 3D 编辑直接搬进一个原生 3D 扩散模型(DiffSplat)的潜空间里做:通过反演源物体得到噪声、再用编辑提示去噪,过程中注入源物体的 3D 自/交叉注意力图来锁住几何与结构,配合几何正则、频率退火和迭代细化,在保持多视角一致的前提下实现了大幅度且精准的几何+外观编辑,定量、GPTEval3D 和用户研究全面超过此前 SOTA。
- 3D-Object Perception Transformer (3PT)
-
3PT 用一个端到端训练、直接以 CAD 模型为条件的统一 Transformer 框架(检测 + 物体分组 + 迭代精化)替代了现有"冻结基础模型拼装 + 依赖深度"的零样本 3D 物体感知流水线,仅靠多视角 RGB 就在 BOP 系列基准的检测和 6DoF 位姿上大幅超过 SOTA(工业数据集位姿 AP-mm 相对提升 56.5%),并在 BOP Challenge 2025 的 11 个赛道中拿下 7 个第一。
- 3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding
-
3D-VCD 是首个面向 3D 具身智能体的推理时幻觉抑制框架:对物体中心的 3D 场景图施加语义/几何扰动得到一个"被破坏"的负样本上下文,让 MLLM 在原始图和扰动图上各跑一遍,再用对比解码公式把"换了场景也照样高概率"的 token 压下去——无需重训,几乎零额外开销,就在 3D-POPE / HEAL 上显著降低过度肯定与物体幻觉。
- 3D Gaussian Splatting at Arbitrary Resolutions with Compact Proxy Anchors
-
本文在 Scaffold-GS 的 anchor 框架上,用 FiLM 把"目标分辨率"注入 anchor 特征、再加一个"像素覆盖门"按采样率动态激活高斯,实现连续任意分辨率下的无锯齿渲染;同时只存约 30% 的 proxy anchor、用残差预测器在线重建其余 leaf anchor,把存储压到 Scaffold-GS 的一半左右而质量不降。
- Nope-SGS:从无位姿脉冲流重建 3D 高斯
-
本文提出 Nope-SGS,第一个无需相机位姿先验、直接从脉冲相机(spike camera)原始脉冲流重建高速 3D 场景的框架:通过把脉冲成像重新建模成二项分布、从单帧不稳定脉冲里恢复出稳定的归一化监督信号(NBDS),再配合关键帧筛选与渐进式优化,同步求解相机轨迹与 3D 高斯,PSNR 最高比 SOTA 高 7.4dB、ATE 低 40%,且是脉冲方法里最快的。
- 3D Gaussian Splatting with Self-Constrained Priors for High Fidelity Surface Reconstruction
-
提出自约束先验(Self-Constrained Prior),通过融合当前3D高斯渲染的深度图构建TSDF距离场,以此为先验对高斯施加几何感知约束(异常值移除、不透明度约束、向表面移动),实现高保真表面重建,在NeRF-Synthetic和DTU上达到SOTA。
- 3D sans 3D Scans: Scalable Pre-training from Video-Generated Point Clouds
-
提出LAM3C框架,首次证明从无标注网络视频(房产导览等)重建的视频生成点云(VGPC)可替代真实3D扫描进行3D自监督预训练,通过拉普拉斯平滑损失和噪声一致性损失稳定噪声点云上的表示学习,配合自建RoomTours数据集(49K场景)在室内语义和实例分割上匹配甚至超越使用真实扫描的方法。
- 3DrawAgent: Teaching LLM to Draw in 3D with Early Contrastive Experience
-
提出免训练的 3DrawAgent 框架,让冻结的 LLM 通过"对比经验优化"(contrastive experience optimization)自我学习3D空间推理,以自回归方式生成语言驱动的3D Bezier草图,无需参数更新即可达到接近有训练方法的水平。
- 3DReflecNet: A Large-Scale Dataset for 3D Reconstruction of Reflective, Transparent, and Low-Texture Objects
-
3DReflecNet 构建了一个超过 22 TB、含 12 万+ 合成实例与 1000+ 真实扫描、共 700 万+ 多视图帧的混合数据集,专门针对反光 / 透明 / 弱纹理这三类「打破光度一致性假设」的难材质,并配套五大任务基准;实验系统性地暴露出当前 SOTA 重建方法在这些材质上的崩溃式失效。
- 4C4D: 4 Camera 4D Gaussian Splatting
-
提出 4C4D 框架,通过神经衰减函数(Neural Decaying Function)自适应控制高斯不透明度衰减,解决稀疏(仅4个相机)4D高斯溅射中几何与外观学习的不平衡问题,在多个数据集上达到SOTA。
- 4D Local Modeling Toward Dynamic Global Perception for Ambiguity-free Rotation-Invariant Point Cloud Analysis
-
针对旋转不变(RI)点云表征里"局部对称结构难以区分 + 全局位姿信息被丢弃"两大歧义,本文提出 Ga4DPF:用可学习的可操控变换把点云等变地抬升到 4D 空间构造稳健局部点对特征,再用 Bingham 分布动态估计一个一致的全局旋转给每个点挂一个全局锚点,在 ModelNet40 / ScanObjectNN / ShapeNetPart 上以更低的参数量和 FLOPs 取得 SOTA。
- 4D Primitive-Mâché: Glueing Primitives for Persistent 4D Scene Reconstruction
-
4DPM 把随手拍的单目 RGB 视频拆成一组刚性运动的 3D 图元(primitive),用稠密 2D 对应把每个图元在时间上"粘"起来,只需对每个图元估一个 SE(3) 位姿就能把所有历史观测重映射到任意时刻,从而在每一帧都给出完整且持久的场景几何,甚至能维持被遮挡物体的位置(物体恒存)。
- 4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video
-
提出 4DEquine 框架,将单目视频的马科动物 4D 重建解耦为动态运动估计(AniMoFormer)和静态外观重建(EquineGS)两个子问题,仅用合成数据训练即在真实数据上达到 SOTA。
- GAI-GS:用几何代数注意力把光线-物体交互注入 3DGS 的无线信道预测框架
-
GAI-GS 把 3D Gaussian Splatting 当作无线辐射场,用一个基于几何代数(Geometric Algebra, GA)的注意力 tokenizer 隐式建模电磁波在场景里的反射/衍射/透射等光线-物体交互,再通过双分支场景映射网络把交互信息残差注入高斯属性,最终在多个真实室内 RSSI/空间谱数据集上把 MAE 和 SSIM 都刷到 SOTA。
- GAP: Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation
-
GAP利用预训练3D几何基础模型(π³)提取3D特征,融合2D语义和本体感知,通过条件扩散联合预测未来动作序列和未来3D pointmap,在RoboTwin 2.0和真实双臂实验中达到SOTA。
- ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
-
提出 ActionMesh,通过最小化扩展预训练3D扩散模型增加时间轴(时序3D扩散),再用时序3D自编码器将独立形状序列转为拓扑一致的动画网格,仅2分钟即可从视频/文本/3D网格等多种输入生成产品级动画3D网格,在几何精度和时间一致性上均达SOTA。
- ActivePolicy: Active Gaussian Reconstruction and Optimization Strategy Based on Global-Local Information Gain
-
ActivePolicy 把主动 3D 高斯重建的下一最佳视角(NBV)选择改写成一个图谱稳定性优化问题——构建一张同时编码几何不确定性、渲染质量和视角冗余的 GL-Graph,用归一化拉普拉斯的 Fiedler 向量挑视角;再配一套基于黎曼深度流形不一致的 floater 检测 + 置信加权随机 dropout(4D-Reg)抑制稀疏视角过拟合,在 Replica/MP3D 上同时拿到 SOTA 的几何完整度和渲染保真度。
- Adapting Point Cloud Analysis via Multimodal Bayesian Distribution Learning
-
BayesMM 提出了一个无需训练的动态贝叶斯分布学习框架,将文本和几何模态建模为高斯分布,并通过贝叶斯模型平均自动调节模态权重,在多个点云基准上实现了鲁棒的测试时适配,平均提升超过 4%。
- Adaptive 3D Perception for Small Aerial Targets Under Sparse Sampling via Reinforcement Learning
-
针对远距 LiDAR 下小型空中目标(鸟、无人机)点云极度稀疏且随运动剧烈抖动的问题,A3PRL 用一个轻量 5 维强化学习策略,根据无标签的稀疏度/接受率/轨迹连续性统计量,在线联合调节体素分辨率、检测阈值和关联门限,把"固定参数感知流水线"改造成"闭环自适应感知-控制系统",在 MMAUD 跨场景测试上把 3D 定位误差降低约 19%。
- Adaptive Spatial-Temporal Window: Unlocking the Potential of Event Cameras in Heterogeneous Velocity Scenarios
-
针对一个画面里既有快物体又有慢物体的"异速场景",本文提出 ASTW 事件切分策略:把像素平面切成小 patch,基于最大熵原理推导出"每个 patch 的最优时间窗 \(\Delta t = \gamma / D\)"的解析公式(\(D\) 是事件密度),再用向量化 \(O(N)\) 实现,让每个空间区域自适应选窗,目标检测最高 +2.6 mAP、跟踪最高 +2.2 SR。
- AERGS-SLAM: Auto-Exposure-Robust Stereo 3D Gaussian Splatting SLAM
-
针对真实场景里相机自动曝光(AE)导致的图像外观漂移破坏 3DGS 光度一致性的问题,AERGS-SLAM 用一个把"渲染辐照图"和"曝光过程"解耦的相机曝光网络(CEN)+ 学习式光照鲁棒特征定位 + 时序感知的由粗到细优化,做出第一个抗曝光变化的解耦式 3DGS SLAM,在定位精度和高保真重建上都超过现有 baseline,且渲染比 HDR-GS 快近 10 倍。
- AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction
-
提出 AeroDGS,一个面向单目无人机视频的物理引导 4D 高斯泼溅框架,通过单目几何提升模块重建可靠的静态与动态几何,并引入可微的地面支撑、直立稳定性和轨迹平滑性物理先验,将模糊的图像线索转化为物理一致的运动估计,在合成与真实 UAV 场景上均优于现有方法。
- AeroGS: Scale-Aware Gaussian Splatting for Pose-Free Dynamic UAV Scene Reconstruction
-
AeroGS 用一种"尺度感知时空锚点"(S2A-Anchors)从无位姿的单目无人机视频里,同时估计相机轨迹并重建含运动物体的动态 4D 场景,靠三套解耦机制(自我运动 vs 物体运动、外观 vs 形变、尺度 vs 复杂度)稳住联合优化,在 VisDrone/UAVDT/KITTI 上把渲染 PSNR 和轨迹精度都刷到了 SOTA。
- Aesthetic Camera Viewpoint Suggestion with 3D Aesthetic Field
-
这篇论文提出"3D 美学场"——用一个前馈 3D 高斯泼溅网络,把预训练 2D 美学模型的高层知识蒸馏成逐高斯的美学特征,从而只用稀疏几张照片就能在 3D 空间里预测任意新视角的构图美感,再配合"粗采样 + 梯度精修"的两阶段搜索,高效地推荐出最好看的拍摄视点,避开了以往要么单图局部微调、要么靠密集采集 + 强化学习硬搜的两难。
- Affine Perspective-Three-Point Problem
-
把经典 P3P(三点位姿求解)放到弱透视/准透视这两种仿射相机模型下,推导出只需解一个双二次方程的闭式最小求解器,再用一个轻量的迭代升级把仿射解"修"成精确透视解,两步迭代就能在精度上追平 SOTA 的精确 P3P 求解器,且更快。
- AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis
-
AffordGrasp 提出了一个基于扩散的跨模态框架,通过可供性引导的潜空间扩散和分布调节模块(DAM),从文本指令和物体点云生成物理可行且语义一致的人手抓取姿态,在四个基准上显著超越现有方法。
- AffordMatcher: Affordance Learning in 3D Scenes from Visual Signifiers
-
AffordMatcher 提出了一种从视觉信号(RGB 图像中的人物交互)定位 3D 场景中可供性区域的方法,通过大规模 AffordBridge 数据集和基于不相似度矩阵的 Match-to-Match 注意力机制,在零样本可供性分割上达到 53.4 mAP,超越次优方法 7.8 个点。
- Affostruction: 3D Affordance Grounding with Generative Reconstruction
-
提出Affostruction,通过稀疏体素融合的生成式重建完成物体几何(包括未观测区域),并用Flow Matching建模功能可供性的多模态分布,在完整3D形状上实现功能区域定位,重建IoU提升54.8%、affordance aIoU提升40.4%。
- AIMDepth: Asymmetric Image-Event Mamba for Monocular Depth Estimation
-
AIMDepth 把 Mamba(状态空间模型)首次用到图像-事件融合的单目深度估计上,并在融合前先做两级模态对齐——频域的双向先验注入(SCPG)做输入级对齐、非对称特征选择编码器(AME)做特征级对齐,再用模态交互局部精化模块(ModiLocal)融合,在 MVSEC / DENSE 上以仅 8.69 GFLOPs 的开销拿到 SOTA。
- Aligning Text, Images and 3D Structure Token-by-Token
-
本文提出 Kyvo——一个把"结构化 3D 场景"当作第三种模态、和文本/图像放进同一 token 空间的 decoder-only 自回归 LLM(基于 Llama-3.2-1B),并通过一本"cookbook"系统给出 3D 形状 token 化、坐标编码、序列设计等关键配方,使单个模型就能做渲染、单图 3D 重建/识别、指令编辑、问答四类 3D 任务。
- AlignPose: Generalizable 6D Pose Estimation via Multi-view Feature-metric Alignment
-
AlignPose 把多张已标定 RGB 视图里各自单视角估出的物体位姿候选,先用 3D NMS 聚合成唯一候选,再用一个跨所有视图同时最小化「在线渲染特征 vs 观测图像特征」差异的多视角特征度量精修,求出一个全局一致的世界坐标系位姿;整个过程不需要任何针对物体的训练或对称性标注,在工业级无纹理/反光/透明物体数据集上比已有方法领先 14% 以上。
- AMB3R: Accurate Feed-forward Metric-scale 3D Reconstruction with Backend
-
AMB3R 在冻结的 VGGT 前端之上挂一个「稀疏但紧凑」的体素后端做显式 3D 几何推理,再加一个轻量标度头恢复度量尺度,仅用约 80 H100 GPU 时训练就在 7 个任务/13 个数据集上刷到 SOTA;配套的 AMB3R-VO / AMB3R-SfM 两条免训练管线,让前馈模型首次在 VO/SLAM 与 SfM 上超过了基于优化的传统系统。
- Anatomical Domain Shifts: Test-time Heterogeneous Adaptation for 3D Human Pose Prediction
-
针对 3D 人体姿态预测的持续测试时自适应(CTTA),本文指出"域漂移其实集中在个别身体部位、而非全身均匀发生"这一被忽视的事实,提出 TT-HA:把模型参数按左右臂、左右腿、躯干拆成五个解剖学子集,用 IN 统计量 + EMD 在线度量每个部位的域变化,再据此对小漂移部位做自监督微调、对突变部位只回滚该部位参数到源模型,从而在全身 MPJPE 降 4.7% 的同时让四肢误差多降 9.2%。
- AnchorFlow: Training-Free 3D Editing via Latent Anchor-Aligned Flows
-
AnchorFlow 把"免反演 3D 编辑"失败的根因归结为每个时间步都重采高斯噪声、导致潜在锚点(latent anchor)漂移,于是引入一个被源轨迹和目标轨迹共享的全局潜在锚点,用一条松弛的锚点对齐损失把两条轨迹钉在同一参考上,从而在不微调、不用掩码的前提下实现既改得动、又不破坏几何的 3D 形状编辑。
- AnchorSplat: Feed-Forward 3D Gaussian Splatting with 3D Geometric Priors
-
AnchorSplat 提出了一种锚点对齐的前馈 3DGS 框架,以 3D 几何先验(稀疏点云)为锚点直接在 3D 空间预测高斯,用约 20 倍更少的高斯数量和一半的重建时间在 ScanNet++ v2 上达到 SOTA 性能(PSNR 21.48),同时具备更好的深度估计精度。
- Animator-Centric Skeleton Generation on Objects with Fine-Grained Details
-
针对现有自动骨架生成(rigging)无法处理复杂结构、又几乎不可控的两大痛点,本文构建了 82,633 个绑定网格的大规模数据集,提出"语义感知 tokenization"和"可学习密度区间"两套机制,让一个基于 OPT-350M 的解码器自回归模型既能给衣裙、长袖、缰绳这种精细结构生成完整骨架,又能让动画师直接控制骨骼密度、并在给定主骨的前提下补全辅助骨。
- AniMimic: Imitating 3D Animation from Video Priors
-
AniMimic 把视频扩散模型生成的单目动画当作运动监督,给一个静态 3D mesh 自动绑骨、用可微渲染优化关节参数把 2D 运动"抬"回 3D,再用可微 FEM 软体仿真补上惯性与弹性,产出可编辑、物理合理、可直接进动画流水线的 4D 序列。
- AnthroTAP: Learning Point Tracking with Real-World Motion
-
AnthroTAP 提出了一种自动化管线,从真实人体运动视频中通过 SMPL 拟合和光流过滤生成大规模伪标签点跟踪数据,仅用 1.4K 视频 + 4 GPU 一天训练即达到TAP-Vid 基准的 SOTA 性能,超越使用 15M 视频的 BootsTAPIR。
- Any4D: Unified Feed-Forward Metric 4D Reconstruction
-
Any4D 用一个多视图 Transformer 把 N 帧视频在单次前馈里直接回归出稠密、度量尺度的几何 + 运动(深度、相机位姿、3D 场景流),靠"egocentric/allocentric 因式分解 + 全局尺度因子"的表示来混合各种残缺标注数据训练,并能选用 RGB-D / IMU / 雷达多普勒等额外传感器,比此前 SOTA 快 15×、误差低 2–3×。
- Any Resolution Any Geometry: From Multi-View To Multi-Patch
-
把单张超高清图像拆成一堆 patch、当作 VGGT 里的"虚拟多视角"来联合处理,配上跨 patch 注意力做全局一致性推理,从而在一次前向里同时输出锐利且全局连贯的高分辨率深度图和表面法线,在 UnrealStereo4K 上把 AbsRel 从 0.0582 降到 0.0291。
- AnyLift: Scaling Motion Reconstruction from Internet Videos via 2D Diffusion
-
AnyLift 用「先合成多视角 2D 运动数据、再训相机条件多视角 2D 扩散模型」的两阶段框架,把互联网单目动态相机视频里的 2D 关键点抬升成世界坐标系下的 3D 人体动作与人-物交互(HOI),无需任何 3D 监督就能重建体操、武术等 MoCap 里罕见的动作。
- AnyPcc: Compressing Any Point Cloud with a Single Universal Model
-
提出 AnyPcc,通过 Universal Context Model(融合空间+通道双粒度先验)和 Instance-Adaptive Fine-Tuning(实例自适应微调)策略,用单一模型在 15 个多样化数据集上实现 SOTA 点云几何压缩,相比 G-PCC v23 获得 ~12% 的码率增益。
- ArchSym: Detecting 3D-Grounded Architectural Symmetries in the Wild
-
针对"野外真实场景里检测 3D 反射对称面"这一空白,本文先用跨视角倒影匹配从 SfM 重建里自动标注出大规模地标对称数据集 ArchSym,再训练一个把对称面参数化成"相对预测几何的符号距离图"的单视图检测器,从单张 RGB 图里准确地、带尺度地定位对称面,显著超过现有 SOTA。
- Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
-
这篇论文第一次系统地把强化学习引入文本到 3D 自回归生成,从奖励设计、RL 算法、评测基准、RL 范式四个维度逐一拆解,最终提出分层 coarse-to-fine 的 Hi-GRPO 并训练出首个 RL 增强的文本到 3D 模型 AR3D-R1,在 Toys4K 和新基准 MME-3DR 上都超过 Trellis。
- AREA3D: Active Reconstruction Agent with Unified Feed-Forward 3D Perception and Vision-Language Guidance
-
AREA3D 是一个主动 3D 重建智能体:它把"下一步该看哪"拆成两路互补信号——前馈 3D 模型给出的几何置信度(哪里已经看清楚了)和 VLM 给出的语义推理(哪里可能被遮挡、还没看到),在体素网格上融合成一个统一的"where-to-look"不确定性场,再用带可见性约束的贪心策略在很紧的视点预算下挑出最有价值的几个视点,从而在稀疏观测下重建出高保真几何。
- ARES: Unifying Asymmetric RGB-Event Stereo for Probabilistic Scene Flow Estimation
-
用一个"事件相机 + RGB 相机"的非对称双目装置,先靠 Multimodal Contextual Attention 把异步事件的时间线索和 RGB 的空间结构融成统一表征同时估计光流与视差,再用 Temporal Disparity Posterior Fusion 概率地建模视差随时间的演化,从而恢复出几何一致、时间稳定的稠密场景流,在 RGB-事件立体设置下取得 SOTA 场景流精度。
- ARMFlow: AutoRegressive MeanFlow for Online 3D Human Reaction Generation
-
把"单步生成"的 MeanFlow 范式首次引入人体动作领域,用一个"因果上下文编码器 + 轻量 MLP 速度预测器"的自回归结构,配合自举历史训练(BSCE)抑制误差累积,让在线 3D 人体反应生成在单次推理内完成,FID 比已有在线方法降约 30%,速度还最快。
- ART: Articulated Reconstruction Transformer
-
ART 把"铰接物体重建"重新表述成部件级前馈预测问题——用一组可学习的 part slot,从稀疏多视角、多状态 RGB 图像里一次性解码出每个刚性部件的几何、纹理和显式运动参数(轴/枢轴/运动类型),无需逐物体优化、跨类别通用,在部件级和整体几何指标上大幅超越前馈与优化两类基线。
- ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions
-
ArtHOI 首次实现了从单目 RGB 视频重建手与铰接物体(如剪刀、眼镜、笔记本电脑)4D 交互的完整流水线,通过自适应采样精化(ASR)优化物体度量尺度和位姿、以及 MLLM 引导的手物对齐方法,在多个数据集上超越了需要预扫描物体几何的基线 RSRD。
- Artiverse: A Diverse and Physically Grounded Dataset for Articulated Objects
-
Artiverse 用一条"少样本分割 + 几何推理 + 多阶段人工校验"的半自动标注流水线,从 10 个静态 3D 仓库筛出 5402 个高质量铰接物体(88 类、24607 个部件),逐部件标注功能语义、铰接关节(含多自由度)、材质/质量/米制尺度,把人工标注时间砍掉 30%+,并在部件运动分析、铰接物体生成、物理仿真三个下游任务上证明其价值。
- ArtLLM: Generating Articulated Assets via 3D LLM
-
ArtLLM 将铰接物体生成建模为语言生成问题,使用 3D 多模态 LLM 从点云自回归预测部件布局和运动关节参数(离散化为 token),再结合 XPart 生成高保真部件几何,在 PartNet-Mobility 数据集上显著超越现有方法(mIoU 0.69, 推理仅需 19 秒)。
- ArtPro: Self-Supervised Articulated Object Reconstruction with Adaptive Integration of Mobility Proposals
-
ArtPro 把"一次性猜对零件分割"换成"过度分割 → 优化中自适应合并"的 propose-verify-merge 流水线,在 3DGS 自监督重建框架下用运动一致性合并相邻零件、用碰撞感知剪枝纠偏运动参数,从而在复杂多零件铰接物体上稳定重建出几何 + 外观 + 运动结构兼备的数字孪生。
- AssemblyBench: Physics-Aware Assembly of Complex Industrial Objects
-
针对现有装配数据集只关注「最终位姿、IKEA 家具」的局限,本文造了一个含 2789 件复杂工业物体、带分步图文说明书与 6-DoF 装配轨迹的合成数据集 AssemblyBench,配套一个一次前向就同时预测装配顺序+各零件运动轨迹的 Transformer 模型 AssemblyDyno,并首次用物理仿真器执行预测轨迹来评测「物理可行性」——同样设定下 AssemblyDyno 在仿真器里的装配成功率约 33%,而此前 SOTA 只有约 3%。
- AsymLoc: Towards Asymmetric Feature Matching for Efficient Visual Localization
-
AsymLoc 提出"非对称视觉定位"——离线用大 Teacher 处理地图库图、在线用极小 Student 处理查询图,通过几何匹配损失 + 联合检测-描述子蒸馏把 Student 特征对齐到 Teacher,使两者能直接用无参数互最近邻匹配,在模型缩小一个数量级时仍保留约 95% 的 Teacher 定位精度。
- AutoRegressive Generation with B-rep Holistic Token Sequence Representation
-
BrepARG 首次把 CAD 的边界表示(B-rep)的几何与拓扑编码成一条统一的 token 序列,从而能用 decoder-only Transformer 做 next-token 自回归生成,在 DeepCAD/ABC 上拿到 SOTA,且训练只需 1.2 天、单张 4090 推理一个模型约 1.5 秒。
- AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models
-
提出 AVA-Bench,首个将视觉基础模型(VFM)的能力解耦为 14 种原子视觉能力(AVA)的系统性评测基准,通过训练-测试分布对齐和单一能力隔离测试,精准定位 VFM 的强项与短板,并发现 0.5B 小模型即可保持与 7B 模型相当的 VFM 排名一致性。
- AvatarPointillist: AutoRegressive 4D Gaussian Avatarization
-
AvatarPointillist 提出了一种自回归(AR)生成框架来构建 4D 高斯头像:用 decoder-only Transformer 逐点生成 3DGS 点云(含绑定信息),再用 Gaussian Decoder 预测渲染属性,打破了固定模板拓扑的限制,实现了自适应点密度调整,在 NeRSemble 上全面超越 LAM、GAGAvatar 等基线。
- AVGGT: Rethinking Global Attention for Accelerating VGGT
-
通过逐层剖析 VGGT/π³ 中全局注意力的真实作用(早期层无效、中间层做跨视图对齐、末层只微调),提出一个免训练的两步加速方案——把早期全局层换成帧内注意力、对剩余全局层只对 K/V 做网格下采样——在几乎不掉精度的前提下,把 800 帧输入的推理提速 8–10×。
- B³-Seg: Camera-Free, Training-Free 3DGS Segmentation via Analytic EIG and Beta-Bernoulli Bayesian Updates
-
B³-Seg 把"在一份现成 3DGS 资产上分割指定物体"这件事重写成一串 Beta-Bernoulli 贝叶斯更新,并用解析形式的期望信息增益(EIG)主动挑下一个最有信息量的相机视角,做到无相机轨迹、无训练、开放词汇、几秒出结果,精度可逼近耗时几十分钟的监督方法。
- BA-GS: Bayesian Adaptive Gaussian Splatting for SFM-Free 3D Reconstruction
-
针对稀疏视角下免 SfM 的 3D 高斯泼溅,BA-GS 用一个两层贝叶斯框架显式建模高斯基元的不确定性——全局初始化用变分贝叶斯高斯混合模型(VB-GMM)按密度/梯度把基元分成四类做裁剪与插值,局部细化用自适应卡尔曼滤波把每步梯度更新当作带噪观测来融合先验,在 Tanks and Temples、MVImgNet、LLFF 上 PSNR/SSIM/LPIPS 全面超过 InstantSplat 等基线,同时基元更少、渲染更快。
- BEA-GS: BEyond RAdiance Supervision in 3DGS for Precise Object Extraction
-
针对 3DGS 场景里"物体提取后冒出隐藏高斯尖刺"的痛点,BEA-GS 在 2DGS 优化中加了两个互补损失——可见区的 2D 边界损失(沿光栅化传梯度,把越界高斯推回边界)和非可见区的 3D 占据损失(绕过光栅化、直接对体素先验里"无支撑"的高斯采样点惩罚),在 4 个数据集 6 个指标上拿到迄今最干净的物体边界。
- GeoCodeBench: Benchmarking PhD-Level Coding in 3D Geometric Computer Vision
-
首个面向3D几何计算机视觉的PhD级代码生成基准GeoCodeBench,包含100个从2025年顶会论文+代码库中精选的函数补全任务,配套自动化多样化单元测试,最强模型GPT-5仅36.6%通过率,揭示LLM在科学级3D代码实现上的巨大差距。
- Best Segmentation Buddies for Image-Shape Correspondence
-
本文提出 Best Segmentation Buddies(BSB),把"像素-顶点互为最近邻"这个在图像↔3D网格之间几乎无法成立的硬约束,松弛成"分割区域级别的互最近邻",从而在无标注、零训练的情况下,把一张野外图像里点击的语义部件,对应到一个无纹理 3D 网格上的对应部件。
- Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D
-
提出"艺术视差合成"新范式(Art3D),将2D-to-3D转换目标从几何精度转向艺术表达,通过双路径架构解耦全局深度风格与局部艺术效果,从专业3D电影数据中学习导演意图。
- Beyond Reassembly: Fractured Object Recovery with Missing Parts
-
针对"碎片有缺失、甚至有孤立碎片无法对齐"的真实考古场景,本文提出全新的碎片物体恢复(fractured object recovery)任务,用一个 Transformer 把"估计现有碎片位姿"和"预测缺失碎片形状"两件事联合求解——缺失部件被表示成可学习的掩码 token,与现有碎片特征相互关联,从而在没有重叠先验时也能靠形状先验把整个物体补全,在位姿和补全两项指标上都超过把"组装+补全"拆成两段的基线。
- Bidirectional Cross-Modal Prompting for Event-Frame Asymmetric Stereo
-
针对"一只眼是事件相机、另一只眼是普通 RGB 相机"的非对称立体匹配,本文提出 Bi-CMPStereo:用一个跨域适配器 + 自重建约束把两个模态都拉到"同一个目标域的规范空间"里对齐,且让事件和图像轮流当目标域、双向各跑一遍再融合,在 DSEC / MVSEC / M3ED 上精度和泛化都显著超过此前 SOTA(如 ZEST)。
- Block-Sparse Global Attention for Efficient Multi-View Geometry Transformers
-
针对 VGGT / π³ / MapAnything 这类前馈多视图几何 Transformer,作者发现其全局注意力矩阵高度稀疏(概率质量集中在少数对应跨视图几何匹配的 patch 对上),于是用一个免训练的块稀疏注意力直接替换稠密全局注意力,推理加速 3×(长序列上更多),而重建/位姿精度基本不掉。
- Breaking the 3D Dataset Bottleneck: Fast Scalable Generation of Aligned 3D Assets from Scratch for Category 6D Pose Estimation and Robotic Grasping
-
只给一个类别名,就能用「文本→图像→3D」的全自动流水线在 3 分钟内造出一个规范对齐的纹理网格,并配套生成 6D 位姿与抓取数据集——核心靠深度条件生成把姿态一致率从 57% 拉到 96%,让生成的 153K 网格直接可用于零样本 sim2real 位姿估计和真机抓取。
- Breaking the Scalability Limit of Multi-Projector Calibration with Embedded Cameras
-
把若干相机直接嵌进标定板表面、让它们的光心贴在标定平面上,使所有投影仪能"同时"打结构光、靠入射方向把重叠的图案分离解码,从而把多投影仪标定所需的投影-拍摄次数从"随投影仪数线性增长"压到"近似常数"——25 台投影仪标定从 1100 张图案 12 分钟降到 54 张,精度仍与传统逐台标定相当。
- BRepGaussian: CAD Reconstruction from Multi-View Images with Gaussian Splatting
-
BRepGaussian 首次实现了从多视图图像直接重建完整 B-rep CAD 模型,通过两阶段的 2D 高斯泼溅学习边缘和面片特征,再经参数化拟合生成水密的边界表示,无需点云监督。
- BrickNet: Graph-Backed Generative Brick Assembly
-
本文把 LEGO 积木的搭建序列当作"程序"让 LLM 自回归生成,关键是放弃直接回归每块砖的 6-DoF 坐标、改用一种以"连接关系"为一等公民的图支撑参数化(生成树),配合首次构建的 32 万样本大规模人工设计 LDraw 数据集 BrickNet,使生成序列的连通有效步数从 < 50 步提升到 94+ 步。
- Bringing Your Portrait to 3D Presence
-
用一个把图像特征投到规范 UV 空间的 Dual-UV 表示,配上一套「3D 渲染 + 2D 生成」的因子化合成数据和鲁棒的 proxy mesh 跟踪器,做到只用单张人像(头部 / 半身 / 全身都行)就能重建出可驱动的 3D Gaussian avatar,且只在合成数据上训练就能泛化到真实照片。
- BuildingGPT: Auto-Regressive Building Wireframe Reconstruction Model with Reinforcement Learning
-
BuildingGPT 把"从点云重建建筑线框"重新表述成一个序列生成问题:先用一套分层 tokenization 把线框按"地基→墙→屋顶"的顺序编码成离散 token,再用点云条件的自回归 Transformer 逐 token 生成,最后用一个基于自定义偏好分数(PSF)的 DPO 后训练对齐人类对几何精度与拓扑正确性的偏好,在大规模 MunichWF 数据集上全面超过检测式和扩散式 SOTA。
- C-GenReg: Training-Free 3D Point Cloud Registration by Multi-View-Consistent Geometry-to-Image Generation with Probabilistic Modalities Fusion
-
C-GenReg 用一个预训练的 World Foundation Model(Cosmos-Transfer)把输入点云的几何渲染成「多视角一致的 RGB 视图」,再交给为稠密匹配预训练的 VFM(MASt3R)提对应,并用一套 Noisy-AND 概率融合把图像分支和原始几何分支的对应后验合并起来——全程零训练、即插即用,首次让生成式配准框架成功跑在真实室外 LiDAR 上。
- CaliTex: Geometry-Calibrated Attention for View-Coherent 3D Texture Generation
-
CaliTex 把"跨视图纹理不一致"的根因诊断为多视图扩散里无差别全注意力造成的注意力歧义,提出两种几何校准的注意力——Part-Aligned Attention(按 3D 语义部件分组算跨视图注意力)和 Condition-Routed Attention(让参考图外观先经几何条件中转再注入噪声),在两阶段 DiT 上把几何一致性变成网络的内在行为,纹理保真度与跨视图一致性全面超过开源和商业基线。
- Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?
-
提出 TABLeT,利用预训练的 2D 自然图像自编码器(DCAE)将 3D fMRI 体积压缩为仅 27 个连续 token,配合简单 Transformer 编码器实现前所未有的长时序建模(256 帧),在 UKB、HCP、ADHD-200 上多任务超越 SOTA 体素方法,且计算效率大幅提升。
- CARI4D: Category Agnostic 4D Reconstruction of Human-Object Interaction
-
提出CARI4D,首个类别无关的方法,从单目RGB视频中重建度量尺度的4D人物交互——包括物体形状重建、位姿跟踪、手部接触推理和物理约束优化,零样本泛化到未见类别。
- CaT-GS: Efficient 3DGS Rendering for Large-Scale Scenes with Inter-frame Caching and Tile Scheduling
-
CaT-GS 把 3DGS 的渲染流水线从「逐帧从头算」改成「按帧组复用」:用推测式多帧预处理 + 帧间缓存把连续帧里重复的视锥剔除/排序/瓦片求交全部省掉,再用一个负载感知的 CUDA 核拆分重瓦片来均衡 GPU 占用,在大规模场景上相对原版 3DGS 提速最高 10×、相对此前 SOTA 最高再快 70%。
- Catalyst4D: High-Fidelity 3D-to-4D Scene Editing via Dynamic Propagation
-
提出Catalyst4D框架,通过锚点运动引导(AMG,基于最优传输建立区域级对应)和颜色不确定性引导外观精炼(CUAR,自动识别并修复遮挡伪影),将成熟的3D静态编辑结果传播到4D动态高斯场景中,在CLIP语义相似度上一致性超越现有方法。
- CGHair: Compact Gaussian Hair Reconstruction with Card Clustering
-
提出 CGHair,通过发片(hair card)引导的分层聚类和共享高斯外观码本,在保持可比视觉质量的同时实现 200 倍以上的外观参数压缩和 4 倍发丝重建加速。
- Changes in Real Time: Online Scene Change Detection with Multi-View Fusion
-
提出首个同时具备在线、姿态无关、无标注、多视角一致性的场景变化检测(SCD)方法,通过自监督融合损失将像素级和特征级变化线索集成到 3DGS 变化表示中,在超过 10 FPS 的实时速率下超越了所有已有离线方法的检测精度。
- Charge: A Comprehensive Novel View Synthesis Benchmark and Dataset to Bind Them All
-
作者把 Blender 开源动画电影《Charge》重新渲染成一个统一的新视角合成(NVS)数据集:同一批场景下同时提供 Dense / Sparse / Mono 三种相机布置、6 种像素级标注(RGB、深度、法线、分割、光流、UV)和完美的真值相机位姿,并用它把当前主流的 3DGS 动态重建方法和 VGGT 一类 3D 基础模型放在一把尺子上系统评测,暴露出它们在大运动、稀疏视角、几何—外观耦合上的短板。
- Choreographing a World of Dynamic Objects
-
CHORD 把静态 3D 物体当"演员"、把视频生成模型当"编舞", 通过一套为 rectified-flow 视频模型定制的蒸馏目标 + 时空双层级的 4D 运动表示, 仅凭 3D 形状和一句文本就能生成多物体相互交互的、物理合理的 4D 场景动画, 并能直接驱动真实机器人做零样本操控。
- Chorus: Multi-Teacher Pretraining for Holistic 3D Gaussian Scene Encoding
-
Chorus 把语言对齐(SigLIP2)、通用视觉(DINOv3)、物体感知(PE-Spatial)三类 2D 基础模型当老师,用「共享 3DGS 编码器 + 各教师独立 projector」一次性蒸馏出一个全能的前馈 3D 高斯场景编码器,在语义/实例分割、开放词表、VQA 等一大批任务上同时刷到 SOTA,且训练场景比点云预训练基线少 8.32×~39.9×。
- ChronoGS: Disentangling Invariants and Changes in Multi-Period Scenes
-
ChronoGS 用一套"跨期共享的 anchor 骨架 + 按期调制的特征 + 不透明度几何激活"机制,把相隔数月数年、几何和外观都不连续变化的多时段影像统一重建在一个可微高斯模型里,既能把不变结构和逐期变化解耦,又在 12 个真实/合成场景上全面超过静态、in-the-wild 和动态高斯基线。
- Circular-DPO: Aligning Multi-Stage 3D Generative Models via Preference Feedback Loop
-
针对 Trellis 这类「先生成稀疏结构、再填充局部细节」的两阶段 3D 生成模型,作者用一个「数据回路」把末阶段 DPO 对齐后产生的偏好信号绕过中间不可微的离散化操作、反编码回首阶段去训练,再配合两道噪声过滤权重,让几何与纹理被联合对齐——ImageReward 比 Trellis 基线提升 35.15%、Reward3D 提升 21.44%。
- Clay-to-Stone: Phase-wise 3D Gaussian Splatting for Monocular Articulated Hand-Object Manipulation Modeling
-
针对单目视频里"几何形状"与"关节运动"强耦合导致优化不稳定的问题,本文提出 Clay-to-Stone 双阶段 3DGS 框架——先用"软泥"阶段(CLAY)做细粒度、语义感知的自由形变去探索结构与运动,再用"石化"阶段(STONE)施加刚性约束、显式估计转轴/枢轴/转角,在 ARCTIC 关节物体数据集上同时拿到 SOTA 的几何重建与逼真渲染。
- ClipGStream: Clip-Stream Gaussian Splatting for Any Length and Any Motion Multi-View Dynamic Scene Reconstruction
-
ClipGStream 把动态视频切成若干片段,用「参考片段建底座、源片段在底座上增量训练」的 Clip-Stream 混合范式,既保留 Clip 方法的片内时序稳定,又借鉴 Frame-Stream 的可扩展性,在 1400 帧大幅运动场景上做到无闪烁、低显存、SOTA 的动态高斯重建。
- CLIPoint3D: Language-Grounded Few-Shot Unsupervised 3D Point Cloud Domain Adaptation
-
首个基于 CLIP 的少样本无监督 3D 点云域自适应框架,通过知识驱动的 prompt tuning、参数高效微调、熵引导视图选取和不确定性感知对齐损失,在 PointDA-10 和 GraspNetPC-10 上以仅 ~11M 可训练参数取得 3-16% 的一致性精度提升。
- Color-Encoded Illumination for High-Speed Volumetric Scene Reconstruction
-
用一组高频切换的彩色 LED 频闪照亮场景,把高速运动的"时间戳"编码进多台普通 60 FPS 相机所拍图像的颜色与强度里,再用改造过的动态高斯泼溅(Gaussian-Flow)从这些颜色混合帧中解码出 600 FPS 的体积化动态场景,首次实现了「不改相机硬件」的高速三维重建。
- CoLoR: The Devil is in Scene Coordinate Regression for Large-Scale Visual Localization
-
CoLoR 把大规模场景坐标回归(SCR)失败的"罪魁"诊断为单视点无监督和全局/局部特征不一致,用"多视/单视点显式划分 + 两阶段强监督(多视重投影 + 伪深度自举)"给场景里每一个点都补上监督、再用 MoCo 对比学习把局部特征重训成像素级检索特征,在 Aachen 和现代百货大楼等大规模数据集上把 SCR 推到 SOTA,并以几十 MB 的地图把和特征匹配(FM)方法的精度差距大幅缩小。
- CompetitorFormer: Mitigating Query Conflicts for 3D Instance Segmentation via Competitive Strategy
-
针对 Transformer 式 3D 实例分割中"多个 query 抢同一个物体导致 mask 碎片化"的痼疾,本文用一个 Query Competition Layer 在每层解码前显式计算每个 query 的"竞争态势"(谁和我空间重叠最大、我比它强还是弱),再配合改造的 self-attention 与 cross-attention 让强者通吃,在 ScanNetV2/200、S3DIS、ScanNet++V2 四个基准上既收敛更快又刷到 SOTA。
- Complet4R: Geometric Complete 4D Reconstruction
-
Complet4R 把"动态场景 4D 重建"重新定义成"对每一个目标时刻,把整段视频里所有帧观测到的几何(包括该帧被遮挡、但别的帧看得到的部分)聚合过来补成完整几何",用一个 decoder-only transformer 加一组可切换目标时刻的聚合 token 端到端实现,在自建 4D 完整重建 benchmark 和 3D 点追踪上都拿到 SOTA。
- ComPose: A Unified Completion-Pose Framework for Robust Category-Level Object Pose Estimation
-
ComPose 把"点云补全"作为一个任务驱动的内部模块塞进类别级 6D 位姿估计网络,用基于关键点的渐进式补全在观测空间直接恢复完整物体几何,配合几何关系编码与几何关系一致性损失,在不依赖类别形状先验的前提下把 REAL275 depth-only 的 \(10°2\text{cm}\) 精度从 68.5% 提到 77.8%,且推理速度反而更快(38.4 FPS)。
- Computational Speckle Pattern Interferometry
-
把经典电子散斑干涉(ESPI)重写成"散斑外观向量 × 位移相量向量"的内积模型,用一次矩阵分解完成无需精密移相硬件的标定,再用 Horn-Schunck 风格的能量泛函从单张散斑图恢复每像素亚微米级位移,同时用相量幅值额外读出曝光期间的运动量。
- ConceptPose: Training-Free Zero-Shot Object Pose Estimation using Concept Vectors
-
ConceptPose 把"给物体的 6D 位姿"这件事彻底变成了语义匹配:用 LLM 给物体类别自动生成一串文字"概念",再用 VLM 的可解释性热力图(GradCAM)把每个概念在两张图上定位、反投到 3D,得到每个点的"概念向量",最后靠跨视角的概念向量匹配 + RANSAC 直接算相对位姿——全程不训练、不需要 CAD 模型,却在四个真实 RGB-D 基准上把最强 baseline 的 ADD(-S) 平均拉高了 62.8%。
- Confidence-Guided Multi-Scale Aggregation for Sparse-View High-Resolution 3D Gaussian Splatting
-
本文先用系统实验揭示稀疏视图 3DGS 下「低分辨率给稳结构、高分辨率给细节但带噪」的分辨率权衡,进而提出 CAGS:用低分辨率高斯场作锚、靠跨尺度置信度链给每个高分辨率高斯重加权不透明度、再配多尺度伪视图正则,从而在 3 视图等极稀疏条件下做出高分辨率重建,原分辨率 LLFF 上 PSNR 比 NexusGS 高 2.7dB。
- Consistent Instance Field for Dynamic Scene Understanding
-
把动态场景建模成一个连续的概率「实例场」——每个时空点同时携带「占据概率」和「条件身份分布」,并用带实例语义的可变形 3D 高斯去逼近这个场,从而把物体身份和它在某个视角下是否可见解耦开,在新视角全景分割和开放词汇 4D 查询上大幅超越此前 SOTA(HyperNeRF mIoU +11.4、Neu3D +5.8)。
- ConsisVLA-4D: Advancing Spatiotemporal Consistency in Efficient 3D-Perception and 4D-Reasoning for Robotic Manipulation
-
ConsisVLA-4D 用三个模块(CV-Aligner、CO-Fuser、CS-Thinker)把多视角 2D 观测压缩成约 1/8 的 token,同时在感知阶段保证「跨视角语义一致」和「跨物体几何一致」、在推理阶段把这种一致性延伸到「跨场景时空一致」,在 LIBERO 和真机上比 OpenVLA 分别提升 21.6% / 41.5% 成功率并加速 2.3× / 2.4×。
- Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features
-
针对 INR 用固定 Fourier 基、逼 MLP 自己"凑"目标频率而效率低的问题,本文提出 CAFE:把 Fourier 特征送进多条并行线性层、再用 Hadamard 积做频率相乘,把可表示频率集从 \(M\) 个固定基指数级扩张到 \(O(MN3^{N-1})\),并用可学权重挑选任务相关频率;再用 Chebyshev 特征补足低频稳定性(CAFE+),在图像拟合、3D 形状、NeRF 上一致超过 SIREN/FINER/SL2A 等基线(图像拟合 PSNR 最高提升约 5 dB)。
- Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation
-
Context-Nav 将长文本描述的上下文信息从后验验证信号提升为前驱探索先验——通过上下文驱动的 value map 引导前沿选择,并在候选目标处执行视点感知的 3D 空间关系验证,在 InstanceNav 和 CoIN-Bench 上无需任何训练即取得 SOTA。
- Copy-Transform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints
-
给定两个网格和一句描述它们空间关系的文本(如"皮诺曹戴着帽子"),本文不训练新模型,而是在测试时直接用可微渲染把网格渲成图、用 CLIP 图文相似度的梯度去优化源网格的相对位姿和尺度,再叠加"分数 soft-ICP 贴合项 + 反穿透项 + 分阶段调度 + 相机聚焦"保证物理合理,在自建的 50 对基准上语义一致性和穿透体积都优于所有几何/LLM baseline,用户研究里 85% 的人认为它的结果最符合描述。
- CoRoGS: Contextual Gaussian Splatting for Robust Large-Deviation View Synthesis
-
针对城市驾驶场景中"训练视角覆盖窄、外推到大偏移视角就崩"的痛点,CoRoGS 把每个 3D 高斯从"独立基元"改造成"图节点",用一张 Delaunay 高斯图 + 图神经网络让相邻高斯互相传递几何与语义信息,再配上语义加权的上下文平滑损失和梯度驱动的图扩展,在 KITTI / Waymo 的大偏移视角下大幅压低 FID/KID、PSNR 比次优提升 2.25 dB。
- CoSMo3D: Open-World Promptable 3D Semantic Segmentation through LLM-Guided Canonical Spatial Modeling
-
CoSMo3D 把"开放世界可提示 3D 语义分割"从"在输入传感器坐标系里做几何—文本匹配"改造成"在一个从数据中学出来的隐式规范空间里推理部件语义",靠 LLM 引导的跨类别规范化数据集 + 训练期专属的规范分支(规范图锚定 + 规范框校准两个损失),让同一功能部件在任意姿态、任意对称、任意类别下都收敛到同一个规范嵌入,从而在多个基准上大幅刷新 SOTA。
- Cov2Pose: Leveraging Spatial Covariance for Direct Manifold-aware 6-DoF Object Pose Estimation
-
针对单张 RGB 图像的 6-DoF 物体位姿估计,本文提出 Cov2Pose:用空间协方差池化把骨干特征编码成对称正定(SPD)矩阵以保留二阶统计量,再经流形感知的 BiMap+ReEig 层压缩到紧凑 SPD 码,最后用可微 Cholesky 分解把该 SPD 矩阵一一映射成连续 6D 旋转 + 平移,端到端直接回归位姿,在 LM/LM-O/YCB-V 上取得直接回归方法的 SOTA。
- Coverage Optimization for Camera View Selection
-
本文从 Fisher 信息增益出发做一系列可解析的近似,证明"选最有信息量的下一视角"在数学上等价于"挑一个看到了被已有相机覆盖最差的几何的视角",由此得到一个轻量、可视化、无需自定义 CUDA 核的覆盖度量 CONVERGE,在 15 个真实场景上重建质量稳定超过 FisherRF 与随机基线,且单次扫描比 FisherRF 快约 7 倍。
- CraftMesh: High-Fidelity Generative Mesh Manipulation via Poisson Seamless Fusion
-
CraftMesh 把高保真网格编辑拆成"2D 图像编辑 → 图生网格 → 无缝融合"三段式流程,并在 SDF 域用泊松法向融合(几何)+ 泊松纹理协调(颜色)把生成的编辑区域无痕缝合进原网格,在复杂插入/删除/局部编辑任务上全面超越 SDS 类与多视图扩散类基线。
- Cross-Instance Gaussian Splatting Registration via Geometry-Aware Feature-Guided Alignment
-
提出 GSA(Gaussian Splatting Alignment),首个实现跨实例类别级 3DGS 模型配准的方法,通过几何感知特征引导的粗配准(扩展 ICP 求解相似变换)和多视角特征一致性的精配准,在同物体和跨物体场景下均大幅超越现有方法。
- Cross-View Splatter: Feed-Forward View Synthesis with Georeferenced Images
-
针对室外场景地面图像难以大规模采集、覆盖率低的问题,本文提出 Cross-View Splatter:一个前馈网络,把带 GPS 的地面照片与公开地图服务的正交卫星图融合到统一 3D 坐标系,分别预测地面(透视)和卫星(正交)的像素对齐高斯,从而在稀疏输入下显著提升场景覆盖与外推能力。
- CrossHOI: Learning Cross-View Representations for Monocular 3D Human-Object Interaction Reconstruction
-
CrossHOI 从单张图像出发"想象"出另一个视角的图像特征,用这套生成的跨视角特征去补全人-物相互遮挡区域的几何信息,从而在单目 3D 人-物交互(HOI)重建中同时提升网格重建精度和接触区域估计,在 BEHAVE / InterCap 上刷新 SOTA,遮挡场景下提升尤为明显。
- CrowdGaussian: Reconstructing High-Fidelity 3D Gaussians for Human Crowd from a Single Image
-
CrowdGaussian 提出了从单张图像重建多人 3D 高斯泼溅表示的统一框架,通过自监督适配的大型遮挡人体重建模型(LORM)恢复被遮挡区域的完整几何,再通过自校准学习(SCL)训练的单步扩散精炼器(CrowdRefiner)提升纹理细节质量。
- CUBE: Representing 3D Faces with Learnable B-Spline Volumes
-
提出 CUBE(Control-based Unified B-spline Encoding),一种结合 B 样条体和可学习高维控制特征的混合几何表示,通过两阶段解码(B 样条基插值 + 轻量 MLP 残差)实现可编辑、高精度的 3D 人脸重建和扫描配准。
- CUPID: Generative 3D Reconstruction via Joint Object and Pose Modeling
-
CUPID 把"单图重建 3D 物体"和"估计相机位姿"统一成一个两阶段 flow 生成任务——先联合生成规范坐标系下的占据立方体与一套稠密 3D-2D 对应(UV cube),用 PnP 解出相机位姿,再用这个位姿把像素对齐的局部特征注入第二阶段细化几何与外观,从而在单图重建上比 SOTA 高 3 dB PSNR、Chamfer 距离降 ~10%(GSO 上相对 LRM 降 50%)。
- Curvature-Aware Captioning: Leveraging Geodesic Attention for 3D Scene Understanding
-
针对 3D 稠密描述里"精确定位"和"层级语义"对几何空间需求相互冲突的问题,本文用分阶段的非欧测地注意力——编码端在 Oblique 流形上做定位、解码端在 Lorentz 双曲空间上建语义层级——把 Vote2Cap-DETR++ 升级为 CAC 框架,在 ScanRefer / Nr3D 上 [email protected] 刷新到 SOTA。
- CustomTex: High-fidelity Indoor Scene Texturing via Multi-Reference Customization
-
提出CustomTex框架,通过实例级的多参考图像驱动和双蒸馏训练策略(语义级VSD蒸馏+像素级超分蒸馏),实现3D室内场景的高保真、实例可控纹理生成,在语义一致性、纹理清晰度和减少"烘焙阴影"方面全面超越现有方法。
- D-Prism: Differentiable Primitives for Structured Dynamic Modeling
-
D-Prism 把可微几何基元(superquadric)从静态场景拓展到动态域,用形变网络驱动基元做刚性运动、并给每个基元绑定 3D Gaussian 补外观,再配一套"克隆/合并/剪枝"的动态自适应控制,从单目视频里同时重建出带部件分解的结构化几何和精确的部件运动。
- Dark3R: Learning Structure from Motion in the Dark
-
提出 Dark3R 框架,通过教师-学生蒸馏将 MASt3R 的3D先验迁移到极端低光照(SNR < −4 dB)原始图像上,实现了传统方法完全失败的暗光环境下的运动恢复结构(SfM)和新视角合成。
- Deep Feature Deformation Weights
-
本文提出 DFD(Deep Feature Deformation)权重:把预训练 2D 视觉模型的深度特征蒸馏成网格上的神经场,再用「特征相似度」直接定义 handle 的线性混合权重,从而把经典 handle-based 网格变形里需要逐次求解优化的权重计算,变成一次前向 + 特征距离的实时计算,既保留经典方法的细粒度控制与速度,又获得数据驱动方法的语义/对称感知能力,对百万面片网格也能实时变形。
- Deformation-based In-Context Learning for Point Cloud Understanding
-
提出 DeformPIC,将点云 In-Context Learning 从"掩码重建"范式重新定义为"形变迁移"范式,通过 Deformation Extraction Network 提取任务语义 + Deformation Transfer Network 迁移形变到查询点云,在重建/去噪/配准上分别降低 CD 1.6/1.8/4.7。
- Dehallu3D: Hallucination-Mitigated 3D Generation from a Single Image via Cyclic View Consistency Refinement
-
针对大重建模型把稀疏多视图"脑补"成离群结构(孔洞、突刺)这一幻觉问题,Dehallu3D 在单图到网格的重建流程后接一个即插即用的循环视图一致性精修模块(CVCR),用 360° 环绕的密集相邻视图深度一致性约束抹平离群点、同时用自适应平滑保留尖锐特征,并提出 ORM 指标专门量化离群程度,在 GSO 上几何与外观指标全面领先。
- DENALI: A Dataset Enabling Non-Line-of-Sight Spatial Reasoning with Low-Cost LiDARs
-
DENALI 是首个用约 10 美元消费级 flash LiDAR(ams TMF8828)采集的大规模真实「时空直方图」数据集——72,000 个隐藏物体场景、每个配一份物理渲染的数字孪生——并用它证明:消费级 LiDAR 丢弃的多次反射光子信号足以支撑数据驱动的非视距(NLOS)物体定位、形状分类与尺寸估计(定位 RMSE 0.046m、尺寸准确率 0.95)。
- Dense Metric Depth Completion from Sparse Direct Time-of-Flight Sensors
-
针对直接飞行时间(dToF)传感器输出"极稀疏 + 低分辨率 + 噪声大"的深度图,本文用一个深度引导双分支 ViT 编码器 + masked joint attention,让稀疏深度单向地去引导 RGB 特征而不被 RGB 污染,再配一个轻量 DPT 解码器直接出稠密度量深度;训练完全靠一套覆盖 flash / 旋转 dToF 的仿真管线合成数据,最终在 6 个数据集、3 种真实 dToF 设备上零样本泛化,精度与之前 SOTA 相当或更好,但推理快 20×、显存省 10×。
- Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation
-
本文提出 DAP(Depth Any Panoramas),一个全景度量深度(metric depth)基础模型:用「数据闭环」思路把 2M 张室内外/合成真实全景图喂进一个三阶段伪标签蒸馏管线,再配上 DINOv3 骨干 + 即插即用的距离掩码头 + 一套畸变感知的几何/锐度损失,在 Stanford2D3D、Matterport3D、Deep360 等多个 benchmark 上实现零样本 SOTA,尤其在室外远景/天空区域给出稳定的绝对尺度预测。
- Depth Hypothesis Guided Iterative Refinement for Event-Image Monocular Depth Estimation
-
HypoDepth 把事件—图像单目深度估计从"直接回归连续深度"改成"在离散深度假设里做受约束的搜索",靠一个轻量 3D 代价体 + GRU 迭代单元从低分辨率到高分辨率逐步精修残差深度,在 DSEC 和 MVSEC 上取得 SOTA,且 Tiny 版本能在受限设备上实时运行。
- Depth Peeling for High-Fidelity Gaussian-Enhanced Surfel Rendering
-
针对 Gaussian-Enhanced Surfels(GES)因硬深度测试导致的边界走样和 surfel/高斯无法联合优化两大问题,本文提出 DP-GES:给 surfel 加上半透明边界、用 3 层 depth peeling 求出每像素的精确遮挡顺序,从而让 3D 高斯仍能免排序泼溅却得到正确的透射率调制——既消除走样与 popping,又打通了 surfel 与高斯的可微联合优化,在多个数据集上以 472 FPS 取得与 SOTA 持平或更优的画质。
- DepthFocus: Controllable Depth Estimation for See-Through Scenes
-
DepthFocus 把立体深度估计从"被动输出最近表面"重新定义为"由一个物理参考距离 \(c\) 驱动的可控过程",用一个可转向(steerable)的 ViT 通过条件 MoE + 条件注入两个模块动态调制特征,让网络像人眼对焦一样"逐层剥开"透明/反射遮挡,在标准单层基准和复杂多层场景上同时拿到 SOTA。
- DetAny4D: Detect Anything 4D Temporally in a Streaming RGB Video
-
DetAny4D 把"流式 RGB 视频里的连续 3D 框预测"定义成 4D 检测任务,用一个端到端开放集框架(SAM+DINO+UniDepth 特征 + 因果时空解码器 + 多任务头)直接吐出跨帧全局一致的 3D 框,并配套构建了 28 万序列的 DA4D 数据集,相比单帧检测器把跨帧抖动方差降低 10–30%。
- DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces
-
DICArt 把铰接物体的类别级 6D 位姿估计重新建模成条件离散扩散过程——先把旋转/平移离散成 token,再用一个"流动决策器"逐步去噪、并按父子部件的运动学层级耦合估计各部件位姿,在合成、半合成与真实机械臂数据上都显著优于现有方法。
- Differentiable Adaptive 4D Structured Illumination for Joint Capture of Shape and Reflectance
-
用一套统一的"空间-角度 4D 结构光"硬件(LED 阵列 + LCD 掩模 + 单相机),在采集过程中可微地实时优化下一组光/掩模图案,以最小化逐像素深度不确定性,从而在单视角下高效联合重建物体的形状(深度图)和反射率(GGX SVBRDF),曝光时间最多降低 100×、总采集时间缩短 2×。
- DiffSoup: Direct Differentiable Rasterization of Triangle Soup for Extreme Radiance Field Simplification
-
DiffSoup 把辐射场表示成不到 2 万个带神经纹理、二值不透明度的不规则三角面片(triangle soup),并提出"随机不透明度掩码"让不透明三角光栅化直接可微,从而用标准深度测试管线在笔记本和手机上实时渲染,质量超过同等图元预算的 3DGS / 三角 splatting。
- DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer
-
把一个预训练的多步图像扩散模型改造成「单步、确定性、带时序条件」的增强器,配上一条专门合成「带伪影渲染↔真实照片」配对的五路数据管线,在线把 NeRF / 3DGS 重建出来的、满是伪影和光影失配的仿真帧,实时修成时序连贯、真实感高的画面——用户研究里 84.28% 的人更偏好它。
- DINO Eats CLIP: Adapting Beyond Knowns for Open-set 3D Object Retrieval
-
把开集 3D 物体检索(open-set 3DOR)的视图编码器从 CLIP 换成自监督的 DINO,再用一个"分块聚合"的轻量 adapter(CAM)整合多视图局部关系、用 CLIP 文本-视觉对齐合成未见类虚拟特征(VFS)做正则,仅靠单模态视觉特征就在 4 个标准 benchmark 上全面超过依赖图文双模态的 CLIP 方法。
- DirectFisheye-GS: Enabling Native Fisheye Input in Gaussian Splatting with Cross-View Joint Optimization
-
将 Kannala-Brandt 鱼眼投影模型原生集成到 3DGS 流程中,并提出基于特征重叠的跨视图联合优化策略,避免了预去畸变带来的信息损失,在多个公开数据集上达到或超越 SOTA。
- Disco-GS: Gaussian Splatting in Dynamic Color Lighting
-
Disco-GS 用单阶段端到端的高斯泼溅框架,从"迪斯科灯光"(随时间随机变化的彩色光)下拍摄的视频里同时重建 3D 场景几何、恢复物体在白光下的本征(canonical)外观,并支持推理时自由调节亮度。
- Distilling Unsigned Distance Function for Surface Reconstruction from 3D Gaussian Splatting
-
把一个在合成代数曲面上预训练好的"局部补丁 UDF 教师"蒸馏进 3DGS 优化里的轻量学生 UDF,通过近表面带限蒸馏 + 可见性/几何置信加权,从多视角图像中稳定重建出带边界、薄结构的开放曲面,在 DF3D / DTU 上把 Chamfer Distance 刷到 SOTA。
- DMAligner: Enhancing Image Alignment via Diffusion Model Based View Synthesis
-
提出 DMAligner,将图像对齐问题从传统的光流 warp 范式转化为"对齐导向的视图合成"任务,利用条件扩散模型直接生成对齐后的完整图像,配合专门构建的 DSIA 合成数据集和动态感知掩码模块(DMP),有效避免了 warp 方法固有的 ghosting 和遮挡伪影,在多个基准上全面超越现有方法。
- DROID-W: DROID-SLAM in the Wild
-
提出 DROID-W,通过将不确定性估计引入可微分 Bundle Adjustment(Uncertainty-aware BA),结合 DINOv2 特征驱动的动态不确定性更新机制和单目深度正则化,使 DROID-SLAM 在高度动态的野外(in-the-wild)场景中实现鲁棒的相机位姿估计和场景重建,约 10 FPS 实时运行。
- DropAnSH-GS: Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting
-
针对 3DGS 在稀疏视角下的过拟合问题,提出 DropAnSH-GS:用 Anchor-based Dropout(丢弃锚点及其邻域的 Gaussian 簇)替代独立随机 Dropout 来破坏局部冗余补偿效应,同时引入球谐函数(SH)Dropout 抑制高阶 SH 过拟合并支持训练后无损压缩。
- DualPrim: Compact 3D Reconstruction with Positive and Negative Primitives
-
DualPrim 用「正密度超二次曲面(PSQ)+ 负密度超二次曲面(NSQ)」配对组成的双基元来表示 3D 形状,让负基元像橡皮擦一样可微地"减去"局部体积,从而在保持紧凑、可微、可解释的前提下表达孔洞和凹陷,并通过可微体渲染从多视角图像端到端学习、用闭式布尔差直接导出结构化网格,重建精度与可编辑性都达到 SOTA。
- DualSplat: Robust 3D Gaussian Splatting via Pseudo-Mask Bootstrapping from Reconstruction Failures
-
DualSplat 把"第一遍 3DGS 重建的失败碎片"当成定位瞬态物体的线索,先粗重建暴露失败、再把失败固化成物体级伪掩码作为外部先验、最后用伪掩码引导第二遍干净重建并在线微调,从而打破"瞬态检测 ↔ 干净重建"互为前提的循环依赖,在 RobustNeRF 与 NeRF On-the-go 上的瞬态密集场景里取得最优鲁棒性。
- DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction
-
提出 DuoMo,将世界空间人体运动重建分解为两个独立的扩散模型:camera-space 模型从视频提取泛化性强的相机坐标运动估计,world-space 模型将 lifting 后的噪声提案精炼为全局一致的世界坐标运动。直接生成 mesh 顶点运动而非 SMPL 参数,在 EMDB 上 W-MPJPE 降低 16%,RICH 上降低 30%。
- DVGT: Driving Visual Geometry Transformer
-
DVGT 是一个面向自动驾驶的视觉几何 Transformer,输入一段无位姿的多帧多视角图像,端到端直接预测以首帧自车坐标系为基准的度量尺度全局稠密 3D 点云图与每帧自车位姿,无需相机内外参、无需事后用 LiDAR 对齐尺度,在五个驾驶数据集上同时超越通用几何模型(VGGT、CUT3R、MapAnything)和驾驶专用模型(Driv3R)。
- Dynamic-Static Decomposition for Novel View Synthesis of Dynamic Scenes with Spiking Neurons
-
针对动态场景 3DGS 动静分解中"掩码先验不准"和"标签表示不当"两大痛点,本文用一个 4D 时空细粒度掩码场提供监督、再用脉冲神经元把动静标签直接优化成离散的 0/1,从而精确地把高斯分到动态/静态两类,在精细运动、运动边界和侧视图上都拿到 SOTA 渲染质量且保持实时帧率。
- Dynamic Black-hole Emission Tomography with Physics-informed Neural Fields
-
提出 PI-DEF,利用物理信息约束的坐标神经网络同时重建黑洞附近气体的 4D(时间+3D)发射率场和 3D 速度场,在稀疏 EHT 测量下显著优于硬约束 Keplerian 动力学的 BH-NeRF。
- Dynamic Visual SLAM using a General 3D Prior
-
把经典的 patch-based 光流 SLAM(DPV-SLAM)和前馈三维重建大模型(π³)紧耦合:用前馈模型预测的运动掩膜剔除动态像素、用它的深度先验稳住 bundle adjustment,并通过和 SLAM 稀疏点云做尺度对齐解决前馈模型的跨 batch 尺度漂移,从而在动态场景下同时得到准确位姿、干净的运动分割和尺度一致的稠密深度。
- DynamicTree: Interactive Real Tree Animation via Sparse Voxel Spectrum
-
把真实扫描的 3DGS 树的运动压缩成一组"稀疏体素 + 频域谱",用前馈扩散一次性生成长时网格运动再驱动高斯,既避免了 4D 生成方法的时空不一致、又比 MPM 物理仿真快百倍,还能用这套谱当模态基做约 18ms/帧的实时拖拽交互。
- DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving
-
DynamicVGGT 把静态前馈 3D 模型 VGGT 扩展到动态 4D 重建:用「动态点图」把当前帧和未来帧点云预测在同一个学习坐标系里,配上一个并行的运动感知时序注意力分支和一个带速度监督的动态 3D 高斯头,在无相机参数、无稠密标注的纯图像输入下,于 Waymo / KITTI 上重建出时序一致的动态驾驶场景。
- E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training
-
E-RayZer是首个真正自监督的前馈式3D高斯重建模型,用显式3D高斯替代RayZer的隐式潜空间场景表示,配合基于视觉重叠度的课程学习策略,在零3D标注条件下学到几何接地的3D感知表征,位姿估计上碾压RayZer(RPA@5°从≈0提升至90.8),下游3D任务frozen-backbone probing大幅领先DINOv3/CroCo v2等主流预训练模型,甚至比肩有监督VGGT。
- E2EGS: Event-to-Edge Gaussian Splatting for Pose-Free 3D Reconstruction
-
提出 E2EGS,一个完全基于事件流的无位姿 3D 重建框架:通过 patch-based 时间一致性分析从事件流中提取抗噪边缘图,利用边缘信息指导高斯初始化和加权损失优化,在无需深度模型或 RGB 输入的情况下实现了高质量的轨迹估计和 3D 重建。
- Easy3E: Feed-Forward 3D Asset Editing via Rectified Voxel Flow
-
提出基于 TRELLIS 3D 生成骨干的前馈式 3D 资产编辑框架,通过 Voxel FlowEdit 在稀疏体素潜空间中实现全局一致的几何形变,并结合法线引导的多视角纹理精修恢复高频细节。
- EcoSplat: Efficiency-controllable Feed-forward 3D Gaussian Splatting from Multi-view Images
-
EcoSplat 是首个"数量可控"的前馈式 3D 高斯泼溅框架:推理时给定任意目标基元数 K,它就能一次前馈地从多视图图像里挑出最重要的 K 个高斯来渲染,在 RE10K 24 视图、压到 5% 基元的极端约束下仍拿到 24.7 PSNR,远超只能靠阈值剪枝的现有前馈方法。
- Edges Compete for Trust: Group Relative Edge Optimization for Building Reconstruction from Point Clouds
-
针对边方法靠匈牙利一对一匹配只给少数边梯度、绝大多数边提案"无人管"的问题,本文把 GRPO 的"组内相对优势"思想搬到线框重建里,提出 GREO:给每条边按几何对齐质量算一个连续奖励、组内归一化后转成目标置信度分布,用交叉熵 + 熵正则对所有边做稠密判别式监督,作为即插即用训练策略让 PBWR / EdgeDiff 在 Building3D 上刷到 SOTA 且推理零开销。
- EDGS: Eliminating Densification for Efficient Convergence of 3DGS
-
EDGS 把 3DGS 里"边训练边逐步加点(densification)"的慢过程整个删掉,改成一开始就用密集 2D 对应关系三角化出一大批位置/颜色/尺度都已知的高斯,从而在 15% 的训练时间里达到原版 3DGS 的质量、继续训练还能把 LPIPS 再降 35%。
- Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers
-
作者发现"图像编辑(I2I)扩散模型"天生就是确定性的图到图映射,比通常用的"文生图(T2I)"模型更适合做稠密感知,于是把 FLUX.1 Kontext 编辑器全参微调成统一的深度/法线/抠图感知器,配上像素空间一致性损失和理论最优的平方根深度映射,仅用 7 万多张训练图就在三个任务上单步推理打到 SOTA。
- Efficient Hybrid SE(3)-Equivariant Visuomotor Flow Policy via Spherical Harmonics
-
提出E3Flow,首个基于球谐表示的等变flow matching策略框架,通过特征增强模块(FEM)动态融合点云和图像两种模态的视觉信息,结合rectified flow实现高效等变动作生成,在MimicGen 8个任务上平均成功率超过最强基线SDP 3.12%的同时推理速度提升7倍。
- Efficiently Reconstructing Dynamic Scenes One D4RT at a Time
-
D4RT 用一个统一的 encoder-decoder Transformer,把视频先编码成一份固定的全局场景表征,再用「独立查询任意时空点的 3D 位置」这一个解码接口同时拿到深度、点云、3D 点轨迹和相机内外参,在动态 4D 重建与跟踪上全面刷新 SOTA,且速度比 VGGT 快约 9×、比 MegaSaM 快约两个数量级。
- EfficientMonoHair: Fast Strand-Level Reconstruction from Monocular Video via Multi-View Direction Fusion
-
EfficientMonoHair 在 MonoHair 的隐式-显式混合管线基础上,用「多视角方向融合」(FPMVO) 一次性聚合多视角候选方向、替代逐视角穷举搜索,再用「并行头发生长」(PHG) 放松体素占用约束让上万根发丝在 GPU 上同时生长,把单目视频的发丝级头发重建从 4–9 小时压到约 23–50 分钟(外层方向优化阶段提速约 28×、整体约 6–8×),同时保持与 SOTA 相当的几何精度。
- EfficientVPR: Toward Efficient Visual Place Recognition via Scene-Aware Prompt Tuning and Adaptive Feature Enhancement
-
用一套"场景自适应的视觉提示微调(SceneVPT)+ 实例相关的关键局部特征增强模块"在最轻的 DINOv2-small 上做单阶段视觉地点识别,描述子只有 3456 维,却把同规模方法全部超过,相比 DINOv2-large 的两阶段 SOTA 提速约 73× 而平均 R@1 只差 2.5% 以内。
- EG-3DVG: Expression and Geometry Aware Grounding Decoder for 3D Visual Grounding
-
EG-3DVG 在 3D 视觉定位的 grounding decoder 里塞进两个互补的注意力模块——把 3D 位置注进文本 token 的 PECA、按几何关系筛选视觉 token 的 GMA——再配一个区分同类干扰物的表达式对比学习 ECL,针对性修掉"文图错位 / 同类混淆 / 几何推理错误"三类失败,在 ScanRefer 和 SR3D/NR3D 的检测框定位与掩码预测上都刷到 SOTA。
- Ego-1K: A Large-Scale Multiview Video Dataset for Egocentric Vision
-
提出 Ego-1K,一个包含 956 段短视频的大规模时间同步第一人称多视角视频数据集(12+4 相机、60Hz),填补了第一人称动态 3D 重建领域的数据空白,并展示立体深度引导可大幅提升 4D 新视角合成质量。
- Egocentric Visibility-Aware Human Pose Estimation
-
针对头戴设备第一视角人体姿态估计中"关键点经常看不见"的痛点,本文构建了首个带可见性标注的大规模真实数据集 Eva-3M(300 万帧、43.5 万帧可见性标签),并提出 EvaPose——显式预测每个关键点可见性、并用可见性给损失加权,把可见关键点的 MPJPE 从 FRAME 的 49.8mm 降到 34.2mm。
- EI-Part: Explode for Completion and Implode for Refinement
-
EI-Part 提出"先爆炸后收拢"(Explode-Implode)的部件级 3D 生成框架:把分割出的不完整部件炸开到分散状态以腾出空间补全结构,再收拢回紧凑状态把全部分辨率留给细节精修,并在两个状态都用自注意力维持部件间结构一致,最终在 Voxel IoU / CD / F-Score 上全面超过 HoloPart、X-Part、OmniPart 等 SOTA。
- Elastic3D: Controllable Stereo Video Conversion with Guided Latent Decoding
-
Elastic3D 用一个 1 步条件潜扩散模型,把单目视频直接合成出右眼视频(不估深度、不做 warp),靠一个标量"视差因子"让用户连续调节 3D 强度,再用一个带极线注意力的"引导式 VAE 解码器"从左视图把高频细节注回右视图、消除双目竞争伪影,在三个真实立体视频数据集上全面超过 warp-based 和 warp-free 基线。
- Electromagnetic Inverse Scattering from a Single Transmitter
-
本文把电磁逆散射问题(EISP)从"逐样本物理优化"改写成"端到端数据驱动回归"——用一个 MLP 直接把接收到的散射场和空间坐标映射成该点的相对介电常数,靠训练集学到的数据分布先验补偿稀疏测量的信息缺失,首次实现了仅用单个发射机的高质量重建,且推理比此前 SOTA 快 7 万倍。
- ELITE: Efficient Gaussian Head Avatar from a Monocular Video via Learned Initialization and Test-time Generative Adaptation
-
ELITE 从一段随手拍的单目视频里合成可驱动、照片级真实的 2D 高斯头部 avatar,核心是把"前馈 3D 数据先验初始化"与"渲染引导的单步扩散增强"耦合起来,让两类先验互补——前者给快速、保身份的初始化,后者补全没拍到的视角和表情,最终在画质和身份保持上超越现有方法,且比 2D 生成先验类方法快 60 倍。
- EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding
-
提出 EmbodiedSplat,首个在线前馈式语义 3DGS 框架,通过稀疏系数场+CLIP全局码本实现内存高效的逐高斯语义表示,结合3D几何感知特征,在300+帧流式输入下以5-6 FPS实现全场景开放词汇3D理解。
- EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents
-
EmbodMocap 用两台手持 iPhone 的 RGB-D 视频,把场景、相机轨迹、人体运动联合标定到同一个度量世界坐标系里,实现"野外"低成本的 4D 人体-场景捕捉,捕到的数据可同时喂给单目人体场景重建、物理角色动画、真机人形机器人控制三类具身任务。
- Emergent Extreme-View Geometry in 3D Foundation Models
-
作者发现像 VGGT 这类 3D 基础模型(3DFM)虽然只在有重叠的图像上训练,却"涌现"出了对极端/无重叠视角的几何理解,并据此提出只调骨干网络中约 8 万个偏置参数(冻结所有解码头)的轻量对齐方案,把无重叠图像对的中位旋转误差从 42.4°降到 13.1°,同时不损害深度和点图质量。
- Emergent Outlier View Rejection in Visual Geometry Grounded Transformers
-
作者发现前馈式三维重建模型 VGGT 在没有任何离群监督的情况下,其末层的注意力/特征表示天然会压低无关的干扰视图,于是直接用这些内部信号给每张视图打分、单一全局阈值过滤掉干扰图再重建,得到一套零参数、免训练的 RobustVGGT,在含噪的真实图像集合上稳定优于各种检索式预过滤基线。
- EMGauss: Continuous Slice-to-3D Reconstruction via Dynamic Gaussian Modeling in Volume Electron Microscopy
-
将体电子显微镜(vEM)的各向异性切片重建问题重新建模为基于可变形2D高斯溅射的动态3D场景渲染任务,通过Teacher-Student伪标签机制在数据稀疏条件下实现高保真连续切片合成。
- EmoDiffTalk: Emotion-aware Diffusion for Editable 3D Gaussian Talking Head
-
EmoDiffTalk 把"情感→表情"的映射落到可解释的面部动作单元(Action Unit, AU)编码空间上,用一个 AU 提示的高斯扩散把语音驱动成细粒度的动态 3D 高斯说话人头,再用一个文本到 AU 的情感控制器实现"用一句话编辑表情",在 EmoTalk3D 和 RenderMe-360 上的渲染保真度、唇形同步和情感可控性都超过此前 SOTA。
- EmoTaG: Emotion-Aware Talking Head Synthesis on Gaussian Splatting with Few-Shot Personalization
-
提出 EmoTaG,一个基于 FLAME-Gaussian 结构先验和门控残差运动网络(GRMN)的情感感知 3D 说话人头合成框架,仅需 5 秒视频即可实现 few-shot 个性化适配,同时兼顾情感表达、唇音同步和几何稳定性。
- Energy-GS: Image Energy-guided Pose Alignment Gaussian Splatting with redesigned pose gradient flow
-
Energy-GS 只用 RGB 图像,同时优化 3D 高斯泼溅场景和不准的相机位姿——通过"冻结高斯位置"让位姿梯度稳定下来,再用图像奇异值能量分解模拟出 NeRF 那种从粗到细的对齐过程,在合成与真实数据集上把位姿精度做到 SOTA、渲染质量与 BARF/3R-GS 持平。
- Enhancing Hands in 3D Whole-Body Pose Estimation with Conditional Hands Modulator
-
提出Hand4Whole++模块化框架,通过轻量级CHAM模块将预训练手部估计器的特征注入冻结的全身姿态估计器中,实现手腕方向的精准预测,并通过可微刚性对齐从手部模型迁移精细手指关节和手部形状。
- eRetinexGS: Retinex Modeling for Low-Light Scene Enhancement via Event Streams and 3D Gaussian Splatting
-
eRetinexGS 把"事件流 + 低光帧 + 多视角一致性"三者塞进同一个 3DGS 框架,让每个高斯显式存反射率和光照两个属性,再用事件信号引导 Retinex 分解、按置信度自适应融合两种模态,在极暗场景下重建出细节清晰、颜色准确的正常光辐射场,PSNR 比之前最好的事件+帧方法高出 5 dB 以上,还能 83 FPS 实时渲染。
- ESAM++: Efficient Online 3D Perception on the Edge
-
ESAM++ 把在线 3D 感知 SOTA 方法 ESAM 里最慢的 3D 稀疏 UNet 主干换成一个轻量的「3D 稀疏特征金字塔网络(SFPN)」,靠多尺度特征聚合 + 通道重平衡,在 4 个室内分割基准上把 CPU 推理提速最高 3×、模型缩小 2×,同时保住甚至超过 ESAM 的精度,使无 GPU 的边缘设备(手机 CPU)也能跑实时在线 3D 实例分割。
- Eulerian Gaussian Splatting using Hashed Probability Pyramids
-
把 3DGS 里"靠手工启发式(ADC)增删高斯"换成"优化一个可学习的体素概率密度场、每步从中采样高斯来渲染"——用哈希概率金字塔让高分辨率密度可负担、用控制变量梯度估计把采样方差压下去,在 mip-NeRF 360 上随机初始化即达 SOTA 重建质量,同时保持 3DGS 级渲染速度。
- EV-CGNet: Co-visible Focused 3D-guided 2D Event Keypoint Detection Network
-
EV-CGNet 用事件点的细粒度时空线索去引导事件帧特征原型学习(G2PL),再用跨帧自注意力把关键点检测约束在两帧共视区域上(CDDL),在 6 个事件相机基准上的重投影误差、位姿估计和 SLAM 轨迹误差全面超越 SuperEvent 等 SOTA。
- Event-based Visual Deformation Measurement
-
本文提出一套事件—帧融合的视觉形变测量(VDM)系统,用事件相机提供时间稠密的运动线索、用普通帧提供空间稠密的精确约束,并通过仿射不变单纯形(AIS)框架把高维形变场切成低参数三角子区域、再配合邻域贪心优化抑制长程误差累积,在 100+ 像素大形变下把追踪存活率做到 SOTA 的 1.6 倍,而存储/算力只占高速相机方案的 18.9%。
- Event Stream Filtering via Probability Flux Estimation
-
把事件相机的成像过程重新解释成"对数辐照度轨迹穿越对比度阈值的随机过程",事件就是阈值边界上"漏出"的概率通量样本;据此提出生成式滤波器 EDFilter,用时序核密度估计 + 运动感知空间平滑 + 异步重采样,以 O(1) 复杂度实时重建一条干净、连续、物理可解释的事件流。
- Event Structural Valley: A Unified Theoretical and Practical Framework for Event Camera Autofocus
-
论文从事件生成的物理机制出发,推翻了"对焦最清晰处事件率最高"的传统假设,证明真正的对焦点对应事件率曲线上两个峰之间的谷(局部极小值),并据此提出无需图像重建、无需监督的 ESVA 框架,在多个合成与真实数据集上把对焦误差降到 SOTA。
- EventHub: Data Factory for Generalizable Event-Based Stereo Networks without Active Sensors
-
本文提出 EventHub,一个无需 LiDAR 等主动传感器标注的事件相机立体匹配训练数据工厂,通过新视角合成生成代理事件+深度标签和跨模态蒸馏从 RGB 立体模型迁移知识,训练出的事件立体模型在跨域泛化上超越 LiDAR 监督模型(M3ED 和 MVSEC 上误差降低最高 50%)。
- Evidential Neural Radiance Fields
-
本文把证据深度学习(EDL)适配到 NeRF 的体渲染管线,让模型在单次前向传播里直接预测并拆分出偶然不确定性(数据噪声)和认知不确定性(模型未知),既不牺牲渲染质量也不增加推理成本,在三个标准化基准上同时取得最好的重建保真度和有竞争力的不确定性质量。
- EvObj: Learning Evolving Object-centric Representations for 3D Instance Segmentation without Scene Supervision
-
针对无监督 3D 实例分割中"合成物体先验迁不到真实扫描"的痛点,EvObj 在 GrabS 的 RL 发现框架里串入两个模块——一个能随发现过程自我演化的候选辨别网络、一个把残缺候选补全的点云补全网络——把合成域学到的物体先验逐步适配到真实点云,在 ScanNet、S3DIS 和多类合成数据集上全面超过所有无监督基线,且在 ScanNet 隐藏测试集上逼近监督方法 3D-BoNet。
- Exact-GS: Mathematically Rigorous and Accurate 3D Gaussian Splatting for 3D X-ray Reconstruction
-
Exact-GS 推导出一个无任何近似的闭式高斯泼溅投影公式:把每个 3D 高斯按"逐像素的像素平面"做正交投影并解析积分,使泼溅渲染在数学上严格等价于光线追踪积分,从而既消除了传统 3DGS 的局部仿射近似误差(投影 PSNR 比 R2-GS 高约 94 dB),又比光线追踪快约 2×,用于 X 射线 CT 投影合成与体重建。
- ExMesh: EXplicit Mesh Reconstruction with Topology Adaptation
-
ExMesh 把"离散拓扑操作(顶点分裂/合并)"直接塞进"连续可微优化"管线,从多视图图像端到端地优化一张显式三角网格——无需 Marching Cubes / TSDF 这类中间表示和后处理,并配套实时 UV 维护,在精度、效率、网格简洁度三者间取得很好的平衡(DTU 上 13 分钟、约 196K 面达到与 SOTA 相当的 Chamfer 距离)。
- Exploring 6D Object Pose Estimation with Deformation
-
针对现有 6D 位姿估计普遍假设物体"刚性、与标准 CAD 完全一致"这一在现实中常常失效的前提,本文构建了首个显式刻画形变的数据集 DeSOPE——对 26 类日用品各扫描 1 个标准件 + 3 个递增形变件(轻/中/重),用 flow 驱动配准把形变网格对齐到标准网格,并通过半自动管线在 133K RGB-D 帧上产出 665K 条位姿标注;实验证明形变越严重,主流方法掉点越狠,揭示"刚性假设"是当前位姿管线一个被严重低估的短板。
- Extend3D: Town-Scale 3D Generation
-
本文提出 Extend3D,一个无需训练的 3D 场景生成流水线,通过扩展预训练物体级 3D 生成模型(Trellis)的体素隐空间并引入重叠 patch 联合去噪、under-noising SDEdit 初始化和 3D 感知优化,从单张图像生成城镇级大规模 3D 场景,在人类偏好和定量评估中均超越现有方法。
- ExtrinSplat: Decoupling Geometry and Semantics for Open-Vocabulary Understanding in 3D Gaussian Splatting
-
提出外在范式(extrinsic paradigm),将语义从3DGS几何中完全解耦,通过多粒度物体分组+VLM文本假设构建轻量语义索引层,实现无训练、低存储、支持多义性的开放词汇3D场景理解。
- FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation
-
FACE 把三角网格生成的"语义粒度"从顶点坐标抬到整个三角面,提出"一面一 token"策略,让自回归 Transformer 处理的序列长度直接缩短 9 倍、压缩比刷到 0.11(前 SOTA 的一半),同时配上 VecSet 编码器把重建质量也做到了 SOTA。
- Faithful Contouring: Near-Lossless 3D Voxel Representation Free from Iso-surface
-
本文提出 Faithful Contouring(FaithC),一种绕开符号距离场(SDF)与 Marching Cubes 等值面提取的稀疏体素表示:直接从原始三角网格在每个体素内拟合「锚点 + 连接关系」并存成 FCT token,支持 2048+ 分辨率,重建误差低到 \(10^{-5}\) 量级,配套双模 VAE 在 Chamfer Distance 上比强基线降 93%、F-score 提升 35%。
- Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching
-
把强零样本但很慢的 FoundationStereo 用「分而治之」的三招(特征蒸馏 + 代价滤波分块搜索 + 细化模块剪枝)逐一压缩,再配一条自动伪标注流水线喂 1.4M 真实立体图,首次让立体基础模型在实时帧率下保持接近原版的零样本精度,比 FoundationStereo 快 10 倍以上。
- Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration
-
本文提出 Fast3Dcache,一个面向 3D 扩散模型的无需训练的几何感知缓存框架,通过预测性缓存调度约束(PCSC)根据体素稳定化模式动态分配缓存预算,以及时空稳定性准则(SSC)基于速度和加速度选择稳定 token 进行复用,实现最高 27.12% 的吞吐提升和 54.83% 的 FLOPs 降低,几何质量仅损失约 2%。
- Fast Markov Random Field Optimisation for Topologically Noisy 3D Shape Matching
-
把非刚性 3D 形状匹配重新写成一个三角形多标签 MRF 问题,用一个只在目标形状上度量测地距离的成对代价(pseudometric)保证邻域平滑,再用一个为本文标签空间定制的 α-expansion 变体在线性时间内求解,从而在拓扑噪声(亏格变化)场景下同时做到准、稳、快。
- Fast SceneScript: Fast and Accurate Language-Based 3D Scene Understanding via Multi-Token Prediction
-
本文提出 Fast SceneScript,通过将多 token 预测(MTP)引入结构化语言模型实现 3D 场景理解的推理加速,配合自投机解码(SSD)和置信度引导解码(CGD)过滤不可靠 token,以及参数高效的头共享机制,在布局估计和目标检测上分别实现 5.09× 和 5.14× 加速且不损失精度。
- Fast Spatial Tracking with Visual Geometry Transformer
-
本文用一个前馈的视觉几何 Transformer 直接从单目视频预测任意查询点的 2D/3D 轨迹,靠"全局分支 + 帧级分支 + 双向交互"的双分支设计取代了传统 3D 跟踪对稠密深度估计和场景重建的依赖,做到 28 ms/帧的实时速度同时在 TAPVid-3D 上拿到 19.0 AJ / 28.9 ADP 的 SOTA。
- Faster-GS: Analyzing and Improving Gaussian Splatting Optimization
-
本文把散落在多篇 3DGS 后续工作里的训练提速技巧系统地梳理、对齐、整合到一个干净的基线里,再补上「内存合并友好的 z-order 致密化」和「反向传播-优化器融合 + 自定义 Adam」两项新优化,在不改变重建质量和高斯数量的前提下把 3DGS 训练加速最高 5×、显存降 30%,把单场景重建压到 2 分钟内。
- FastEventDGS: Deformable Gaussian Splatting for Fast Dynamic Scenes from a Single Event Camera
-
FastEventDGS 第一次只用一台单目事件相机就训练出动态场景的可变形高斯泼溅(Deformable 3DGS),靠连续轨迹参数化 + 双事件生成模型 + 局部 patch 运动损失 + 专家深度精修,在合成和真实快速运动数据集上把 PSNR 从 ~16 dB 拉到 22–24 dB。
- FastGS: Training 3D Gaussian Splatting in 100 Seconds
-
提出 FastGS,一个基于多视角一致性的 3DGS 加速框架,通过多视角一致性密集化(VCD)和多视角一致性剪枝(VCP)策略精准控制 Gaussian 数量,在 Mip-NeRF 360 等数据集上实现约 100 秒完成场景训练,相比 vanilla 3DGS 加速 15× 以上,且渲染质量可比。
- Featurising Pixels from Dynamic 3D Scenes with Linear In-Context Learners
-
LILA 用一个冻结 DINOv2 编码器 + DPT 解码器,从无标注视频里学逐像素特征——核心训练信号是"线性 in-context 学习":在上下文帧上拟合一个把特征映射到深度/光流/自蒸馏线索的最优线性投影,强制同一个投影也能在相邻查询帧上重建对应线索,从而把几何、语义与时序一致性都压进像素级特征里,下游 VOS / 表面法向 / 语义分割三个任务全面超越 FlowFeat、LoftUp 等。
- Feed-forward Gaussian Registration for Head Avatar Creation and Editing
-
MATCH 用一个 transformer 在 0.5 秒内从标定多视角图像直接前馈预测出"处于稠密语义对应下的高斯泼溅纹理",绕开了传统头部化身流程里耗时数小时到一天的网格跟踪与逐主体优化,并把这种跨主体/跨表情的对应直接用于头像创建、插值、语义编辑和表情迁移。
- Feed-Forward One-Shot Animatable Textured Mesh Avatar Reconstruction
-
MeshLAM 用一个前馈 Transformer 从单张图像一次性重建出带高保真纹理、可直接驱动的 3D 头部网格头像,靠"形状/纹理双分支 + GRU 迭代解码 + 输入图反投影引导纹理"三招,避免了测试时优化与网格塌陷,质量和速度都超过基于高斯的 LAM。
- Few-Shot Incremental 3D Object Detection in Dynamic Indoor Environments
-
提出 FI3Det,首个少样本增量 3D 目标检测框架:在基础训练阶段通过 VLM 引导的未知对象学习模块提前感知潜在新类别,在增量阶段通过门控多模态原型铸造模块融合 2D 语义和 3D 几何特征进行新类检测,在 ScanNet V2 和 SUN RGB-D 上的新类 mAP 平均提升 17.37%。
- FHAvatar: Fast and High-Fidelity Reconstruction of Face-and-Hair Composable 3D Head Avatar from Few Casual Captures
-
FHAvatar 用一个前馈聚合 Transformer,从手机随手拍的几张照片在几分钟内重建出「人脸与头发可拆分组合」的 3D 高斯头部 avatar——人脸用 UV 平面高斯、头发用绑在头皮上的发丝高斯,两者在纹理空间显式解耦,支持实时驱动、发型迁移和贴图风格化编辑。
- FilterGS: Traversal-Free Parallel Filtering and Adaptive Shrinking for Large-Scale LoD 3D Gaussian Splatting
-
FilterGS 把大场景 LoD 3DGS 渲染里两个最拖速度的环节——逐层串行遍历选 Gaussian、以及海量无效的 Gaussian-tile 键值对——分别用「免遍历并行双过滤器」和「按场景拥挤度自适应收缩 Gaussian」干掉,在 6 个大场景上把渲染速度推到接近 300 FPS(比次优快一大截),同时重建质量与 SOTA 持平。
- FILTR: Extracting Topological Features from Pretrained 3D Models
-
本文先用一个带拓扑标签的合成数据集 DONUT 探测「预训练 3D 点云编码器到底懂多少拓扑」,发现它们对全局拓扑(连通分量、亏格)理解很弱、但对多尺度结构有一定隐式感知;随后提出 FILTR——首个把 DETR 改造成「从冻结编码器特征直接前馈预测持续图」的集合预测模型,让持续图的提取从经典算法变成可学习、可与其他网络拼接的一步前向。
- FISHuman: Fine-grained Single-image 3D Human Reconstruction via Multi-view 4D Remeshing
-
FISHuman 用「3D 感知的双流视频扩散模型」把一张照片扩成多视角对齐的 RGB+法线序列,再用一个「4D Remeshing」模块把这些不一致的多视角帧的像素漂移转成可控的逐顶点形变,从而从单图重建出几何精细、纹理逼真、可直接绑骨动画的 3D 人体,在 2K2K / Sizer 上几何与外观指标全面超过 PSHuman、Human3Diffusion 等 SOTA。
- FlashMesh: Faster and Better Autoregressive Mesh Synthesis via Structured Speculation
-
FlashMesh 把大模型里的"投机解码"搬到自回归网格生成上,针对 Hourglass Transformer 的层级结构设计了一套 predict–correct–verify 框架,让模型每步并行预测多个 token 并做几何纠错,在 Meshtron-2B 上实现约 2× 推理加速的同时把 Chamfer Distance 从 0.092 降到 0.089。
- FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention
-
通过将VGGT中的全局自注意力替换为基于描述符的交叉注意力,实现了1000张图像推理时间降至VGGT的9.3%,同时保持竞争性重建精度,并可扩展至3000+张图像序列。
- FlexAvatar: Flexible Large Reconstruction Model for Animatable Gaussian Head Avatars with Detailed Deformation
-
FlexAvatar 用一个 transformer 大重建模型 + 结构化 Head Query token,把任意数量、无相机位姿、无表情标注的单/稀疏输入图聚合成统一的 UV 空间高斯头像,再用一个 UV 位置图驱动的轻量 UNet 实时解码表情相关形变,配合数据分布调整和 10 秒测试时精修,做到了 SOTA 的 3D 一致性和动态细节真实度。
- Flow3r: Factored Flow Prediction for Scalable Visual Geometry Learning
-
提出"分解式光流预测"(Factored Flow)模块,用源视图的几何 latent + 目标视图的位姿 latent 预测光流,使无标注视频可作为三维几何学习的监督信号,在静态/动态场景的 8 个基准上达到 SOTA。
- Flow4DGS-SLAM: Optical Flow-Guided 4D Gaussian Splatting SLAM
-
针对动态场景下的 3DGS SLAM,本文用「相机自运动 + 光流」做类别无关的动态/静态分解,并用「显式关键帧高斯中心 + GMM 时变透明度/旋转」的混合 4D 高斯表示,配合场景流传播与自适应插入加速动态高斯训练,在跟踪精度、渲染质量和速度上同时超过 4DGS-SLAM(mapping 从 110 秒/步降到 6 秒/步)。
- FluidGaussian: Propagating Simulation-Based Uncertainty Toward Functionally-Intelligent 3D Reconstruction
-
提出 FluidGaussian,通过流体模拟传播的不确定性指标来指导 3D 重建中的主动视角选择,使重建结果不仅视觉逼真,还具备物理交互的合理性。
- ForeHOI: Feed-forward 3D Object Reconstruction from Daily Hand-Object Interaction Videos
-
ForeHOI 用一个端到端前馈网络,直接从单目手物交互视频里重建被手严重遮挡的物体几何——靠扩散模型双分支同时预测"补全后的 2D 物体掩码"和"完整 3D 体素"并让两者双向交互,把过去要几小时优化的任务压到一分钟内,且精度反超优化类方法。
- Foundry: Distilling 3D Foundation Models for the Edge
-
提出 Foundation Model Distillation(FMD)范式和 Foundry 框架,通过 compress-and-reconstruct 目标让学生模型学习一组可学习的 SuperToken 来压缩教师的潜空间基向量,生成的单一蒸馏模型在分类、分割、少样本等多任务上保持通用性,同时将 FLOPs 从 478G 降至最低 137G。
- FreeArtGS: Articulated Gaussian Splatting Under Free-Moving Scenario
-
FreeArtGS 提出在"自由移动场景"(物体姿态和关节状态同时任意变化)下从单目RGB-D视频重建铰接物体的方法,通过运动驱动的部件分割、鲁棒关节估计和端到端3DGS优化的三阶段流程,在自建FreeArt-21基准和现有数据集上远超所有基线。
- FreeForm: Reduced-Order Deformable Simulation from Particle-Based Skinning Eigenmodes
-
用再生核粒子法(RKPM)来参数化弹性体的蒙皮权重,再通过对弹性能量 Hessian 求广义特征值问题直接解出最优 skinning eigenmode,从而做无网格、降阶的弹性体仿真——相比用神经场逐物体优化的 Simplicits 训练快约 40×、精度还更接近 FEM 金标准。
- FreeScale: Scaling 3D Scenes via Certainty-Aware Free-View Generation
-
FreeScale 通过从已有场景重建中以确定性引导的方式采样高质量自由视角图像,将有限的真实世界数据扩展为大规模训练数据,在前馈新视角合成模型上获得 2.7 dB PSNR 提升。
- Fresco: Frequency-Spatial Consistent Optimization for Fine-Grained Head Avatar Modeling
-
Fresco 不改头部 avatar 的底层表示,而是在训练动态上做文章:用拉普拉斯金字塔做"先低频后高频"的频率课程,再加一个可微 UV-baking 把多视角渲染对齐到共享纹理图集,从而压住早期的伪高频伪影、消除跨视角漂移,在 NeRSemble 上把 novel-view 和 self-reenactment 的 PSNR/LPIPS 都刷到 SOTA。
- From Corners to Fiducial Tags: Revisiting Checkerboard Calibration for Event Cameras
-
本文提出首个不依赖灰度图重建、直接在事件域检测棋盘格角点的事件相机标定框架:先用数学分析证明"角点处几乎不产生事件",再用边缘线索初始化角点、把角点朝事件密度最小处精化到亚像素,并把同一套检测扩展到 AprilTag,在自采与公开数据上都取得了稳定标定。
- FE2E: From Editor to Dense Geometry Estimator
-
本文系统分析了图像编辑模型与生成模型在稠密几何估计任务中的微调行为差异,发现编辑模型具有天然的结构先验优势,并基于此提出 FE2E 框架,首次将 DiT 架构的图像编辑模型适配为深度和法线联合估计器,在零样本场景下大幅超越现有 SOTA(ETH3D 上 AbsRel 降低 35%)。
- From Feature Learning to Spectral Basis Learning: A Unifying and Flexible Framework for Efficient and Robust Shape Matching
-
针对深度泛函图匹配长期只优化"特征"、却把"谱基"当成固定不变的盲点,本文提出 Advanced Functional Maps:用一组可学习的"抑制函数" \(G\) 把固定的拉普拉斯特征基 \(\Phi\) 变成可学习基 \(\Psi=\Phi G\),并以一个轻量的多尺度热扩散网络端到端联合优化特征与谱基,在非等距、拓扑噪声等困难场景下显著超越只学特征的 SOTA,同时因抛掉了泛函图求解器而更快更稳。
- From None to All: Self-Supervised 3D Reconstruction via Novel View Synthesis
-
NAS3R 是一个完全自监督的前馈 3D 重建框架:训练时不用任何真值标注、也不用预训练先验,只靠"用自预测相机参数渲染目标视角再算光度损失"这一信号,就能从无标定、无位姿的多视图里同时学出 3D 高斯、相机内外参和深度,新视角合成质量逼近有监督方法,位姿/深度估计反超多个有监督基线。
- From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection
-
将关键点检测从「图像对匹配」范式转变为「序列级可追踪性优化」,通过强化学习框架 TraqPoint 在图像序列上直接优化关键点的长期追踪质量,在位姿估计、视觉定位、视觉里程计和三维重建任务上均超越 SOTA。
- From Rays to Projections: Better Inputs for Feed-Forward View Synthesis
-
针对前馈视图合成里把相机编码成 Plücker 射线导致的脆弱性,本文改用"目标视角点云投影图"作为条件输入,把脆弱的几何回归问题重写成稳定的图到图翻译问题,并配上一套 MAE 自监督预训练,在标准 NVS 基准和自建的视角一致性基准上都超过射线条件的 baseline。
- FSFSplatter: Geometrically Accurate Reconstruction with Free Sparse-view Images within 2 minutes
-
FSFSplatter 用一个大型多视角 Transformer 一次前馈就把 3 张无标定稀疏图像变成稠密、几何一致的 2D 高斯场景并同时估计相机参数,再用基于贡献度的剪枝 + 深度/多视角特征监督的几何增强优化,在 2 分钟内得到既准又能渲染的表面,DTU/Replica/BlendedMVS 上表面误差最少降 28%、NVS 误差最少降 46%。
- FunFact: Building Probabilistic Functional 3D Scene Graphs via Factor-Graph Reasoning
-
FunFact 从带位姿的 RGB-D 图像构建概率化的开放词表功能性 3D 场景图:先用基础模型重建物体-部件级 3D 地图,再把候选功能关系转成一张「对偶因子图」,用 LLM 常识先验 + 几何邻近先验做信念传播,从而对全场景所有功能边联合推理、输出标定良好的每条边置信度,在功能关系召回和标定误差上显著超过逐对推理的 baseline。
- FunREC: Reconstructing Functional 3D Scenes from Egocentric Interaction Videos
-
本文提出 FunREC,一个无需训练的优化式方法,直接从自我中心 RGB-D 交互视频中重建功能性的铰接式 3D 数字孪生场景——自动发现铰接部件、估计运动学参数、追踪 3D 运动并重建静态和运动几何,在所有基准上大幅超越先前方法(部件分割 mIoU 提升 50+,关节角度误差降低 5-10 倍),并支持仿真导出和机器人交互。
- FUSER: Feed-Forward Multiview 3D Registration Transformer and SE(3)\(^N\) Diffusion Refinement
-
FUSER 把"多视角点云配准"从传统的"逐对匹配 + 位姿图同步"两段式流水线,改造成一次前馈推理:把所有扫描一起塞进一个紧凑潜空间联合推理、直接回归每个扫描的全局位姿,再用一个在联合 SE(3)\(^N\) 空间上的扩散模型 FUSER-DF 做精修;在 ScanNet/3DMatch/ArkitScenes 上精度大幅领先,且把单序列耗时从几百上千秒降到秒级。
- Fusion of Depth and Semantics for Probabilistic Floorplan Localization
-
本文把"用一张 RGB 图在 2D 平面图上估计相机位姿"的射线匹配任务做成了一个概率框架:在共享表征上耦合预测深度射线与语义射线、用基于分布的置信度给每条深度射线打权重、再用 JSD 做软语义匹配,从而同时压制室内场景中的环境/几何/语义三类歧义,在 Structured3D 和 ZInD 上把 1m·30° 召回率显著推高(S3D-full 57.5%→71.4%)。
- GauMVC: Generative Decoupled Gaussian Representation for Human-centric Multi-view Video Compression
-
GauMVC 把"以人为中心的多视角视频"显式拆成静态背景和动态人体两部分——背景用一次性的 3D 高斯场表示,人体只用少量关键视角 + 每帧 SMPL 姿态参数来驱动一个个性化高斯化身,从而把压缩从"去除像素冗余"转成"传语义参数再生成画面",在极低码率下仍能合成高保真的自由视点视频。
- GaussFusion: Improving 3D Reconstruction in the Wild with A Geometry-Informed Video Generator
-
提出 GaussFusion,一个几何信息引导的视频到视频生成模型,通过渲染包含深度、法线、不透明度和协方差的 Gaussian Primitives Buffer(GP-Buffer)来条件化视频生成器,有效去除 3DGS 重建中的浮动伪影、闪烁和模糊,且能同时适用于优化式和前馈式两种重建范式,蒸馏版本达到 16 FPS 实时推理。
- Gaussian Mapping for Evolving Scenes
-
GaME 是首个面向「长期动态场景」(相机视野外发生的结构变化)的支持新视角合成的稠密建图系统,通过动态场景适配(Add/Remove 算子)持续把场景变化增量写入一张全局 3DGS,并用关键帧部分掩码丢弃过期观测,在合成与真实数据上把 PSNR 提升约 29.7%、深度 L1 误差降到约 1/3。
- GaussianFluent: Gaussian Simulation for Dynamic Scenes with Mixed Materials
-
GaussianFluent 给只建表面的 3DGS 补上"内部"——先用生成模型把物体内部填满带真实纹理的高斯,再把一套改稳、改并行的连续损伤材料点法(CD-MPM)接进高斯仿真,让 3DGS 第一次能以实时速度、在混合材质下真实地模拟脆性断裂、切割、子弹击穿等会暴露内部结构的剧烈动态。
- GaussianGrow: Geometry-aware Gaussian Growing from 3D Point Clouds with Text Guidance
-
提出 GaussianGrow,通过从易获取的 3D 点云"生长"3D 高斯来替代从零预测几何+外观的传统方案,利用多视图扩散模型生成一致的外观监督,并通过重叠区域检测+迭代补全机制解决视图融合伪影和不可见区域问题,在合成和真实扫描点云上大幅超越 SOTA。
- GaussianZoom: Progressive Zoom-in Generative 3D Gaussian Splatting with Geometric and Semantic Guidance
-
GaussianZoom 把"从低清输入做 3D 场景极端放大"重新定义为渐进式生成问题,用深度引导的多视图一致超分 + VLM 推断的语义细节合成迭代优化 3DGS,并用可扩展的连续 Level-of-Detail 层级在 1× 到 64× 之间做无锯齿平滑渲染,在 Mip-NeRF360 / Tanks&Temples 上取得更好的感知质量和跨视图一致性。
- GeCo: Geometry-Consistent Regularization for Domain Generalized Semantic Segmentation
-
GeCo 针对"用 PEFT 适配视觉基础模型(VFM)做域泛化语义分割时会过拟合源域、破坏预训练几何结构"的问题,提出曲率引导扰动(按 token 局部流形复杂度调节扰动强度/方向)+ 测地正则(在概率单纯形的超球面上约束预测一致性),在闭集与开集 DGSS 上只用 4.7M 可训练参数就刷到 SOTA。
- Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction
-
Gen3R 把前馈重建模型 VGGT 改造成一个"几何 VAE",让它产出的几何隐变量和预训练视频扩散模型的外观隐变量对齐到同一个隐空间,然后微调视频扩散模型联合生成 RGB 视频 + 全局一致点云/深度/相机,在单图、双图条件下的 3D 场景生成都拿到 SOTA,还能反过来增强重建的鲁棒性。
- Generalizable Radio-Frequency Radiance Fields for Spatial Spectrum Synthesis
-
GRaF 把 NeRF 思想搬到射频域,但用一条"目标发射机的空间谱可由邻近发射机的谱插值近似"的定理,把"逐场景重训"的 NeRF 改造成"跨场景泛化"的潜在射频辐射场——靠几何感知 Transformer 编码邻居谱、再用复数值神经光线追踪重建空间谱,在单场景和未见场景上都超过 NeRF2。
- Generalizable Sparse-View 3D Reconstruction from Unconstrained Images
-
GenWildSplat 把"互联网野外照片重建"从逐场景优化变成单次前馈:给 2–6 张无位姿、光照各异、带行人车辆遮挡的稀疏照片,3 秒内预测出可控外观的 3D 高斯,靠外观适配器在 3D 空间调色、靠分割掩码屏蔽瞬态物体、靠三阶段课程学习稳定训练,在 MegaScenes 上 PSNR 反超耗时数小时的优化方法。
- Generalizable Structure-Aware Keypoint Correspondence for Category-Unified 3D Single Object Tracking
-
UniKPT 提出用一组自适应稀疏关键点替代逐点稠密匹配,通过"自适应关键点提取 → 渐进式对应对齐 → 置信度感知结构定位"三模块,在单个模型里统一跟踪行人、卡车、巴士等差异巨大的类别,在 nuScenes 上比类别专属 SOTA 还高出 4.37%/5.16%(Success/Precision)。
- Generalized-CVO: Fast and Correspondence-Free Local Point Cloud Registration with Second Order Riemannian Optimization
-
G-CVO 把点云表示成 RKHS 里的连续函数、用各向异性核编码局部表面几何,再用带近似黎曼 Hessian 的二阶高斯-牛顿在 SE(3) 流形上求解配准,做到无需点对应、对特征稀疏场景鲁棒,且比同类一阶 RKHS 方法快约 10 倍。
- Generative Diffusion Priors for 3D Mapping of the Dark Universe
-
本文把"从弱引力透镜观测重建暗物质三维分布"这一高度病态的宇宙学反问题,转化为扩散模型后验采样:先用 N-body 模拟构建 Conicus3D 光锥数据集、训练一个按红移条件化的 2D 扩散先验,再用改造过的 DAPS 算法把这个数据驱动先验和可微的弱透镜物理前向模型耦合起来,在模拟 JWST COSMOS-Web 巡天上把 3D/2D 重建相关性和功率谱保真度都显著推高于 Wiener 滤波与 Neural Ensemble 基线。
- GenMatter: Perceiving Physical Objects with Generative Matter Models
-
GenMatter 把"从运动中分割可独立移动的物体"重新建模成一个两级层次生成模型(cluster→particle→3D 点)下的在线概率推断,用并行块 Gibbs 采样反演该模型,从而在随机点动图、伪装旋转物体、自然 RGB 视频三类生物视觉能搞定但现有 CV 系统各自失灵的设定上,用同一套不需任务特定训练的引擎复现人类感知并匹配监督式追踪器。
- GenSplat: Bridging the Generalization Gap in 3DGS Language Comprehension
-
GenSplat 把 3DGS 场景的语言理解拆成「语义→实例→自由文本」的渐进式课程,再用 MLLM 推理出的
<SEG>token 去查询 3D 高斯特征,配合几何感知的关键帧选择器,做到了一个模型跨场景、跨任务(指代分割 / VQA / 开放词表)都 SOTA,且推理时不再需要逐场景优化。 - GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis
-
提出概率密度测地线 Flow Matching (PDG-FM) 框架,通过数据到数据的确定性流匹配替代噪声到数据的扩散过程,并利用基于概率密度的测地线优化使插值路径沿数据流形高密度区域行进,实现更几何一致的新视角合成。
- GeoDiff4D: Geometry-Aware Diffusion for 4D Head Avatar Reconstruction
-
GeoDiff4D 从单张人像出发,让扩散模型在生成肖像帧的同时联合生成对应的表面法线,再把"图像 + 法线 + 表情隐变量"一起喂给 3D 高斯重建,从而把扩散模型里隐含的 3D 几何先验真正蒸馏进可动画的 4D 头像,在身份保持、表情还原和跨视角一致性上显著超过现有方法。
- GeoFree-CoSeg: Unsupervised Point Cloud-Image Cross-Modal Co-Segmentation Without Geometric Alignment
-
GeoFree-CoSeg 提出"无监督点云-图像跨模态协同分割"这一新任务,用粗到细的双分支框架——各模态先抽粗粒度共性语义,再用跨模态语义图把它们提纯成 Top-K 点-patch 对应、最后融合互增——在完全不需要几何对齐和分割标注的前提下,把两个标准点云基准与两个新建图像数据集上的无监督 SOTA 全面刷高(S3DIS 上 3D 平均 mIoU 比 LogoSP 高 6 个点)。
- Geometric-Aware Hypergraph Reasoning for Novel Class Discovery in Point Cloud Segmentation
-
用超图把"一个新类同时关联多个已知类原型"的高阶关系建模出来,再给每个原型补上几何结构特征,让模型在没见过的点云类别(如 bed)上靠已知类(chair/sofa/table)协同推理出语义,在 SemanticKITTI / SemanticPOSS 上新类 mIoU 大幅领先。
- Geometric-Photometric Event-based 3D Gaussian Ray Tracing
-
GPERT 把纯事件驱动的 3DGS 渲染拆成两条互补支路——逐事件(时间密集、空间稀疏)的光线追踪深度渲染算几何损失、每个事件批只渲染一次(空间密集、时间稀疏)的辐射图算光度损失,靠"扭曲事件图像"(IWE) 把两条支路缝起来,从而摆脱"渲染两次相减"范式里精度与时间窗口之间的死结,在真实事件数据集上做到 SOTA 且训练最快、不依赖任何预训练模型或 COLMAP 初始化。
- Geometry-Aligned and Anomaly-Aware Reconstruction for 3D Anomaly Detection
-
AARD 把扩散式点云异常检测的两处短板(随机噪声破坏几何、统一参考模糊细节)分别用"让噪声对齐顶点法向的几何矫正"和"给异常区配正常参考、给正常区配输入参考的异常感知 Transformer"解决,在 Real3D-AD(O-AUROC 0.82)和 Anomaly-ShapeNet(O-AUROC 0.93)上刷新 SOTA。
- Geometry-Aware Cross-Modal Graph Alignment for Referring Segmentation in 3D Gaussian Splatting
-
GeoCGA 把"用自然语言在 3DGS 场景里指认并分割目标物体"这件事,重新表述成一个几何感知的跨模态图对齐问题:一边把文本扩成带空间关系的语义图,一边把高斯点云抽成物体级几何图,再让两张图在节点和边两个层级对齐,并用多视角一致性约束稳住接地,在 Ref-LERF / LERF-OVS / 3D-OVS 上相对 mIoU 分别提升 20.8% / 5.7% / 1.0%,且参数和 FLOPs 还都更省。
- Geometry-Guided 3D Visual Token Pruning for Video-Language Models
-
把 3D 场景当成"多视角的空间视频"喂给 VideoLM 时会产生上千个冗余 visual token,本文提出 Geo3DPruner,用 VGGT 几何编码器的跨帧全局注意力,分体素内(去多视角重复)和体素间(保空间多样性)两阶段剪枝,剪掉 90% token 还能保住约 92% 的原始性能,显著超过 FastV、VisPruner 等通用剪枝方法。
- GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation
-
GeoSAM2 把无纹理 3D 模型的部件分割重新表述成"多视图 2D mask 预测"任务:渲染 12 个视角的法线图和点图,让用户在任意一个视角用点击/框选给出 2D prompt,由一个带 LoRA 和几何残差融合的共享 SAM2 backbone 逐帧出 mask,再反投影回 3D 并用可见性投票聚合,在 PartObjaverse-Tiny 和 PartNetE 上以约 30 秒/物体的速度刷到 class-agnostic SOTA。
- GGPT: Geometry-Grounded Point Transformer
-
提出GGPT框架:通过改进的轻量SfM管线(密集匹配+稀疏BA+DLT三角化)获取几何一致稀疏点云,再用3D Point Transformer V3在三维空间直接融合稀疏几何引导与前馈稠密预测进行residual refinement,仅在ScanNet++上训练即可跨架构、跨数据集显著提升多种前馈3D重建模型。
- Ghosts in the Point Clouds: De-glaring LiDAR in the Transient Domain
-
针对新一代固态单光子 LiDAR 因"相机化"产生的内部多径眩光(在点云里凭空冒出"幽灵"物体、又遮住真实物体),本文把眩光建模成一个线性、与场景无关的眩光扩散函数(GSF),在点云形成之前、直接对每个像素的低层回波(echo)做处理:先用矩方法纠正光子堆积失真,再用 GSF 预测每个回波的眩光贡献,最后用一个二项分布置信度量判断该回波是真信号还是眩光——完全无需训练数据,可直接部署在未改装的商用传感器上。
- GHPT: Real-Time Relightable Gaussian Splatting using Hybrid Path Tracing
-
GHPT 用"高斯泼溅出 G-buffer、底层网格上做硬件加速光线追踪"的混合路径追踪范式,配合三阶段逆向渲染(先重建几何、再分解材质与环境光、最后在高斯上做分解式逆向路径追踪),第一次让 3DGS 模型既能高质量可重光照、又能在 RTX 4080 上 1920×1080 实时(113 fps)做带软阴影/间接光的场景合成。
- GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views
-
GIFSplat 把前馈 3D 高斯泼溅从"一锤定音的单次预测"改成"多步纯前向残差精修",每步用渲染-观测的特征差以及冻结扩散模型的增强差当作高斯级线索去预测残差更新,从而在不做任何测试时梯度优化、不需要相机位姿、保持秒级推理的前提下,把稀疏视角与跨域场景的重建质量在 DTU 上提升超过 2 dB。
- GLINT: Modeling Scene-Scale Transparency via Gaussian Radiance Transport
-
GLINT 通过将高斯表征分解为界面、透射、反射三个组件,结合光栅化+光线追踪的混合渲染管线,在场景级透明表面(如玻璃墙、展示柜)的几何和外观重建上取得了 SOTA 效果。
- Global-Aware Edge Prioritization for Pose Graph Initialization
-
提出基于GNN的全局边优先级排序方法,将位姿图初始化从独立的逐对图像检索升级为全局结构感知的边排序+多最小生成树构建,在极稀疏设置下显著提升SfM重建精度。
- Global Structure-from-Motion Meets Feedforward Reconstruction
-
GLUEMAP 把经典全局 SfM 的可扩展性/全局一致性和前馈多视图重建网络(π³)的局部鲁棒性拼在一起:用稀疏视图图限制前馈网络只做局部推理、用全局运动平均把上万张局部重建拼成全局解、再用"虚拟轨迹"增强束调整,在 5 个差异极大的数据集上同时超过纯经典和纯前馈方法,并能扩展到数万张图像、跑在单张 RTX 4090 上。
- Globally Optimal Pose from Orthographic Silhouettes
-
给定一个已知 3D 模板和它在图像里的一条无遮挡轮廓线,本文把"从轮廓求位姿(Pose-from-Silhouette, PfS)"建模为在 \(\mathbb{SO}(3)\) 上最小化两条轮廓的 Hausdorff 距离,利用"轮廓面积随旋转连续变化"这一被忽视的性质把搜索空间强分支,得到第一个对任意形状(不限凸性与亏格)、无需对应点的全局最优 PfS 解法,在合成与真实数据上的朝向误差比最接近的基线低 ~86%–90%。
- Glove2Hand: Synthesizing Natural Hand-Object Interaction from Multi-Modal Sensing Gloves
-
提出 Glove2Hand 框架,将佩戴传感手套的第一人称视频翻译为逼真的裸手视频,同时保留触觉和 IMU 信号,并构建了首个多模态手物交互数据集 HandSense,显著提升下游裸手接触估计和遮挡手部追踪性能。
- GM-R²: Generative Matching Learning for Unsupervised Geometric Representation and Registration
-
把"学几何描述子"重新表述成"用几何条件生成跨视图图像"这个代理任务——只有当两片点云的几何特征是对应一致的,被它们条件化的生成器才能合成出一致的跨视图图像;GM-R² 用这个生成一致性当隐式监督训练 ControlNet 编码器,在 3DMatch / ScanNet 上做到无监督配准 SOTA,甚至超过部分全监督方法。
- GOR-IS: 3D Gaussian Object Removal In the Intrinsic Space
-
GOR-IS 把场景从 RGB 空间拆解到「材质 + 光照」的内蕴空间里做 3D 物体移除,先用 PBR 扩展的 3DGS + 显式光线传输把物体在玻璃/金属面上投下的反射一并算出来,再在视角无关的材质域里做补全并用「光照感知掩码」抹掉残留反射,从而第一个把"移除物体时要连它的反射一起移除"做对,在感知相似度 LPIPS 上比现有方法高 13%、PSNR 高 2dB。
- GP-4DGS: Probabilistic 4D Gaussian Splatting from Monocular Video via Variational Gaussian Processes
-
提出 GP-4DGS,将变分高斯过程(GP)整合到 4D 高斯溅射中,通过时空组合核和变分推断实现概率化运动建模,同时赋予 4DGS 不确定性量化、运动外推和自适应运动先验三大新能力。
- Grounded Latents for Entity-Centric 4D Scene Generation
-
LatentWorld 把驾驶场景从"稠密体素体"换成"稀疏的、带 (X,Y,Z) 坐标和语义类别的接地 3D 隐点集",用布局扩散 + 特征扩散生成可编辑的 3D 场景,再用运动扩散驱动这些持久隐点穿越时间,在 CarlaSC 和 Waymo 上拿到 SOTA 的 4D 占据生成质量,尤其大幅减少前景目标的合并/闪烁/分裂伪影。
- GS-ASM: 2DGS-Supervised Active Stereo Matching
-
针对主动立体匹配缺真值、只能自监督导致精度受限的问题,本文用 2D 高斯泼溅(2DGS)从真实场景重建几何并渲染出高质量视差「代理标签」,把无真值的主动立体网络变成「有监督」训练,再配一套动态平衡代理监督与自监督的混合监督正则策略,在多种 backbone 上刷出 SOTA,并超过商用 RealSense D435 深度相机。
- GS²: Graph-based Spatial Distribution Optimization for Compact 3D Gaussian Splatting
-
GS² 针对 3DGS 剪枝后空间分布被破坏导致渲染伪影的问题,用「ELBO 自适应停densify + 不透明度感知剪枝 + 图编码器引导的空间重分布」三步,把高斯点数砍到原始 3DGS 的约 12.5%,PSNR 反而更高。
- GSV2X: Geometry-Aware Uncertainty Modeling and Orthogonal Fusion for Robust Roadside Perception
-
针对路侧多视角相机-LiDAR 融合中"标定误差导致特征错位"和"相机过强压制 LiDAR"两大顽疾,GSV2X 用 3D 高斯分布替代确定性投影把像素特征"软"地抬升到 BEV、并用正交约束强制两个模态学互补特征,在 RCooper 上把 [email protected] 从 BEVFusion 的 43.7% 拉到 63.4%,且在标定扰动下几乎不掉点。
- Guardians of the Hair: Rescuing Soft Boundaries in Depth, Stereo, and Novel Views
-
HairGuard 借用图像抠图(matting)数据集来构造软边界(如发丝)的精细深度监督,用「深度修复器 + 场景画师 + 颜色融合器」三件套即插即用地修正深度、修复遮挡、融合纹理,在单目深度、立体转换和新视角合成上对软边界细节都取得 SOTA。
- H²A²: Homogeneity-Aware and Heterogeneity-Aware Feature Perception for Unified Indoor 3D Object Detection
-
作者发现室内 3D 检测里线/面/角这类基础几何结构会在不同场景诱发高度一致的稀疏卷积核偏移响应(同质特征),而场景特有结构则产生异质响应;H²A² 用一套结构感知的卷积核选择机制(SF-KS)在每个偏移位置上动态决定该用"跨场景共享核"还是"场景专属核",再配一个梯度范数均衡算法(NGH)稳住多源联合训练,在 ScanNet/SUN RGB-D/S3DIS 上比强基线 TR3D 普遍涨 1~7.6 mAP。
- HAD: Hallucination-Aware Diffusion Priors for 3D Reconstruction
-
针对扩散先验在稀疏视角 3D 重建中"画质变好但会编造出输入里不存在的内容(幻觉)"这一痛点,HAD 用一个预训练前馈 NVS 网络(LVSM)作多视角编码器、配一个轻量分支逐像素预测"幻觉分数图",在 3DGS 训练时把高分(不可靠)像素 mask 掉,再用多采样融合进一步压低幻觉比例,最终在 DL3DV 上 PSNR 提升 0.78dB、MipNeRF360 上提升 0.69dB,达到 SOTA。
- HandDreamer: Zero-Shot Text to 3D Hand Model Generation using Corrective Hand Shape Guidance
-
HandDreamer 是首个零样本「文本→3D 手模型」方法:先用 MANO 手模型做低分初始化、再用 2D 手骨架作 ControlNet 条件压缩概率分布的模式数,并新增一个 corrective hand shape (CHS) loss 在 SDS 全程纠正几何,从而在不引入 Janus 多面伪影的前提下生成视角一致、细节丰富、可绑定动画的 3D 手。
- Haptic Neural Fields: Bringing Tactile Interactions to 3D Rendered Scenes
-
这篇论文提出 Haptic Neural Fields (HNF),把 NeRF/3DGS 重建出的 3D 场景从"只能看"升级成"能摸":给定接触轨迹与法向力,模型借鉴 NeRF 体渲染、但把累积从空间搬到时间,合成出指尖加速度计会真实测到的振动触觉信号,并用跨传感器对比空间桥接 GelSight 与 DIGIT 两类触觉传感器。
- Hermite Radial Basis Function for Surface Reconstruction via Differentiable Rendering
-
把经典的 Hermite 径向基函数(HRBF)隐式曲面搬进可微渲染框架——用一组带导数的局部 RBF 基函数构造一个全局隐式场 \(F\),其权重、位置、尺度全部通过多视角 RGB 图像的体渲染端到端优化,借助 BVH 加速光线求交,在 DTU/BlendedMVS 上取得了优于 PGSR、Fast Dipole Sums 的 Chamfer 距离。
- HeroGS: Hierarchical Guidance for Robust 3D Gaussian Splatting under Sparse Views
-
HeroGS 把稀疏视角下 3DGS 的过拟合问题拆到图像、特征、参数三个层级逐级约束——图像级用帧插值合成伪稠密监督、特征级按边缘/分块自适应增删高斯、参数级靠多场协同剪枝去掉几何不一致的高斯,在 LLFF 2/3/6 视角上全面超过 FSGS、DropGaussian 等 SOTA。
- Hg-I2P: Bridging Modalities for Generalizable Image-to-Point-Cloud Registration via Heterogeneous Graphs
-
Hg-I2P 引入异构图(Heterogeneous Graph)来统一建模 2D 图像区域和 3D 点云区域之间的关系,通过多路径邻接关系挖掘学习跨模态边、基于异构边的特征适配和基于图的投影一致性剪枝,在六个室内外跨域基准上实现了最优的泛化能力和精度。
- Hierarchical Point-Patch Fusion with Adaptive Patch Codebook for 3D Shape Anomaly Detection
-
本文提出一个分层「点-patch」融合网络,用自适应多尺度切块构建位置无关的法线 patch 特征码本,再通过 RoPE 交叉注意力把 patch 级先验注入逐点特征并回归异常偏移,在公开基准与自建工业数据集上对大尺度结构缺陷(平面位移、角度错位)的检测显著优于以往逐点方法。
- Hierarchical Visual Relocalization with Nearest View Synthesis from Feature Gaussian Splatting
-
提出 SplatHLoc,一种基于 Feature Gaussian Splatting 的分层视觉重定位框架,通过自适应视点检索合成更接近查询的虚拟视图,并设计混合特征匹配策略(渲染特征用于粗匹配、半稠密匹配器用于细匹配),在室内外重定位基准上取得 SOTA。
- HiFi-BRep: High-Fidelity Latent Representation for Robust B-Rep Generation
-
HiFi-BRep 用一个"无填充噪声的拓扑感知编码器 + 单阶段联合解码几何与拓扑的解码器"构建高保真隐空间,把"每条边恰好属于两个面"的流形约束变成可微训练目标,从而在 CAD 边界表示(B-Rep)生成上同时拿到更高的结构有效性、更小的"可编译却不合法"差距,以及 2–7 倍的推理加速。
- High-Fidelity Mobile Avatars with Pruned Local Blendshapes
-
用「局部线性 blendshapes + 90% blendshape 剪枝」把 3DGS 全身数字人的姿态相关外观解码压到极致,端到端训练(无需预训练大模型)就能在手机浏览器里跑到 2K 分辨率 120 FPS、模型仅 19.4 MB。
- Homaloidal parametrization for detecting critical two-view configurations
-
本文用射影几何里的"同伦二次曲线网(homaloidal net of conics)"给两视图临界曲面退化检测设计了一个全新的二次变换参数化,使得只需对 7 组图像对应点解一个线性系统就能拟合二次变换、再用第 8 点做检验,从而在不预先估计基础矩阵的前提下判定一组对应点是否退化,比唯一可比的 Luong–Faugeras 方法精度更高、速度快约 200×。
- Human Geometry Distribution for 3D Animation Generation
-
本文提出一个两阶段生成框架,先用改进的「人体几何分布(HuGeoDis)」把每帧 3D 人体压成紧凑 latent、再在 latent 空间里用自回归条件扩散生成短时过渡,从而在极少的 3D 动画数据下合成出带细粒度服装褶皱、动态自然且身份一致的 3D 人体几何序列(重建 Chamfer 距离降低约 90%,用户研究分数提升 2.2 倍)。
- Human Interaction-Aware 3D Reconstruction from a Single Image
-
提出HUG3D框架,通过透视-正交视图变换、群体-个体多视图扩散模型和物理感知几何重建,从单张图片实现交互多人的高保真纹理3D重建,在CD/P2S/NC等指标上全面超越现有方法。
- HumanBA: Human-Aware Bundle Adjustment via Global Human-Camera Decoupling
-
针对单目视频里前景人体占满画面导致传统 SLAM 失效的问题,HumanBA 不再把人当作要被掩盖的动态干扰,而是先用 HMR 估计出人体自身运动并从观测轨迹里减掉它,得到一组"伪静态"人体关节地标,再按运动稳定性自适应加权后塞进光束法平差(BA),让相机位姿和全局人体重建在迭代中相互增益,在 EMDB2 / SLOPER4D 上同时降低了相机与人体的轨迹误差。
- HumanNOVA: Photorealistic, Universal and Rapid 3D Human Avatar Modeling from a Single Image
-
HumanNOVA 把通用物体大重建模型(LRM)迁移到人体域,用「双模态 token 条件 + 三平面」前馈架构在 1 秒内从单张图重建照片级 3D 人体,并配套一条把训练数据扩到 10 万资产(约 20 倍)的合成+真实数据生成管线,在三个 benchmark 上相对 LPIPS 提升 40%+。
- Hyper-PCN: Hypergraph-Based Point Cloud Completion via High-Order Correlation Modeling
-
针对点云补全里 Transformer 只能建模成对(pairwise)相关、在缺乏对称先验时补不好复杂结构的问题,Hyper-PCN 首次把超图引入不完整点云,用一个阈值退火的超图细化栈(HyperRS)由粗到细挖掘高阶相关性、再用锚点协同超图(A-HGNN)建模全局多对多关系,在 PCN / ShapeNet-55/34 / MVP 等多个基准上稳定刷新 SOTA。
- HyperGaussians: High-Dimensional Gaussian Splatting for High-Fidelity Animatable Face Avatars
-
提出HyperGaussians,将3DGS扩展到高维多元高斯,通过条件分布建模表情相关的属性变化+逆协方差技巧实现高效条件化,作为即插即用模块集成到FlashAvatar和GaussianHeadAvatar中可显著提升高频细节质量。
- I-Scene: 3D Instance Models are Implicit Generalizable Spatial Learners
-
I-Scene 不再用标注好的场景数据集去教模型"东西该摆哪",而是把一个预训练的图像到 3D 实例生成器(TRELLIS)"重编程"成场景级空间学习器——靠场景上下文注意力 + 视图中心空间,让它在前馈一遍里学会推断邻接、支撑、对称等空间关系,甚至只用随机拼出来的无语义场景训练就能泛化到未见布局,全面超过在 3D-FRONT 上训练的 SOTA。
- ICTPolarReal: A Polarized Reflection and Material Dataset of Real World Objects
-
本文构建了首个大规模真实世界偏振反射与材质数据集 ICTPolarReal,利用 8 相机 346 光源的 Light Stage 系统对 218 个日常物体进行交叉/平行偏振捕获,获得超 120 万张高分辨率图像及漫反射-镜面反射分离的地面真值,显著提升了逆渲染、前向重光照和稀疏视角三维重建的效果。
- IDESplat: Iterative Depth Probability Estimation for Generalizable 3D Gaussian Splatting
-
IDESplat 把"单次 warp 估深度"换成"多次级联 warp 迭代 boost 深度概率",让前馈式泛化 3DGS 的高斯中心(深度)预测更准,在 RE10K 上用 DepthSplat 约 1/10 的参数就反超 0.33 dB PSNR,并在跨数据集 DTU 上大涨 2.95 dB。
- Illumination-Consistent Human-Scene Reconstruction from Monocular Video
-
本文用 3DGS 从单目视频联合重建可驱动人体与静态场景,核心是引入一个"光照体(light volume)"提供空间变化的局部光照线索做人体 PBR、再用隐式阴影模块把人投到场景上的软阴影解耦出来,从而做到人-场景在光照与阴影上一致,并支持重光照与跨场景合成。
- iLRM: An Iterative Large 3D Reconstruction Model
-
iLRM 把前馈式 3D 高斯重建从"一次性把所有图像 token 映射成像素对齐高斯"改写成"用低分辨率视点嵌入做载体、逐层用多视图图像做反馈迭代精修",靠表示解耦 + 两阶段注意力把算力压下来,在 RE10K / DL3DV 上同时刷高画质和速度(32 视图 540×960 推理仅 0.5 秒,对标优化法的 8 分钟)。
- Image-Guided Geometric Stylization of 3D Meshes
-
给定一张参考图片和一个源 3D 网格,本文用 DreamBooth+LoRA 把参考图的"几何风格"抽成扩散模型权重,再用 SDS loss(配一个近似 VAE 编码器)驱动逐面 Jacobian 形变,通过"由粗到精 + 笼形约束 + 可选对称性"让网格在保持原有拓扑与部件语义的前提下,大幅变形以表达参考图的姿态、轮廓等高层几何特征。
- Image-to-Point Cloud Feature Back-Projection for Multimodal Training of 3D Semantic Segmentation
-
IPFP 提出一种"只在训练时启用"的图像-LiDAR 融合策略:把聚合后的图像特征按估计深度反投影回 3D 物理空间,与 LiDAR 特征共处同一坐标系、共用单分支主干训练;推理时关掉图像分支即可纯 LiDAR 部署,在 nuScenes/KITTI/Waymo 上一致提升 PTv3、SPVCNN 等 SOTA 分割模型且几乎不增推理成本。
- Inferring Compositional 4D Scenes without Ever Seeing One
-
COM4D 从单段单目视频里同时重建出"多个静态物体 + 多个动态物体"的完整、持久 4D 场景,关键在于把空间组合推理和单物体时序动态分别从两类易得数据里学成两种注意力,再在推理时用 Attention Mixing 把它们拼起来——整个过程从未见过任何 4D 组合训练样本。
- InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields
-
InfiniDepth 把深度从"离散网格上的逐像素值"改成"连续 2D 坐标到深度的神经隐式场",用一个多尺度局部隐式解码器在任意 \((x,y)\) 处查询深度,从而摆脱训练分辨率限制、直接预测任意分辨率且细节锐利的深度图,并配套一个按表面积分配采样预算的查询策略来改善大视角新视角合成。
- Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting
-
ICO-GS 把稀疏视图 3DGS 的退化归因为"几何与外观失去内在一致性",先用特征域多视图光度一致性(配逐像素 top-k 选择和边缘感知平滑)约束几何,再用循环一致性过滤出可靠深度去合成虚拟视图、反过来监督外观,在 LLFF/DTU/Blender 上稳定超过现有稀疏视图基线,尤其在弱纹理区域。
- Intrinsic Image Fusion for Multi-View 3D Material Reconstruction
-
Intrinsic Image Fusion(IIF)把 2D 扩散材质估计器的单视图先验"蒸馏"进多视图逆向渲染:先用参数化分布把每视图多个不一致的 PBR 预测收进一个低维一致空间,再做分布匹配得到 3D 一致纹理,最后只对每物体的少量参数做逆路径追踪微调,在合成与真实室内场景上的材质解耦质量大幅超越现有逆向渲染方法。
- IR-HGP: Physically-Aware Gaussian Inverse Rendering for High-Illumination Scenes via Generative Priors
-
IR-HGP 用三个协同模块(混合可见性分解 HVD、生成式光照先验 GIFP、物理感知辐射校正 PARC)把 3DGS 逆向渲染拓展到强光照/强镜面反射场景,解决"阴影和高光被烘焙进材质"的难题,在重光照和新视角合成上达到 SOTA(合成集均值 PSNR 33.61),同时保持实时渲染。
- Iris: Bringing Real-World Priors into Diffusion Model for Monocular Depth Estimation
-
Iris 提出一种确定性扩散框架,通过两阶段"先验到几何"(PGD)调度将真实世界先验注入扩散模型:第一阶段在高时间步用频谱门控蒸馏(SGD)从教师模型提取低频布局先验,第二阶段在低时间步用合成数据精细化高频几何细节,同时引入频谱门控一致性(SGC)实现跨阶段高频信息对齐,在有限数据和计算预算下达到 SOTA 零样本深度估计性能。
- Iris: Integrating Language into Diffusion-based Monocular Depth Estimation
-
Iris 系统性验证了一个朴素假设——给基于扩散的单目深度估计器额外喂一段描述场景物体的文本,能借助文生图预训练里学到的"文本↔3D 场景"条件分布缩小深度解空间,从而在 Marigold/Lotus/E2E-FT 三种扩散 MDE 上整体提升零样本精度,对小目标和模糊区域尤其有效,还能加速训练和推理收敛。
- iSplat: Iterative Learning for Fine-Grained Gaussian Splatting
-
iSplat 把前馈式 3D 高斯泼溅从"一次预测"改造成"GRU 递归的多次迭代细化",靠不确定性驱动的深度细化和区域感知特征增强逐步自我纠错,用 42.6M 参数在 RealEstate10K 上超过 354M 的 DepthSplat,并在跨域 DTU 上把 PSNR 拉高 2.88 dB。
- JRM: Joint Reconstruction Model for Multiple Objects without Alignment
-
JRM 把"同一物体在场景中被重复观测"的重建问题重新表述为个性化生成——用一个 3D 流匹配生成模型在 latent 空间里隐式聚合多份未对齐的观测,无需显式匹配/刚性配准就能联合重建一组物体,对关联错误和关节形变都更鲁棒,重建质量超过独立重建和基于对齐的基线。
- Kaleidoscopic Scintillation Event Imaging
-
把辐射探测重新表述为一个计算机视觉问题:用一个"万花筒"形(四面镜面的金字塔)闪烁体,让单次闪烁事件在单光子相机里同时成出"直射像 + 多个镜像反射像",再用一个所有分量都由事件 3D 坐标 \(p_0\) 参数化的高斯混合模型 + EM 算法反解出事件的三维位置,在极端缺光(每个事件几十个光子)条件下把 3D 定位误差从约 0.8 mm 压到约 0.14 mm。
- KASALv2: Fully Automatic 3D Rotational Symmetry Classification and Axis Localization
-
KASALv2 提出一个完全自动、无需任何参考几何的框架,对 3D 物体的旋转对称类型、旋转阶数和全部规范轴一次性完成识别,覆盖全部 8 种规范旋转对称类型,在 GSO 的 438 个对称物体上达到 94.75% 准确率,并把估计出的对称先验喂给 FoundationPose 训练,使 5 个 BOP 数据集上的位姿精度最高提升 0.9%。
- KV-Tracker: Real-Time Pose Tracking with Transformers
-
KV-Tracker 把离线多视图几何大模型(π3)改造成实时系统:把建图阶段关键帧在全局注意力里算出的 Key-Value 对缓存下来当作场景表示,跟踪时只用单帧 query 去 attend 这份缓存,把每帧推理从 \(O((NM)^2)\) 降到 \(O(M^2(N{+}1))\),在 TUM/7-Scenes/ARCTIC/OnePose 上以约 27 FPS 实现无漂移的 6-DoF 相机与零先验物体跟踪。
- \(L^{2}DGS\): Low-Light Dynamic Gaussian Splatting
-
L2DGS 是首个直接从低光视频自监督重建"明亮动态场景"的 4D 高斯泼溅框架,把每个高斯的颜色拆成"随视角和时间变的光照 × 场景本征反射率",用 OCD-Net 建模运动引起的时变光照、再用 BAFs+BAFE-Net 把明亮场景前向退化成低光来实现自监督,在合成与真实低光动态数据上大幅超越现有方法。
- Lafite: A Generative Latent Field for 3D Native Texturing
-
Lafite 把 3D 纹理建模成一个「稀疏隐式颜色场」——先用 VAE 把网格表面采样的彩色点云压成贴着表面的稀疏体素隐码、再解码成可在任意点查询的连续颜色场(重建 PSNR 比此前 SOTA 高 10 dB 以上),然后用整流流(Rectified Flow)在这个隐空间里、以「纯几何隐码」为条件生成新纹理,彻底绕开多视图投影与 UV 展开的接缝/畸变问题。
- LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis
-
LagerNVS 不做显式三维重建,而是把一个为三维重建预训练好的网络(VGGT)当编码器、提取「3D-aware」的潜在特征,再配一个轻量解码器端到端微调,直接用神经网络渲染新视角——在 RealEstate10k 上做到 31.4 PSNR(比前 SoTA LVSM 高 +1.7dB),512×512 分辨率下单卡 H100 实时(30FPS+),且无论是否提供相机位姿都能用,还能换上扩散解码器做生成式外推。
- LAM: Language Articulated Object Modelers
-
LAM 把"从文本生成铰接物体"重新表述为统一的代码生成任务,让一队由 LLM 和 VLM 组成的专门模块协作——先规划层级结构,再写几何代码、写关节代码并各自跑 VLM 闭环纠错——直接从一句话造出几何与运动学都正确的铰接 3D 物体,无需任何视觉先验或预制 3D 资产,关节预测成功率达 77.1%,远超 Articulate Anything 的 40.3%。
- Landscape-Awareness for Geometric View Diffusion Model
-
针对"用 Zero123 噪声空间 MSE 做两视图相机位姿估计时,损失曲面布满局部极小、必须靠暴力多初始化才能收敛"的痛点,本文先把优化失败的根因归结为物体几何对称/自相似造成的 landscape 局部极小,再用一个 score 网络在第一阶段把更新方向重塑到真值位姿的高似然区,第二阶段再用冻结的 Zero123 MSE 做精修,从而在几乎不依赖多初始化的前提下大幅提升成功率与采样效率。
- LangField4D: Learning Identity-Adaptive and Spatio-Temporal Continuous 4D Language Fields for Dynamic Scenes
-
LangField4D 在 4D 高斯泼溅上构建开放词汇语言场,用「身份自适应高斯分组」解决高斯随形变跨物体边界漂移导致的语义不一致,再用「TetraPlane 连续时空语义表示」替代离散状态原型,在动态场景的时间无关 / 时间敏感查询上都刷新了 SOTA。
- LangRef3DGS: Natural Language-Guided 3D Referential Segmentation from Partial Observations via 3D Gaussian Splatting
-
在 3D Gaussian Splatting 表示上构建一个语义连续场,用狄利克雷过程自动发现新类、用梯度低秩约束压缩语义特征、再用图对比损失把零散候选组织成"不可见类",从而在 RGB-D 视角稀疏/遮挡的部分观测条件下,依然能按自然语言提示稳健地做开放词表 3D 分割。
- LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency
-
提出 LaS-Comp,一种零样本、类别无关的 3D 形状补全框架,通过 Explicit Replacement Stage 在空间域注入已知几何 + Implicit Alignment Stage 在隐空间梯度优化边界一致性,桥接了预训练 3D 基础模型的隐空间与空间域之间的 gap,在多种部分观测模式下达到 SOTA。
- LASER: Layer-wise Scale Alignment for Training-Free Streaming 4D Reconstruction
-
提出 LASER,一个无需重训练的框架,通过层级深度尺度对齐(Layer-wise Scale Alignment)将离线前馈重建模型(如 VGGT、π³)转换为流式系统,在 RTX A6000 上以 14 FPS、6GB 峰值显存实现千米级视频的实时流式 4D 重建。
- LATTICE: Democratize High-Fidelity 3D Generation at Scale
-
LATTICE 提出一种半结构化的 3D latent 表示 VoxSet——把 VecSet 那套紧凑的 latent token 锚定到粗体素网格上,从而能给扩散 transformer 注入位置信息;配合"先生成粗结构、再细化几何"的两阶段 pipeline,用纯 transformer 架构把 image-to-3D 模型规模化到 4.5B,同时实现了 3D 生成里少见的 token-level test-time scaling,在重建/生成质量上超过此前 SOTA。
- Layered 4D-Rotor Gaussian Splatting: A Compressed Representation for Long Dynamic Scenes
-
本文提出 Layered 4D-Rotor Gaussian Splatting(L4DRotorGS),把 4D 高斯按时间跨度组织成"层 + 桶"结构、配合三缓冲训练框架与一套面向分层结构的量化压缩(因子化协方差量化 + 分层压缩 + 残差码本量化),让分钟级长动态场景的重建在保持高保真和 500+ FPS 实时渲染的同时,把存储压到最高 22.3× 压缩比、低于 1 MB/s 码率。
- Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images
-
UniSplat 是一个从「无相机位姿的稀疏多视图图像」直接前馈学习统一 3D 表示的框架,用双掩码强化几何归纳、用粗到细高斯泼溅弥合「语义粗 / 外观细」的粒度错配、用位姿条件重校准把几何与语义对齐,在 ScanNet 的新视图合成 / 开放词汇分割 / 深度估计上全面超过无位姿基线 LSM,并作为具身智能视觉骨干在 268 个任务上拿到 62.5 的平均分。
- Learning 3D Shape Fidelity Metric from Real-world Distortions
-
本文提出可学习的 3D 形状保真度度量 LoCaSE:用网格拓扑的局部注意力捕捉细节、用 LoRA 式预训练-微调缓解模型偏差,并配套构建带真实失真和人类标注的 RSF 数据集,使度量结果显著比 Chamfer Distance 等几何度量更贴近人类感知。
- Learning Compact 3D Representations from Feed-Forward Novel View Synthesis
-
C3G 用一小撮可学习查询 token 经 self-attention 从无位姿多视图里"发现并解码"出只约 2K 个、放在关键空间位置的紧凑 3D 高斯,相比逐像素方法少约 65× 高斯却保持相当的新视图合成质量;并复用查询解码器涌现出的注意力图免训练地把任意 2D 特征无损提升到 3D,从而在更省显存、更快渲染的前提下显著提升 3D 开放词表分割等理解任务。
- Learning Convex Decomposition via Feature Fields
-
把"把 3D 形状分解成若干凸体"这个 NP-hard 的组合搜索问题,重述成"在形状表面学一个连续特征场、再聚类"的特征学习问题,并设计了一个源自凸性几何定义的自监督对比损失,从而训出首个前馈、开放世界的凸分解模型,在凹度与重建误差上全面超越 V-HACD / CoACD 等经典方法,且能直接泛化到 mesh、CAD、点云、3D 高斯。
- ECKConv: Learning Coordinate-based Convolutional Kernels for Continuous SE(3) Equivariant Point Cloud Analysis
-
提出ECKConv,在intertwiner框架下将卷积核定义在双陪集空间 \(\text{SO(2)}\backslash\text{SE(3)}/\text{SO(2)}\) 上,通过坐标网络显式参数化核函数,首次实现连续SE(3)等变性与大规模可扩展性的兼得,在分类、配准、分割四类任务上全面验证。
- Learning Differentiable Hierarchies in 3D Gaussian Splatting
-
给每个高斯加一个可学习的「层级标量」,用一个可微的递减阶跃函数在单阶段训练里同时优化全模型渲染和层级排序,让 3DGS 无需多阶段训练就能按任意高斯数量做 LoD 渲染和剪枝,且训练时间只比标准 3DGS 多约 10%。
- Learning Explicit Continuous Motion Representation for Dynamic Gaussian Splatting from Monocular Videos
-
本文提出通过自适应 SE(3) B 样条运动基显式建模动态高斯的连续位置和朝向变形轨迹,配合软分段重建策略和多视角扩散模型先验,实现单目视频的高质量动态场景新视角合成,在 iPhone 和 NVIDIA 数据集上超越现有方法。
- Learning Hierarchical Hyperbolic Mixture Model for Part-aware 3D Generation
-
把 3D 物体的部件层级语义嵌入双曲空间,提出层级双曲混合模型 H2MM + 一个解耦径向/角向噪声的测地扩散过程 + 一个保持流形几何的高阶黎曼 ODE 求解器,在无条件、类别条件和多模态 3D 生成上同时刷新质量(FID/KID)与速度。
- Learning Multi-View Spatial Reasoning from Cross-View Relations
-
XVR(Cross-View Relations)构建了一个 10 万样本的大规模多视角视觉问答数据集,通过对应关系、几何验证和视点定位三类任务显式训练 VLM 的跨视图空间推理能力,在多视角基准和机器人操作任务上均取得显著提升。
- Learning Scene Coordinate Reconstruction from Unposed Images via Pose Graph Optimization
-
在无监督场景坐标回归框架 ACE-Zero 之上引入位姿图优化(PGO),用预测出的场景坐标自动构边、再用对极+光流双几何先验给每条边估置信度做加权全局优化,把原本只做局部精化、容易漂移的相机位姿拉到全局一致,PSNR 追平甚至超过 COLMAP,且重建时间从 38h 压到 30min。
- Learning Spatial-Temporal Consistency for 3D Semantic Scene Completion
-
ConSSC 把历史 RGB 帧 lift 到统一的 3D 占用空间,用「分层体素细化」补几何、用「时序语义聚合」补语义,在不加任何额外传感器的前提下把纯相机的语义场景补全推到 SemanticKITTI / KITTI-360 新 SOTA(IoU 48.17 / 48.79,mIoU 19.20 / 20.85)。
- Learning to Infer Parameterized Representations of Plants from 3D Scans
-
本文用递归神经网络学一个植物的"形状空间",把无序 3D 点云直接推断成一棵参数化的 L-String(二叉轴树),从而一次性输出植物的分枝拓扑 + 每个器官的几何参数,且纯靠程序化模型生成的合成数据训练就能泛化到真实扫描,统一支撑 3D 重建、骨架提取、器官分割三大表型任务。
- Learning to Solve PDEs on Neural Shape Representations
-
本文把经典 Closest Point Method(CPM)里最关键的"法向延拓"步骤用一个轻量、几何条件化的神经算子学出来,从而直接在神经表面表示(SNS / SDF / 占据场 / 点云 / Gaussian Splatting)上求解表面 PDE,无需抽 mesh、无需逐实例优化,且全程可微——只在单个示例形状(Spike)上训练一次就能泛化到未见形状、拓扑和输入函数,精度与 CPM 相当。
- Lens Component Deletion based on Differentiable Ray Tracing
-
针对微型光学镜头的小型化/降本需求,提出一条"自动删片"流水线:用一个贡献度指标自动挑出系统中最不重要的镜片,用一个删除损失把它逐渐压薄压平直至安全删除,再配合基于 Rayleigh-Sommerfeld 衍射理论的可微 PSF 估计,把简化后镜头与后处理复原网络联合优化,在删掉一片镜片后仍能保持与原系统相当的成像质量。
- Let it Snow! Animating 3D Gaussian Scenes with Dynamic Weather Effects via Physics-Guided Score Distillation
-
提出 Physics-Guided Score Distillation 框架,利用物理仿真(MPM)作为运动先验引导 Video-SDS 优化,在静态 3DGS 场景中生成具有物理合理运动和真实感外观的动态天气效果(降雪、降雨、雾、沙尘暴)。
- LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving
-
DriveMVS 把稀疏 LiDAR 当「几何提示」注入多视图立体(MVS):既作硬约束锚定代价体的绝对尺度,又作软特征经三线索融合器与单目/几何先验融合,再用时空解码器保证跨帧一致,从而在自动驾驶零样本跨域设置下同时拿到度量精度、时序稳定与泛化(KITTI MAE 0.49 m、AbsRel 2.56%)。
- Lifting Unlabeled Internet-level Data for 3D Scene Understanding
-
构建SceneVerse++,通过自动化数据引擎从6,687个无标注互联网视频中生成3D场景理解训练数据,在3D目标检测([email protected]提升20.6)、空间VQA(+14.9%)和视觉语言导航(+14% SR)三个任务上展示了利用互联网级数据推进3D场景理解的可行性。
- Lighting-grounded Video Generation with Renderer-based Agent Reasoning
-
LiVER 提出了一种光照驱动的视频生成框架,通过渲染器Agent将文本描述转化为显式3D场景代理(包含布局、光照、相机轨迹),再利用物理渲染生成diffuse/glossy/rough GGX的场景proxy,注入视频扩散模型实现物理准确的光照效果与精确场景控制。
- Lighting in Motion: Spatiotemporal HDR Lighting Estimation
-
LIMO 把单张图像/视频里某个 3D 点的光照估计,转化为"用扩散模型在该点 inpaint 出不同曝光的镜面球和漫反射球",再用可微渲染把这堆球融成一张 HDRI,从而同时做到空间定位准、随时间变化、全 HDR 量级准确、室内外通用、反射细节真实——五个能力首次在一个框架里全占齐。
- LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds
-
LightSplat 提出了一种快速且内存高效的无训练框架,通过为3D高斯分配紧凑的2字节语义索引(而非高维CLIP特征),配合轻量级索引-特征映射和单步3D聚类,实现了比现有SOTA快50-400倍、内存降低64倍的开放词汇3D场景理解。
- Linear Fundamental Matrix Estimation from 7 or 5 Points
-
本文给出"7点基础矩阵估计在一种特殊点线构型(V-Umlaut:5点落在两条线上)下唯一可解"这一现象的初等几何解释,并首次给出该极小问题的线性求解器;进一步把它当成一个 5 点求解器(用两个虚拟中点补足),配合 Early Non-Minimal Refitting,在 RANSAC 下做到精度与 SOTA 5 点法相当、运行时却快数倍。
- Lite Any Stereo: Efficient Zero-Shot Stereo Matching
-
提出Lite Any Stereo,通过混合2D-3D代价聚合模块和三阶段百万级数据训练策略(监督→自蒸馏→真实数据知识蒸馏),以不到SOTA精确方法1%的计算量(33G MACs),在四个real-world benchmark上ranking 1st,首次证明超轻量模型可具备强零样本泛化能力。
- LitePT: Lighter Yet Stronger Point Transformer
-
LitePT 通过深入分析卷积和注意力在U-Net各层级的角色,提出在浅层使用稀疏卷积、深层使用注意力的分层混合架构,并引入无参数的PointROPE位置编码,实现了比Point Transformer V3少3.6倍参数、快2倍、省2倍内存,同时在多个点云基准上性能持平或超越。
- LiteSense: Lifting Lightweight ToF with RGB for High-Resolution Metric Depth Estimation
-
LiteSense 把多区 ToF 传感器输出的紧凑归一化直方图(CNH)和 RGB 图像在一个 U-Net 里做分块交叉注意力融合,用仅 5.5M 参数就在室内米制深度估计上逼近大模型 SOTA,并大幅超越同类 RGB-ToF 方法 DELTAR。
- LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight
-
LocateAnything3D 把单目多物体 3D 检测改写成 VLM 的 next-token 预测——先让解码器吐 2D 框当「视觉思维链」,再按近→远、center→size→rotation 的课程解 3D 框,无需任何专用 3D 头就在 Omni3D 上把 AP3D 从 24.92 拉到 38.90。
- LoG3D: Ultra-High-Resolution 3D Shape Modeling via Local-to-Global Partitioning
-
LoG3D 把高分辨率无符号距离场(UDF)切成统一的子体素块 UBlock,用"局部 3D 卷积 + 全局稀疏 Transformer"的混合 VAE 分块编解码,再用 Pad-Average 策略消除块边界缝隙,从而把 3D VAE 的可重建分辨率首次推到 \(2048^3\),在重建精度和生成质量上都达到 SOTA。
- Long-Tail Internet Photo Reconstruction
-
针对绝大多数互联网地标只有稀疏、噪杂、视角不均图片这一"长尾"困境,本文构造了一个干净、稠密深度、规模 8× 于 MegaDepth 的数据集 MegaDepth-X,并提出"从头部稠密场景里子采样出长尾式视图分布"的 sparsity-aware 采样策略,微调 π3、VGGT 等前馈基础模型后,在极端稀疏与对称/重复(doppelganger)场景上的重建鲁棒性大幅提升,同时不损害在标准稠密基准上的泛化能力。
- Long-SCOPE: Fully Sparse Long-Range Cooperative 3D Perception
-
Long-SCOPE提出了全稀疏的长距离协同3D感知框架,通过几何引导查询生成和上下文感知关联模块,在100-150m远距离场景下实现了SOTA性能,同时保持高效的计算和通信成本。
- LongStream: Long-Sequence Streaming Autoregressive Visual Geometry
-
提出LongStream,一种gauge-decoupled的流式视觉几何模型,通过关键帧相对位姿预测、正交尺度学习和缓存一致性训练,实现千帧级别稳定的度量尺度实时(18 FPS)场景重建。
- LoST: Level of Semantics Tokenization for 3D Shapes
-
提出Level-of-Semantics Tokenization (LoST),按语义显著性排序3D形状token,使短前缀即可解码出完整且语义合理的形状,配合RIDA语义对齐损失和GPT式自回归生成,仅用128个token即显著超越现有需数万token的3D AR方法。
- Low-Rank Test-Time Training for Pre-Trained Point Cloud Models
-
本文提出 LoTT-PC,一个面向预训练点云模型的轻量测试时训练框架:用 LoRA 式低秩调制单元替代全参数微调、用解码器无关的「掩码特征对齐」替代重建辅助头,在三个点云抗损坏基准上以单步在线更新平均超过 SOTA 约 2.7%。
- LumiMotion: Improving Gaussian Relighting with Scene Dynamics
-
LumiMotion 是首个利用场景动态(运动区域)作为监督信号来改善逆渲染的 Gaussian-based 方法,通过动静分离和运动揭示的材质变化来更好地分离光照与材质,albedo 估计 LPIPS 提升 23%,重光照提升 15%。
- Lumosaic: Hyperspectral Video via Active Illumination and Coded-Exposure Pixels
-
提出Lumosaic主动高光谱视频系统,将12个窄带LED阵列与编码曝光像素(CEP)相机在微秒级同步,在每帧158个子帧内联合编码空间-时间-光谱信息,实现30fps VGA分辨率31通道(400–700nm)运动鲁棒高光谱视频重建,PSNR比被动快照系统高10+dB。
- LuxRemix: Lighting Decomposition and Remixing for Indoor Scenes
-
LuxRemix 用一个生成式单图光照分解模型把室内场景的复杂光照拆成"一次只点一盏灯"(OLAT)的单光源分量,再通过多视角光照协调把分解结果一致地传播到所有视角,最后编码进可重光照的 3D 高斯泼溅表示,让用户能从任意视角实时、独立地开关/调色/调亮每一盏灯。
- M3DLayout: A Multi-Source Dataset of 3D Indoor Layouts and Structured Descriptions for 3D Generation
-
构建了多源大规模 3D 室内布局数据集 M3DLayout(21,367 布局、433k+ 物体实例),融合真实扫描、专业设计和程序化生成三种来源,配以结构化文本描述,为文本驱动的 3D 场景生成提供高质量训练基础。
- MAGICIAN: Efficient Long-Term Planning with Imagined Gaussians for Active Mapping
-
提出MAGICIAN框架,利用预训练占据度网络生成"想象高斯"(Imagined Gaussians)来高效估计表面覆盖增益,结合束搜索实现主动建图中的长期轨迹规划,在室内外场景均达到SOTA,覆盖率提升超10%。
- MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts
-
MajutsuCity 用一条「文本→场景设计→布局/高度图→资产与材质→场景组装」的四阶段流水线,把自然语言直接变成结构一致、风格可调、可对象级编辑的显式 3D 城市,并配套数据集 MajutsuDataset、编辑智能体 MajutsuAgent 与一套 VLM 评测指标(AQS/RDR),在布局 FID 上比 CityDreamer 降 83.7%、比 CityCraft 降 20.1%。
- Mamba Learns in Context: Structure-Aware Domain Generalization for Multi-Task Point Cloud Understanding
-
提出SADG框架,首次将Mamba引入多任务点云域泛化的上下文学习,通过结构感知序列化(质心距离谱+测地曲率谱)、分层域感知建模和谱图对齐三个模块,在重建、去噪、配准三个任务上全面超越SOTA。
- ManifoldNeuS: Manifold-aware View Optimizability for Pose-Free Neural Surface Reconstruction
-
ManifoldNeuS 指出无位姿神经表面重建里"均匀对待所有视角"会导致 easy-view bias(容易优化的视角主导梯度、关键但难优化的视角被边缘化),提出在视角流形上联合度量"即时拟合度 + 长期覆盖增益"的可优化性分数 MaVOS,并用它驱动动态视角调度、门控位置编码、反分数损失加权三件套,在 DTU 上把位姿误差从 COLMAP-free baseline 的上百度降到 0.6° 量级、重建质量逼近用 COLMAP 真值位姿训练的 NeuS。
- MANSION: Multi-floor Language-to-3D Scene Generation for Long-horizon Tasks
-
MANSION 用「分层多智能体 MLLM + 几何约束生长求解器」把一句自然语言变成可在仿真器里直接跑的整栋多层建筑,并把垂直对齐当成硬约束,配套发布了 1000+ 栋楼的 MansionWorld 数据集与跨楼层任务编辑智能体,专门用来压测具身智能体的长程跨楼层规划能力。
- MAPo: Motion-Aware Partitioning of Deformable 3D Gaussian Splatting for High-Fidelity Dynamic Scene Reconstruction
-
MAPo 给每个 3D 高斯算一个"动态分数",据此把高动态高斯沿时间轴递归二分并为每段复制一份独立形变网络(专门拟合各时段运动),把低动态高斯直接固化为静态省算力,再用跨帧一致性损失缝合分区边界,在 N3DV 上把 PSNR 从 E-D3DGS 的 30.79 提到 31.33,且算力开销基本持平。
- MARCO: Navigating the Unseen Space of Semantic Correspondence
-
提出 MARCO,基于单一 DINOv2 backbone 的语义对应模型,通过粗到细高斯 RBF 损失逐步提升空间精度,并用自蒸馏框架将稀疏关键点监督扩展为稠密伪对应标签,在标准基准和未见关键点/类别上均达到 SOTA,同时比双编码器方法小 3 倍、快 10 倍。
- Mark4D: Temporally-Consistent Watermarking for 4D Gaussian Splatting
-
Mark4D 是首个针对动态 4D 高斯泼溅(4DGS)的水印方法,用「X-CLIP 视频-文本隐空间解码器 + 沿高斯运动轨迹的偏移 + 运动自适应损失加权」三件套,把不可见、抗失真且时间一致的水印嵌进动态场景,在保真度和比特准确率上同时大幅超过把 3DGS 水印硬搬到 4D 的基线。
- Masking Matters: Unlocking the Spatial Reasoning Capabilities of LLMs for 3D Scene-Language Understanding
-
发现 LLM 解码器中的 causal mask 与 3D 场景理解存在两个根本冲突(顺序偏置和指令隔离),提出 3D-SLIM 掩码策略(Geometry-adaptive Mask + Instruction-aware Mask)替换 causal mask,无需架构修改和额外参数即可在多个 3D 场景语言任务上获得显著提升。
- MatE: Material Extraction from Single-Image via Geometric Prior
-
MatE 用「深度几何先验做粗校正 + 双分支扩散做细化」的 coarse-to-fine 框架,从单张真实世界图像的指定区域中并行提取出 albedo / normal / roughness / height 四张可平铺的 PBR 材质图,避免了已有方法(LoRA 过拟合视角、视频 DiT 串行误差累积)的缺陷。
- Material Magic Wand: Material-Aware Grouping of 3D Parts in Untextured Meshes
-
针对无纹理网格中"重复但几何各异的结构件该共享同一材质"这一痛点,本文提出 Material Magic Wand:用一个学到材质感知嵌入的 part encoder,把每个 3D part 编码成向量,单击一个 part 就能用最近邻检索自动选出所有同材质的 part,在自建 100 形状 / 241 query 的基准上检索 AUC 比最强基线高 8.6%、分组 F1 高 16.6%。
- MatLat: Material Latent Space for PBR Texture Generation
-
MatLat 通过微调预训练 VAE 学出一个能容纳 albedo/roughness/metallic 五通道、又最小化偏离原始隐分布的「材质隐空间」(MatVAE),再配「对应感知注意力 + 局部性正则化」保证多视图一致,从而给定 3D 网格生成高质量可重光照的 PBR 纹理。
- MatMart: Material Reconstruction of 3D Objects via Diffusion
-
MatMart 用单个扩散模型把"从输入图像精确预测 PBR 材质"和"为未观测区域生成材质"两步统一在一个端到端框架里,并配合渐进式推理 + 视角-材质交叉注意力(VMCA),实现了对任意数量、任意分辨率输入的高保真、可扩展材质重建。
- MatSpray: Fusing 2D Material World Knowledge on 3D Geometry
-
MatSpray 把任意 2D 扩散材质预测器对每个视角估出的 PBR 贴图(basecolor/roughness/metallic),通过高斯光线追踪"喷"到 3D 高斯几何上,再用一个 softmax 神经合并器跨视角融合 + PBR 渲染损失监督,得到去除烘焙光照、多视一致、可重光照的 3D 材质资产,重建时间比 IRGS 快约 3.5×。
- MD2E: Modeling Depth-to-Edge Cues for Monocular Metric Depth Estimation
-
针对"训练/推理都不给相机内参时单目度量深度尺度不可恢复"的难题,本文发现焦距与场景深度耦合变化时 RGB 几乎不变、但边缘的频谱统计会系统性漂移,于是提出谱分位估计器 SQE 从预测边缘图的傅里叶谱里抽一个标量分数当尺度代理来校准深度,整套 MD2E 在 6 个未见基准的零样本和微调设置下都取得 MMDE 的 SOTA(如 iBIMS-1 上 A.Rel 降 53.0%、RMS 降 41.9%)。
- MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry
-
MERG3R 是一个无需训练的分治框架,把上千张无序图像先排序、再切成有重叠的子集分别用 VGGT/π³ 这类几何基础模型重建,最后通过全局对齐 + 置信度加权束调整拼成全局一致的点云,让原本受限于显存的前馈式重建模型能处理远超其原生上限的图像集。
- Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation
-
提出 Mesh-Pro,首个面向3D四边形网格生成的异步在线强化学习框架,核心算法 ARPO(Advantage-guided Ranking Preference Optimization)通过 Plackett-Luce 排名模型与优势函数加权相结合,在效率(较离线 DPO 快 3.75x)和泛化性上同时取得提升,实现 artist-style 和 dense mesh 的 SOTA 生成质量。
- Mesh4D: 4D Mesh Reconstruction and Tracking from Monocular Video
-
Mesh4D 是一个前馈式单目 4D 网格重建模型:把动态物体表示为「首帧静态网格 + 一段贯穿整个视频的形变场」,用一个由骨架信息监督、带时空注意力的 VAE 把整段形变压进紧凑 latent,再训练一个以视频和首帧网格为条件的潜在扩散模型一次性预测这段 latent,从而恢复出完整 3D 形状、运动和稠密跟踪,在 Objaverse 重建与新视角合成 benchmark 上超过此前 SOTA。
- MeshFlow: Efficient Artistic Mesh Generation via MeshVAE and Flow-based Diffusion Transformer
-
MeshFlow 用一个把顶点位置、法向和「离散连通性」全部编码进连续潜空间的 MeshVAE,配合 Rectified Flow 扩散 Transformer 并行生成所有顶点和边,约 1 秒就能产出艺术家级三角网格,比最快的自回归生成器快约 18 倍且避免量化误差。
- MeshMosaic: Scaling Artist Mesh Generation via Local-to-Global Assembly
-
MeshMosaic 把"整张网格一口气自回归生成"换成"先切块、逐块生成、再无缝拼接"的局部到全局策略,靠共享边界条件 + 逐块独立量化突破了序列长度和量化分辨率两大瓶颈,用 0.5B 小模型就把艺术家网格规模从约 8K 面拉到 10 万面以上,几何保真度和用户偏好都全面超过现有 SOTA。
- MeshRipple: Structured Autoregressive Generation of Artist-Meshes
-
MeshRipple 让自回归网格生成像水面涟漪一样从一条「活动生成前沿」向外扩张:通过一种「前沿感知的 BFS 分词」把下一个面的相关上下文锁死在序列尾部,使截断训练窗口天然覆盖到该有的局部邻域,再配合「联合预测面+下一根面」的扩张式解码和一个稀疏全局记忆模块,从根本上缓解了现有方法生成网格时频繁出现的破洞和碎片,在艺术家网格生成上全面超过近期强基线。
- MeshSplatting: Differentiable Rendering with Opaque Meshes
-
MeshSplatting 把 3DGS/三角形 splatting 的"点云/三角形汤"思路改成端到端优化一张连通、不透明、带顶点色的三角网格——通过顶点共享 + 受限 Delaunay 三角剖分 + 不透明度/平滑度调度,直接产出可塞进 Unity 等游戏引擎免后处理的网格,在 MipNeRF360/T&T 上 PSNR 提升 +0.69 dB,训练快 2×、显存省 2×。
- MeshWeaver: Sparse-Voxel-Guided Surface Weaving for Autoregressive Mesh Generation
-
把自回归 Mesh 生成从"逐坐标预测"改成"逐顶点编织",并用一个多层级稀疏体素编码器从表示、预测、约束三个层面把局部几何注入生成过程,拿到 18% 的 tokenization 压缩率、可生成多达 16K 面的网格,并显著提升几何保真度。
- Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding
-
提出 BrainCoDec 框架,通过两阶段层级式上下文学习(先为每个体素估计编码器参数,再跨体素聚合做功能反演),实现了无需微调即可泛化到新被试的 fMRI 视觉解码,Top-1 检索准确率从 MindEye2 的 3.9% 提升到 22.7%。
- MetricHMSR: Metric Human Mesh and Scene Recovery from Monocular Images
-
MetricHMSR 用一张单目图像同时恢复带真实物理尺度(米制)的人体 SMPL 网格和 3D 场景:核心是用「边界相机射线图」把相机内参和裁剪信息显式编码进网络、用 HumanMoE 把局部姿态与全局位置解耦,再以恢复出的度量人体为几何锚点去校正单目深度,从而在人体网格恢复和度量人-场景重建两个任务上都达到 SOTA。
- MetroGS: Efficient and Stable Reconstruction of Geometrically Accurate High-Fidelity Large-Scale Scenes
-
MetroGS 以分布式 2DGS 为骨干,配合「点云稠密增强 + 渐进式单目/多视图混合几何精修 + 深度引导外观建模」三件套,在城市级大规模场景上同时拿到更高的几何精度(F1)和渲染质量(PSNR),且训练时间只要 CityGSV2 的 25% 左右。
- MHopReg: Efficient Hierarchical Multi-Hop Graph Search for Point Cloud Registration
-
MHopReg 把基于对应关系的点云配准外点剔除做成「分层多跳图搜索」:先用 SE(3) 等变图编码预测对应置信度,再用簇平衡种子采样保证碎片化内点也被覆盖,然后从种子出发沿兼容性图逐跳扩张内点,最后用兼顾几何一致性与空间覆盖度的分布感知排序选最优变换,在低重叠和大规模场景下兼顾精度与效率。
- MimiCAT: Mimic with Correspondence-Aware Cascade-Transformer for Category-Free 3D Pose Transfer
-
本文提出 MimiCAT,一个级联 Transformer 框架,通过语义关键点标签学习柔性多对多软对应关系,结合百万级多类别动作数据集 PokeAnimDB,首次实现了跨类别(如人形到四足动物/鸟类)的高质量 3D 姿态迁移。
- Mind the Hitch: Dynamic Calibration and Articulated Perception for Autonomous Trucks
-
提出 dCAP 框架,通过基于 Transformer 的跨视角和时序注意力机制,实现拖挂式自动驾驶卡车中拖头与挂车之间的实时 6-DoF 相对位姿估计,并集成到 BEVFormer 中提升铰接运动下的 3D 目标检测性能(平移误差 0.452m,旋转误差 0.042 rad)。
- Minimal Constraint Relaxation for Multiview Autocalibration
-
针对三视图 Kruppa 自标定方程"过约束(45 个方程、5 个未知量)导致无解或病态"的老问题,本文提出"极小松弛(minimal relaxation)"框架——系统性地只保留方程的某个子集,用符号计算 + 数值同伦延拓穷举所有能得到有限解的子集,发现唯一可行的 \((1,2,2)\) 选取模式,再用 Jacobian 条件数离线挑出一个"全局最优(Global-Best)"松弛,在合成与真实数据上都比经典 Kruppa 公式和近期分支定界方法更稳更准。
- Mirror Illusion Art
-
本文提出 AutoMIA:给定"镜前正视图"和"镜中倒影"两张 2D 目标图,自动优化出一个同时满足形状与颜色约束、可 3D 打印的体素模型,让同一个物体在镜子前后呈现两个看似完全不同的图案,单卡 RTX 3090 平均约 76 秒、2.6 GB 显存即可完成设计。
- MLLMSplat: A 2D MLLM-Powered Framework for 3D Gaussian Splatting Understanding, Generation, and Editing
-
MLLMSplat 把一个现成的 2D 多模态大模型(OmniGen2)几乎不动权重地"接"到 3DGS 上——用免训练的 3DGS tokenizer 让它理解高斯场景,用一套双旋转位置编码 + 双流解码器把它的 2D 潜在扩散器生成成 3D 一致的高斯,再借一个新视角外推的代理任务把图像编辑能力迁移成单次前向的 3DGS 编辑,在理解/生成/编辑三个任务上同时刷到 SOTA。
- mmWaveFlow: Unified Enhancement and Generation of mmWave Human Point Clouds
-
把"把稀疏毫米波点云补稠密"和"从稠密点云反生成毫米波点云"这两件原本各做各的事,统一成稠密↔稀疏分布之间的一次可逆传输,用流匹配(flow matching)学这条传输路径,并通过跨模态隐空间对齐 + 起点感知(origin-aware)两个模块解决两端分布不对称、路径交叉的问题,单个模型在三个数据集上同时拿下增强与生成两项任务的 SOTA。
- MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos
-
给定一段单目视频和一个带骨架的任意 3D 资产(人/动物/机器人/玩具)作为 prompt,MoCapAnything 先预测逐关节的 3D 轨迹、再用约束感知的逆向运动学(IK)解出该资产自身骨架的旋转动画(如 BVH),从而在异构骨架间做到统一的动捕与跨物种重定向,在 Truebones Zoo 上把 unseen 物种的 MPJPE 从 7.42cm 压到 1.76cm。
- Modeling Spatiotemporal Neural Frames for High Resolution Brain Dynamics
-
提出基于扩散 Transformer 的 EEG 条件 fMRI 重建框架,将脑活动建模为时空神经帧序列而非独立快照,在皮层顶点级分辨率下实现时空一致的 fMRI 重建,并通过零空间采样支持中间帧插值,下游视觉解码任务验证了功能信息的保留。
- MonoSAOD: Monocular 3D Object Detection with Sparsely Annotated Label
-
首次定义并解决稀疏标注单目 3D 目标检测问题,提出道路感知补丁增强(RAPA)和原型过滤(PBF)两个模块,在 KITTI 30% 标注设置下大幅超越现有 2D SAOD 方法(AP3D Easy: 21.28 vs 17.14)。
- MonoVLM: Monocular 3D Visual Grounding with Vision Language Models
-
MonoVLM 用一个三阶段课程式 GRPO 训练框架,把"连 GPT-5 都几乎做不动"的单目 3D 视觉 grounding(看一张 RGB 图 + 一句文本描述,预测目标的 3D 包围框)从近零分拉到 SOTA——先教模型把 2D 定位做准,再借相机投影/反投影学 3D 中心,最后用复合奖励精修完整 3D 框,7B 模型在 Mono3DRefer 上反超专用纯视觉方法。
- MORE-STEM: Long-Short MemOry REcall and Spatio-TEmporal Consistency Model for Query-Driven 3D/4D Point Cloud Segmentation
-
针对"语言驱动的 3D 分割只能处理静态单帧、无法理解动态场景"的痛点,MORE-STEM 把查询驱动分割从 3D 扩到 4D 点云序列,用跨帧文本-视觉对齐 + 时空一致性建模(状态空间 + 稀疏 Transformer)+ 长短期记忆召回三个模块串起来,并构建了首个室外 3D/4D 指令分割基准 InstructKITTI,在指令/指代/语义多个分割任务上同时刷 SOTA。
- MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts
-
MoRE 在 VGGT 这类前馈式稠密 3D 几何基础模型上引入混合专家(MoE)路由,让不同专家专精于室内/室外/物体/人体/动态等异质场景,再配上置信度引导的深度精炼和稠密语义特征融合,在点图、深度、相机位姿、法向四类任务上同时刷到 SOTA。
- MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer
-
提出 MoRe,一种前馈式运动感知 4D 重建 Transformer,通过注意力强制策略在训练时解耦动态运动与静态结构,结合分组因果注意力实现高效流式推理,在动态场景的相机位姿估计和深度预测上达到 SOTA。
- More Natural, More Real: Object-aware Gaussian Splatting for 3D Visual Decoding from Human Brain
-
BrainGS 是首个基于 3D 高斯泼溅(3DGS)的脑信号→3D 物体重建框架:用时空融合网络编码 fMRI/EEG,用多属性控制器把脑信号按视觉-语义-颜色三类锚点解耦对齐,再用多视角稳定器追踪并校正物体视角变化,最终在 fMRI/EEG-3D 数据集上把重建保真度刷到 SOTA(fMRI 2.936 FPD / 0.202 LPIPS)。
- MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification
-
MoRel 用「关键帧锚点 + 双向形变 + 可学习时序不透明度混合」把几千帧的长序列动态场景拆成一段段锚点接力建模,在显存有界的前提下消除了分块训练在边界处的闪烁,tOF 降到 0.203 拿到所有对比方法里最好的时序一致性。
- MoRGS: Efficient Per-Gaussian Motion Reasoning for Streamable Dynamic 3D Scenes
-
MoRGS 在流式动态场景的在线 3DGS 重建里,用稀疏关键视角光流显式监督「逐高斯运动」,再叠加一个可学习的逐高斯运动偏移场纠正稀疏光流的视角不一致,并用逐高斯运动置信度只对真正动起来的高斯做残差更新,从而在保持流式低延迟的同时把渲染质量和运动保真度都做到在线方法 SOTA。
- MOSAIC-GS: Monocular Scene Reconstruction via Advanced Initialization for Complex Dynamic Environments
-
MOSAIC-GS 把单目动态场景重建的「运动估计」从光度优化阶段挪到一个四步预处理流水线里——先检测/分割/追踪动态物体,再用刚性约束精修出场景流,并用 Poly-Fourier 曲线把轨迹直接初始化给动态高斯,配合静态/动态高斯解耦,从而在质量与 SOTA 相当(LPIPS 反超)的同时把训练和渲染速度提升好几倍。
- Motion-Aware Animatable Gaussian Avatars Deblurring
-
提出首个从模糊视频直接重建清晰可动画3D人体高斯Avatar的方法,通过3D感知的物理模糊形成模型和基于SMPL的人体运动模型,联合优化Avatar表示和运动参数。
- Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis
-
Motion 3-to-4 把"从单目视频生成 4D 动态物体"这个病态问题拆成静态 3D 形状生成 + 动态运动重建两步:用一个(可生成的)静态参考网格做锚,前馈预测每帧顶点相对参考帧的运动流,借助 DINOv2 视频特征做"表面点-像素"对齐,在保证完整几何与时序一致的同时把推理压到秒级,并在自建的带真值几何的 Motion-80 基准上大幅超越 L4GM / GVFD / V2M4。
- MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE
-
MotionCrafter 把单目视频的稠密几何(点云)与稠密运动(3D 场景流)放进同一个世界坐标系,用一个专门设计的 4D VAE 把二者编码成统一潜变量,再借预训练视频扩散模型的时空先验做前馈重建;它还反直觉地证明「4D 数据不必强行对齐到 RGB VAE 的分布」,最终几何/运动重建分别比 SOTA 提升 38.64% 和 25.0%,且全程无需任何后优化。
- MotionScale: Reconstructing Appearance, Geometry, and Motion of Dynamic Scenes with Scalable 4D Gaussian Splatting
-
提出 MotionScale,一个可扩展的 4D 高斯泼溅框架,通过基于聚类的自适应运动场和渐进式优化策略,从单目视频中高保真重建大规模动态场景的外观、几何和运动,在 DyCheck 上 PSNR 达到 17.98,3D 跟踪 EPE 降至 0.070,显著超越现有方法。
- MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second
-
提出 MoVieS,一个前馈式 4D 动态场景重建框架,通过 动态溅射像素 (Dynamic Splatter Pixel) 表示将外观、几何和运动统一建模,从单目视频在约 1 秒内完成 4D 重建,并支持新视角合成、3D 点跟踪、场景流估计和运动物体分割等多种任务。
- Moving Border Ownership for Event-based Motion Segmentation
-
这篇论文把事件相机的运动分割重新表述为「移动边界归属(moving border ownership)」预测——既检测运动边界,又判断边界哪一侧属于前景运动物体;用 Blender 合成数据做完美监督训练一个轻量的 time-surface + MobileNet + ConvLSTM 网络,纯合成训练即可零样本迁移到 EED / EVIMO1 / EVIMO2 / EMSMC 四个真实数据集,达到事件域 SOTA,并以 200 FPS 实时运行。
- MSCD-GS: Motion-Separated Cooperative Deblurring Dynamic Reconstruction via Gaussian Splatting
-
针对单目相机拍摄的动态场景里普遍存在的运动模糊,MSCD-GS 把高斯点分成静态、动态两类分别建模其曝光时间内的运动,用两套运动感知 MLP 合成虚拟清晰图像,再配合一个去模糊网络的先验做协同正则约束,从模糊输入里重建出高质量 4D 动态场景,在 Stereo Blur 和真实模糊数据集上去模糊与新视角合成均超过现有方法且训练更快。
- MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation
-
提出多模态3D场景图(M3DSG),用动态分配的图像边替代传统文本关系边来保留视觉信息,构建零样本导航系统MSGNav,并提出可见性视点决策模块解决导航"最后一公里"问题,在GOAT-Bench和HM3D-ObjNav上取得SOTA。
- MU-GeNeRF: Multi-view Uncertainty-guided Generalizable Neural Radiance Fields for Distractor-aware Scene
-
针对可泛化 NeRF(GeNeRF)在动态真实场景中被瞬态干扰物(行人、阴影、动态物体)污染监督信号的问题,本文把"干扰物感知"拆成源视图不确定性(跨源视图的结构不一致)与目标视图不确定性(目标图里的观测异常)两个互补分量,再用一个异方差重建损失把二者融合,从而在前馈泛化框架下既能定位干扰物又不误伤静态结构,效果超过现有 GeNeRF 并逼近逐场景优化的 distractor-free NeRF。
- Multi-modal Frequency Decomposition Network for Semantic Scene Completion
-
MFDNet 把 RGB-D 语义场景补全(SSC)的多模态融合从空间域搬到频域:用 MAFF 在多频带上自适应对齐并融合语义/几何特征、用 FDC 把浅层高频细节补回粗补全结果,从而在「模态对齐」和「细节保留」之间取得平衡,参数量减少 54.4% 的同时在 NYUv2 / NYUCAD 上刷到 SOTA。
- Multi-Scale Gaussian-Language Map for Zero-shot Embodied Navigation and Reasoning
-
提出多尺度高斯-语言地图(GLMap),用「2D 索引栅格 + 实例/区域双层语义单元」组织环境,每个语义单元同时存「自然语言描述 + 3D 高斯」,从而无需额外投影训练就能被 LLM/VLM/MLLM 直接读取;并用一个解析式 Gaussian Estimator 从点云直接拟合高斯参数(不做梯度优化),把 GLMap 零样本接到 ObjectNav / InstNav / SQA 三类任务上稳定涨点。
- Multi-view Consistent 3D Gaussian Head Avatars 'without' Multi-view Generation
-
MVCHead 只用随机采样的 2D 人脸图像(不要多视角数据、不要 3D 监督、也不生成中间视角),用一个单次前向的状态空间模型直接回归 24 万个 3D 高斯,靠「按多视角漂移主轴对齐的双向扫描」加「SE(3) 多视角评判器」把多视角一致性写进结构本身,在感知质量和纹理/几何一致性上达到 SOTA。
- Multi-view Pyramid Transformer: Look Coarser to See Broader
-
MVP 用一个"对偶注意力层级"(视图维度从帧内→组内→全局逐层放宽,空间维度从细 token 逐层合并成粗 token)让前馈 Transformer 能在一次前向里吃下几十到几百张图,0.1–2 秒内重建大场景 3D 高斯,在 16–256 视图范围内同时把质量和速度做到当前最好。
- Multimodal Semantic Bias Mitigation for Diverse Text-To-3D Generation
-
针对文本到 3D 大模型(如 TRELLIS)对提示词格式过度敏感、只盯住少数关键词、难懂复杂提示的「跨模态偏差」问题,本文提出一个「定位—量化—缓解」框架:用 3D 质量评估模型反传梯度在词级定位偏差,再据此用 GPT-4 和外部 3D 生成器构造语义更丰富、视觉更可靠的文本-3D 配对去微调大模型,从而生成更多样、更对齐文本的高质量 3D 内容,在 MATE-3D 与 T³Bench 上超过 8 个 SOTA。
- MuM: Multi-View Masked Image Modeling for 3D Vision
-
MuM 把 MAE 的「掩码-重建」目标从单图直接推广到同一场景的任意多视图(最多 24 张),用一个轻量的多视图解码器在帧间做交替注意力,预训练出几何感强的特征编码器;在前馈三维重建、稠密匹配、相对位姿等 3D 任务上,用约 1/30 的训练算力超过了 DINOv3 和 CroCo v2。
- Muses: Designing, Composing, Generating Nonexistent Fantasy 3D Creatures without Training
-
Muses 是首个免训练、前馈式的奇幻 3D 生物生成框架:它把"一个由老虎身体、龙翅膀、机器人腿、九条狐狸尾巴拼成的不存在生物"这种高度组合的文本,先解析成各部件的 3D 骨架,用图分类 + LLM 推理拼出一副合理的整体骨架,再在 Trellis 的结构化隐空间(SLAT)里按骨架做体素级几何/纹理插值组装,最后用风格一致的纹理编辑收尾,在视觉保真度和文本对齐上大幅超过 DreamBeast、OmniPart 等方法(VQAScore 0.93 vs 0.82)。
- MV-RoMa: From Pairwise Matching into Multi-View Track Reconstruction
-
提出 MV-RoMa,首个多视图稠密匹配模型,通过 Track-Guided 多视图编码器和像素对齐多视图精炼器从一张源图同时估计到多个目标图的稠密对应关系,产生几何一致的轨迹用于 SfM,在 HPatches/ETH3D/IMC 等基准上全面超越现有方法。
- MV2UV: Generating High-quality UV Texture Maps with Multiview Prompts
-
MV2UV 把多视图扩散生成的图像当作"语义提示",在 UV 空间用一个微调过的 SDXL 扩散模型直接生成纹理图,并用像素对齐的 3D 坐标(XYZ)作为跨注意力的位置编码,从而在补全遮挡区域的同时自动化解多视图不一致,在 GSO/DTC 上把 FID 大幅刷低。
- MV3DIS: Multi-View Mask Matching via 3D Guides for Zero-Shot 3D Instance Segmentation
-
MV3DIS 把"粗 3D 分割块的投影"当作跨视角的公共参照来匹配并筛选 SAM 产生的 2D 掩码,再用一致的 2D 掩码反过来精修 3D 实例,从而在不依赖视频跟踪、不需要任何 3D 标注的前提下,把零样本 3D 实例分割的 mAP 在 ScanNetV2 上推到 38.5(超过前 SOTA 4.5)。
- MVGGT: Multimodal Visual Geometry Grounded Transformer for Multiview 3D Referring Expression Segmentation
-
提出 MV-3DRES 新任务(从稀疏多视图 RGB 直接做语言引导的 3D 分割)和 MVGGT 框架(双分支设计融合冻结几何分支 + 可训练多模态分支),通过 PVSO 优化策略解决前景梯度稀释问题,在自建 MVRefer 基准上以 39.9 mIoU 大幅超越基线。
- MVInverse: Feed-forward Multiview Inverse Rendering in Seconds
-
MVInverse 用一个 VGGT 风格的交替注意力 Transformer,单次前馈就从多视图 RGB 序列里同时预测出逐视图一致的反照率、金属度、粗糙度、法线和漫反射阴影,把过去需要逐场景优化几分钟到几小时的多视图逆渲染压到几秒,并配合自监督一致性微调让模型在真实视频上也稳定不闪烁。
- NanoSD: Edge Efficient Foundation Model for Real Time Image Restoration
-
提出 NanoSD,通过对 SD 1.5 进行硬件感知的 U-Net 分解、逐块特征蒸馏和多目标贝叶斯优化,构建了一族 Pareto 最优的轻量扩散基础模型(130M–315M 参数,最快 12ms 推理),可作为 drop-in backbone 在超分、人脸修复、去模糊、单目深度估计等多任务上达到 SOTA 级表现。
- NaTex: Seamless Texture Generation as Latent Color Diffusion
-
NaTex 把"给 3D 网格上色"重新定义成在 3D 空间里直接预测颜色场——用一个几何感知的颜色点云 VAE 把纹理压成有序潜在集合,再用多控制 DiT 做潜在颜色扩散,彻底绕开多视图扩散(MVD)烘焙路线在遮挡、对齐和跨视图一致性上的固有缺陷,在纹理连贯性和对齐上显著超过此前方法。
- Native and Compact Structured Latents for 3D Generation
-
本文是 TRELLIS 原班团队的续作 TRELLIS.2,提出一种从原生 3D 数据直接学习的结构化隐空间表示。其核心是无场(field-free)的全能体素 O-Voxel,用柔性对偶栅格统一编码任意拓扑的几何与 PBR 材质;再配一个稀疏压缩 VAE(SC-VAE)做到 16× 空间下采样,把 1024³ 全纹理资产压成约 9.6K token。最后训练约 4B 参数的三阶段 Flow-matching 模型做图生 3D,在重建保真度、材质质量和生成速度上都大幅超越现有方法。
- Natural Human Motion Recovery by Aligning High-Order Temporal Dynamics from Monocular Videos
-
针对单目人体运动恢复"关节位置准但动起来要么抖要么过平滑"的痛点,本文提出 HTD-Refine——用一个轻量时序网络 PVA-Net 直接从视频显式预测每个关节的 3D 速度和加速度,再把这些高阶动力学当成软约束去优化全局轨迹,能即插即用地给 TRAM / GVHMR / Human3R 等现有方法降抖动、抑过平滑,并提升全局精度。
- NeAR: Coupled Neural Asset–Renderer Stack
-
NeAR 提出将神经资产创作和神经渲染联合设计为一个耦合栈,通过光照均匀化的结构化 3D 潜变量(LH-SLAT)消除输入图像中的烘焙光照,再用光照感知的神经解码器实时合成可重光照的 3D 高斯场,在前向渲染、重建、重光照和新视角重光照四类任务上超越现有方法。
- NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos
-
NeoVerse 提出了一个可扩展的 4D 世界模型,通过前馈式无位姿 4DGS 重建和在线单目退化模拟,使整个训练流程可以利用海量野外单目视频(百万级),在 4D 重建和新轨迹视频生成上均达到 SOTA。
- Nerfify: A Multi-Agent Framework for Turning NeRF Papers into Code
-
提出 Nerfify,一个多智能体框架,通过上下文无关文法约束、图思维代码合成和组合式引用恢复,将 NeRF 论文自动转换为可训练的 Nerfstudio 插件代码,在 30 篇论文基准上实现 100% 可执行率,视觉质量与专家实现差距仅 ±0.5 dB PSNR。
- Nestwork: Conditional 3D Furnished House Layout Generation through Latent Heterogeneous Graph Diffusion
-
Nestwork 把"房间 + 家具"整套住宅编码成一张异构场景图,在它的潜在空间上训练一个带随机掩码的扩散去噪器,让同一个模型既能从完整语义图、也能从只有拓扑/纯文本描述生成一栋一次性成型、家具齐全的 3D 住宅,并在 3D-FRONT 上把两阶段流水线的 FID 从 41.9 压到 7.3。
- Neu-PiG: Neural Preconditioned Grids for Fast Dynamic Surface Reconstruction on Long Sequences
-
Neu-PiG 提出一种基于预条件多分辨率潜在网格的快速优化方法,将关键帧参考网格的位置和法线方向编码为统一潜在空间,通过轻量级 MLP 解码为每帧 6-DoF 形变,在无需类别先验或显式对应关系的前提下,实现了比现有无训练方法快 60 倍以上的高保真动态曲面重建。
- Neural Dynamic GI: Random-Access Neural Compression for Temporal Lightmaps in Dynamic Lighting Environments
-
针对"动态光照下要存多套光照贴图(lightmap)、体积巨大"这一痛点,NDGI 用一组混合维度的特征图 + 轻量 MLP 把整个时间序列的光照贴图压成一个小模型,再配合块压缩(BC)模拟训练和虚拟纹理(VT)运行时按需解码,在 0.68 BPP 的极低码率下把光照重建 PSNR 做到 46.7 dB,远超传统 GPU 压缩(BC7/ASTC)和现有神经压缩 NTC,且解码延迟只有 NTC 的约四分之一。
- Neural Field-Based 3D Surface Reconstruction of Microstructures from Multi-Detector Signals in Scanning Electron Microscopy
-
本文提出 NFH-SEM,一个基于神经场的混合框架,通过将 SEM 电子散射物理模型嵌入神经场优化过程,从多视角多检测器 SEM 图像重建高保真的微观结构 3D 表面,实现了自标定、抗阴影的纳米级精度重建(478nm 层叠特征、782nm 花粉纹理、1.559μm 断裂台阶)。
- Neural Gabor Splatting: Enhanced Gaussian Splatting with Neural Gabor for High-frequency Surface Reconstruction
-
Neural Gabor Splatting 为每个高斯原语嵌入一个轻量级 MLP(SIREN 架构),使单个原语能表示复杂的空间变化颜色模式,配合频率感知致密化策略,在相同数据预算下显著提升高频表面重建质量。
- NeuROK: Generative 4D Neural Object Kinematics
-
NeuROK 把"给静态 3D 物体生成物理合理的 4D 形变"这件原本依赖类别专属物理模型的事,改写成"学一个低维潜在运动状态空间 + 在这个空间里用拉格朗日力学解一条 ODE",从而无需任何物理标注、无需类别先验,就能对弹性体、布料、连续体、铰接物等各类物体统一生成 4D 动态,用户研究偏好率达 81%。
- NG-GS: NeRF-Guided 3D Gaussian Splatting Segmentation
-
提出 NG-GS 框架,利用 NeRF 的连续建模能力解决 3DGS 分割中的边界离散化问题,通过 RBF 插值构建连续特征场结合多分辨率哈希编码和 NeRF-GS 联合优化实现高质量对象分割。
- NI-Tex: Non-isometric Image-based Garment Texture Generation
-
提出NI-Tex框架,通过构建3D Garment Videos数据集、基于图像编辑的跨拓扑增强以及不确定性引导的迭代烘焙算法,首次以前馈架构实现了非等距条件下从单图到3D服装PBR纹理的高质量生成。
- NimbusGS: Unified 3D Scene Reconstruction under Hybrid Weather
-
NimbusGS 提出统一的3D场景重建框架,通过将天气退化分解为连续散射场(雾/霾)和逐视图粒子残差层(雨/雪),配合几何引导梯度缩放机制,在单一框架内实现跨天气和混合天气条件下的SOTA重建。
- No Calibration, No Depth, No Problem: Cross-Sensor View Synthesis with 3D Consistency
-
提出首个无需标定和深度的跨传感器视图合成框架,通过匹配-稠密化-3D整合 (match-densify-consolidate) 流程,将稀疏跨模态关键点扩展为稠密的、与 RGB 视角对齐的 X 模态图像(热成像/NIR/SAR),并通过置信度感知融合与自匹配过滤提升合成质量。
- Node-RF: Learning Generalized Continuous Space-Time Scene Dynamics with Neural ODE-based NeRFs
-
Node-RF 将 Neural ODE 与 NeRF 紧密耦合,用连续时间微分方程驱动隐式场景表征的时序演化,实现了远超训练时域的长程外推与跨轨迹泛化,在 Bouncing Balls、Pendulum、Oscillating Ball 等数据集上显著优于 D-NeRF、4D-GS 等基线。
- NTK-Guided Implicit Neural Teaching
-
提出 NINT,利用 Neural Tangent Kernel (NTK) 的行向量来度量每个坐标对全局函数更新的影响力,从而动态选择既有高拟合误差又有高全局影响力的坐标进行训练,将 INR 训练时间减少近一半且不损失重建质量。
- NVGS: Neural Visibility for Occlusion Culling in 3D Gaussian Splatting
-
NVGS 把每个 3DGS 资产里所有高斯的"视点相关可见性"蒸馏进一个共享小 MLP,在光栅化前查询它来丢弃被遮挡的高斯,再配上一个只对存活高斯做实例化的光栅化器,让由上亿高斯组成的复合场景在实时帧率下渲染,同时把显存压到 V3DG 的约四分之一、画质反而更高。
- ObjectMorpher: 3D-Aware Image Editing via Deformable 3DGS
-
ObjectMorpher 把图里的目标物体用 image-to-3D 生成器抬升成可编辑的 3D 高斯泼溅(3DGS),让用户拖拽稀疏控制点、配合 ARAP 刚性约束做物理合理的非刚性形变,再用一个 LoRA 微调的合成扩散模型把改完的物体无缝贴回原图,从而在 KID / LPIPS / SIFID 和用户主观偏好上同时拿到高可控性、高真实感和近实时(<10s 交互)的效果。
- ODGS-SLAM: Omnidirectional Gaussian Splatting SLAM
-
ODGS-SLAM 是首个把 3D 高斯泼溅(3DGS)作为统一表示用于全向(360° 全景)相机 SLAM 的系统:它给 3DGS-SLAM 的反传管线补上等距柱状投影下对相机位姿的解析梯度、用纬度加权抵消赤道-极点畸变、再用一套基于图分析的关键帧移除策略压内存,从而在全景输入上同时完成相机跟踪与稠密建图,跟踪精度(ATE RMSE)统计显著优于现有全向及透视 3DGS-SLAM 方法。
- Off The Grid: Detection of Primitives for Feed-Forward 3D Gaussian Splatting
-
本文提出一种基于关键点检测思路的前馈式3DGS解码器,将高斯原语从像素网格中解放出来,在亚像素级别自适应放置原语,结合自适应密度机制和置信度剪枝,仅使用输入像素数1/7的原语就在新视角合成上超越了SOTA前馈方法。
- OLATverse: A Large-scale Real-world Object Dataset with Precise Lighting Control
-
OLATverse 用一个 35 相机 + 331 可控光源的光舞台(lightstage),对 765 个真实物体逐光源拍摄,构建出约 900 万张图像、带精确单光源控制(OLAT, One-Light-At-a-Time)的大规模真实数据集,并附带相机参数、物体掩码、光度法向、漫反射 albedo,第一次为逆渲染 / 新视角合成 / 法向估计提供了「规模又大、光照又精确」的真实世界基准。
- OMG-Avatar: One-shot Multi-LOD Gaussian Head Avatar
-
OMG-Avatar 用单张图在 0.2 秒内重建一个可驱动的 3D 高斯头部化身,通过「由粗到细的分层特征提取 + 深度缓冲引导的遮挡感知融合 + 头肩分治建模」,让同一个统一模型在运行时动态切换细节级别(LOD),在更少高斯点数下同时拿到 SOTA 的重建质量和 85 FPS 的实时速度。
- OMGTex: One-stage Multi-style Facial Texture Reconstruction without Geometry Guidance
-
OMGTex 用一个 DiT 扩散模型把任意风格的人脸图像直接映射成可编辑的 UV 纹理,靠推理阶段的「梯度引导对齐」修正 UV 结构错位、靠对 attention 块的语义归因实现分区编辑,全程不依赖 3D 几何先验,对遮挡和风格化输入鲁棒,单图 7 秒重建并在 LPFF/CANVAS 上达到 SOTA。
- Omni-3DEdit: Generalized Versatile 3D Editing in One-Pass
-
Omni-3DEdit 把指令式 3D 编辑从"显式 3D 表示上的迭代优化"搬到多视图潜空间的一次前向传播,用一个基于预训练多视图生成模型 SEVA 的网络 OmniNet 同时支持物体删除/添加/外观编辑,并配一条数据合成管线解决配对数据稀缺,把单次编辑从几十分钟压到约 2 分钟。
- OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer
-
OmniVGGT 在 VGGT 这类前馈 3D 基础模型上加了一个轻量 GeoAdapter,让模型能在训练和推理时灵活吸收任意数量的辅助几何模态(深度、相机内参/位姿),即便只给 RGB 也能超过 VGGT,给了辅助信息后还能进一步大幅提升,并把它接到 VLA 模型上改善了机器人操作。
- Online3R: Online Learning for Consistent Sequential Reconstruction Based on Geometry Foundation Model
-
Online3R 给冻结的几何基础模型(MASt3R-SLAM)插一组轻量可学习视觉提示,在测试时用「局部融合伪真值 + 全局参考帧不变性」两个自监督约束在线更新提示,让前馈重建网络边重建边适应新场景,从而消除序列重建的不一致与长程漂移,并在多个位姿/几何基准上超过此前 SOTA。
- OnlineHMR: Video-based Online World-Grounded Human Mesh Recovery
-
提出 OnlineHMR,首个同时满足系统因果性、忠实性、时序一致性和高效性四项准则的在线世界坐标人体网格恢复框架,通过滑动窗口因果学习 + KV 缓存推理实现流式相机坐标 HMR,结合以人为中心的增量 SLAM 和 EMA 轨迹校正实现在线全局定位。
- OnlinePG: Online Open-Vocabulary Panoptic Mapping with 3D Gaussian Splatting
-
提出 OnlinePG,首个基于 3DGS 的在线开放词汇全景建图系统,通过 local-to-global 范式——在滑窗内用多线索聚类图(几何重叠+语义相似+视图共识)构建局部一致 3D 实例,再通过双向二部匹配增量融合到全局地图——实现了在线方法中最优的语义和全景分割性能,ScanNet 上 mIoU 48.48 超越 OnlineAnySeg +17.2,且达到 10-18 FPS 实时效率。
- OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness
-
提出 OpenVO,一个面向开放世界的单目视觉里程计框架,通过时间感知流编码器和几何感知上下文编码器,在无相机标定、帧率变化的条件下实现鲁棒的真实尺度自车运动估计,跨数据集 ATE 提升超 20%,变帧率场景误差降低 46%-92%。
- OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding
-
OpenVoxel 提出一个完全免训练的开放词汇 3D 场景理解流程:对预训练好的稀疏体素(SVR)模型,用 SAM2 的 2D 掩码通过空间投票把体素聚成物体级 group,再用 MLLM 给每个 group 生成结构化文字描述构成"场景地图",最后把用户查询也改写成同样格式做文本到文本检索——彻底绕开 CLIP/BERT 嵌入对齐,在指代表达分割(RES)上比需要标注训练的 ReferSplat 高出 13 个点,且单场景只需约 3 分钟(快 10 倍以上)。
- Opti-NeuS: Neural Reconstruction for Dual-Layered Transparent and Opaque Objects
-
Opti-NeuS 用「两阶段分层重建 + 可学习的折射率网络(IoRNetwork)」在无受控环境、无额外输入的条件下,把一个既有透明外壳又有不透明内核的双层物体拆成外层透明面和内层不透明面分别重建,先抑制折射重建外表面、再用 Snell 定律追踪折射光线重建内部,Chamfer Distance 比 Alpha-NeuS / NeTO / NU-NeRF 等都更低。
- Optical Flow Matching: Reframing Optical Flow as Continuous Transport Dynamics
-
把光流从"两帧间离散位移回归"重新表述成"沿时间连续输运像素坐标的速度场学习",并用一个三角速度协同(TVS)技巧把 Flow Matching 的理论目标和光流网络能用的监督信号对齐,在 Sintel / KITTI / Spring 上同时拿到 SOTA 精度和更强的跨数据集泛化。
- ORBIT: Benchmarking SfM in the Wild with 360° Video
-
ORBIT 用网上的 360° 全景视频做"可靠真值来源"——因为全景相机看全方向、内参已知、稳定特征藏不住,所以对它跑定制的 rig-based SfM 能得到可信轨迹,再把全景裁剪重投影成"专挑难点"的透视视频,构成 100 段真实野外难例,结果 COLMAP / MegaSaM / VGGT 等 SOTA 在上面无一不大量失败,揭示 SfM 远未解决。
- Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors
-
提出利用 3D 基础生成模型(Hunyuan3D)的潜在特征作为形状先验,通过多尺度 3D 适配器注入基础视频扩散模型,实现从单张图像生成几何真实且视图一致的轨道视频。
- ORD: Object-Relation Decoupling for Generalized 3D Visual Grounding
-
ORD 提出"物体-关系解耦"框架,把目标-锚点的空间关系当作一等几何/语义原语显式建模——用锚点中心的相对几何 + 谓词解耦的跨模态对齐 + 锚点引导回归,切断"从实体名走捷径"的依赖,在 NR3D/SR3D 等多个 3D 视觉定位基准上稳超 SOTA。
- OrienPose: Orientation-Guided Novel View Synthesis for Single-Image Unseen Object Pose Estimation
-
OrienPose 把物体的"朝向先验"显式注入到新视角合成(NVS)的参考潜变量里、并用朝向一致性损失在几何层面监督视角变换,把单张图、无 CAD 模型的未见物体位姿估计从"凭像素瞎猜变换"变成"有定义起点的几何变换",在 ShapeNet 上 ACC30 较前 SOTA NOPE 提升 7.3%、中位误差降低 7.3°。
- Ov3R: Open-Vocabulary Semantic 3D Reconstruction from RGB Videos
-
Ov3R 只用 RGB 视频流,就能同时做稠密 3D 重建和开放词表 3D 语义分割:一个把 CLIP 语义直接灌进重建网络的 CLIP3R 负责出几何 + 物体级语义,一个融合 CLIP3R/DINO/3D-CLIP 三路特征的 2D-3D OVS 负责把 2D 语义"抬"到 3D,在 Replica/7Scenes 重建和 Replica/ScanNet 开放词表分割上都刷到 SOTA,且保持约 15 FPS。
- OVI-MAP: Open-Vocabulary Instance-Semantic Mapping
-
OVI-MAP 把"建实例地图"和"贴语义标签"两件事彻底拆开:先只靠几何从 RGB-D 流里增量重建一张类别无关的 3D 实例地图,再用一个物体中心的视角覆盖策略挑出少量信息量大的视角喂给 VLM 提语义,从而在实时帧率下做到开放词汇的实例级语义理解,并在 ScanNet / Replica 上超过现有在线建图方法。
- P2GS: Physical Prior-guided Gaussian Splatting for Photometrically Consistent Urban Reconstruction
-
P2GS 把 3DGS 的优化从 LDR 像素空间搬到线性 HDR 域,仅靠 LDR 图像就联合解出"视角无关的 HDR 辐射 + 逐视角曝光 + 逐视角色调映射",从而消除多相机驾驶数据里的曝光接缝和光度不一致,得到适合自动驾驶仿真的曝光不变重建。
- PackUV: Packed Gaussian UV Maps for 4D Volumetric Video
-
PackUV 把 4D 高斯(3DGS 序列)的全部属性"打包"成一段结构化的多尺度 2D UV 图集,再配上一个直接在 UV 域里拟合、用光流关键帧+动静分离稳住长序列的方法 PackUV-GS,让体三维视频第一次可以无损地用 HEVC / FFV1 等标准视频编码器存储和流式传输,在最长 30 分钟、大运动、频繁遮挡消失的场景里渲染质量超过现有所有 baseline。
- PAD-Hand: Physics-Aware Diffusion for Hand Motion Recovery
-
提出 PAD-Hand,一个物理感知的条件扩散框架,将欧拉-拉格朗日动力学残差建模为虚拟观测量融入扩散过程,同时通过最后一层拉普拉斯近似估计逐关节、逐帧的动态方差,实现了兼具物理可信度和不确定性感知的手部运动恢复,在 DexYCB 上加速度误差降低 50.1%。
- PAM: A Pose-Appearance-Motion Engine for Sim-to-Real HOI Video Generation
-
提出PAM——首个仅需初始/目标手部姿态和物体几何即可生成逼真手物交互视频的引擎,通过解耦姿态生成、外观生成和运动生成三阶段,在DexYCB上FVD 29.13(vs InterDyn 38.83)、MPJPE 19.37mm(vs CosHand 30.05mm),生成的合成数据还能有效增强下游手部姿态估计任务。
- PaNDaS: Learnable Shape Interpolation Modeling with Localized Control
-
PaNDaS 用「源网格上的逐面局部特征 + 目标网格的全局编码」拼出一个变形特征场,喂给基于神经雅可比场的变形生成器,只用整体变形监督训练,却能在测试期通过对全局特征做二值掩码实现任意区域的局部非刚性插值,在手/身体/脸三类网格上同时刷新整体与局部插值精度。
- Pano360: Perspective to Panoramic Vision with Geometric Consistency
-
提出 Pano360,将全景拼接从传统的 2D 逐对匹配扩展到 3D 摄影测量空间,利用 Transformer 架构实现多视图全局几何一致性对齐,在弱纹理、大视差、重复纹理等挑战场景下达到 97.8% 成功率。
- Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image
-
提出 Pano3DComposer,一个从单张全景图出发的模块化前馈式组合3D场景生成框架,通过即插即用的 Object-World Transformation Predictor(基于 Alignment-VGGT)将生成的3D物体从局部坐标转换到世界坐标,约20秒即可在 RTX 4090 上生成高保真3D场景。
- PanoVGGT: Feed-Forward 3D Reconstruction from Panoramic Imagery
-
提出 PanoVGGT,一个置换等变的 Transformer 框架,能从一张或多张无序全景图像中在单次前馈中联合预测相机位姿、深度图和全局一致3D点云;同时贡献了 PanoCity——一个包含超过12万张室外全景图像的大规模数据集。
- Paparazzo: Active Mapping of Moving 3D Objects
-
Paparazzo 提出"主动重建运动物体"这一新任务,并给出一个免训练的双模框架:用扩展卡尔曼滤波预测非合作运动目标的轨迹、用 FisherRF 信息增益选最优观测视角,并在"信息量高但够不着"与"信息量低但好同步"之间做权衡,从而比被动/随机基线更完整高效地重建移动中的 3D 物体。
- Parallel Rigidity Matters for Bundle Adjustment
-
本文用「平行刚性(parallel rigidity)」理论第一次系统回答了「光束法平差(BA)的解何时唯一」这个被长期忽视的基础问题——把相机平移与三维点的联合优化看成一个二部图上的方向约束问题,设计 GPRBA 算法通过相机间视图图高效提取「通用平行刚性」子图,接进全局 SfM 流水线 GLOMAP 后能干净地剔除被独立缩放而摆错位置的相机与三维点。
- Parallelised Differentiable Straightest Geodesics for 3D Meshes
-
提出 straightest geodesics 的并行 GPU 实现及两种可微分方案(外在代理函数法和测地线有限差分法),使三角网格上的指数映射可高效并行且可微分,并以此构建测地线卷积层、网格上的流匹配方法和二阶优化器三个下游应用。
- PARSE: Part-Aware Relational Spatial Modeling
-
PARSE 把"物体之间的关系"从粗糙的语言介词/物体级场景图下沉到部件级几何约束,用一张"部件中心装配图(PAG)"描述场景,再用一个由粗到细的求解器把图实例化成无碰撞、物理合理的 3D 室内场景,并据此造出含部件级接触标注的大规模数据集 PARSE-10K,显著提升 VLM 空间推理与可控 3D 场景生成。
- Part\(^{2}\)GS: Part-aware Modeling of Articulated Objects using 3D Gaussian Splatting
-
Part\(^{2}\)GS 给每个 3D 高斯挂上一个可学习的「部件身份嵌入」,配合运动感知规范化、排斥点和物理约束,从多视角图像里同时重建出关节物体的高保真几何与物理一致的运动,在 Chamfer Distance 上比 SOTA 最多降低约 10 倍(运动部件)。
- PartDiffuser: Part-wise 3D Mesh Generation via Discrete Diffusion
-
PartDiffuser 把"逐 token 自回归生成网格"换成"部件间自回归、部件内并行离散扩散"的半自回归框架,用部件感知交叉注意力注入分层几何条件,从而在保证全局拓扑的同时精修局部高频细节,在 Objaverse 上 Chamfer Distance 比次优方法降低约 27%。
- ParticleGS: Learning Neural Gaussian Particle Dynamics from Videos for Prior-free Physical Motion Extrapolation
-
ParticleGS 把每个 3D 高斯当作一个受物理规律驱动的"粒子",用一组共享的潜在动态场 + Neural ODE 学习其连续时间演化规律,从而在观测时间窗之外做出物理一致的运动外推,在 4 个动态场景数据集上的外推 PSNR 比时间条件方法高 5 dB 以上、比速度场方法高约 2.5 dB。
- Particulate: Feed-Forward 3D Object Articulation
-
Particulate 提出了一个前馈式模型,给定静态 3D 网格即可在数秒内推断出完整的铰接结构(部件分割、运动学树、运动约束),基于 Part Articulation Transformer 在公开数据集上端到端训练,显著优于需要逐物体优化的现有方法,并能与 3D 生成模型结合实现从单张图像到铰接 3D 物体的生成。
- PatchAlign3D: Local Feature Alignment for Dense 3D Shape Understanding
-
PatchAlign3D 是第一个直接在点云上输出「语言对齐的 patch 级特征」的纯编码器 3D 模型,通过「DINOv2 特征蒸馏 + patch-文本对比」两阶段预训练,在单次前馈、无需多视角渲染的情况下做零样本 3D 部件分割,ShapeNetPart 上 mIoU 比此前最强的渲染式方法 COPS 高出 +31.3%。
- PatchScene: Patch-based Voxel Diffusion Model for Large-Scale Scene Completion
-
PatchScene 把大规模 LiDAR 场景补全拆成一堆互相重叠的小体素 patch、各自跑显式体素扩散,再用置信度引导的时空融合把它们拼成一致的全局点云,并用一个"由内向外、环形推进"的扩散顺序把致密信息从近处传到远处,从而在 SemanticKITTI 上刷到 SOTA,且 20m 训练能零样本泛化到 50m。
- PE3R: Perception-Efficient 3D Reconstruction
-
PE3R 提出一个免调优的前馈式3D语义重建框架,通过像素嵌入消歧、语义点云重建和全局视图感知三个模块,从无位姿的2D图像直接生成语义3D点云,实现了9倍加速且在开放词汇分割和深度估计上达到新SOTA。
- P3Sim:基于物理世界建模的感知式 3D 模拟
-
P3Sim 把"从单张图像预测 3D 场景变换后会变成什么样"建模成对多模态场景变量(RGB / 深度 / 光流)的概率推断,用一个带指针-值序列的 7B 自回归 Transformer 做随机访问解码,再配上几何条件模块与持久场景记忆,统一支持新视角合成、刚体/形变操作、碰撞与多智能体预测等任务,并在 NVS 与 3D 物体操作两个 benchmark 上超过专用基线。
- PercHead: Perceptual Head Model for Single-Image 3D Head Reconstruction & Editing
-
PercHead 用一张图重建出对极端视角都鲁棒的 3D 一致头部:核心是抛弃 L1/LPIPS 这类像素级监督,改用 DINOv2 + SAM 2.1 基础模型的中间特征构造"纯感知损失",配合 ViT 架构(2D 编码器 + FLAME 模板初始化的 3D 解码器 + 高斯泼溅),在 Ava-256 极端视角上 LPIPS、DreamSim、ArcFace 全面领先,并只需换掉编码器就扩展成"分割图控几何 + 文本/参考图控风格"的解耦式 3D 编辑。
- PerpetualWonder: Long-horizon Action-conditioned 4D Scene Generation
-
PerpetualWonder 提出"视觉-物理对齐粒子"(VPP)这一统一表征,把物理粒子和高斯基元双向绑定,配合多视角渐进优化,第一次让混合生成式仿真器形成真正的闭环——使得视频模型的视觉修正能反向更新物理状态,从而支持从单张图像出发、对长时程连续动作做出物理合理的 4D 场景生成。
- Photo-Guided Tooth Segmentation on 3D Oral Scan Model
-
PMTSeg 第一次把口内照片当作"纹理外挂"喂给 3D 口内扫描(IOS)模型的牙齿分割网络——用可微相机对齐把照片对到 3D 网格上、用门控自适应融合任意张数照片、再用对比一致性把可见区域的语义"搬运"到不可见区域,在牙缝和牙龈交界这些纯几何最难啃的地方拿到 96.17 mIoU / 92.53 B-IoU 的新 SOTA。
- Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement
-
Photo3D 用 GPT-4o-Image 把 3D 渲染图增强成"结构对齐、细节逼真"的多视图,构建出配对 3D 几何的 Photo3D-MV 数据集,再用一套 CLIP 感知适配 + DINOv3 语义结构匹配的"宽松细节增强损失"做监督,在不破坏 3D-native 几何的前提下给三类主流 3D 生成范式注入照片级外观,刷到照片真实感 SOTA。
- PhyGaP: Physically-Grounded Gaussians with Polarization Cues
-
提出 PhyGaP,通过偏振延迟渲染(PolarDR)将偏振线索融入 2DGS 优化,并设计自遮挡感知的 GridMap 环境图技术,实现光泽物体的精确反射分解与真实重光照。
- PhysGaia: A Physics-Aware Benchmark with Multi-Body Interactions for Dynamic Novel View Synthesis
-
PhysGaia 构建了一个包含 17 个场景的物理感知基准数据集,涵盖液体/气体/织物/流变物质等多种材料的多体交互,提供 3D 粒子轨迹和物理参数(如粘度)的 ground truth,并提出 Trajectory Distance (TD) 和 AUOP 两个新指标来量化 4DGS 方法的物理真实性,揭示了现有 DyNVS 方法在物理推理上的严重不足。
- PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis
-
首个从单张图像前馈预测3DGS+物理属性(材质类别/杨氏模量/泊松比)的框架,两阶段训练(监督预训练+DPO偏好微调)完全绕过SDS和可微物理引擎,配合50K+ PhysAssets数据集,1分钟内生成高保真4D物理仿真,CLIP_sim和人类偏好率均超越逐场景优化方法。
- PhysGS: Bayesian-Inferred Gaussian Splatting for Physical Property Estimation
-
提出 PhysGS,将贝叶斯推断嵌入3D高斯溅射管线,利用视觉-语言模型先验和多视角置信度加权更新,实现逐点物理属性(摩擦力、硬度、密度、刚度)的概率估计与不确定性量化,在质量估计上比 NeRF2Physics 提升 22.8%(APE),岸氏硬度误差降低 61.2%。
- PhysHead: Simulation-Ready Gaussian Head Avatars
-
提出PhysHead——首个将物理驱动头发动力学与可动画3DGS头部Avatar结合的方法:用FLAME网格+3DGS建模可表达面部、用发丝(strand)+3DGS建模头发外观、用物理引擎驱动头发动画,并通过VLM生成秃头图像实现头发与面部的分层优化。
- PhysHO: Physics-Based Dynamic 3D Gaussian Human and Object from Monocular Video
-
PhysHO 把 SMPL 驱动的线性混合蒙皮(LBS)当作"人体内部驱动力的先验"、把物质点法(MPM)当作把这些力通过接触传播到物体的物理引擎,再叠上逐粒子的残差神经本构律,从一段单目视频里重建出物理上合理的"人推/拽物体"动态,并能在新动作下做外推预测。
- Physically Inspired Gaussian Splatting for HDR Novel View Synthesis
-
提出PhysHDR-GS——一个物理渲染启发的HDR新视角合成框架:将高斯颜色分解为固有反射率和可调环境光照,通过图像-曝光(IE)分支和高斯-光照(GI)分支互补捕获HDR细节,跨分支HDR一致性损失提供无GT的显式HDR监督,光照引导梯度缩放解决曝光偏差的梯度饥饿问题,在多个基准上优于HDR-GS 2.04dB且保持76FPS实时渲染。
- PhysIR-Splat: Physically Consistent Thermal Infrared Radiative Transfer in 3D Gaussian Splatting
-
PhysIR-Splat 不再把 3DGS 颜色当作热辐射来糊,而是给每个高斯原语显式赋上温度、发射率、环境辐照三个物理量,并把"自发射 + 环境反射 → 大气透过率 → 辐射响应"这条热红外成像链直接嵌进渲染器;再配一个吃热红外(可选 RGB)的前馈初始化器 VGGT-IR 直接回归相机位姿与初始几何,解决了热红外弱纹理下 SfM 退化的老大难。
- PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image
-
给定一张真实场景照片,PhysX-Anything 用一个微调过的 VLM 通过多轮对话直接吐出物体的几何 + 关节结构 + 物理属性,并配套一种把几何 token 数压缩 193× 的体素表示,最终导出能直接丢进物理引擎跑的 URDF / XML 资产。
- PIP-Stereo: Progressive Iterations Pruner for Iterative Optimization based Stereo Matching
-
揭示迭代立体匹配中视差更新的空间稀疏性和时间冗余性,提出渐进迭代裁剪(PIP)将32次迭代压缩到1次、协同学习范式实现无需独立单目编码器的深度先验迁移、以及硬件感知的 FlashGRU 算子(7.28× 加速),使高精度迭代立体匹配首次在 Jetson Orin NX 上实现实时推理(75ms/帧,320×640)。
- PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction
-
提出 PixARMesh,首个在原生 mesh 空间(而非 SDF)中进行单视图场景重建的自回归框架,通过像素对齐图像特征和全局场景上下文增强点云编码器,在统一的 token 序列中同时预测物体位姿和mesh,在 3D-FRONT 上达到场景级 SOTA 且输出紧凑、可编辑的 artist-ready mesh。
- Plug-and-Play PDE Optimization for 3D Gaussian Splatting: Toward High-Quality Rendering and Reconstruction
-
作者把 3DGS 的优化过程在理论上重写成一个偏微分方程(PDE),往里加一个"黏性项"压住小高斯的位置突变,再用物质点法(MPM)的 P2G/G2P 在体素速度场上数值求解,配合尺度/置信度约束和速度引导的密集化,做成一个即插即用组件 PDEO,挂在各种 3DGS 方法上就能同时提升渲染和表面重建质量、还更省显存。
- Point4Cast: Streaming Dynamic Scene Reconstruction and Forecasting
-
Point4Cast 用一个"持续演化的潜在时空表示"统一处理流式视频帧,既能重建过去/当前帧的 3D 点图,又能前馈式地预测未来时刻的点图与相机参数,并顺带免训练地导出场景流,在 PointOdyssey、TAPVid-3D 上同时刷新动态场景重建与新提出的"3D 点图预测"任务的 SOTA。
- PointCNN++: Performant Convolution on Native Points
-
PointCNN++ 把稀疏卷积从"体素"推广到"原生点"——卷积中心直接落在原始高精度坐标上、邻域在连续空间里搜、只在最后一步做局部自适应体素化来配对卷积核,并把整个计算抽象成 MVMR(矩阵-向量乘加归约)问题手写 GPU 核,做到零额外显存,因而在保住几何精度的同时比体素法更省显存、更快,作为骨干"即插即用"地把点云配准(KITTI Recall 99.8%)和语义分割(nuScenes mIoU 78.2%)都刷到 SOTA。
- PointGS: Semantic-Consistent Unsupervised 3D Point Cloud Segmentation with 3D Gaussian Splatting
-
PointGS 把稀疏点云先重建成稠密的 3D 高斯场作为统一中间表示,在渲染图上用 SAM 抽 2D mask 并通过尺度感知对比学习把语义蒸馏到高斯基元,再经两步 ICP 把高斯对齐回原始点云做最近邻标签传递,在无标注、无点云预训练的前提下于 S3DIS(+2.8% mIoU)和 ScanNet-v2(+0.9% mIoU)上超过现有无监督方法。
- PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction
-
PointNSP 把自回归点云生成从"逐点预测"改成"下一尺度 LoD 预测"——先在低分辨率定全局结构、再逐尺度细化几何,用多尺度 VQVAE + 块状因果掩码的因果 Transformer 实现,从而保持点集的置换不变性,在 ShapeNet 上首次让自回归范式达到生成质量 SOTA,并在参数/训练/采样效率上超过强扩散基线。
- PointTPA: Dynamic Network Parameter Adaptation for 3D Scene Understanding
-
提出 PointTPA 框架,通过序列化邻域分组(SNG)和动态参数投射器(DPP)两个轻量模块在推理时为每个输入场景生成定制化的网络参数,仅增加 <2% 参数量即在 ScanNet 上达到 78.4% mIoU,超越现有参数高效微调(PEFT)方法。
- PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
-
PointWorld 把场景状态和机器人动作统一表示为同一套 3D 点流(3D point flow),用一个大型预训练点云骨干在约 200 万条轨迹上学习"给定动作后全场景点会怎么动",从而让一个 checkpoint 在零样本、单张 RGB-D 输入下驱动真实机械臂完成刚体推、形变物体、铰接物体和工具使用等任务。
- PolarGuide-GSDR: 3D Gaussian Splatting Driven by Polarization Priors and Deferred Reflection for Real-World Reflective Scenes
-
PolarGuide-GSDR 把偏振成像的物理先验首次嵌入到 3D 高斯泼溅(3DGS)的延迟反射优化中:先用偏振物理模型把镜面/漫反射分离开,再用 3DGS 的几何先验去纠正偏振法线固有的方向歧义,最后用「分离后的镜面图 + 漫反射图 + 去歧义法线 + RGB」多源监督高斯渲染,在真实复杂反射场景下同时拿到更高的重建质量、更准的法线和实时帧率。
- Pose-Free Omnidirectional Gaussian Splatting for 360-Degree Videos with Consistent Depth Priors
-
PFGS360 提出一套无需 SfM 位姿先验的全景 3D Gaussian Splatting 框架:用「球面一致性感知位姿求解器」直接在重建高斯和未定位全景帧之间建立 2D–3D 对应、用 PnP 稳定地恢复相机位姿,再用「深度内点感知致密化」融合多帧一致的单目深度内点、剔除高斯外点,从而在 OB3D / Ricoh360 上的新视角合成和位姿估计同时大幅超越已有 pose-free 甚至 pose-aware 方法(NVS 最高 +4.42 dB PSNR,位姿误差降一个数量级)。
- PoseGAM: Robust Unseen Object Pose Estimation via Geometry-Aware Multi-View Reasoning
-
PoseGAM 把 VGGT 这类多视图几何基础模型搬到 6D 物体位姿估计上,让网络直接吃「查询图 + 一组已知位姿的模板渲染图」端到端回归位姿,彻底甩掉传统 match-then-localize 的显式特征匹配,再通过交叉注意力把物体的点图和点云几何特征以「视图图」形式注入,在 5 个 BOP 数据集上平均 AR 提升 5.1%(TUD-L 上 +17.6%)。
- PoseGaussian: 6D Pose Estimation for Unseen Objects via Sparse-View Object-Level 3D Gaussian Splatting
-
PoseGaussian 只用 8 张稀疏 RGB-D 参考图、无需 CAD 模型,先靠深度先验初始化一个物体级 3DGS 并用稀疏鲁棒训练策略压住浮点和过拟合,再用「两阶段学习引导 ICP 给初始位姿 + 3DGS 可微渲染迭代精修」估计未见物体的 6D 位姿,在 LINEMOD / GenMOP 上稀疏视角下反超用 16 视角的基线。
- PoseMaster: A Unified 3D Native Framework for Stylized Pose Generation
-
PoseMaster 提出了一个将姿态风格化与 3D 生成统一在端到端框架中的 3D 原生方法,直接使用 3D 骨骼作为姿态控制信号(而非 2D 骨骼图),设计了骨骼稠密化策略和 Point Transformer 编码器提取精细的空间拓扑特征,并通过大规模"Image-Skeleton-Mesh"三元组数据引擎训练,在姿态规范化和任意姿态风格化上达到 SOTA。
- PP-Brep: Few-Shot B-rep Classification with Hybrid Graph Representation
-
把 CAD 的 B-rep 模型拆成「局部拓扑图 + 全局平行图 + 区域关联超图」三层混合图,配一个层次化异构 GNN,再用 RL 自适应扰动的对比预训练学通用表征、用结构感知的图 prompt 做少样本微调,在 TraceParts-11 / FabWave-31 两个零件数据集上以 1/3/5-shot 显著超过通用图 prompt 方法。
- PPISP: Physically-Plausible Compensation and Control of Photometric Variations in Radiance Field Reconstruction
-
PPISP 在辐射场重建后接一条物理可微的 ISP 后处理流水线(曝光偏移→晕影→色彩校正→相机响应函数),把多视角间的光度不一致拆成"传感器固有"和"逐帧可变"两类显式建模,并训练一个控制器像真实相机的自动曝光/自动白平衡那样为新视角预测逐帧参数,从而在没有 GT 目标图的情况下也能公平评测,在多个基准上达到 SOTA。
- PQDT: Pseudo-Query Dual Transformer for Robust Point Cloud Restoration
-
PQDT 用一个"伪查询双阶段 Transformer"统一处理点云补全、去噪、形变三类退化——先用观测引导生成一批抗噪的伪查询锚点,再用形状先验对它们做精修,配合稀疏几何嵌入注意力和动态查询选择,在 ShapeNet-55/34 及作者新建的三个退化数据集上全面刷新 SOTA。
- PR-IQA: Partial-Reference Image Quality Assessment for Diffusion-Based Novel View Synthesis
-
本文提出 PR-IQA,一种跨参考图像质量评估方法,先在多视图重叠区域计算几何一致的局部质量图,再通过参考条件化的交叉注意力网络将质量信息"补全"到非重叠区域,生成逼近全参考精度的密集质量图,集成到 3DGS 流水线中通过双重过滤策略显著提升稀疏视角 3D 重建质量。
- PRIMU: Uncertainty Estimation for Novel Views in Gaussian Splatting from Primitive-Based Representations of Error and Coverage
-
PRIMU 是一套针对高斯泼溅(Gaussian Splatting, GS)的后处理不确定性估计框架:它把训练视角下的渲染误差、覆盖度、视场统计反投影到每个高斯基元上,构造一组可被任意新视角渲染出来的"不确定性特征图",再用单张留出视角训练的梯度提升回归直接预测逐像素误差,在 RGB 和深度不确定性估计上都刷新 SOTA,并能直接拿覆盖度特征图去做主动视角选择。
- PrITTI: Primitive-based Generation of Controllable and Editable 3D Semantic Urban Scenes
-
PrITTI 用「向量化的物体几何体(cuboid/ellipsoid)+ 栅格化的地面」混合表示替代体素,先用 Layout VAE 把 3D 城市语义布局压成结构化的 2D 隐空间,再训练隐空间扩散 Transformer 做可控生成,在 KITTI-360 上以更低显存、更快推理和更强可编辑性达到 SOTA,并天然支持场景编辑 / inpainting / outpainting / 街景合成等下游任务。
- ProgressiveAvatars: Progressive Animatable 3D Gaussian Avatars
-
提出 ProgressiveAvatars,一种基于模板网格自适应隐式细分构建层级3DGS的渐进式头像表示,支持在不同带宽和算力约束下渐进传输和渲染——仅传输5%数据(2.6MB)即可获得可用头像,后续增量加载平滑提升质量至与 SOTA 方法可比。
- PromptDepth: Efficient and Promptable Geometric 3D Vision Model for Embodied Intelligence
-
PromptDepth 把"场景全景深度、实例深度、跟踪深度、立体深度"统一成一个可提示的稠密预测任务——一张前馈网络只学几何表示,靠不同的 task token / 点 / mask 提示就能切换输出,配合 ILDS 损失和 Gram Anchoring 解决全景与实例深度的训练冲突,仅用合成数据训练就在多个深度/分割/跟踪基准上达到 SOTA 且推理快一倍以上,专为具身智能体的实时 3D 理解设计。
- PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts
-
提出 Prompt Recurrent Unit (PRU),将单目深度基础模型的 DPT 解码器作为迭代精炼模块(替代 GRU),通过 Structure Prompt 和 Motion Prompt 将单目结构和立体运动线索以残差方式注入,在不破坏单目先验的情况下实现零样本 SOTA 立体匹配(Middlebury 2021 上误差降低近50%)。
- Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting
-
Proxy-GS 用一张「轻量代理网格 + 硬件光栅化」在 1 ms 内产出的遮挡深度图,既在推理时剔除被遮挡的锚点/高斯加速渲染、又在训练时把锚点稠密化引导到可见表面上,从而在重遮挡的大规模城市场景里相比 Octree-GS 取得 3× 以上的 FPS 提升且渲染质量不降反升。
- Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives
-
提出自适应重建感知剪枝策略(RPS)和 3D DoG 原语,在保持渲染质量的同时实现 90% 的高斯点裁减。
- PV-Ground: Text-Guided Point-Voxel Interaction for 3D Visual Grounding
-
PV-Ground 指出现有 3D 视觉定位(3D VG)普遍用点云骨干、需把 5 万点暴力降采样到 2048 点造成细节瓶颈,于是改用稀疏体素卷积保留高分辨率特征、再用紧凑关键点把体素特征金字塔聚合下来与文本交互,并提出文本引导的可微软采样把关键点自适应集中到文本相关物体上,在 ScanRefer/ReferIt3D 上把定位精度提升约 5%。
- QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment
-
提出质量感知域适应框架 QD-PCQA,通过 Rank-weighted Conditional Alignment 和 Quality-guided Feature Augmentation 两大策略,将图像域的质量评估先验迁移到点云域。
- QuadSync: Quadrifocal Tensor Synchronization via Tucker Decomposition
-
首次提出四焦张量(quadrifocal tensor)的全局同步算法 QuadSync,通过构造块四焦张量并证明其承认多线性秩为 (4,4,4,4) 的 Tucker 分解,利用 ADMM-IRLS 优化框架从四视图测量中恢复相机位姿,在密集视图场景下取得优于两视图/三视图方法的同步精度。
- Query2Uncertainty: Robust Uncertainty Quantification and Calibration for 3D Object Detection under Distribution Shift
-
针对 DETR 式 3D 检测器在雨雪等分布偏移下「过度自信、校准失效」的问题,本文用归一化流估计 object query 的特征密度,并把这个密度信号注入温度缩放 / Platt / Isotonic 等后处理校准器,让校准强度随「query 离训练分布多远」自适应调整,从而同时校准分类置信度与 3D 框回归方差,在 nuScenes(同分布)和 MultiCorrupt(分布偏移)上都优于标准后处理方法。
- QueryMe: Query-Driven Open-Vocabulary 3D Object Affordances Grounding from Multimodal Evidence
-
QueryMe 把单张人-物交互(HOI)图像用前馈式单目重建投影到 3D 空间,再用一组可学习查询向量按"文本→3D HOI→物体点云"的固定顺序逐步检索证据,从而在开放词表设定下定位物体的功能区域,在未见 affordance 上 AUC 比前作 GREAT 高 4.19%。
- R3-PCQA: Ray-Reprojection-Reinforcement for No-Reference 3D Point Cloud Quality Assessment
-
R3-PCQA 把人类视觉感知 3D 物体的三个机制(视点依赖、选择性注意、多视角整合)显式编码进无参考点云质量评估流程:用射线-点云求交建立精确的 2D–3D 对应、用强化学习的上下文老虎机自适应挑选最关键的局部子云、再用全局视点注意力做局部到全局聚合,在 SJTU-PCQA / WPC / WPC2.0 三个基准上全面达到 SOTA。
- Radar-Guided Polynomial Fitting for Metric Depth Estimation
-
POLAR 把"用稀疏雷达点把无尺度的单目深度(MDE)变成度量深度"这件事重新表述成一个多项式拟合问题——用雷达特征预测一组多项式系数,对 MDE 深度做非均匀的逐深度修正(而非传统的全局 scale-and-shift 仿射),在三个数据集上平均把 MAE/RMSE 降了 24.9%/33.2%,同时还做到了实时(40 fps)和最低算力。
- Radiance Meshes for Volumetric Reconstruction
-
Radiance Mesh 用 Delaunay 四面体剖分把场景切成"常密度+线性颜色"的四面体单元来表示辐射场,配合按外接球幂排序的精确体渲染与一套新颖的网格着色器(mesh shader)光栅化,在质量逼近 3DGS 的同时实现比它更快、且无 popping 的实时视图合成,并天然兼容仿真/编辑/表面网格提取等图形生态。
- RaGS: Unleashing 3D Gaussian Splatting from 4D Radar and Monocular Cue for 3D Object Detection
-
RaGS 把场景建模成一片连续的 3D 高斯场,用单目图像的前景线索初始化高斯、再迭代地吸收雷达几何与图像语义把高斯往前景物体上"挪",最后渲染成多层 BEV 特征做检测,在 VoD / TJ4DRadSet / OmniHD-Scenes 三个 4D 雷达-相机基准上取得 SOTA。
- Random Wins All: Rethinking Grouping Strategies for Vision Tokens
-
提出极简的随机分组策略替代 Vision Transformer 中各种精心设计的 token 分组方法,在图像分类、目标检测、语义分割、点云分割和 VLM 上几乎全面超越所有 baseline,并从位置信息、头特征多样性、全局感受野和固定分组模式四个维度解释了随机分组成功的原因。
- RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting Processing
-
提出 RAP,一种无需渲染的前馈式高斯原语重要性评分方法,通过从内在属性和局部邻域统计量提取 15 维特征,用轻量 MLP 预测重要性评分,训练一次即可泛化到未见场景。
- RayNova: Scale-Temporal Autoregressive World Modeling in Ray Space
-
提出 RayNova,一种基于双因果(尺度+时间)自回归的几何无关多视角世界模型,利用相对 Plücker 光线位置编码实现统一的 4D 时空推理,在 nuScenes 上取得 SOTA 多视角视频生成效果。
- Real-Time Dynamic Scene Rendering with Controlled Compressibility and Contact Awareness
-
针对动态 3D 高斯泼溅常用"不可压缩、无源"运动假设导致接触/遮挡边界出现伪影的问题,本文用一个"源感知的连续性方程 + 隐式曲面接触约束"的投影框架,把网络预测的速度场投影到物理可行集上去监督训练,在 Plenoptic Video(33.84 dB PSNR、120 FPS)和 D-NeRF(35.24 dB PSNR、300 FPS)上同时拿到更高保真度和实时速度。
- Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface
-
提出 Real2Edit2Real 框架,通过"3D 重建 → 点云编辑生成新轨迹 → 深度引导视频生成合成演示"的三阶段管线,从仅 1-5 个真实演示生成大量多样化的操作演示数据,使策略性能达到甚至超过 50 个真实演示训练的水平,数据效率提升 10-50 倍。
- Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning
-
针对"用合成 3D 渲染图微调扩散模型获得 3D 可控性时会丢失真实感"这一痛点,本文用一个轻量的 Domain Shifter(低秩残差适配器)把"域身份(真实/合成)"从"3D 控制信号"里解耦出来,再配合层级感知训练与域重指派把控制力从合成域迁移到真实域,最终在多视图纹理生成与文生多视图任务上同时拿到强 3D 一致性与显著更高的真实感。
- REArtGS++: Generalizable Articulation Reconstruction with Temporal Geometry Constraint via Planar Gaussian Splatting
-
REArtGS++ 只用任意两个状态下的多视角 RGB 图,就能在不预设关节类型、不依赖外部模型的情况下重建出未见铰接物体(抽屉、冰箱等)的部件级表面网格并估计关节参数——靠把每个关节建成可解耦的螺旋运动、用平面高斯+泰勒一阶展开把"法向-深度一致性约束"从离散两状态扩展到整个运动区间,在 PARIS 与 ArtGS-Multi 上几乎全指标 SOTA,尤其对螺旋关节和多部件物体优势巨大。
- Recovering Physically Plausible Human-Object Interactions from Monocular Videos
-
RePHO 把单目视频估出来的「视觉上还行、物理上漏洞百出」的人-物交互(HOI)序列,丢进物理仿真器里用强化学习策略重演一遍,靠「自适应采样 + 前后向双向传播 + 在线更新运动学目标」从极噪的初值里识别可靠帧并逐步扩散,最终输出无穿模、无漂浮、接触合理的物理一致 HOI 序列,在 BEHAVE / InterCap 上物理指标大幅领先。
- ReFlow: Self-correction Motion Learning for Dynamic Scene Reconstruction
-
ReFlow 提出一种"自校正"的单目动态场景重建框架,用视频帧间差异本身直接监督 3D 运动,无需外部光流/追踪先验,配合完整规范空间初始化与静动态解耦,在 NVIDIA Monocular 与 Nerfies-HyperNeRF 上把重建质量推到新 SOTA(NVIDIA 均值 PSNR 28.20 dB)。
- ReGenHOI: Unifying Reconstruction and Generation for 3D Human-Object Interaction Understanding
-
ReGenHOI 把 3D 人物-物体交互(HOI)的"重建"(从图像还原观测到的接触)和"生成"(按语言指令想象未来交互)塞进同一个共享的语义-几何潜空间,靠"直接在 3D 点云上做接触推理 + 推理轨迹迭代精修 + 引力场扩散桥精修接触几何"三件套,在接触估计、重建精度和动作生成质量上同时刷过各自领域的 SOTA。
- Registration-Free Learnable Multi-View Capture of Faces in Dense Semantic Correspondence
-
MOCHI 是首个不需要预先配准数据就能训练的多视角稠密对应人脸重建框架,靠"伪线性逆运动学求解器 + 可微 pointmap/法线损失 + 合成数据训练的稠密关键点"三件套直接从原始扫描学拓扑一致的 FLAME 网格,再加一个轻量测试时优化(TTO),重建精度反超了它本想替代的、又慢又费人工的传统配准流水线。
- ReLaGS: Relational Language Gaussian Splatting
-
提出首个统一多层级语言高斯场与开放词汇3D场景图的无训练框架 ReLaGS,通过最大权重剪枝和鲁棒异常值感知特征聚合改进场景表示,结合GNN关系预测实现高效的结构化3D场景理解。
- Reliev3R: Relieving Feed-forward 3D Reconstruction from Multi-View Geometric Annotations
-
Reliev3R 首次提出无需多视图几何标注(无需 SfM/MVS 生成的点云和位姿)即可从头训练前馈3D重建模型(FFRM)的弱监督范式,利用单目相对深度和稀疏图像对应作为替代监督,性能追平甚至超过部分全监督 FFRM。
- Relightable Holoported Characters: Capturing and Relighting Dynamic Human Performance from Sparse Views
-
RHC 用一个 transformer 网络 RelightNet,把"物理启发特征(几何/反照率/着色/视角)"和环境光做交叉注意力,在单次前向里隐式求解渲染方程,从 4 路平光相机就能对未见动作的全身人物做照片级自由视角重光照——既不用慢吞吞的 OLAT 基底采集,又比逆渲染类方法清晰得多。
- RelightAnyone: A Generalized Relightable 3D Gaussian Head Model
-
RelightAnyone 提出一个"两阶段"可重光照 3D 高斯头部模型:先用大量易获取的"平光(flat-lit)多视角人脸数据"学一个跨身份的全亮 3DGS avatar,再用少量昂贵的 OLAT 数据训练一个映射网络,把全亮高斯参数翻译成可重光照的 RGCA 物理反射参数,从而无需为每个新人采集 OLAT 数据,甚至单张野外照片就能重建并任意打光。
- Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery
-
提出 RepTRFD:通过将 Tensor Ring 因子重参数化为"可学习隐张量 × 固定基"的形式,解决 INR 参数化 TR 因子的频谱偏置问题,在图像修复/去噪/超分/点云恢复等任务上全面超越 SOTA。
- Repurposing 3D Generative Model for Autoregressive Layout Generation
-
LaviGen 把预训练的原生 3D 生成模型「改造」成自回归布局生成器,直接在原生 3D 空间里一个个地摆放物体,让生成的场景布局既物理合理(不碰撞、不出界、不漂浮)又语义连贯,相比 SOTA 物理合理性高 19%、推理快约 65%。
- Residual Primitive Fitting of 3D Shapes with SuperFrusta
-
本文把一个 3D 形状转成"少而准"的解析基元装配体:提出一种 8 参数、可表达/可编辑/可优化三者兼得的统一解析基元 SuperFrustum,再用 ResFit 这种"分析—优化交替、每轮拟合残差"的无监督流程把基元一颗颗补上去,在多个 3D 基准上 IoU 提升 9 个点的同时基元数量只用了前作的约一半。
- ResiHMR: Residual-Limb Aware Single-Image 3D Human Mesh Recovery for Individuals with Limb Loss
-
ResiHMR 是首个针对截肢人群的单图 3D 人体网格重建框架:它用「残肢锚点-因子优化」把 SMPL-X 的固定骨架裁剪到只覆盖实际存在的肢体,再用「残肢几何重建」显式切除远端网格并封出光滑残端面,把残肢 2D MPJPE 从 73.61 px 大幅降到 23.19 px(HSMR backbone)。
- Rethinking 2D-3D Registration: A Novel Network for High-Value Zone Selection and Representation Consistency Alignment
-
R23Net 用强化学习先在图像和点云上挑出"既能产生高质量匹配、又便于稠密匹配"的高价值区域(HZRS 模块),再用三组一致性约束把这些区域的跨模态表示对齐(ZRCA 模块),在 RGB-D Scenes v2 上把配准召回率(RR)从 68.4 提到 77.0,刷新 image-to-point cloud 配准的 SOTA。
- Rethinking Pose Refinement in 3D Gaussian Splatting under Pose Prior and Geometric Uncertainty
-
提出 UGS-Loc 框架,通过蒙特卡洛位姿采样和 Fisher 信息引导的 PnP 优化,联合建模位姿先验不确定性和几何不确定性,在无需重训练的条件下显著提升 3DGS 场景中的相机位姿精化鲁棒性。
- RetimeGS: Continuous-Time Reconstruction of 4D Gaussian Splatting
-
提出 RetimeGS,通过正则化时间不透明度 + Catmull-Rom 样条轨迹 + 双向光流监督 + 三重渲染等策略,解决 4DGS 在离散帧间插值时的鬼影/时间别名问题,实现任意时间戳的无鬼影连续时间 4D 重建。
- Revisiting 3D Reconstruction Kernels as Low-Pass Filters
-
把 3D Gaussian Splatting 的"重建核"重新理解成信号重建里的"低通滤波器",指出 Gaussian / 指数 / Student's t 都是不理想的低通滤波器(高频泄漏导致混叠),于是提出对应理想低通滤波器的 Jinc 核,并用余弦调制核在"频域保真"和"空间快衰减"之间折中,在低/高分辨率新视角合成上都优于 3DGS 与 SSS。
- Revisiting Monocular SLAM with Spatio-Temporal Scene Modeling
-
针对免标定单目 SLAM"要么慢、要么不模块化"的痛点,提出从零用 C++ 实现的 SLAM-MER 管线,用"时间缓冲(最近关键帧)+ 空间 3D 网格(早期重建区域)"双路查询 3D 点做定位,只在关键帧上调用前馈深度模型(MASt3R),把稀疏关键点定位和半稠密锚点表示融合,实现 80+ FPS 实时(远超 MASt3R-SLAM ~13 FPS、VGGT-SLAM <5 FPS)且定位精度持平或更优。
- Revisiting Optimal Coding for I-ToF under Practical Sensor Constraints
-
这篇论文把 I-ToF 相机在真实噪声模型下的深度误差推成一个可计算的「深度方差度量」,再把峰值功率、带宽、二值波形、互斥多抽头这些硬件约束直接折进编码方案的设计阶段,从而能在被约束压缩后的可行空间里直接搜索出最优编码方案——搜出的两套方案(高/低 SNR 各一套)在仿真和真实商用传感器上都稳稳超过 Hamiltonian 和 double ramp。
- Revisiting Pose Sensitivity in Splat-based Computed Tomography under Sparse-view Reconstruction
-
针对基于 3D 高斯泼溅的稀疏视图 CT 在真实数据上出现的条纹/条带伪影,本文通过受控实验证明其主因是采集几何的位姿误差而非视图稀疏,并据此推导出一个稳定可微的联合自标定框架——在重建体积的同时增量式优化相机位姿,去掉 TV 正则后反而更稳、更快,真实数据上把条纹伪影压下去的同时保住细节,合成数据 PSNR 比 SOTA 高约 10 dB。
- Revisiting Token Compression for Accelerating ViT-based Sparse Multi-View 3D Object Detectors
-
针对 ViT 多视图 3D 检测器推理慢的问题,本文提出 SEPatch3D,用「按场景时空分布动态选 patch 尺寸 + 把粗 patch 用细 patch 增强」替代传统 token 剪枝/合并,在 nuScenes 上比 StreamPETR 提速最高 57.7% 而精度几乎不掉。
- REVIVE 3D: Refinement via Encoded Voluminous Inflated prior for Volume Enhancement
-
REVIVE 3D 用一个"两阶段、即插即用"的管线,把缺乏 3D 线索的扁平图像(卡通、线稿、平涂插画)先膨胀成一个有体积的"膨胀先验"网格、再在预训练 3D 隐扩散骨干的隐空间里注噪去噪精修,从而生成既有体积感又有局部细节的 3D 网格,并配套提出 Compactness 与 Normal Anisotropy 两个无参考指标来量化"体积"和"表面扁平度"。
- ReWeaver: Towards Simulation-Ready and Topology-Accurate Garment Reconstruction
-
提出 ReWeaver 框架,从最少4张多视图RGB图像中联合重建3D服装几何与2D缝纫图案(sewing pattern),通过双路径Transformer预测3D曲面片/曲线及其拓扑连接,再经组内注意力将3D结构展平为2D面板边缘,首次实现拓扑准确且可直接用于物理仿真的服装资产恢复。
- Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation
-
提出 Rewis3d 框架,首次将前馈式 3D 场景重建作为辅助监督信号整合到弱监督语义分割中,通过双学生-教师架构和双置信度加权的跨模态一致性损失,在仅有稀疏标注的情况下将 mIoU 提升 2-7%,且推理时仅使用 2D 图像。
- RF4D: Neural Radar Fields for Novel View Synthesis in Outdoor Dynamic Scenes
-
RF4D 把毫米波雷达接入神经场,用「时空雷达场 + 场景流时序正则 + 符合雷达物理的功率渲染」首次实现室外动态场景下的雷达新视角合成,在两个公开雷达数据集上的合成与占据估计精度大幅超越 Radar Fields。
- RHINO: Reconstructing Human Interactions with Novel Objects from Monocular Videos
-
从一段移动视角的单目 RGB 视频里,在同一个世界坐标系下把"人 + 被操纵的未知物体 + 静态场景"全部重建成 4D 几何——靠 3D 基础模型稳住低纹理物体的运动估计、靠相机运动减法把物体真实运动从"表观运动"里抠出来、再用逐组件神经 SDF 联合优化并施加可微接触先验,在新视角合成和 4D 重建上都超过现有最强基线。
- RI-Mamba: Rotation-Invariant Mamba for Robust Text-to-Shape Retrieval
-
针对真实场景里 3D 物体任意朝向、类别多样的检索难题,提出首个纯 Mamba 的旋转不变点云模型 RI-Mamba——用局部/全局参考系解耦位姿、Hilbert 曲线构造旋转不变 token 序列、线性时间的朝向嵌入找回被丢掉的位姿信息,配合自动三元组生成的跨模态对比学习,在 OmniObject3D 的 200+ 类别任意朝向检索上取得 SOTA。
- RigMo: Unifying Rig and Motion Learning for Generative Animation
-
RigMo 把"绑定(rig)"和"运动(motion)"统一进一个前馈 VAE:直接从裸网格序列中自监督地学出一组高斯骨骼、蒙皮权重和逐帧 SE(3) 变换,无需任何人工骨架标注,再配一个在其潜空间里跑的 Motion-DiT 做可控运动生成,在重建精度、跨运动泛化和推理速度上都全面超过现有自动绑定与变形 baseline。
- RINO: Rotation-Invariant Non-Rigid Correspondences
-
RINO 用向量神经元(vector neuron)把 DiffusionNet 改造成端到端 SO(3)-不变的点特征提取器 RINONet,再把它和"只编码保向映射"的复函数图(CFMaps)以及一套耦合无监督损失结合,直接从原始 xyz 坐标学非刚性形状对应,无需预对齐、无需手工描述子,在任意姿态/非等距/部分/非流形/噪声等硬场景全面刷新 SOTA。
- RISE: Single Static Radar-based Indoor Scene Understanding
-
RISE 用一台固定不动的毫米波雷达,把传统被当噪声丢掉的"多径鬼影"反过来当几何线索,配合双角度信号增强(BAME)和仿真到真实的层次扩散(SRHD),首次实现单静态雷达下的室内墙体布局重建 + 家具检测,Chamfer 距离比 SOTA 降 60%(到 16 cm),家具检测 IoU 达 58%。
- RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations
-
RnG 提出重构引导因果注意力(Reconstruction-Guided Causal Attention),将 Transformer 的 KV-Cache 重新解释为隐式 3D 表示,用单个前馈 Transformer 统一完成从无位姿稀疏图像到完整 3D 几何与外观的重建与生成,速度比扩散方法快 100 倍以上。
- Robust3DGSW: Toward Robust Watermarking for Quantization-Aware 3D Gaussian Splatting
-
针对"把 3DGS 模型量化到低比特后水印会被抹掉、渲染质量也崩"的问题,Robust3DGSW 提出一个两阶段量化感知水印框架:第一阶段把水印嵌进 3D 高斯位置与 2D 渲染图的中频带抵抗量化损失,第二阶段用多尺度对抗扰动 + 渐进量化训练双解码器,使得在 4-bit 量化下水印提取准确率仍能 >80%,同时保持高质量渲染。
- RoSAMDepth: Robust Self-supervised Depth Estimation Leveraging Segment Anything Model
-
RoSAMDepth 把 SAM 离线生成的物体级掩码当作先验,从「表示空间对比」「区域级离群点抑制 + 高斯似然平滑」「物体级可靠性加权」三个角度注入到自监督单目深度框架中,让模型在夜间、雨天等恶劣条件下预测出边界更锐利、物体内部更一致的深度。
- Routing on Demand: DSNet for Efficient Progressive Point Cloud Denoising
-
DSNet(Dynamic Skip Net)是一个「按需路由」的渐进式点云去噪框架:用基于法向相似度的噪声判别器量化每个局部 patch 的噪声强度,再用一个反单调的决策函数把它映射到合适的去噪模块入口,使干净区域跳过冗余去噪、噪声区域获得充分精修,从而在去噪质量与计算效率间取得更好平衡。
- RT-Splatting: Joint Reflection-Transmission Modeling with Gaussian Splatting
-
RT-Splatting 把每个高斯基元的「几何占据」和「光学不透明度」解耦成两个独立属性,让单一套高斯既能当反射表面(延迟着色出高频镜面)又能当透射体(前向积分出清晰背景),并用「镜面感知梯度门控」抑制反射残差泄漏到透射分支造成的飘点,在车窗、塑料膜这类同时存在反射与透射的真实场景上取得 SOTA。
- S\(^2\)-MLLM: Boosting Spatial Reasoning Capability of MLLMs for 3D Visual Grounding with Structural Guidance
-
S²-MLLM 让多模态大模型(MLLM)做 3D 视觉定位(3DVG)时不再依赖推理阶段昂贵的点云重建+多视角渲染,而是在训练时把前馈 3D 重建当作「空间引导」联合优化、再配一个把 3D 坐标/相机光线注入视觉特征的结构增强模块,使模型在潜空间里隐式完成 3D 空间推理,在 ScanRefer / Nr3D / Sr3D 上既涨点又只用 25% 训练开销、推理零额外延迟。
- S2AM3D: Scale-controllable Part Segmentation of 3D Point Clouds
-
提出融合2D预训练先验与3D对比监督的点云部件分割框架S2AM3D,通过点一致性编码器获得全局一致的点特征,并设计尺度感知提示解码器实现连续可控的分割粒度调节,在多个基准上大幅超越现有方法。
- S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs
-
S2D 把"稀疏点云"和"3D 高斯泼溅(3DGS)"两种表示桥接起来:用一个点云引导的单步扩散修复器把稀疏输入下渲染出的新视角伪影修干净,再配一套带随机样本丢弃和加权梯度的重建策略稳住优化,从而用极少输入(甚至 1 张图看 30°、<10 张图看 180°+)就能重建出高质量、3D 一致的 3DGS 场景。
- SAG-GNN: Semantic-Aware Guided GNN for Descriptor-Free 2D-3D Matching
-
SAG-GNN 把开放词表语义分割得到的「低维语义概率分布」作为额外先验注入到 descriptor-free 的 2D-3D 匹配中,用一个双向对齐融合块把语义与几何特征互相校准、再用语义相似度调制跨模态注意力,在几乎不增加存储的前提下把 MegaDepth / Cambridge 上的匹配与定位精度大幅提升(位姿误差较 A2-GNN 约降 50%)。
- SAGE: Scalable Agentic 3D Scene Generation for Embodied AI
-
SAGE 把 3D 室内场景生成做成一个在 MCP 协议下运行的智能体:它按需调用布局/资产生成器,再用"视觉评审 + 物理评审(Isaac Sim 在环验证)"形成闭环自我修正,产出可直接放进仿真器训练机器人策略的、物理稳定的开放词表场景,并通过多层增强批量扩展数据。
- SAM 3D: 3Dfy Anything in Images
-
SAM 3D 是一个从单张自然图像出发、为图中任意物体重建完整 3D 形状/纹理/布局的生成式基础模型,靠"模型在环 + 人类标注"的数据飞轮和 LLM 式多阶段训练突破了真实世界 3D 数据稀缺的壁垒,在真实物体与场景上对此前 SOTA 拿到至少 5:1 的人类偏好胜率。
- SAMosaic3D: Modular Scene Assembly for Real-Time 3D Segment Anything
-
把 SAM 切碎的 2D mask 当成"马赛克碎片",用一个端到端可微的框架先把同一物体的碎片在帧内拼成完整实例、再在帧间把实例并进场景记忆,实现 11.2 FPS 的在线 3D 实例分割,在 ScanNet/ScanNet200/SceneNN/3RScan 上达到 online 方法的 SOTA 并具备零样本跨数据集泛化。
- SAQN: Semantic-based Adaptive Query Network for 3D Referring Expression Segmentation
-
SAQN 把 3D 指代分割里"按点生成查询"的做法换成"每个语义类一个可学习查询",用极少的查询(21 类 + 10 个自适应查询,共 31 个)取代过去上百个查询,并用 Adaptive Query Fusion 模块化解"一个类查询要代表场景里所有同类物体"带来的歧义,在 ScanRefer 与 Multi3DRefer 上同时刷到 3D-RES / 3D-GRES 的 SOTA。
- SASNet: Spatially-Adaptive Sinusoidal Networks for INRs
-
提出 SASNet,通过将冻结的频率嵌入层与轻量级哈希网格 MLP 学习的空间自适应掩码相结合,解决 SIREN 中频率初始化敏感和高频泄漏问题,在图像拟合、体数据拟合和 SDF 重建任务上实现更快收敛和更高重建质量。
- Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction
-
Scal3R 在前馈重建模型 VGGT 内部插入一组「测试时在线自适应」的轻量记忆子网络(GCM),并用跨 chunk/跨 GPU 的梯度同步(GCS)让分块处理的长序列共享同一份全局上下文,从而在公里级 RGB 序列上同时拿到 SOTA 位姿精度和重建精度,还能保持单卡可跑的效率。
- Scalable Feature Matching via State Space Modeling and Sparse Correlation
-
SLiM 用「Conv-Mamba 线性复杂度主干 + L2 范数引导的稀疏关联 + 轻量循环坐标精修」三件套,把半稠密特征匹配从随分辨率二次膨胀的开销里解放出来,在 MegaDepth 上以 5.9M 参数拿到 AUC@5°=57.9(比 Efficient LoFTR 高 1.5 分),同时在 1200×1200 高分辨率下比 JamMa 省 45% 显存、比 Efficient LoFTR 快 1.8×。
- Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models
-
提出 QuatRoPE,一种基于四元数旋转的3D位置编码方法,仅需 \(O(n)\) 输入token即可保留所有 \(O(n^2)\) 物体间空间关系,并配合 IGRE 机制减少与语言 RoPE 的干扰,在多个3D视觉语言基准上取得大幅提升。
- Scaling4D: Pushing the Frontier of Video Novel View Synthesis through Large-Scale Monocular Videos
-
Scaling4D 把视频新视角合成(VNVS)从"先渲染点云再 inpainting"重新表述为"对应关系(correspondence)制导的生成任务",从而能用海量真实单目视频做自监督训练,弥合了旧方法的训练-推理鸿沟,在单视角和多视角基准上全面超越 GEN3C / TrajectoryCrafter 等方法,且性能随数据量持续提升。
- Scaling View Synthesis Transformers (SVSM)
-
首次为无几何先验的 NVS Transformer 建立缩放定律:提出有效批量大小假设(B_eff = B·V_T)揭示 encoder-decoder 被低估的根因,设计单向 encoder-decoder 架构 SVSM,在 RealEstate10K 上以不到一半训练 FLOPs 达到新 SOTA(30.01 PSNR),Pareto 前沿比 LVSM decoder-only 左移 3×。
- SCAPO: Self-Supervised Category-Level Articulated Pose Estimation from a Single 3D Observation
-
SCAPO 用一个 SE(3) 等变自编码器把任意位姿的关节物体(笔记本、抽屉、安全箱等)对齐到共享规范空间,再用"关节感知蒙皮形变"同时回归部件分割、关节轴/枢轴/关节状态,全程靠循环重建与跨空间对齐自监督训练,无需任何标注、CAD 模板或多帧输入,在合成与真实数据上超过所有自监督基线。
- SCE-Depth: A Spherical Compound Eye Framework for Wide FOV Depth Estimation
-
SCE-Depth 提出一套"仿生球面复眼相机 + 球面神经网络"的软硬件协同深度估计框架,直接在 HEALPix 球面网格上原生处理复眼图像以避免平面化带来的畸变,并利用相邻小眼重叠视场天然产生的"随距离衰减的深度敏感梯度",用球面 Sobel 算子(SGFE)和球面梯度损失(SGL)显著降低宽视场深度误差,尤其在外围区域。
- SCE-SLAM: Scale-Consistent Monocular SLAM via Scene Coordinate Embeddings
-
SCE-SLAM 在帧到帧单目 SLAM 的光流分支之外并联一条「场景坐标分支」,用可学习的 patch 级场景坐标嵌入把 3D 几何关系编码到一个统一尺度参照下,靠几何调制注意力跨窗口传播尺度、再用 3D 坐标约束把束调整往参照尺度上拉,从而在保持 36 FPS 实时性的同时显著抑制长序列尺度漂移(KITTI 平均 ATE 从 DPVO 的 53.61m 降到 25.79m,加回环 14.07m)。
- Scene Grounding In the Wild
-
提出一种基于语义特征的逆优化框架,将野外拍摄的局部3D重建(SfM)对齐到完整的伪合成参考模型(如Google Earth Studio),通过DINOv2特征和鲁棒优化解决巨大的域差异问题,实现非重叠局部重建的全局一致性融合。
- Scene Reconstruction as Mapping Priors for 3D Detection
-
把自动驾驶里只用于规划的"地图"重新利用到感知上——用可自动批量重建的 surfel / 3DGS 场景重建当作"建图先验"代替昂贵的人工 HD 地图,再用一个门控融合模块把它和 LiDAR/相机自适应融合,在 Waymo Open Dataset 上仅用 4 帧就超过了用 100 帧的时序融合 SOTA。
- SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model
-
SceneMaker 把单图 3D 场景生成拆成「去遮挡 / 3D 物体生成 / 位姿估计」三个解耦子任务,分别在图像数据、3D 物体数据、场景数据上各取所长地学到充足的开放集先验——用图像编辑模型微调的去遮挡模型补全被遮挡物体,用带全局/局部注意力的统一扩散位姿模型直接预测每个物体的旋转/平移/尺寸,并自建 200K 开放集场景数据集,从而在室内和开放集场景下同时拿到高质量几何与准确位姿。
- Scenes as Tokens: Multi-Scale Normal Distributions Transform Tokenizer for General 3D Vision-Language Understanding
-
NDTokenizer3D 用一套基于多尺度 Normal Distributions Transform(NDT)的三阶段场景 tokenizer,把高分辨率点云压成信息丰富的「场景 token」喂给 LLM,并让同一个解码器(MSDec)兼当用户交互接口和分割 mask 解码器,从而用一个统一模型同时做 3D 指代分割、视觉问答和密集描述,且在分割、QA、抗幻觉等任务上刷新通用型 3D VLM 的成绩。
- SceneScribe-1M: A Large-Scale Video Dataset with Comprehensive Geometric and Semantic Annotations
-
提出SceneScribe-1M——一个包含100万个野外视频、超4000小时的大规模多模态视频数据集,提供详细文本描述、精确相机参数、连续深度图和一致性3D点轨迹等全面标注,为3D几何感知和视频生成任务提供统一资源。
- SceneTok: A Compressed, Diffusable Token Space for 3D Scenes
-
SceneTok 把一组多视角图像压缩成一小撮(约 1024 个、32-bit float 仅几万)与空间网格解耦的非结构化场景 token,再用轻量整流流解码器从任意新轨迹采样渲染,并在这个高度压缩的隐空间上训练扩散 transformer,5 秒内完成 3D 场景生成,把渲染与生成两件事彻底解耦。
- Sculpt4D: Generating 4D Shapes via Sparse-Attention Diffusion Transformers
-
Sculpt4D 把一个预训练的 3D 扩散 Transformer(Hunyuan3D 2.1)原生扩展成 4D 生成模型:在 DiT 里插入时序注意力模块,并用一套「首帧锚点 + 时间衰减稀疏掩码」的 Block Sparse Attention 取代昂贵的全时空注意力,在保持几何质量和时序一致性的同时把网络总计算量砍掉 56%,从视频生成出时间连贯的 4D 网格序列。
- SDGS: Spatial Difference Guided Gaussian Splatting for Simultaneous Localization and 3D Reconstruction
-
SDGS 用稀疏边缘(spatial difference)作为描述子、把它表示成细长的 3D 高斯椭球,通过"渲染边缘 ↔ 输入边缘"的距离变换对齐来在线估计 6-DoF 位姿,再借助混合像素传感器的高帧率差分信号做互斥监督去模糊,最终在极端高速运动(传统 RGB 方法全失败)下仍能稳健跟踪并重建清晰稠密场景。
- SE(3)-Equivariance with Geometric and Topological Guidance for Category-Level Object Pose Estimation
-
SEGPose 是一个纯深度(点云)输入的类别级 6D 物体位姿估计方法,首次把点云的几何特征、拓扑特征和 SE(3)-等变性三者同时引入位姿估计:用持续同调生成拓扑标签引导点云重建,再用向量神经元网络提取 SE(3)-等变特征引导位姿预测头,在 REAL275 / CAMERA25 上超过所有基于深度的同类方法,并逼近大多数 RGB-D 方法。
- SEA-Flow3D: Simplified, Efficient, and Accurate Scene Flow via Spatial Vector Sampling and Multi-scale Refinement
-
SEA-Flow3D 在 RAFT 式稠密场景流框架的相关采样里额外塞进一份「匹配点对之间的 3D 方向向量」(Spatial Vector Sampling),让迭代优化器在 2D 相关性之外持续看到深度/几何方向,再配上轻量 ConvNeXtV2 RNN 优化器和粗到细多尺度结构,在 KITTI(SF-all 3.55)和 Sintel(Final 2.04)上同时刷新精度并把推理压到 60–72 ms。
- SeeGroup: Multi-Layer Depth Estimation of Transparent Surfaces via Self-Determined Grouping
-
SeeGroup 把透明物体的多层深度建模成一条沿深度轴的"强度函数",用递归分解模块让模型自己决定该怎么把各层深度归组、再配一个对层序排列不变的似然损失,在 LayeredDepth 真实基准上把四元组相对深度准确率从 61.34% 提升到 70.09%。
- Seeing Depth Through Frequency and Motion: A Progressive Training Paradigm for Monocular Depth Estimation
-
针对自监督单目深度估计里"边界模糊源于下采样频率混叠"和"位姿网络对跨帧运动建模不足"两个痛点,本文提出即插即用的频率引导采样模块(FGS)保高频细节、PoseQuery 网络(PQNet)用通道对齐注意力建模跨帧运动,再用一套渐进三阶段解耦训练把深度与位姿的互补性榨干,在 KITTI 上 Sq Rel 较强基线降低 4.1%。
- Seeing through boxes: Non-Line-of-Sight 3D Reconstruction from Radar Signals
-
针对毫米波雷达"穿透遮挡看箱内物体"时重建噪声大、训练不稳、表面位置含糊的问题,本文提出 GeRaF 2.0:把箱外可见(LoS)几何和箱内隐藏(NLoS)几何统一进一个 ULoS 符号距离场,用视觉预训练 SDF 给射频重建做稳定初始化,并用两阶段训练 + 相对 SDF 对齐把表面精确锁在零等值面上,刷新了射频 3D 重建的 SOTA。
- Seeing through Light and Darkness: Sensor-Physics Grounded Deblurring HDR NeRF from Single-Exposure Images and Events
-
针对"单次曝光的模糊低动态范围(LDR)图 + 事件流"重建清晰高动态范围(HDR)3D 表示时、现有方法忽视传感器输出与物理辐射之间失配的问题,本文提出 See-NeRF:用 NeRF 直接表示场景的真实 HDR 辐射,再用一个像素级 RGB CRF 模型和一个延迟感知、光度校准的事件 CRF 模型把"物理辐射→传感器测量"这一过程显式建模出来,三者联合优化,从而在极端光照下拿到 SOTA 的去模糊 HDR 新视角合成结果。
- Seele: A Unified Acceleration Framework for Real-Time Gaussian Splatting on Mobile Devices
-
SEELE 是一个面向移动端的 3DGS 渲染加速框架,用「视图相关场景表示 + 在线过滤 + 异步预取」削减参与渲染的高斯数量、用「贡献感知光栅化」把算力集中到真正影响像素的少数高斯上,在四套主流 3DGS 算法上即插即用,最高获得 6.3× 加速与 39.1% 运行时模型缩减,且渲染质量不降反升。
- Selfi: Self-improving Reconstruction Engine via 3D Geometric Feature Alignment
-
Selfi 冻结 VGGT 这类 3D 视觉基础模型作骨干,仅训练一个轻量特征适配器——用 VGGT 自己输出的深度/位姿做伪标签、靠重投影一致性损失把特征蒸馏成「几何对齐」的新特征空间,从而把一个本不为高保真渲染设计的基础模型变成无位姿输入下 SOTA 的新视角合成与相机位姿估计引擎,全程零 3D 真值标注。
- Semantic Foam: Unifying Spatial and Semantic Scene Decomposition
-
把最近提出的 Radiant Foam(基于 Voronoi 网格的可微辐射场表示)扩展到语义分解任务:在每个 Voronoi 细胞上显式挂一套语义特征,借助网格天然的空间邻接关系做直接的空间正则,从而避免点基表示常见的遮挡/跨视图监督不一致伪影,在物体级分割上达到甚至超过 Gaussian Grouping、SAGA 等 SOTA。
- SemLT3D: Semantic-Guided Expert Distillation for Camera-only Long-Tailed 3D Object Detection
-
针对纯相机多视图 3D 检测里"罕见但安全攸关"类别(儿童、急救车、婴儿车)样本极少、还伴随类内多样和类间混淆的问题,SemLT3D 用 CLIP 的语言/视觉先验做两件事——按语义相似度把 3D query 路由到专家(语言引导 MoE)+ 把 CLIP 的 2D 语义蒸馏进 3D token(语义投影蒸馏),作为即插即用模块挂到 StreamPETR/Far3D 上,在 nuScenes 18 类设定下尾类 mAP 明显提升、整体 mAP/NDS 也涨。
- SGAD-SLAM: Splatting Gaussians at Adjusted Depth for Better Radiance Fields in RGBD SLAM
-
提出SGAD-SLAM,采用像素对齐的简化高斯表示并允许高斯沿射线调整深度偏移以提升渲染质量和可扩展性,同时引入基于几何相似度的GICP跟踪策略加速相机位姿估计,在Replica、TUM、ScanNet和ScanNet++上全面超越最新方法。
- SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation
-
SGI 提出基于种子点(seed)的结构化 2D 高斯表示框架,通过将无结构高斯原语组织为种子驱动的神经高斯、结合上下文引导的熵编码和多尺度拟合策略,在高分辨率图像表示中实现最高 7.5× 压缩比和 6.5× 优化加速,同时保持甚至提升重建保真度。
- SGS-Intrinsic: Semantic-Invariant Gaussian Splatting for Sparse-View Indoor Inverse Rendering
-
SGS-Intrinsic 提出两阶段室内逆渲染框架,第一阶段利用语义和几何先验构建稠密几何一致的高斯场,第二阶段结合混合光照模型和材质先验进行材质-光照分解,并通过去阴影模块防止阴影烘焙到反照率中。
- SGSoft: Learning Fused Semantic-Geometric Features for 3D Shape Correspondence via Template-Guided Soft Signals
-
SGSoft 把"在变形 3D 形状之间找稠密点对应"重新表述为"在一个规范模板上对齐测地线概率场",用这个拓扑不变的软监督信号训练一个融合几何/语义/空间线索的逐顶点描述子,推理时单次前向 + 最近邻检索即可出对应,无需预对齐、逐对优化或后细化,在保持精度的同时把单对耗时压到 1.7 秒。
- ShapeR: Robust Conditional 3D Shape Generation from Casual Captures
-
ShapeR 把随手拍的图像序列经过 SLAM + 3D 检测 + VLM 描述,转成"稀疏点云 + 多视角带位姿图像 + 文字"三路多模态条件,喂给一个 FLUX 风格的整流流(rectified flow)Transformer 去噪 VecSet 隐码,在真实遮挡/杂乱场景下生成度量准确、完整的单物体网格,Chamfer 距离比 SOTA 提升 2.7×。
- SharpTimeGS: Sharp and Stable Dynamic Gaussian Splatting via Lifespan Modulation
-
SharpTimeGS 给每个 4D 高斯基元加一个可学习的"生命期"(lifespan)参数,用它把时间可见性从钟形高斯衰减改成"平顶"轮廓、并调制运动幅度,让长寿命静态点几乎不漂移、短寿命动态点保留充分运动,再配合生命期-速度感知的稠密化与速度感知初始化,在统一表示下同时拍清静态背景和快速动态,达到 SOTA 且 4K@100FPS 实时渲染。
- Simple but Effective Triplet-Based Compression Strategies for Compact Visual Localization
-
针对视觉定位中"压缩 SfM 点云"这一长期靠求解复杂优化(集合覆盖 / 整数规划 / 二次规划)的问题,本文提出一个几乎平凡的策略:为每张数据库图随机采样三元组点、用 P3P 估位姿、保留能让数据库图位姿最准的三元组所含的点——以"位姿精度"为直接选点准则,配合标准描述子量化,效果却追平甚至超过当前 SOTA 压缩与学习型方法。
- SketchFaceGS: Real-Time Sketch-Driven Face Editing and Generation with Gaussian Splatting
-
SketchFaceGS 用一个前馈、coarse-to-fine 架构,把单张手绘草图(加可选参考图)一次性映射成可实时渲染的逼真 3D 高斯人脸,并用 UV Mask Fusion + 逐层特征融合实现自由视角、免优化的局部实时编辑,在生成保真度(FID 92.65)和编辑延迟(~0.3s / 243 FPS)上都超过 SketchFaceNeRF。
- Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction
-
Skullptor 把"数据驱动的多视角法线预测"和"逆向渲染网格优化"拼成一条两阶段管线:先用带跨视角注意力的法线估计模型从不到 10 张稀疏图像预测几何一致的表面法线,再把法线当作强几何先验去优化网格,从而在 30 秒内、仅 10 个相机下重建出可媲美几十到上百视角传统摄影测量(photogrammetry)质量、且能恢复皱纹与皮肤褶皱等高频细节的 3D 人头。
- Sky2Ground: A Benchmark for Site Modeling under Varying Altitude
-
本文提出Sky2Ground数据集(51个场景,80k图像,统一覆盖卫星/航拍/地面三种视角的合成+真实图像)和SkyNet模型(双流编码器+掩码卫星注意力+渐进式视角采样),首次系统研究了跨地面/航拍/卫星三视角联合相机定位问题,在RRA@5上提升9.6%,在RTA@5上提升18.1%。
- SLARM: Streaming and Language-Aligned Reconstruction Model for Dynamic Scenes
-
SLARM 是一个前馈 Transformer,在单次前向里同时输出动态场景的 4D 高斯几何、3D 场景流和语言对齐语义——靠高阶运动函数无监督地学复杂非匀速运动、靠蒸馏 LSeg 拿到可被文本查询的语义、靠窗口因果注意力做恒定延迟的流式推理,在 Waymo 上把运动精度提升 21%、PSNR 提升 1.6 dB、分割 mIoU 提升 20%。
- SmokeSVD: Smoke Reconstruction from A Single View via Progressive Novel View Synthesis and Refinement with Diffusion Models
-
用扩散模型从单视角视频里逐帧合成侧视图、再"粗密度 → 渐进精修 → 细密度"地循环重建,把单视角烟雾重建做成既高质量又比可微渲染快两个数量级(15 分钟 vs >30 小时)的框架。
- SMVRT: Implicit Human 3D Modeling Using Sparse Multi-View Volumetric Reconstruction with Transformer Fusion
-
SMVRT 用一个端到端、无模板的隐式占据场网络从稀疏多视图(2~8 张)重建穿衣人体,核心是在 2D 编码、2D→3D 体素构建、查询点解码三个阶段各放一个 Transformer 融合模块,让网络"挑选最该信的视角与特征",在 THUman2.0/2.1、MultiGarment、MultiHuman 上把 Chamfer 距离做到约现有 SOTA 的一半。
- SO(3)-Equivariant ViT-Adapter for Data-Efficient Zero-Shot Sim-to-Real Indoor Panoramic Depth Estimation
-
给冻结的透视预训练 ViT(Depth Anything V2)外挂一个 SO(3)-等变适配器,只用 6.5K 张合成全景图、零真实数据训练,就把透视零样本深度模型的泛化能力迁移到 360° 全景上,在 Matterport3D / Stanford2D3D 上零样本 sim-to-real 超过依赖真实数据的 PanDA。
- Solvability of the Viewing Graph Under the Affine Camera Model
-
本文首次研究仿射相机模型下的 viewing graph 可解性,把"给定一组两视图关系能否唯一确定所有相机"这个问题刻画成一个线性系统 \(Ax=b\),由此给出基于矩阵秩的实用检验算法,并补上若干必要/充分条件,最后猜想"仿射可解 = 2D 平行刚性"。
- Solving Minimal Problems Without Matrix Inversion Using FFT-Based Interpolation
-
这篇论文提出一种无矩阵求逆的最小问题(minimal problem)求解器构造方法:用隐变量稀疏结式把多元多项式方程组化成关于隐变量 \(x_1\) 的一元行列式多项式,再用 IFFT 插值从单位圆上的采样值数值重建该多项式的系数(绕开符号展开),最后用 Cramer 法则配合 GCD 准则鲁棒回代其余未知量;在 14 个相机位姿类最小问题上实现了零失败率的数值稳定性,并在小规模问题上平均提速约 30%。
- SonoWorld: From One Image to a 3D Audio-Visual Scene
-
提出 SonoWorld,一个 training-free 的框架,可以从单张图片出发,生成可探索的3D音频-视觉场景:先将图片扩展为360°全景并重建为3D高斯场景,再通过VLM驱动的语义定位放置声源锚点,最后用 Ambisonics 编码渲染空间音频,实现视觉与听觉的几何和语义对齐。
- SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs
-
提出球坐标位置编码 SoPE,将点云 token 从一维序列索引重映射到球坐标 \((t,r,\theta,\phi)\) 空间,并配合多维频率分配与多尺度频率混合策略,显著增强 3D 大视觉-语言模型的空间感知能力。
- Space-Time Forecasting of Dynamic Scenes with Motion-aware Gaussian Grouping
-
MoGaF 在 4D Gaussian Splatting 上把高斯按物体级运动分组并标注刚体/非刚体,再分组施加运动约束优化、用每组一个轻量 Transformer 自回归外推未来运动,从而把"只能内插已观测帧"的动态重建推进到物理一致的长时场景预测。
- SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection
-
提出 Spatial-Projection Alignment (SPAN),通过3D角点空间对齐和3D-2D投影对齐两个几何协同约束,配合分层任务学习策略,作为即插即用模块提升任意单目3D检测器的定位精度。
- SPARK: Sim-ready Part-level Articulated Reconstruction with VLM Knowledge
-
SPARK 从单张 RGB 图像出发,先用 VLM 解析出粗 URDF 参数 + 逐部件参考图 + 开态图,再用带多层注意力的扩散 Transformer 同时生成部件级与整体网格,最后用可微正运动学优化关节参数,端到端造出可直接进物理引擎的"仿真就绪"关节物体,URDF 各项误差比此前方法降低 60%+。
- Sparse-View Localization via Online Neural 3D Regression
-
ON3R 针对"数据库图像几乎互不重叠(星型拓扑)、又没有预建 3D 地图"的极端稀疏视图定位场景,为每个查询图像临时在线训练一个小 MLP,把查询关键点回归成 3D 点(用数据库重投影残差 + 单目深度先验监督),再用 P3P-RANSAC + 轻量 BA 求绝对位姿,在 MegaDepth / Cambridge / 稀疏化 Aachen 上全面超过现有结构无关方法、甚至胜过结构化的 HLOC。
- SparseCam4D: Spatio-Temporally Consistent 4D Reconstruction from Sparse Cameras
-
提出 SparseCam4D,首个在标准多相机动态场景基准上实现稀疏相机(2-3个)4D重建的方法,核心创新是时空扭曲场(STDF),通过将生成式观测中的时空不一致性显式建模并与真实4D高斯表示解耦,实现高保真、时空一致的动态场景渲染。
- SparseOIT: Improving Order-Independent Transparency 3DGS via Active Set Method
-
本文发现 Order-Independent Transparency(OIT)渲染方程去掉深度排序后,高斯泼溅之间的依赖大幅解耦、变得高度稀疏,于是用「主动集(active set)方法」只优化少量真正在更新的高斯,配合一套 CUDA 反向传播改造,把 OIT 类方法的训练速度提升 4–6×,质量逼近 3DGS / Taming-3DGS。
- SparseSplat: Towards Applicable Feed-Forward 3D Gaussian Splatting with Pixel-Unaligned Prediction
-
SparseSplat 是首个能根据场景结构和局部信息丰富度自适应分配高斯密度的前馈式 3DGS 模型:用基于香农熵的概率采样替代"每像素一个高斯"的范式生成稀疏锚点,再用一个工作在 3D 局部邻域上的 KNN 预测头回归高斯属性,最终用 DepthSplat 22% 的高斯数(150k vs 688k)达到同等渲染质量,并能用单一模型在 10k~150k 高斯间无缝调节稀疏度。
- Spatial-SAM: Spatially Consistent 3D Electron Microscopy Segmentation with SDF Memory and Semi-Supervised Learning
-
Spatial-SAM 把 SAM2 的「逐帧 2D logit 记忆」换成由轻量 3D U-Net 预计算的带符号距离场(SDF)记忆,再配一套「先用 SAM2 few-shot 自举伪标签、再交替训练 SDF 与掩码」的双轨半监督方案——只标注 1/64 的切片,就能在多个 3D 电镜数据集上逼近全监督 SOTA,同时显著改善切片间的 3D 形态一致性。
- Spatial Matters: Position-Guided 3D Referring Expression Segmentation
-
针对 3D 指代分割只看语义、忽略空间关系导致无法区分"多个同类相似物体"的痛点,Position3D 把空间相对位置显式注入两处——空间感知的查询生成(让 query 一出生就带几何关系)和位置引导的可变形注意力解码器(让 query 逐层把注意力从全局收缩到目标局部),在 ScanRefer 与 Multi3DRefer 上 mIoU 分别刷到 51.0 / 53.2,明显超过此前 SOTA IPDN。
- SpatialVID: A Large-Scale Video Dataset with Spatial Annotations
-
SpatialVID 从 2.1 万小时野外网络视频里,用「分层过滤 + 几何/语义标注 + 平衡采样」三段式 pipeline 蒸馏出 271 万段、共 7089 小时的动态片段,每段都带逐帧相机位姿、深度、动态掩码、结构化字幕和序列化运动指令,是目前规模最大、标注最全的"动态场景 + 显式几何"视频数据集。
- SPE-MVS: Spatial Position Encoding Enhanced Multi-View Stereo with Monocular Depth Priors
-
SPE-MVS 用度量单目深度先验为每个视角的每个像素构造统一坐标系下的"空间位置编码(SPE)",把它和图像一起喂进特征提取与代价体构建,再用单目深度引导的两阶段细化模块打磨概率图,从而在弱纹理、非朗伯面这些光度匹配失效的区域显著提升 MVS 重建质量。
- Spectrum from Defocus: Fast Spectral Imaging with Chromatic Focal Stack
-
用两片现成镜头加一个灰度传感器,靠镜头色差让不同波长在不同焦面对焦,拍 5 张散焦灰度图组成"色差焦点堆栈",再用一个物理驱动的快速迭代算法在 1 秒内重建出高光谱图像,质量达到 SOTA(PSNR 30.81 dB),却只用了 4 个光学元件、几乎不损失入射光。
- SpeeDe3DGS: Speedy Deformable 3D Gaussian Splatting with Temporal Pruning and Motion Grouping
-
SpeeDe3DGS 在 DeformableGS 之上叠加三个模块——时序敏感度剪枝(TSP)、时序敏感度采样(TSS)和分组刚体运动蒸馏(GroupFlow),在保持神经形变场画质的同时把动态高斯泼溅的渲染速度提升 13.71×、训练缩短 2.53×、高斯数量减到 1/10。
- Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists
-
通过定期重置高斯尺度(Scale Reset)和对 alpha blending 权重施加熵约束(Entropy Constraint),缩短每个像素的高斯列表长度,实现 3DGS 训练 5-12 倍加速,同时保持可比的渲染质量。
- Spherical Voronoi: Directional Appearance as a Differentiable Partition of the Sphere
-
针对辐射场中"视角相关外观"长期依赖球谐函数(SH)而难以表达高频镜面反射的痛点,本文提出 Spherical Voronoi(SV)——用一组可学习站点把球面软划分成若干区域,作为显式球面函数表示,既比 SH/球面高斯更易优化,又能锐利建模 glint 级高光,并进一步扩展为"可学习光照探针"做空间变化反射,在 Ref-NeRF/GlossySynthetic 等反射 benchmark 上取得 SOTA(Ref-NeRF PSNR 36.09)。
- SpiderCam: Low-Power Snapshot Depth from Differential Defocus
-
SpiderCam 用一组分光棱镜 + 两枚低功耗图像传感器拍下同一场景的两张微分散焦图像,在一块小到连一对完整图像都存不下的低功耗 FPGA 上流式跑改进版微分散焦深度算法(DfDD),做出了文献中第一台总功耗低于 1 瓦(624 [email protected] FPS)、工作距离超过半米的被动式 3D 相机。
- Splatent: Splatting Diffusion Latents for Novel View Synthesis
-
Splatent 在冻结的扩散 VAE 隐空间里做 3DGS 重建后,用一个单步扩散模型 + 多视角自注意力,从邻近参考视角的隐编码里把被 3D 优化"平均掉"的高频细节补回到渲染出的新视角隐图上,在保持预训练 VAE 重建质量的同时刷新了隐空间辐射场新视角合成的 SOTA。
- SplatSuRe: Selective Super-Resolution for Multi-view Consistent 3D Gaussian Splatting
-
SplatSuRe 不再把超分(SR)均匀地灌进所有像素,而是先算一个"每个高斯被各视角采样得有多充分"的保真度分数、再渲染成逐视角权重图,只在缺乏高频观测的欠采样区域注入 SR 监督,从而在不加任何神经组件、不改 3DGS 主干的前提下得到更锐利且多视角一致的高分辨率重建。
- SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting
-
将3D超分辨率(3DSR)重新定义为从稀疏低分辨率视图到高分辨率3DGS的前馈映射问题,通过高斯偏移学习和特征精炼实现高保真HR 3DGS重建,无需逐场景优化即可实现强零样本泛化。
- SRGCD: Stability-Driven Region Growth Framework for 3D Change Detection
-
把 3D 点云变化检测从"逐点二分类分割"重新定义为"从高置信不变种子出发、逐层向边界生长"的稳定性传播过程,用几何一致性先验挑种子、用单向受控注意力把稳定性从核心扩散到边界,在 Urb3DCD / HKCD 上分别拿到 94.11% / 78.79% mIoU 的 SOTA。
- ST4R-Splat: Spatio-Temporal Referring Segmentation in 4D Gaussian Splatting
-
提出了「4D 高斯泼溅中的时空指代分割(STRS-4DGS)」这一新任务,并设计 ST4R-Splat 框架:用时不变的实例指代嵌入解决「在哪(where)」、用特征空间里的实例级时序状态映射解决「何时(when)」,再配一条 MLLM 自动生成时空监督的字幕流水线,在自建 benchmark 上把改造过的 SOTA baseline 大幅甩开(time-agnostic mIoU 77.67% vs 43.40%)。
- Stabilizing Streaming Video Geometry via Dynamic Feature Normalization
-
作者发现单目几何基础模型(如 MoGe)在视频流上抖动的根因不是几何错误、而是逐帧"尺度-偏移"漂移,而这种漂移又由潜在特征的均值/方差波动直接决定;于是提出一个只占 2% 参数、冻结主干只训它的轻量循环模块 DyFN(Dynamic Feature Normalization),用 ConvGRU 记忆动态预测并替换特征统计量,在四个基准上取得 SOTA 时序稳定性,同时完全不损失单帧精度。
- StableMTL: Repurposing Latent Diffusion Models for Multi-Task Learning from Partially Annotated Synthetic Datasets
-
StableMTL 把预训练潜扩散模型(Stable Diffusion)改造成"单步潜空间回归器",在三个各自只标注了部分任务的合成数据集上联合训练 7 个密集预测任务(语义/法向/深度/光流/场景流/着色/反照率),用统一的潜空间 MSE 损失替代逐任务损失、用"主流-辅助流"的 N-to-one 任务注意力促进任务间知识共享,在 8 个真实 benchmark 上以 +4.78 的 Δm 超过部分标注 MTL 基线并强泛化到分布外域。
- STAC: Plug-and-Play Spatio-Temporal Aware Cache Compression for Streaming 3D Reconstruction
-
提出STAC框架,利用因果Transformer中KV缓存的时空稀疏性,通过工作时序token缓存、长期空间token缓存和分块多帧优化三个模块,在不需要额外训练的情况下将流式3D重建的内存消耗降低约10倍、推理速度提升4倍,同时几乎不损失重建质量。
- STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction
-
提出 STAvatar,通过 UV 自适应软绑定框架和时序自适应密度控制策略,从单目视频重建高保真可驱动的 3D 头部化身,在遮挡区域(口腔内部、眼睑)和精细细节方面显著优于现有方法。
- Stochastic Ray Tracing for the Reconstruction of 3D Gaussian Splatting
-
把"光线追踪 3DGS 必须沿每条光线对所有相交高斯排序"这件昂贵的事,换成一个无偏、无需排序的蒙特卡洛梯度估计器,每条光线只采样极少数高斯就能反传梯度,从而在标准 3DGS 上追平光栅化的速度与质量、远超已有的排序式光线追踪,并把同一个估计器无缝扩展到带真实阴影光线的重光照 3DGS 重建。
- SunFaded: Illumination-Aware Gaussian Splatting for Dark Scenes with Camera-Mounted Active Lighting
-
针对"相机带着光源一起移动"的暗场景,本文用 2DGS + 反照率属性把光照从内在外观里剥出来,靠"光照加权损失 → 图像空间分块着色 → 反照率几何先验精修"的三阶段训练,在 PSNR/SSIM/LPIPS 全面超过 DarkGS 等方法,且训练更快、渲染更快。
- SuP: Sub-cloud Driven Point Cloud Registration
-
针对低重叠点云配准里"非重叠区域几何/语义相似导致错配"的老大难,SuP 把问题重构成"在子云对里挖出高重叠锚对",用双阶段(先验加权筛候选 + 后验网络验一致性)锚对挖掘 + 合并匹配,在 Color3DMatch/3DLoMatch 上刷新 SOTA,还能当插件涨别的方法的点。
- SV-GS: Sparse View 4D Reconstruction with Skeleton-Driven Gaussian Splatting
-
SV-GS 用一段「输入骨架图 + 首帧静态重建」驱动的形变场,在每个时刻只有一张任意视角图像(比常规稠密视频少约 20×)的极端稀疏条件下重建关节物体的连续 4D 运动,靠「只让关节位姿随时间变化」实现平滑插值,在合成数据上 PSNR 比 SOTA 高最多 34%。
- SwiftTailor: Efficient 3D Garment Generation with Geometry Image Representation
-
提出两阶段轻量框架SwiftTailor,通过PatternMaker预测缝纫样板 + GarmentSewer将其转换为统一UV空间的Garment Geometry Image,结合逆映射与动态拼接直接生成3D服装网格,推理速度比现有方法快数十倍且达到SOTA质量。
- TagSplat: Topology-Aware Gaussian Splatting for Dynamic Mesh Modeling and Tracking
-
提出拓扑感知的高斯泼溅框架 TagSplat,通过显式编码高斯基元间的空间连接关系,在动态场景重建中生成拓扑一致的网格序列,并支持精确的3D关键点跟踪。
- Task-Driven Implicit Representations for Automated Design of LiDAR Systems
-
把 LiDAR 传感器配置编码成连续 6D 设计空间里的点,用归一化流学习"哪些设计对某个 3D 任务最有用"的隐式密度,再用 EM 把高斯混合"传感器"拟合到这个密度上,从而在任意物理约束下自动生成面向人脸扫描/机械臂跟踪/仓储检测等任务的 LiDAR 系统,并把带宽最高压到约 1/10。
- Tavatar: Topology-Aware Gaussian Attribute Derivation for Animatable Human Avatars
-
Tavatar 不再把每个 3D 高斯的旋转和尺度当作自由优化的参数,而是从底层可形变网格的三角形几何中解析地推导出来,让高斯天然锚定在网格拓扑上,从而在没见过的复杂姿态(OOD)下也不会脱落或穿洞——在 X-Avatar 上法向误差比最优 baseline 降低 13.8%,PeopleSnapshot 上降低 17.9%,同时渲染质量保持竞争力。
- Learning 3D Reconstruction with Priors in Test Time
-
提出测试时约束优化(TCO)框架,无需重训练或修改预训练多视图 Transformer 架构,通过在推理时将先验(相机位姿、内参、深度)作为预测约束进行优化,大幅提升 3D 重建精度。
- TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures
-
TeHOR 利用文本描述作为语义引导,通过预训练扩散模型的 Score Distillation Sampling 联合优化 3D 人体和物体的几何与纹理,突破了传统方法对接触信息的依赖,实现了包括非接触交互在内的准确且语义一致的 3D 重建。
- TESO: Online Tracking of Essential Matrix by Stochastic Optimization
-
TESO 把双目相机的在线外参标定问题,建模成"在本质矩阵流形上对一个鲁棒核化对极误差做自适应随机优化",无需任何数据训练、只有两个超参,就能以 0.12° 级精度实时跟踪相机标定漂移,且单帧优化精度可媲美基于神经网络的方法。
- Text-Driven 3D Hand Motion Generation from Sign Language Data
-
本文借助大规模手语视频 + 手语词典 + LLM,自动构建了 130 万条「文本-3D手部动作」配对数据集 BOBSL3DT,并在其上训练出能由自由文本描述(手型、位置、手指/手臂运动)驱动的手部动作扩散模型 HandMDM,且对未见手势、异种手语乃至非手语手部动作都有不错的泛化。
- Text–Image Conditioned 3D Generation
-
本文发现图像条件和文本条件在3D生成中提供互补信息——图像给出精确外观但受视角限制,文本提供全局语义但缺乏视觉细节——并提出TIGON,一个最小化双分支DiT基线,通过零初始化跨模态桥(early fusion)和步级预测平均(late fusion)实现联合文本-图像条件的原生3D生成。
- TextFM: Robust Semi-dense Feature Matching with Language Guidance
-
TextFM 是第一个把视觉语言模型(VLM)的文本语义引入半稠密特征匹配的框架——它用文本嵌入生成实例级查询给粗匹配注入域不变语义、用 LoRA 高效微调视觉基础模型(VFM)、再叠加光照不变物理先验,在跨域和昼夜变化下显著超过 EfficientLoFTR 等现有方法。
- TEXTRIX: Latent Attribute Grid for Native Texture Generation and Beyond
-
TEXTRIX 把 3D 纹理表示成一张"原生 3D 属性栅格"(稀疏体素场,每个体素存颜色/语义/PBR),用带稀疏注意力的扩散 Transformer 直接在体素空间里给模型上色,从根上绕开了多视图融合的接缝和 UV 展开的碎片化问题;同一套架构换个预测目标就能做高精度 3D 零件分割,两项任务都拿到 SOTA。
- TGSFormer: Scalable Temporal Gaussian Splatting for Embodied Semantic Scene Completion
-
TGSFormer 用一块持久的高斯记忆 + 置信度感知的时序融合,把具身语义场景补全(embodied SSC)做成了「随探索无限扩张、但基元数量始终有界」的前馈框架,在 monocular 和 embodied 两类 benchmark 上都刷到 SOTA,且用的高斯基元比对手少 20% 以上。
- The Midas Touch for Metric Depth
-
MTD(Midas Touch for Depth)用一套无需训练、数学可解释的"由粗到细"算法,借助极稀疏的 3D 点(LiDAR / 立体匹配等)把深度基础模型输出的相对深度转换成度量深度:先做分段图优化把局部尺度对齐,再用"不连续感知测地线代价 + 动态规划"做像素级细化,在零样本深度补全与深度估计上全面超过 BP-Net / DMD3C / Marigold-DC 等 SOTA,且后端只占 1.9 ms。
- Thermal is Always Wild: Characterizing and Addressing Challenges in Thermal-Only Novel View Synthesis
-
针对"只用热成像、没有 RGB 引导"的新视角合成(NVS)这个老大难问题,本文先系统刻画了便宜微测辐射热计(microbolometer)传感器带来的三类退化——超低动态范围、帧间光度抖动 + 缓慢辐射漂移、纹理匮乏,再据此设计了一条轻量"可逆光度稳定 + 热成像专用 3DGS"流水线:前端用可逆的直方图对齐 + 双直方图均衡把动态范围撑开并消除漂移,后端把每个高斯简化成单通道标量发射、再用「每高斯 + 每帧」双嵌入吸收残余抖动,在六个纯热成像数据集上无需逐数据集调参就拿到 SOTA(平均 PSNR 从 baseline 3DGS 的 22.25 dB 提到 26.14 dB)。
- Think-Then-Generate: Structural Chain-of-Thought Reasoning for Consistent 3D Generation
-
Thoughtful3D 把 Chain-of-Thought(CoT)推理引入 SDS 式 3D 生成,用「先想后画」的双阶段结构化推理——生成前用 3DBlueprint-CoT 解析语义并把复杂提示拆成分阶段子目标,生成中用 3DRefine-CoT 多轮反思-纠正渲染瑕疵,再配一条跨视图语义外观对齐损失——显著缓解多视图不一致与 Janus 多面/引导坍塌问题,在 text-to-3D 和 image-to-3D 上质量与一致性全面提升。
- TokenGS: Decoupling 3D Gaussian Prediction from Pixels with Learnable Tokens
-
TokenGS 把前馈式 3D Gaussian Splatting 重建从「每个像素回归一条射线上的深度」改成「一组可学习的高斯 token 直接回归 3D 坐标」,从而让高斯数量彻底脱钩于输入分辨率和视角数量,在静态/动态场景上都拿到 SOTA,且几何更干净、对位姿噪声更鲁棒,并支持低成本的测试时 token 微调。
- TokenHand: Discrete Token Representation for Efficient Hand Mesh Reconstruction
-
TokenHand 把一只 3D 手编码成 \(M\) 个共享码本里的离散 token,再把"从单张图重建手网格"这件事从回归问题改写成 token 分类问题——分类器只需预测每个 token 的类别,一个预训练好的轻量解码器就能无后处理地还原 778 顶点网格,在 FreiHAND 上做到 PA-MPJPE 5.7mm、65 FPS、参数量仅 3.0M。
- TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction
-
TokenSplat 是一个前馈框架,从任意张无位姿多视图图像中一次性联合预测稠密 3D 高斯和相机位姿:核心是在特征空间而非像素/3D空间做 token 级跨视图融合(Token-aligned Gaussian Prediction),并用一个非对称双流解码器把相机位姿线索和场景语义解耦,无需迭代优化即可在无位姿设定下取得更高重建保真度和更准的位姿。
- Topology-aware Feature Propagation for Unsupervised Non-rigid Point Cloud Correspondence
-
针对无监督非刚体点云对应中"按空间邻近传播特征会把物理上不相连的部位连起来"的痛点,本文提出学习对形变鲁棒的形状拓扑,用拓扑置信权重 + 拓扑感知 Transformer 在"由粗到细"管线里传播特征,并辅以向量量化码本优化,在四个基准上取得 SOTA。
- TopoMA: Topology-Guided Multi-Agent Dense RGB 3D Reconstruction via Distributed Inference
-
TopoMA 用持久同调(persistent homology)学一张连接各智能体子图的「场景拓扑骨架」,把它当注意力偏置、回环门控和残差传输的统一调度核心,从而让多个智能体在纯分布式、无中心服务器的条件下各自重建并增量优化局部地图,仅靠轻量拓扑消息就实现全局一致的大规模 RGB 稠密重建。
- TopoMesh: High-Fidelity Mesh Autoencoding via Topological Unification
-
提出 TopoMesh,通过将GT网格和预测网格统一到 Dual Marching Cubes (DMC) 拓扑框架下,首次实现了顶点和面片级别的显式对应,从而支持直接网格级别监督(拓扑、顶点位置、面法向量),F1-Sharp 指标比现有SOTA提升 5.9-7.1%,尤其在锐利特征保持上优势显著。
- TouchDream: 3D Object Completion through Imagined Touch
-
TouchDream 用一个条件扩散模型在物体表面"想象"出触觉信号——从粗点云和采样位姿生成紧凑的触觉隐向量,解码成局部几何并融回点云,从而在不进行任何物理触摸的前提下,为点云补全提供细粒度的局部几何引导,在 PCN / ShapeNet55-34 / KITTI 上均取得 SOTA。
- Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds
-
PointINS 给点云自监督预训练加了一条「偏移分支」,让模型在没有标签的情况下学会预测每个点指向其所属实例中心的偏移向量,并用两个互补正则项(对齐全局统计先验的 ODR、强制局部聚拢的 SCR)防止塌缩,从而把过去只擅长语义、不擅长实例的 SSL 表征补成「既懂语义又懂几何」,在 5 个室内外数据集上把室内实例分割平均提了 +3.5% mAP、室外全景分割提了 +4.1% PQ。
- Towards Generalized Multimodal Homography Estimation
-
针对单应性估计模型"换个模态就失灵"的痛点,本文用风格迁移从一张图合成纹理/颜色各异但结构不变的不对齐图像对(自带真值偏移),让模型在合成数据上有监督训练即可零样本泛化到未见模态;同时设计 CCNet 融合跨尺度信息并把颜色从特征中解耦,进一步把跨数据集 MACE 误差大幅压低。
- Towards Intrinsic-Aware Monocular 3D Object Detection
-
MonoIA 提出将数值型相机内参转化为语言引导的语义表征(通过 LLM 生成内参描述 + CLIP 编码),并通过分层自适应模块将其融入检测网络,实现对未见焦距的零样本泛化和跨数据集统一训练,在 KITTI/Waymo/nuScenes 上达到新 SOTA。
- Towards Visual Query Localization in the 3D World
-
把"视觉查询定位(VQL)"从 2D 视频搬到 3D 世界:作者构建了首个 3D 多模态 VQL 基准 3DVQL(2002 段序列、17 万帧、6.4K 响应轨迹、38 类、点云+RGB+深度三模态、逐帧 9DoF 框标注),并提出把 2D 特征沿视锥抬升进 3D 体素、再用深度注意力做点云-图像融合的 LaF 方法,在所有指标上显著超过基于 VQLoC 改造的多模态基线。
- TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Dual-Level Scale-Oriented Contrast
-
提出 TR2M 框架,利用图像和文本描述预测像素级的 scale/shift 映射图,将泛化性强但无尺度的相对深度转换为度量深度,仅用 19M 可训练参数和 102K 训练图像即可实现跨域零样本度量深度估计。
- Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation
-
Track4DGen 把一个基础点追踪器(CoTracker3)的逐帧点对应关系注入多视角视频扩散模型和 4D 高斯重建的中间特征里,用显式的特征级时序监督压制 4D 资产生成中的外观漂移,在视频生成与 4D 生成两类基准上都超过 Animate3D 等基线。
- Tracking by Predicting 3-D Gaussians Over Time
-
Video-GMAE 把一段视频自监督地编码成"一组随时间漂移的 3-D 高斯基元"——首帧预测完整高斯、后续帧只预测残差位移——这个归纳偏置逼着网络学会跨帧像素对应,于是无需任何跟踪标注就能零样本追点,微调后在 Kinetics/Kubric 上分别超过此前自监督方法 34.6% 和 13.1%。
- TROPHIES: Temporal Reconstruction of Places, Humans, and Cameras from Multi-view Videos
-
TROPHIES 提出"多视角视频下统一重建人体、场景、相机"这一新任务,用一个解耦的人体分支 + 即插即用的场景分支 + 全局对齐优化模块,把动态人体、静态几何和相机轨迹放进同一个度量一致的 4D 世界坐标系,在 EgoHumans / EgoExo4D 上把 W-MPJPE 砍掉一半以上。
- tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction
-
tttLRM 首次将 Test-Time Training (TTT) 引入大规模3D重建模型,利用 LaCT 层以线性复杂度实现长上下文和自回归3D高斯重建,通过将多视图观测压缩到 TTT 快速权重中形成隐式3D表示,再解码为显式3DGS等格式,在物体和场景级数据集上达到了 SOTA 性能。
- Turbo-GS: Accelerating 3D Gaussian Fitting for High-Resolution Radiance Fields
-
Turbo-GS 通过「只渲染稀疏子像素的扩张渲染 + 幂律收敛感知的高斯预算调度 + 颜色梯度辅助的致密化」三件套,把 4K 场景的 3DGS 拟合从数小时压到约 10 分钟(4K bicycle 仅 13 分钟,比 Taming 3DGS 快 3×、比 3DGS 快 14×),且渲染质量(尤其 LPIPS)不降反升。
- TWINGS: Thin Plate Splines Warp-aligned Initialization for Sparse-View Gaussian Splatting
-
TWINGS 用薄板样条(TPS)把单目深度反投影出来的稠密点云,非刚性地对齐到多视角三角化出的稀疏 3D 控制点上,再在控制点附近采样得到稠密且几何精确的初始点云,作为即插即用模块喂给 3DGS,在 DTU / LLFF / Mip-NeRF360 的极稀疏视角下显著超过现有方法(DTU 3-view PSNR 21.52,比次优高 1.6+ dB)。
- UAVLight: A Benchmark for Illumination-Robust 3D Reconstruction in Unmanned Aerial Vehicle (UAV) Scenes
-
UAVLight 构建了首个面向无人机场景、专门隔离"自然光照变化"这一单一变量的多视角 3D 重建 benchmark:18 个真实户外场景沿固定航迹在一天多个时刻重复飞行采集,几何/视角/标定保持一致而只有阳光在变,并配上 RTK 标定的厘米级地面真值点云与物理太阳方向标注,从而第一次能公平地量化"隐式 vs 显式光照建模"在跨光照条件下谁更鲁棒。
- UIKA: Fast Universal Head Avatar from Pose-Free Images
-
UIKA 提出一个前馈式可驱动 3D 高斯头部头像模型:把任意数量的「无姿态」输入图(单图 / 多视角 / 手机视频均可)通过逐像素人脸 UV 对应关系重投影到共享 UV 空间,再用 UV 注意力分支聚合多视角信息解码出规范空间高斯,单次前向即可重建、并支持 220 FPS 实时驱动,在单目和多视角设定下都超过现有 SOTA。
- ULF-Loc: Unbiased Landmark Feature for Robust Visual Localization with 3D Gaussian Splatting
-
本文从理论上证明了「用 α-blending 优化 3DGS 特征场」会给 3D 点特征引入固有偏差,进而提出 ULF-Loc:用「几何加权多视角特征融合」替代有偏的特征优化、用「关键点共识采样」选可靠地标、用「局部几何一致性核验」剔除渲染伪影导致的误匹配,在 Cambridge Landmarks 上把平均中值平移误差比 SOTA 降低 17%,同时只需 STDLoc 1/10 的训练时间和 1/6 的显存。
- Unblur-SLAM: Dense Neural SLAM for Blurry Inputs
-
Unblur-SLAM 不是简单把去模糊网络塞进 SLAM 前端,而是围绕“哪些模糊帧可以先去模糊再跟踪、哪些模糊帧必须直接在 3D 空间里建模”这一关键决策,设计了模糊检测、物理约束去模糊、3D Gaussian blur refinement 和严重模糊 fallback 的完整流水线,因此能同时处理运动模糊和散焦模糊,并显著提升跟踪与重建质量。
- Uncertainty-driven 3D Gaussian Splatting Active Mapping via Anisotropic Visibility Field
-
提出 GAVIS——把 3DGS 中每个高斯粒子相对训练视角的「可见性」建模成一个随观察方向变化的各向异性可见性场,用球谐函数解析地(免训练、1 秒内)构造与查询,再接入贝叶斯网络式的不确定性感知光栅化,从而为机器人主动建图提供可靠且 200 FPS 实时的不确定性估计,在精度和效率上全面超越 FisherRF / VIMC / NVF。
- Underground Plant Exploration: Non-Destructive 3D Root Assessment with GPR Based on Point Graph Neural Network
-
本文用探地雷达(GPR)无损地把植物地下根系重建成 3D 点云:先在 B-scan 雷达图上检测根系反射形成的双曲线并回归其曲线参数得到稀疏 3D 点,再用一个带残差图卷积和双池化注意力的点图神经网络 + 上采样模块把稀疏点补全成稠密根系,在仿真数据上检测 AP 0.857、重建 EMD 5.03% 全面超过对比方法,且参数量仅 20.98M 最小。
- Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images
-
Uni3R 用一个 VGGT 风格的 Cross-View Transformer,从任意数量、无相机位姿的多视图图像里一次前馈预测出带语义特征的 3D 高斯,让新视图合成、开放词汇 3D 分割、深度估计在单次 0.15 秒的前向里同时完成,并在 RE10K/ScanNet 等多个 benchmark 上刷新 SOTA。
- UniCorrn: Unified Correspondence Transformer Across 2D and 3D
-
UniCorrn 用一套共享权重的 Transformer,把图像-图像(2D-2D)、图像-点云(2D-3D)、点云-点云(3D-3D)三类几何对应统一成同一个"查询关键点→回归对应坐标"的任务,靠一个双流注意力解码器(外观流 + 位置流共用同一张注意力矩阵)实现可堆叠的端到端匹配,在 2D-2D 上持平 SOTA,在 7Scenes(2D-3D)和 3DLoMatch(3D-3D)的配准召回率上分别超过此前最优方法 8% 和 10%。
- UniDAC: Universal Metric Depth Estimation for Any Camera
-
UniDAC 把单目度量深度拆成「相对深度 + 空间变化的尺度图」两部分,用一个仅靠透视图训练的统一模型,在鱼眼/360° 等大视场相机上实现零样本度量深度估计,并靠一个深度引导的尺度上采样模块和一个适配 ERP 几何的位置编码 RoPE-ϕ,在跨相机泛化上全面超过此前 SOTA。
- Unified Primitive Proxies for Structured Shape Completion
-
提出 UniCo,通过基元代理(primitive proxies)在共享形状特征上学习统一的基元表示,在单次前向传递中联合预测完整点云和装配就绪的二次曲面基元(含几何、语义和成员关系),在合成/真实点云 benchmark 上 Chamfer 距离降低最高 50%,法线一致性提升最高 7%。
- UniLight: A Unified Representation for Lighting
-
UniLight 把环境贴图、图像、辐照度图、文本这四种历来互不兼容的光照表示,用对比学习压进同一个联合隐空间,并加一个球谐预测辅助任务来锁住光的方向信息,从而支持跨模态光照检索、环境贴图生成和扩散模型重光照三类下游任务。
- UniPart: Part-Level 3D Generation with Unified 3D Geom-Seg Latents
-
UniPart 提出 Geom-Seg VecSet——一种把整体几何和部件分割统一编码进同一潜空间的表示,并基于它搭了一个两阶段隐式扩散框架:第一阶段联合生成整体几何 + 部件潜分割,第二阶段用「全局坐标空间 + 归一化规范空间」双空间扩散逐部件生成高保真网格,在部件几何质量和分割可控性上超过 X-Part、OmniPart 等一众方法。
- UniPixie: Unified and Probabilistic 3D Physics Learning via Flow Matching
-
UniPixie 把"从视觉推断物体物理属性"从确定性点估计改写成可控的概率分布建模——用一个共享 Perceiver-IO 编码器 + 条件流匹配解码器,从单张视觉输入沿"最软到最硬"连续谱生成物理参数,并首次用统一架构同时产出 MPM / LBS / Spring-Mass 三种求解器即插即用的参数,杨氏模量误差比最强确定性 baseline 降低 50% 以上。
- UniPR: Unified Object-level Real-to-Sim Perception and Reconstruction from a Single Stereo Pair
-
UniPR 用一对立体图像、一次前向推理,同时检测场景里所有物体并重建它们带真实物理比例的 3D 形状,靠立体几何约束消除尺度歧义、靠位姿感知形状表示(PASR)甩掉"每类预定义规范空间",相比 image-to-3D 模型把整场景重建快了 100×、形状比例精度提升约 3×。
- UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass
-
UniSH 用一个前馈网络从单目视频里同时吐出场景几何、相机参数和度量尺度的 SMPL 人体,靠"专家深度模型蒸馏 + 由粗到精的人-景对齐"把合成数据训练的先验迁移到真实野外视频,实现单次前向的场景+人体联合重建。
- UniTEX: Universal High Fidelity Generative Texturing for 3D Shapes
-
UniTEX 用一个两阶段框架给任意 3D 网格"上色":第一阶段用 LoRA 高效微调大规模 2D 扩散 Transformer(Flux)生成六视角无光照贴图,第二阶段抛弃传统 UV 贴图、改用一个直接在 3D 空间回归纹理的 Large Texturing Model(LTM),配合把表面颜色外扩成体积场的"纹理函数(Texture Function)"作监督,从而在艺术家网格和 AI 生成网格上都拿到更完整、更高保真的纹理。
- Unleashing the Power of Chain-of-Prediction for Monocular 3D Object Detection
-
MonoCoP 把单目 3D 检测里互相耦合的尺寸/朝向/深度三个属性,从"各自并行预测"改成特征层面的链式预测(size→orientation→depth 逐级传播再残差聚合),并用一个按深度不确定性动态切换链式/并行的选择器,让 KITTI、nuScenes、Waymo 上的 3D 检测尤其是远处目标显著涨点。
- Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge
-
针对稀疏点云几何线索不足、3D 编码器缺乏功能语义的问题,本文用 DINOv3 这类 2D 视觉基础模型的语义知识,通过"跨模态亲和迁移"(CMAT) 预训练让 3D 编码器对齐 2D 的 patch 间关系结构,再配一个轻量级提示分割器,在 PIAD/PIADv2/LASO 上以远小于 MLLM 方案的参数量取得 SOTA。
- Unlocking the Power of Critical Factors for 3D Visual Geometry Estimation
-
本文用一套严格消融把前馈多帧视觉几何估计(以 VGGT 为代表)里"哪些训练因素真正决定性能"挖出来,发现常用的置信度损失和空间梯度损失其实在拖后腿、局部区域对齐会掉点,并据此提出一致性损失 + 高效高分辨率适配,整合成 CARVE 模型,在点云重建、视频深度、相机位姿三类任务的 7 个 benchmark 上取得领先且稳健的成绩。
- Unsupervised 3D Motion Estimation Using Event Camera
-
利用事件相机在不同投影轴上呈现的膨胀/收缩条纹隐含深度变化这一线索,本文推导出光流散度与"深度运动"(motion in depth)之间的解析关系做初值、再用一个方向膨胀调制模块(DEM)细化,最后把深度运动写进事件级 warping 并用对比度最大化联合优化,从而完全无监督地同时估计 2D 光流与沿视线方向的运动,在 CarlaEvent3D 上取得了远超无监督基线的精度。
- Unsupervised Monocular 3D Keypoint Discovery from Multi-View Diffusion Priors
-
KeyDiff3D 把预训练多视角扩散模型当作"几何先验来源"——既用它从单张图生成多视角图像做自监督信号,又从它的中间特征里抽出隐含的 3D 几何线索升维成显式体素,从而在没有任何 3D 标注、相机参数或多视角采集的情况下,仅凭一张图就预测出准确且可泛化的 3D 关键点(Human3.6M 单视角 MPJPE 119mm,超过所有单视角无监督基线,甚至打平部分多视角方法)。
- Unsupervised Multi-Scale Segmentation of 3D Subcellular World with Stable Diffusion Foundation Model
-
不训练、不标注,直接借用预训练 Stable Diffusion 的注意力特征做谱聚类,再配一套启发式特征聚合与自适应阈值,把冷冻电镜断层图(cryo-ET)里大到细胞膜、小到核糖体的多尺度亚细胞结构一并分割出来,得到的伪标签训练下游模型后,效果逼近人工专家标注。
- Urban-GS: A Unified 3D Gaussian Splatting Framework for Compact and High-Fidelity Aerial-to-Street Reconstruction
-
Urban-GS 把无人机俯拍(aerial)和街景平拍(street)两类视角统一进一套 3D 高斯泼溅框架,用「投影面积加权的密集化 + 贡献度加权的锚点剪枝 + 全局到局部的二阶段优化」三招同时解决跨视角尺度冲突、显存爆炸和欠优化区域问题,在多个城市场景上渲染质量超越 SOTA 的 Horizon-GS,同时把锚点存储平均降低 41%。
- UST-Hand: An Uncertainty-aware Spatiotemporal Point Cloud Interaction Network for 3D Self-supervised Hand Pose Estimation
-
UST-Hand 用条件归一化流把每个视角的 2D 手部关节建成一个概率分布而非确定点,采样出多个假设后三角化进一个统一的概率 3D 点云空间,再用时空点 Transformer(STPT)迭代细化,从而在只有含噪 2D 伪标签监督的自监督设定下,把多视角手部网格误差(MPVPE)相对前 SOTA 最多降低 37.8%。
- UZ3DVG: Unaided Zero-Shot 3D Visual Grounding with Generated Language Conditions
-
UZ3DVG 把 VLM 从推理链路里彻底踢出去——只在训练时用它给 RGB-D 场景自动生成「3D 空间描述伪标签 + 推理链」,再把这套推理逻辑蒸馏进一个轻量学生网络,使得推理阶段只吃点云和文本、不依赖任何 2D 图像或 LLM/VLM 交互,在 ScanRefer / NR3D 上取得零样本 SOTA 的同时把速度拉到 7.69 FPS(比现有方法快约 38 倍)。
- V-DPM: 4D Video Reconstruction with Dynamic Point Maps
-
V-DPM 把只能处理图像对的「动态点图(Dynamic Point Map, DPM)」扩展到整段视频,通过一个「时变 + 时不变」两阶段点图分解和一个时间条件解码器,在预训练好的静态重建器 VGGT 上只用少量合成数据微调,就实现了单次前馈的 4D 重建——同时恢复出 3D 形状、相机参数和场景中每个点的运动,2-view 误差比此前 SOTA 低约 5 倍。
- VAD-GS: Visibility-Aware Densification for 3D Gaussian Splatting in Dynamic Urban Scenes
-
VAD-GS 针对自动驾驶城市场景里点云稀疏、相机视野几乎不重叠的问题,用体素可见性推理主动找出几何缺失/失真的实例,再挑选跨相机跨时刻的支撑视图做多视图立体(MVS)重建,把缺失结构补成可靠的几何先验来初始化新高斯,并首次把这套 MVS 致密化扩展到运动物体上,在 Waymo 和 nuScenes 上同时刷新了渲染质量和几何一致性。
- Variational Graph-based Normal Integration
-
本文把"法向图 → 深度"的法向积分问题重写成有向加权图上的一个统一优化目标,用三元组 + 两分量高斯混合显式建模深度不连续,再用变分推断交替求解深度和图权重;它不仅在规则网格上超过当前 SOTA(BiNI),还能直接处理 BiNI 这类方法做不了的散乱点(scattered oriented points)。
- VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM
-
提出 VarSplat,首个在3DGS-SLAM中学习逐splat外观方差 \(\sigma^2\) 并通过全方差定律渲染逐像素不确定性图 \(V\) 的系统,将不确定性统一应用于跟踪、子图配准和回环检测,在4个数据集上取得鲁棒且领先的性能。
- VDFE: Difference-Aware 3D Scene Editing with Non-Intrusive Video Diffusion Priors for Multi-View Consistency and Efficiency
-
VDFE 把文本驱动的 3D 场景编辑拆成「先用视频扩散先验做多视图一致的流编辑、再靠流差精确定位编辑区域、最后只更新该区域的高斯」三步,在不侵入式利用预训练视频扩散模型的前提下,实现了对 3D Gaussian Splatting 场景既精确又高效的可控编辑。
- Velox: Learning Representations of 4D Geometry and Appearance
-
Velox 用一个 Perceiver 编码器把无结构的时空彩色点云压成一小组"动态token"(>30× 压缩),再用两个互补解码器(流匹配 4D 表面解码器学几何 + 3D 高斯解码器学外观)联合监督,得到一个无需时间对应关系、同时刻画 4D 几何与外观的通用潜在表示,可直接复用到 video-to-4D 生成、3D 跟踪、布料模拟三个下游任务并取得 SOTA。
- VENI: Variational Encoder for Natural Illumination
-
VENI 用一个 SO(2) 旋转等变的变分自编码器为户外自然光照建立先验:以新的 Vector Neuron Vision Transformer(VN-ViT)作编码器、沿用 RENI++ 的等变神经场作解码器,把球面环境贴图直接编码成结构良好、唯一性强的隐空间,从而比只有解码器的 RENI++ 插值更平滑、可扩展到大数据集,并提升逆渲染等下游任务表现。
- VGA: Empowering Aerial-Ground Localization by Visual Geometry Alignment
-
VGA 针对无标定的空中无人机视角与地面视角之间的极端宽基线 6-DoF 相对位姿估计,在 MASt3R 主干上额外学习两个物理先验——从透视场推出的重力对齐先验、把两视角投到共享俯视平面后做 Procrustes 对齐的平面方位先验,再用一个推理时联合优化把两类先验当几何约束去精修位姿,在 MatrixCity / ACC-NVS1 / ULTRRA 上把 AUC@30° 较次优方法提升约 11%。
- VGG-T3: Offline Feed-Forward 3D Reconstruction at Scale
-
提出VGG-T3,通过测试时训练(TTT)将VGGT中全局注意力层的变长KV表示压缩为固定大小MLP,将离线前馈三维重建的计算复杂度从 \(O(n^2)\) 降至 \(O(n)\),实现了千张图片级别的大规模场景重建(1k张图仅需58秒)。
- VGGT-360: Geometry-Consistent Zero-Shot Panoramic Depth Estimation
-
VGGT-360 把全景单目深度估计重新表述为"先用 VGGT 类 3D 基础模型从多视角重建一个全局一致的 3D 模型、再投影回全景"的问题,通过三个免训练即插即用模块(不确定性引导的自适应投影、结构显著性增强注意力、相关性加权 3D 修正)把过去各视角独立推理的碎片化深度统一成跨视图一致的结果,在多个室内外数据集上零样本超过有监督和免训练 SOTA。
- VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection
-
提出 VGGT-Det,首个面向无传感器几何输入 (SG-Free) 的多视图室内3D目标检测框架,通过挖掘 VGGT 编码器内部的语义先验(注意力引导查询生成 AG)和几何先验(查询驱动特征聚合 QD),在 ScanNet 和 ARKitScenes 上分别超越最优方法 4.4 和 8.6 [email protected]。
- VGGT-\(\Omega\)
-
把 VGGT 这类前馈三维重建模型系统性地"做大做强":通过寄存器注意力 + 轻量稠密头 + 单头多任务监督把训练显存压到原来的约 30%,再配一条能标注动态视频的大规模数据流水线和 DINO 式自监督蒸馏,用 15× 的数据把模型从 0.2B 扩到 10B,在静态/动态六大基准上全面刷新 SOTA(如 Sintel 相机位姿 AUC@3° 22.5→40.0,相对提升 77%,且比 MegaSaM 快 50×)。
- VIAFormer: Voxel-Image Alignment Transformer for High-Fidelity Voxel Refinement
-
VIAFormer 把"修补残缺含噪体素"定义成一个多视图图像引导的体素修正(Conditioned Voxel Refinement)任务,用 Image Index 给 2D 图像 token 显式赋予 3D 坐标、用 Correctional Flow 直接学"从脏体素到干净体素"的修正轨迹、用 Hybrid Stream Transformer 做双向跨模态融合,在 VFM 输出和合成噪声两类退化上都刷到 SOTA(合成噪声 IoU 提升达 39.1%)。
- VIMCAN: Visual-Inertial 3D Human Pose Estimation with Hybrid Mamba-Cross-Attention Network
-
VIMCAN 把 Mamba 的线性复杂度时序建模和 Cross-Attention 的跨模态空间推理拼成一个混合架构,用 RGB 关键点 + 可穿戴 IMU 融合估计 3D 人体姿态,在 TotalCapture 上做到 17.2 mm MPJPE 的同时支持消费级硬件 60+ FPS 实时推理。
- Vista4D: Video Reshooting with 4D Point Clouds
-
Vista4D 把输入视频升维成一个"静态像素时序持久"的 4D 点云,再从用户指定的目标相机渲染点云、与源视频一起塞进微调过的视频扩散模型里,从而在保留原场景动态的前提下"换个机位重新拍一遍",并通过用带噪多视角数据训练让模型对真实世界 4D 重建瑕疵鲁棒。
- Volumetric Functional Maps
-
本文首次把表面几何处理里成熟的 functional maps(函数映射)框架搬到 3D 体积(四面体网格)上:用体积拉普拉斯算子的特征函数构造一个与离散化无关的函数空间,从而在体内部建立稠密对应,支持连通性迁移、分割迁移、实体纹理等应用,并且反过来还能让经典的表面形状匹配更准。
- Voxify3D: Pixel Art Meets Volumetric Rendering
-
把 3D mesh 转成"乐高/像素块"风格体素艺术:用一个可微的两阶段体素辐射场,先用 DVGO 学出粗几何与颜色,再用六视图正交渲染的像素画监督 + patch 级 CLIP 语义损失 + 调色板约束的 Gumbel-Softmax 离散颜色优化,端到端产出语义清晰、色块干净、可控抽象度(2-8 色、20×-50× 分辨率)的体素艺术(CLIP-IQA 37.12,77.90% 用户偏好)。
- Wanderland: Geometrically Grounded Simulation for Open-World Embodied AI
-
提出 Wanderland real-to-sim 框架:利用手持多传感器扫描仪(LiDAR+IMU+RGB)采集开放世界室内外场景,通过 LIV-SLAM 获取度量级精确几何与相机位姿,结合 3DGS 实现光学真实感渲染 + 几何接地碰撞仿真,构建 530 场景/42 万帧/380 万 m² 的大规模数据集,系统证明纯视觉重建在度量精度、Mesh 质量和导航策略训练/评估可靠性上远不及 LiDAR 增强方案。
- Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
-
Wave-Former 用毫米波(mmWave)无线信号穿透纸箱、杂物等遮挡物,把"只能看到雷达正对面"的稀疏点云补全成隐藏物体的完整 3D 形状——靠的是一套把毫米波物理特性(镜面反射、各向异性可见性、强噪声)直接编进训练数据与损失的"物理感知形状补全"框架,从而完全用合成点云训练就能泛化到真实测量,在真实遮挡数据集上把召回率从 54% 提到 72%、精度保持 85%。
- Wavelet-Driven 3D Anomaly Detection under Pose-Agnostic and Sparse-View
-
针对稀疏视角下位姿无关异常检测(PAD)会因观测不足而过拟合、位姿估计失准的问题,本文提出 Wave-Pose3D,把 3D 高斯重建、位姿估计、异常打分三个环节全部搬到小波频域里做,用低频管全局结构、高频管细节,在 10%/20% 稀疏视角下取得 SOTA。
- WeatherCity: Urban Scene Reconstruction with Controllable Multi-Weather Transformation
-
WeatherCity 把「2D 天气图像编辑 + 共享特征的多天气高斯表示 + 物理驱动粒子模拟」三件事串成一个统一框架,让自动驾驶 4D 场景在重建之后还能可控地切换晴/雨/雪/雾并调强度,在 Waymo / nuScenes 上 CLIP-S、Sem-CS 等指标全面领先,且渲染速度达 25.67 FPS。
- What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?
-
系统消融合成立体匹配训练数据的设计空间(浮动物体、背景、材质、基线等),发现"真实室内场景 + 密集浮动物体 + 宽基线"是最优组合,据此构建的 WMGStereo-150k 仅用单一数据集即超越四大经典数据集的混合训练。
- Where, What, Why: Toward Explainable 3D-GS Watermarking
-
提出一种表示原生的 3D-GS 水印框架,通过 Trio-Experts 选载体(where)、Channel-wise Group Mask 控梯度(what)、解耦微调实现可审计归因(why),在渲染质量(PSNR +0.83 dB)和比特精度(+1.24%)上均超越 SOTA。
- WildPose: A Unified Framework for Robust Pose Estimation in the Wild
-
WildPose 把前馈式 3D 重建模型 MASt3R 的强感知前端嫁接进 DROID-SLAM 的可微分束调整(BA)优化后端,再配一个高容量的"逐边"运动掩码检测器剔除动态干扰,做出一个在动态、静态、低位移短序列上都稳的统一单目相机位姿估计框架。
- WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments
-
WildRayZer 把自监督、无位姿的大视图合成模型 RayZer 扩展到「相机和物体都在动」的真实场景:靠一个只解释刚性结构的静态渲染器,用它渲不出来的残差自动发现动态物体,蒸馏出一个运动掩码估计器,在场景编码前剔除动态 token、在渲染损失里屏蔽动态像素,从而一次前馈就能合成「去掉瞬态物体」的干净新视图,全程不需要任何位姿或掩码标注。
- WonderZoom: Multi-Scale 3D World Generation
-
WonderZoom 从单张图像出发,让用户可以交互式地"放大"3D 场景的任意区域,自回归地合成原本不存在的更精细尺度内容(从大地景观一路到瓢虫趴在花瓣上的微观细节),靠一种可增量更新的尺度自适应高斯面元表示 + 一个渐进式细节合成器,在质量和文本对齐上大幅超过现有视频和 3D 世界生成模型。
- WorldGen: From Text to Traversable and Interactive 3D Worlds
-
WorldGen 把"文本 → 一整个可行走、可编辑的 3D 世界"拆成「程序化布局 → navmesh 条件整体重建 → 场景分解 → 逐物体增强」四阶段流水线,用 LLM 驱动的程序化生成器先锁死可通行结构,再借图像生成器与 image-to-3D 先验补全外观与细节,约 5 分钟产出一个可直接塞进游戏引擎、角色能爬能跳的 50×50 米场景。
- WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories
-
WorldStereo 在现成视频扩散模型(VDM)上挂两个互补的"几何记忆"ControlNet 分支——全局几何记忆(GGM)用增量更新的点云保结构、保相机精度,空间立体记忆(SSM)用检索参考帧 + pointmap 约束注意力保细节——从而沿多条相机轨迹生成彼此一致的视频,喂给前馈 3D 重建后得到高保真点云;再用蒸馏(DMD)把推理压到 4 步、20× 加速。
- Write Where It Matters: Policy-Guided Watermarks for 3D Gaussian Splatting
-
把"往 3D 高斯场景里嵌入版权水印"重新建模成一个马尔可夫决策过程,用一个轻量策略网络逐锚点(per-anchor)地决定"写在哪、写多重",再由不可见性 + 抗失真解码的联合奖励来训练策略,在 Blender / LLFF / Mip-NeRF 360 三个数据集上以约 9 分钟/场景的代价拿到 SOTA 的比特准确率和渲染保真度。
- X-band Radar Non-Line-of-Sight Imaging
-
用 10 GHz 的 X 波段雷达取代光学/毫米波传感器做非视距(NLOS)成像,借助长波长把粗糙墙面的"漫反射"变成"镜面反射",再配一套"稠密预测 + 几何感知残差重建"的神经网络对抗长波带来的低角分辨率,把"拐角成像"的可用距离从光学的几米一举拉到真实场景 40 m。
- X-Part: High Fidelity And Structure Coherent Shape Decomposition And Completion
-
X-Part 把一个完整 3D 物体分解成语义合理、结构连贯、且能补全被遮挡内部几何的多个部件——核心是用「包围盒」当部件提示、注入逐点语义特征当语义引导,在一个同步的多部件扩散框架里一次性生成所有部件,在部件分解和整体生成两项任务上都刷到 SOTA。
- XPaintNet: An eXtreme Lightweight Framework for Stereoscopic Conversion without Inpainting Network
-
针对 2D→3D 立体转换中"深度估计 + 前向 warp + 重型 inpainting 网络"流水线又慢又在遮挡边界出 artifact 的问题,本文提出 Bi-Warp(双向 warp 融合)彻底去掉 inpainting 网络,并据此搭出轻量网络 XPaintNet,在 2K 分辨率下跑到 100+ FPS 的同时质量与 SOTA 持平。
- Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion
-
提出 Yo'City 多智能体框架,通过"City–District–Grid"层次化规划 + produce–refine–evaluate 等距图像合成环 + 场景图引导扩展机制,实现用户个性化文本驱动的无界 3D 城市生成,在语义一致性和视觉质量上全面超过 SynCity 等现有方法。
- Z-Order Transformer for Feed-Forward Gaussian Splatting
-
用 Z-order(Morton 莫顿)空间填充曲线把杂乱的逐像素高斯重排成保持空间局部性的 1D 序列,再配合「分组注意力 + top-k 注意力」的稀疏 Transformer 与 Z-order 池化,一次前馈即可预测高质量 3D 高斯,并把高斯数量压到 DepthSplat/AnySplat 的 1/2~1/3,推理比逐场景优化的 3DGS 快约 1000 倍。
- Zero-Shot Depth Completion with Vision-Language Model
-
把稀疏深度以「视觉 token + 文本提示 + 文本监督」三种方式注入一个几乎不改结构的 VLM(Qwen2.5-VL 3B),让它像理解语言指令一样理解「哪里该补、哪里该保留」,从而无需稠密真值就能做零样本深度补全,在 7 个跨域 benchmark 上最高提升 17.3%。
- Zero-Shot Reconstruction of Animatable 3D Avatars with Cloth Dynamics from a Single Image
-
DynaAvatar 提出首个零样本框架,从单张图像重建具有运动依赖布料动态效果的可动画化3D人体Avatar,核心通过静态-动态知识迁移策略和光流引导的 DynaFlow 损失函数,在有限动态数据下实现了逼真的衣物动态建模,全面超越现有方法。
- ZipMap: Linear-Time Stateful 3D Reconstruction via Test-Time Training
-
ZipMap 把整段图像集合用 Test-Time Training(TTT)层"压缩"进一个固定大小的快权重 MLP,从而用线性时间完成双向前馈 3D 重建(相机位姿 + 深度 + 点云),在精度上追平甚至超过 VGGT/π³ 这类二次复杂度方法,700+ 帧 10 秒内重建(比 VGGT 快 20×),而且这个隐式场景状态还能被实时查询出新视角的几何与外观。
- Zoo3D: Zero-Shot 3D Object Detection at Scene Level
-
Zoo3D 提出第一个完全免训练(zero-shot)的场景级 3D 目标检测框架:用 2D 实例掩码的图聚类直接拼出 3D 框、再用一个带「最佳视角选择 + SAM 精修 + 多尺度 CLIP」的开放词表模块打语义标签,并借 DUSt3R 把输入从点云一路放宽到无位姿的纯图像,在 ScanNet200/ARKitScenes 上零样本就超过了所有自监督方法。