🧊 3D 视觉¶
📷 CVPR2026 · 252 篇论文解读
📌 同领域跨会议浏览: 🔬 ICLR2026 (65) · 🤖 AAAI2026 (74) · 🧠 NeurIPS2025 (116) · 📹 ICCV2025 (268) · 🧪 ICML2025 (11) · 💬 ACL2025 (1)
🔥 高频主题: 3D 高斯渲染 ×48 · 三维重建 ×24 · 动态场景 ×22 · 点云 ×18 · 少样本学习 ×13
- 3D-Fixer: Coarse-to-Fine In-place Completion for 3D Scenes from a Single Image
-
提出"就地补全"(in-place completion)新范式,将预训练物体级生成先验扩展到场景级,直接在原始位置对碎片化几何进行补全,无需显式位姿对齐,同时构建110K规模场景级数据集 ARSG-110K,大幅超越 MIDI 和 Gen3DSR 等基线。
- 3D-IDE: 3D Implicit Depth Emergent
-
提出"隐式几何涌现原则"(IGEP),通过训练时的轻量级几何验证器和全局3D教师进行特权监督,使视觉编码器在仅输入RGB视频时即具备3D感知能力,推理时零延迟开销,在多个3D场景理解基准上超越同类方法。
- 3D Gaussian Splatting with Self-Constrained Priors for High Fidelity Surface Reconstruction
-
提出自约束先验(Self-Constrained Prior),通过融合当前3D高斯渲染的深度图构建TSDF距离场,以此为先验对高斯施加几何感知约束(异常值移除、不透明度约束、向表面移动),实现高保真表面重建,在NeRF-Synthetic和DTU上达到SOTA。
- 3D sans 3D Scans: Scalable Pre-training from Video-Generated Point Clouds
-
提出LAM3C框架,首次证明从无标注网络视频(房产导览等)重建的视频生成点云(VGPC)可替代真实3D扫描进行3D自监督预训练,通过拉普拉斯平滑损失和噪声一致性损失稳定噪声点云上的表示学习,配合自建RoomTours数据集(49K场景)在室内语义和实例分割上匹配甚至超越使用真实扫描的方法。
- 3DrawAgent: Teaching LLM to Draw in 3D with Early Contrastive Experience
-
提出免训练的 3DrawAgent 框架,让冻结的 LLM 通过"对比经验优化"(contrastive knowledge extraction)自我学习3D空间推理,以自回归方式生成语言驱动的3D Bezier草图,无需参数更新即可达到接近有训练方法的水平。
- 4C4D: 4 Camera 4D Gaussian Splatting
-
提出 4C4D 框架,通过神经衰减函数(Neural Decaying Function)自适应控制高斯不透明度衰减,解决稀疏(仅4个相机)4D高斯溅射中几何与外观学习的不平衡问题,在多个数据集上达到SOTA。
- 4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video
-
将马科动物4D重建解耦为运动估计(AniMoFormer时空Transformer+后优化)和外观重建(EquineGS前馈3DGS)两个子任务,用VAREN参数化模型做桥梁,仅在合成数据(VarenPoser+VarenTex)上训练即在真实数据APT-36K和AiM上达到SOTA,并能零样本泛化到斑马和驴。
- 4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video
-
提出 4DEquine 框架,将单目视频的马科动物 4D 重建解耦为动态运动估计(AniMoFormer)和静态外观重建(EquineGS)两个子问题,仅用合成数据训练即在真实数据上达到 SOTA。
- A2Z-10M+: Geometric Deep Learning with A-to-Z BRep Annotations for AI-Assisted CAD Modeling and Reverse Engineering
-
构建了包含 1000 万+ 多模态标注(高分辨率3D扫描、手绘3D草图、文本描述、BRep拓扑标签)的 100 万+ CAD 模型数据集 A2Z,为 Scan-to-BRep 逆向工程和多模态 BRep 学习提供了前所未有的数据基础,并训练基础模型在边界/角点检测上大幅超越现有方法。
- A Semantically Disentangled Unified Model for Multi-category 3D Anomaly Detection
-
提出 SeDiR 框架,通过粗到细全局标记化(CFGT)、类别条件对比学习(C3L)和几何引导解码器(GGD)三个模块实现语义解纠缠的统一3D异常检测,解决跨类别特征纠缠(ICE)问题,在 Real3D-AD 和 Anomaly-ShapeNet 上分别超出SOTA 2.8% 和 9.1% AUROC。
- GAP: Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation
-
GAP利用预训练3D几何基础模型(π³)提取3D特征,融合2D语义和本体感知,通过条件扩散联合预测未来动作序列和未来3D pointmap,在RoboTwin 2.0和真实双臂实验中达到SOTA。
- Action-guided Generation of 3D Functionality Segmentation Data
-
提出 SynthFun3D,首个从动作描述自动生成3D功能性分割训练数据的方法,通过元数据驱动的3D物体检索和场景布局,无需人工标注即可生成精确的部件级交互掩码,合成+真实数据训练在 SceneFun3D 基准上提升 +2.2 mAP / +6.3 mAR / +5.7 mIoU。
- ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
-
提出 ActionMesh,通过最小化扩展预训练3D扩散模型增加时间轴(时序3D扩散),再用时序3D自编码器将独立形状序列转为拓扑一致的动画网格,仅2分钟即可从视频/文本/3D网格等多种输入生成产品级动画3D网格,在几何精度和时间一致性上均达SOTA。
- Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation
-
针对扩散策略多步去噪慢、Flow Matching 单步快但模式平均导致碰撞的问题,提出 Ada3Drift:在训练阶段构造 drifting field 将预测吸引到最近 expert demonstration 并排斥其他模式,配合多尺度场聚合和 sigmoid 调度损失过渡,实现 1 NFE 推理下保持多模态动作分布,在 Adroit/Meta-World/RoboTwin 和真实机器人上达到 SOTA。
- Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation
-
Ada3Drift 提出将扩散策略中的迭代精炼从推理时转移到训练时,通过训练时漂移场(吸引预测动作至专家模式+排斥其他生成样本)实现高保真单步(1 NFE)3D 视觉运动策略,在 Adroit、Meta-World、RoboTwin 和真实机器人任务上达到 SOTA,同时推理速度提升 10 倍。
- Adapting Point Cloud Analysis via Multimodal Bayesian Distribution Learning
-
BayesMM 提出了一个无需训练的动态贝叶斯分布学习框架,将文本和几何模态建模为高斯分布,并通过贝叶斯模型平均自动调节模态权重,在多个点云基准上实现了鲁棒的测试时适配,平均提升超过 4%。
- AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction
-
提出 AeroDGS,一个面向单目无人机视频的物理引导 4D 高斯泼溅框架,通过单目几何提升模块重建可靠的静态与动态几何,并引入可微的地面支撑、直立稳定性和轨迹平滑性物理先验,将模糊的图像线索转化为物理一致的运动估计,在合成与真实 UAV 场景上均优于现有方法。
- AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis
-
AffordGrasp 提出了一个基于扩散的跨模态框架,通过可供性引导的潜空间扩散和分布调节模块(DAM),从文本指令和物体点云生成物理可行且语义一致的人手抓取姿态,在四个基准上显著超越现有方法。
- AffordMatcher: Affordance Learning in 3D Scenes from Visual Signifiers
-
AffordMatcher 提出了一种从视觉信号(RGB 图像中的人物交互)定位 3D 场景中可供性区域的方法,通过大规模 AffordBridge 数据集和基于不相似度矩阵的 Match-to-Match 注意力机制,在零样本可供性分割上达到 53.4 mAP,超越次优方法 7.8 个点。
- Affostruction: 3D Affordance Grounding with Generative Reconstruction
-
提出Affostruction,通过稀疏体素融合的生成式重建完成物体几何(包括未观测区域),并用Flow Matching建模功能可供性的多模态分布,在完整3D形状上实现功能区域定位,重建IoU提升54.8%、affordance aIoU提升40.4%。
- AnchorSplat: Feed-Forward 3D Gaussian Splatting with 3D Geometric Priors
-
AnchorSplat 提出了一种锚点对齐的前馈 3DGS 框架,以 3D 几何先验(稀疏点云)为锚点直接在 3D 空间预测高斯,用约 20 倍更少的高斯数量和一半的重建时间在 ScanNet++ v2 上达到 SOTA 性能(PSNR 21.48),同时具备更好的深度估计精度。
- AnthroTAP: Learning Point Tracking with Real-World Motion
-
AnthroTAP 提出了一种自动化管线,从真实人体运动视频中通过 SMPL 拟合和光流过滤生成大规模伪标签点跟踪数据,仅用 1.4K 视频 + 4 GPU 一天训练即达到TAP-Vid 基准的 SOTA 性能,超越使用 15M 视频的 BootsTAPIR。
- AnyPcc: Compressing Any Point Cloud with a Single Universal Model
-
提出 AnyPcc,通过 Universal Context Model(融合空间+通道双粒度先验)和 Instance-Adaptive Fine-Tuning(实例自适应微调)策略,用单一模型在 15 个多样化数据集上实现 SOTA 点云几何压缩,相比 G-PCC v23 获得 ~12% 的码率增益。
- APC: Transferable and Efficient Adversarial Point Counterattack for Robust 3D Point Cloud Recognition
-
APC 提出一种轻量级输入级净化模块,通过生成逐点反扰动来中和对抗攻击,同时在几何一致性和语义一致性双重约束下训练,实现了跨攻击和跨模型的强鲁棒性。
- ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions
-
ArtHOI 首次实现了从单目 RGB 视频重建手与铰接物体(如剪刀、眼镜、笔记本电脑)4D 交互的完整流水线,通过自适应采样精化(ASR)优化物体度量尺度和位姿、以及 MLLM 引导的手物对齐方法,在多个数据集上超越了需要预扫描物体几何的基线 RSRD。
- ArtLLM: Generating Articulated Assets via 3D LLM
-
ArtLLM 将铰接物体生成建模为语言生成问题,使用 3D 多模态 LLM 从点云自回归预测部件布局和运动关节参数(离散化为 token),再结合 XPart 生成高保真部件几何,在 PartNet-Mobility 数据集上显著超越现有方法(mIoU 0.69, 推理仅需 19 秒)。
- AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models
-
提出 AVA-Bench,首个将视觉基础模型(VFM)的能力解耦为 14 种原子视觉能力(AVA)的系统性评测基准,通过训练-测试分布对齐和单一能力隔离测试,精准定位 VFM 的强项与短板,并发现 0.5B 小模型即可保持与 7B 模型相当的 VFM 排名一致性。
- AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models
-
提出 AVA-Bench,将视觉基础模型(VFM)的评估分解为14种"原子视觉能力"(AVA),通过训练/测试分布对齐和单能力隔离测试,精确定位 VFM 的优势和短板,发现0.5B的LLM就能保持与7B相同的VFM排名,评估成本降低8倍。
- AvatarPointillist: AutoRegressive 4D Gaussian Avatarization
-
AvatarPointillist 提出了一种自回归(AR)生成框架来构建 4D 高斯头像:用 decoder-only Transformer 逐点生成 3DGS 点云(含绑定信息),再用 Gaussian Decoder 预测渲染属性,打破了固定模板拓扑的限制,实现了自适应点密度调整,在 NeRSemble 上全面超越 LAM、GAGAvatar 等基线。
- Back to Point: Exploring Point-Language Models for Zero-Shot 3D Anomaly Detection
-
BTP 首次将预训练的点-语言模型(PLM,如 ULIP)应用于零样本 3D 异常检测,提出多粒度特征嵌入模块(MGFEM)融合 patch 级语义、几何描述子和全局 CLS token,配合联合表示学习策略,在 Real3D-AD 点级 AUROC 达到 84.5%,大幅超越观 VLM 渲染方案的 PointAD(73.5%)。
- BRepGaussian: CAD Reconstruction from Multi-View Images with Gaussian Splatting
-
BRepGaussian 首次实现了从多视图图像直接重建完整 B-rep CAD 模型,通过两阶段的 2D 高斯泼溅学习边缘和面片特征,再经参数化拟合生成水密的边界表示,无需点云监督。
- BulletGen: Improving 4D Reconstruction with Bullet-Time Generation
-
提出 BulletGen,在选定的"子弹时间"冻结帧用静态视频扩散模型生成新视角,精确定位后用于监督 4D 高斯场景优化,在仅有单目视频输入的情况下实现极端新视角合成和 2D/3D 追踪的 SOTA。
- Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?
-
提出 TABLeT,利用预训练的 2D 自然图像自编码器(DCAE)将 3D fMRI 体积压缩为仅 27 个连续 token,配合简单 Transformer 编码器实现前所未有的长时序建模(256 帧),在 UKB、HCP、ADHD-200 上多任务超越 SOTA 体素方法,且计算效率大幅提升。
- CARI4D: Category Agnostic 4D Reconstruction of Human-Object Interaction
-
提出CARI4D,首个类别无关的方法,从单目RGB视频中重建度量尺度的4D人物交互——包括物体形状重建、位姿跟踪、手部接触推理和物理约束优化,零样本泛化到未见类别。
- Catalyst4D: High-Fidelity 3D-to-4D Scene Editing via Dynamic Propagation
-
提出Catalyst4D框架,将高质量的3D静态编辑结果通过锚点运动引导(AMG)和颜色不确定性外观精炼(CUAR)两个模块传播到4D动态高斯场景中,实现时空一致的高保真动态场景编辑。
- Catalyst4D: High-Fidelity 3D-to-4D Scene Editing via Dynamic Propagation
-
提出Catalyst4D框架,通过锚点运动引导(AMG,基于最优传输建立区域级对应)和颜色不确定性引导外观精炼(CUAR,自动识别并修复遮挡伪影),将成熟的3D静态编辑结果传播到4D动态高斯场景中,在CLIP语义相似度上一致性超越现有方法。
- CGHair: Compact Gaussian Hair Reconstruction with Card Clustering
-
提出 CGHair,通过发片(hair card)引导的分层聚类和共享高斯外观码本,在保持可比视觉质量的同时实现 200 倍以上的外观参数压缩和 4 倍发丝重建加速。
- Changes in Real Time: Online Scene Change Detection with Multi-View Fusion
-
提出首个同时具备在线、姿态无关、无标注、多视角一致性的场景变化检测(SCD)方法,通过自监督融合损失将像素级和特征级变化线索集成到 3DGS 变化表示中,在超过 10 FPS 的实时速率下超越了所有已有离线方法的检测精度。
- CLIPoint3D: Language-Grounded Few-Shot Unsupervised 3D Point Cloud Domain Adaptation
-
首个基于 CLIP 的少样本无监督 3D 点云域自适应框架,通过知识驱动的 prompt tuning、参数高效微调、熵引导视图选取和不确定性感知对齐损失,在 PointDA-10 和 GraspNetPC-10 上以仅 ~11M 可训练参数取得 3-16% 的一致性精度提升。
- CMHANet: A Cross-Modal Hybrid Attention Network for Point Cloud Registration
-
提出 CMHANet,通过跨模态混合注意力机制将 2D 图像纹理语义特征与 3D 点云几何特征深度融合,结合对比学习优化函数,在 3DMatch/3DLoMatch 上实现 SOTA 点云配准性能。
- CMHANet: A Cross-Modal Hybrid Attention Network for Point Cloud Registration
-
提出CMHANet,设计三阶段混合注意力(几何自注意力→图像聚合注意力→源-目标交叉注意力)融合2D图像纹理语义与3D点云几何信息,并引入跨模态对比损失,在3DMatch/3DLoMatch上达到最优配准召回率(92.4%/75.5%),TUM RGB-D零样本RMSE仅0.76×10⁻²。
- Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass
-
提出CHROMM统一框架,从多人多视图视频中一次性联合估计相机参数、场景点云和人体网格(SMPL-X),无需外部模块或预处理数据,在全局人体运动估计和多视图位姿估计任务上取得竞争力性能,且比优化方法快8倍以上。
- Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass
-
提出CHROMM统一框架,整合Pi3X几何先验和Multi-HMR人体先验到单一前馈网络,从多人多视图视频中一次性联合重建相机、场景点云和SMPL-X人体网格,无需外部模块、预处理或迭代优化,RICH上多视图WA-MPJPE达53.1mm且比HAMSt3R快8倍以上。
- Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation
-
Context-Nav 将长文本描述的上下文信息从后验验证信号提升为前驱探索先验——通过上下文驱动的 value map 引导前沿选择,并在候选目标处执行视点感知的 3D 空间关系验证,在 InstanceNav 和 CoIN-Bench 上无需任何训练即取得 SOTA。
- Cross-Instance Gaussian Splatting Registration via Geometry-Aware Feature-Guided Alignment
-
提出 GSA(Gaussian Splatting Alignment),首个实现跨实例类别级 3DGS 模型配准的方法,通过几何感知特征引导的粗配准(扩展 ICP 求解相似变换)和多视角特征一致性的精配准,在同物体和跨物体场景下均大幅超越现有方法。
- CrowdGaussian: Reconstructing High-Fidelity 3D Gaussians for Human Crowd from a Single Image
-
CrowdGaussian 提出了从单张图像重建多人 3D 高斯泼溅表示的统一框架,通过自监督适配的大型遮挡人体重建模型(LORM)恢复被遮挡区域的完整几何,再通过自校准学习(SCL)训练的单步扩散精炼器(CrowdRefiner)提升纹理细节质量。
- CUBE: Representing 3D Faces with Learnable B-Spline Volumes
-
提出 CUBE(Control-based Unified B-spline Encoding),一种结合 B 样条体和可学习高维控制特征的混合几何表示,通过两阶段解码(B 样条基插值 + 轻量 MLP 残差)实现可编辑、高精度的 3D 人脸重建和扫描配准。
- CustomTex: High-fidelity Indoor Scene Texturing via Multi-Reference Customization
-
提出CustomTex框架,通过实例级的多参考图像驱动和双蒸馏训练策略(语义级VSD蒸馏+像素级超分蒸馏),实现3D室内场景的高保真、实例可控纹理生成,在语义一致性、纹理清晰度和减少"烘焙阴影"方面全面超越现有方法。
- Dark3R: Learning Structure from Motion in the Dark
-
提出 Dark3R 框架,通过教师-学生蒸馏将 MASt3R 的3D先验迁移到极端低光照(SNR < −4 dB)原始图像上,实现了传统方法完全失败的暗光环境下的运动恢复结构(SfM)和新视角合成。
- DeepShapeMatchingKit: Accelerated Functional Map Solver and Shape Matching Pipelines Revisited
-
本文提出了功能图求解器的向量化重构实现33倍加速,识别并记录了DiffusionNet的两个未记录实现变体,引入平衡准确率作为部分匹配评估的补充指标,并发布了统一的开源代码库。
- Deformation-based In-Context Learning for Point Cloud Understanding
-
提出 DeformPIC,将点云 In-Context Learning 从"掩码重建"范式重新定义为"形变迁移"范式,通过 Deformation Extraction Network 提取任务语义 + Deformation Transfer Network 迁移形变到查询点云,在重建/去噪/配准上分别降低 CD 1.6/1.8/4.7。
- DirectFisheye-GS: Enabling Native Fisheye Input in Gaussian Splatting with Cross-View Joint Optimization
-
将 Kannala-Brandt 鱼眼投影模型原生集成到 3DGS 流程中,并提出基于特征重叠的跨视图联合优化策略,避免了预去畸变带来的信息损失,在多个公开数据集上达到或超越 SOTA。
- DMAligner: Enhancing Image Alignment via Diffusion Model Based View Synthesis
-
提出 DMAligner,将图像对齐问题从传统的光流 warp 范式转化为"对齐导向的视图合成"任务,利用条件扩散模型直接生成对齐后的完整图像,配合专门构建的 DSIA 合成数据集和动态感知掩码模块(DMP),有效避免了 warp 方法固有的 ghosting 和遮挡伪影,在多个基准上全面超越现有方法。
- DROID-W: DROID-SLAM in the Wild
-
提出 DROID-W,通过将不确定性估计引入可微分 Bundle Adjustment(Uncertainty-aware BA),结合 DINOv2 特征驱动的动态不确定性更新机制和单目深度正则化,使 DROID-SLAM 在高度动态的野外(in-the-wild)场景中实现鲁棒的相机位姿估计和场景重建,约 10 FPS 实时运行。
- DropAnSH-GS: Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting
-
针对 3DGS 在稀疏视角下的过拟合问题,提出 DropAnSH-GS:用 Anchor-based Dropout(丢弃锚点及其邻域的 Gaussian 簇)替代独立随机 Dropout 来破坏局部冗余补偿效应,同时引入球谐函数(SH)Dropout 抑制高阶 SH 过拟合并支持训练后无损压缩。
- DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction
-
提出 DuoMo,将世界空间人体运动重建分解为两个独立的扩散模型:camera-space 模型从视频提取泛化性强的相机坐标运动估计,world-space 模型将 lifting 后的噪声提案精炼为全局一致的世界坐标运动。直接生成 mesh 顶点运动而非 SMPL 参数,在 EMDB 上 W-MPJPE 降低 16%,RICH 上降低 30%。
- Dynamic Black-hole Emission Tomography with Physics-informed Neural Fields
-
提出 PI-DEF,利用物理信息约束的坐标神经网络同时重建黑洞附近气体的 4D(时间+3D)发射率场和 3D 速度场,在稀疏 EHT 测量下显著优于硬约束 Keplerian 动力学的 BH-NeRF。
- E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training
-
E-RayZer是首个真正自监督的前馈式3D高斯重建模型,用显式3D高斯替代RayZer的隐式潜空间场景表示,配合基于视觉重叠度的课程学习策略,在零3D标注条件下学到几何接地的3D感知表征,位姿估计上碾压RayZer(RPA@5°从≈0提升至90.8),下游3D任务frozen-backbone probing大幅领先DINOv3/CroCo v2等主流预训练模型,甚至比肩有监督VGGT。
- E2EGS: Event-to-Edge Gaussian Splatting for Pose-Free 3D Reconstruction
-
提出 E2EGS,一个完全基于事件流的无位姿 3D 重建框架:通过 patch-based 时间一致性分析从事件流中提取抗噪边缘图,利用边缘信息指导高斯初始化和加权损失优化,在无需深度模型或 RGB 输入的情况下实现了高质量的轨迹估计和 3D 重建。
- Easy3E: Feed-Forward 3D Asset Editing via Rectified Voxel Flow
-
提出基于 TRELLIS 3D 生成骨干的前馈式 3D 资产编辑框架,通过 Voxel FlowEdit 在稀疏体素潜空间中实现全局一致的几何形变,并结合法线引导的多视角纹理精修恢复高频细节。
- Efficient Hybrid SE(3)-Equivariant Visuomotor Flow Policy via Spherical Harmonics
-
提出E3Flow,首个基于球谐表示的等变flow matching策略框架,通过特征增强模块(FEM)动态融合点云和图像两种模态的视觉信息,结合rectified flow实现高效等变动作生成,在MimicGen 8个任务上平均成功率超过最强基线SDP 3.12%的同时推理速度提升7倍。
- Ego-1K: A Large-Scale Multiview Video Dataset for Egocentric Vision
-
提出 Ego-1K,一个包含 956 段短视频的大规模时间同步第一人称多视角视频数据集(12+4 相机、60Hz),填补了第一人称动态 3D 重建领域的数据空白,并展示立体深度引导可大幅提升 4D 新视角合成质量。
- EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding
-
提出 EmbodiedSplat,首个在线前馈式语义 3DGS 框架,通过稀疏系数场+CLIP全局码本实现内存高效的逐高斯语义表示,结合3D几何感知特征,在300+帧流式输入下以5-6 FPS实现全场景开放词汇3D理解。
- EMGauss: Continuous Slice-to-3D Reconstruction via Dynamic Gaussian Modeling in Volume Electron Microscopy
-
将体电子显微镜(vEM)的各向异性切片重建问题重新建模为基于可变形2D高斯溅射的动态3D场景渲染任务,通过Teacher-Student伪标签机制在数据稀疏条件下实现高保真连续切片合成。
- EmoTaG: Emotion-Aware Talking Head Synthesis on Gaussian Splatting with Few-Shot Personalization
-
提出 EmoTaG,一个基于 FLAME-Gaussian 结构先验和门控残差运动网络(GRMN)的情感感知 3D 说话人头合成框架,仅需 5 秒视频即可实现 few-shot 个性化适配,同时兼顾情感表达、唇音同步和几何稳定性。
- Enhancing Hands in 3D Whole-Body Pose Estimation with Conditional Hands Modulator
-
提出Hand4Whole++模块化框架,通过轻量级CHAM模块将预训练手部估计器的特征注入冻结的全身姿态估计器中,实现手腕方向的精准预测,并通过可微刚性对齐从手部模型迁移精细手指关节和手部形状。
- EventHub: Data Factory for Generalizable Event-Based Stereo Networks without Active Sensors
-
本文提出 EventHub,一个无需 LiDAR 等主动传感器标注的事件相机立体匹配训练数据工厂,通过新视角合成生成代理事件+深度标签和跨模态蒸馏从 RGB 立体模型迁移知识,训练出的事件立体模型在跨域泛化上超越 LiDAR 监督模型(M3ED 和 MVSEC 上误差降低最高 50%)。
- Extend3D: Town-Scale 3D Generation
-
本文提出 Extend3D,一个无需训练的 3D 场景生成流水线,通过扩展预训练物体级 3D 生成模型(Trellis)的体素隐空间并引入重叠 patch 联合去噪、under-noising SDEdit 初始化和 3D 感知优化,从单张图像生成城镇级大规模 3D 场景,在人类偏好和定量评估中均超越现有方法。
- ExtrinSplat: Decoupling Geometry and Semantics for Open-Vocabulary Understanding in 3D Gaussian Splatting
-
提出外在范式(extrinsic paradigm),将语义从3DGS几何中完全解耦,通过多粒度物体分组+VLM文本假设构建轻量语义索引层,实现无训练、低存储、支持多义性的开放词汇3D场景理解。
- FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning
-
提出FaceCam系统,通过面部地标(facial landmarks)作为尺度感知的相机表示来解决单目人像视频的相机控制问题,避免了传统相机外参表示的尺度歧义,并设计了合成相机运动和多镜头拼接两种数据增强策略支持连续相机轨迹推理。
- FACT-GS: Frequency-Aligned Complexity-Aware Texture Reparameterization for 2D Gaussian Splatting
-
提出FACT-GS,将纹理参数化重新定义为采样密度分配问题,通过可学习变形场实现频率自适应的非均匀纹理采样,在固定参数预算下显著提升高频细节恢复能力。
- Fall Risk and Gait Analysis using World-Spaced 3D Human Mesh Recovery
-
提出基于 GVHMR(世界坐标系 3D 人体网格恢复)的步态分析管线,从单目视频中提取老年人定时起立行走测试的时空步态参数,验证了视频衍生指标与可穿戴传感器的相关性及与跌倒风险的关联。
- Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration
-
本文提出 Fast3Dcache,一个面向 3D 扩散模型的无需训练的几何感知缓存框架,通过预测性缓存调度约束(PCSC)根据体素稳定化模式动态分配缓存预算,以及时空稳定性准则(SSC)基于速度和加速度选择稳定 token 进行复用,实现最高 27.12% 的吞吐提升和 54.83% 的 FLOPs 降低,几何质量仅损失约 2%。
- Fast SceneScript: Fast and Accurate Language-Based 3D Scene Understanding via Multi-Token Prediction
-
本文提出 Fast SceneScript,通过将多 token 预测(MTP)引入结构化语言模型实现 3D 场景理解的推理加速,配合自投机解码(SSD)和置信度引导解码(CGD)过滤不可靠 token,以及参数高效的头共享机制,在布局估计和目标检测上分别实现 5.09× 和 5.14× 加速且不损失精度。
- FastGS: Training 3D Gaussian Splatting in 100 Seconds
-
提出 FastGS,一个基于多视角一致性的 3DGS 加速框架,通过多视角一致性密集化(VCD)和多视角一致性剪枝(VCP)策略精准控制 Gaussian 数量,在 Mip-NeRF 360 等数据集上实现约 100 秒完成场景训练,相比 vanilla 3DGS 加速 15× 以上,且渲染质量可比。
- FF3R: Feedforward Feature 3D Reconstruction from Unconstrained Views
-
FF3R是首个完全无标注的前馈框架,能从无约束多视角图像序列中同时进行几何重建和开放词汇语义理解,处理64+张图像的速度比优化方法快180倍。
- FluidGaussian: Propagating Simulation-Based Uncertainty Toward Functionally-Intelligent 3D Reconstruction
-
提出 FluidGaussian,通过流体模拟传播的不确定性指标来指导 3D 重建中的主动视角选择,使重建结果不仅视觉逼真,还具备物理交互的合理性。
- ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph
-
提出 ForgeDreamer 框架,通过多专家 LoRA 师生蒸馏解决工业领域语义适配问题,结合跨视角超图几何增强实现高阶几何一致性约束,在工业文本到3D生成任务上超越现有方法。
- Foundry: Distilling 3D Foundation Models for the Edge
-
提出 Foundation Model Distillation(FMD)范式和 Foundry 框架,通过 compress-and-reconstruct 目标让学生模型学习一组可学习的 SuperToken 来压缩教师的潜空间基向量,生成的单一蒸馏模型在分类、分割、少样本等多任务上保持通用性,同时将 FLOPs 从 478G 降至最低 137G。
- FreeArtGS: Articulated Gaussian Splatting Under Free-Moving Scenario
-
FreeArtGS 提出在"自由移动场景"(物体姿态和关节状态同时任意变化)下从单目RGB-D视频重建铰接物体的方法,通过运动驱动的部件分割、鲁棒关节估计和端到端3DGS优化的三阶段流程,在自建FreeArt-21基准和现有数据集上远超所有基线。
- FreeScale: Scaling 3D Scenes via Certainty-Aware Free-View Generation
-
FreeScale 通过从已有场景重建中以确定性引导的方式采样高质量自由视角图像,将有限的真实世界数据扩展为大规模训练数据,在前馈新视角合成模型上获得 2.7 dB PSNR 提升。
- FE2E: From Editor to Dense Geometry Estimator
-
本文系统分析了图像编辑模型与生成模型在稠密几何估计任务中的微调行为差异,发现编辑模型具有天然的结构先验优势,并基于此提出 FE2E 框架,首次将 DiT 架构的图像编辑模型适配为深度和法线联合估计器,在零样本场景下大幅超越现有 SOTA(ETH3D 上 AbsRel 降低 35%)。
- From Orbit to Ground: Generative City Photogrammetry from Extreme Off-Nadir Satellite Images
-
提出从稀疏卫星图像重建城市级 3D 模型的两阶段方法:用 Z-Monotonic SDF 建模几何保证建筑结构完整性,再用微调 FLUX 扩散模型做"确定性修复"从退化贴图合成写实纹理,实现从轨道到地面近 90° 视点外推。
- From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection
-
将关键点检测从「图像对匹配」范式转变为「序列级可追踪性优化」,通过强化学习框架 TraqPoint 在图像序列上直接优化关键点的长期追踪质量,在位姿估计、视觉定位、视觉里程计和三维重建任务上均超越 SOTA。
- FunREC: Reconstructing Functional 3D Scenes from Egocentric Interaction Videos
-
本文提出 FunREC,一个无需训练的优化式方法,直接从自我中心 RGB-D 交互视频中重建功能性的铰接式 3D 数字孪生场景——自动发现铰接部件、估计运动学参数、追踪 3D 运动并重建静态和运动几何,在所有基准上大幅超越先前方法(部件分割 mIoU 提升 50+,关节角度误差降低 5-10 倍),并支持仿真导出和机器人交互。
- GaussFusion: Improving 3D Reconstruction in the Wild with A Geometry-Informed Video Generator
-
提出 GaussFusion,一个几何信息引导的视频到视频生成模型,通过渲染包含深度、法线、不透明度和协方差的 Gaussian Primitives Buffer(GP-Buffer)来条件化视频生成器,有效去除 3DGS 重建中的浮动伪影、闪烁和模糊,且能同时适用于优化式和前馈式两种重建范式,蒸馏版本达到 16 FPS 实时推理。
- GaussianGrow: Geometry-aware Gaussian Growing from 3D Point Clouds with Text Guidance
-
提出 GaussianGrow,通过从易获取的 3D 点云"生长"3D 高斯来替代从零预测几何+外观的传统方案,利用多视图扩散模型生成一致的外观监督,并通过重叠区域检测+迭代补全机制解决视图融合伪影和不可见区域问题,在合成和真实扫描点云上大幅超越 SOTA。
- GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis
-
提出Data-to-Data Flow Matching直接学习视角对之间的确定性变换,并用概率密度测地线正则化使流路径沿高密度数据流形传播,在新视角合成中实现更好的视角一致性和几何保真度。
- GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis
-
提出概率密度测地线 Flow Matching (PDG-FM) 框架,通过数据到数据的确定性流匹配替代噪声到数据的扩散过程,并利用基于概率密度的测地线优化使插值路径沿数据流形高密度区域行进,实现更几何一致的新视角合成。
- GGPT: Geometry-Grounded Point Transformer
-
提出GGPT框架:通过改进的轻量SfM管线(密集匹配+稀疏BA+DLT三角化)获取几何一致稀疏点云,再用3D Point Transformer V3在三维空间直接融合稀疏几何引导与前馈稠密预测进行residual refinement,仅在ScanNet++上训练即可跨架构、跨数据集显著提升多种前馈3D重建模型。
- GLINT: Modeling Scene-Scale Transparency via Gaussian Radiance Transport
-
GLINT 通过将高斯表征分解为界面、透射、反射三个组件,结合光栅化+光线追踪的混合渲染管线,在场景级透明表面(如玻璃墙、展示柜)的几何和外观重建上取得了 SOTA 效果。
- Global-Aware Edge Prioritization for Pose Graph Initialization
-
提出基于GNN的全局边优先级排序方法,将位姿图初始化从独立的逐对图像检索升级为全局结构感知的边排序+多最小生成树构建,在极稀疏设置下显著提升SfM重建精度。
- Glove2Hand: Synthesizing Natural Hand-Object Interaction from Multi-Modal Sensing Gloves
-
提出 Glove2Hand 框架,将佩戴传感手套的第一人称视频翻译为逼真的裸手视频,同时保留触觉和 IMU 信号,并构建了首个多模态手物交互数据集 HandSense,显著提升下游裸手接触估计和遮挡手部追踪性能。
- GP-4DGS: Probabilistic 4D Gaussian Splatting from Monocular Video via Variational Gaussian Processes
-
提出 GP-4DGS,将变分高斯过程(GP)整合到 4D 高斯溅射中,通过时空组合核和变分推断实现概率化运动建模,同时赋予 4DGS 不确定性量化、运动外推和自适应运动先验三大新能力。
- GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning
-
提出GS-CLIP两阶段框架,通过几何缺陷蒸馏模块将3D点云的全局形状和局部缺陷信息注入文本提示,并用LoRA双流架构协同融合渲染图和深度图,在四个大规模数据集上实现零样本3D异常检测SOTA。
- Hg-I2P: Bridging Modalities for Generalizable Image-to-Point-Cloud Registration via Heterogeneous Graphs
-
Hg-I2P 引入异构图(Heterogeneous Graph)来统一建模 2D 图像区域和 3D 点云区域之间的关系,通过多路径邻接关系挖掘学习跨模态边、基于异构边的特征适配和基于图的投影一致性剪枝,在六个室内外跨域基准上实现了最优的泛化能力和精度。
- Hierarchical Visual Relocalization with Nearest View Synthesis from Feature Gaussian Splatting
-
SplatHLoc 提出了一种基于 Feature Gaussian Splatting (FGS) 的层级视觉重定位框架,通过自适应视点检索合成更接近查询视角的虚拟视图,以及混合特征匹配策略(渲染特征做粗匹配 + 半稠密匹配器做细匹配),在室内外数据集上达到了新的 SOTA 精度。
- Human Interaction-Aware 3D Reconstruction from a Single Image
-
提出HUG3D框架,通过透视-正交视图变换、群体-个体多视图扩散模型和物理感知几何重建,从单张图片实现交互多人的高保真纹理3D重建,在CD/P2S/NC等指标上全面超越现有方法。
- Hybrid eTFCE–GRF: Exact Cluster-Size Retrieval with Analytical p-Values for Voxel-Based Morphometry
-
提出将 eTFCE 的 union-find 精确聚类大小检索与 pTFCE 的 GRF 解析推断相结合的混合方法,首次同时实现精确聚类大小查询与无需置换检验的分析型 \(p\) 值计算,比 R pTFCE 快 \(4.6\times\)–\(75\times\)。
- Hybrid eTFCE–GRF: Exact Cluster-Size Retrieval with Analytical p-Values for Voxel-Based Morphometry
-
将 eTFCE 的并查集数据结构(精确聚类大小查询)与 pTFCE 的 GRF 解析推断相结合,首次在单一框架中同时实现精确聚类大小提取和无置换检验的解析 \(p\) 值,全脑 VBM 分析比 R pTFCE 快 4.6–75 倍、比置换 TFCE 快三个数量级。
- HyperMVP: Hyperbolic Multiview Pretraining for Robotic Manipulation
-
提出 HyperMVP,首个在双曲空间中进行3D多视角自监督预训练的框架,通过 GeoLink 编码器学习双曲多视角表征并迁移到机器人操作任务,在 COLOSSEUM 最困难的 All Perturbations 设置下实现 2.1× 性能提升。
- HyperGaussians: High-Dimensional Gaussian Splatting for High-Fidelity Animatable Face Avatars
-
提出HyperGaussians,将3DGS扩展到高维多元高斯,通过条件分布建模表情相关的属性变化+逆协方差技巧实现高效条件化,作为即插即用模块集成到FlashAvatar和GaussianHeadAvatar中可显著提升高频细节质量。
- ICTPolarReal: A Polarized Reflection and Material Dataset of Real World Objects
-
本文构建了首个大规模真实世界偏振反射与材质数据集 ICTPolarReal,利用 8 相机 346 光源的 Light Stage 系统对 218 个日常物体进行交叉/平行偏振捕获,获得超 120 万张高分辨率图像及漫反射-镜面反射分离的地面真值,显著提升了逆渲染、前向重光照和稀疏视角三维重建的效果。
- Indoor Asset Detection in Large Scale 360° Drone-Captured Imagery via 3D Gaussian Splatting
-
提出一种基于3D目标编码簿(Object Codebook)的pipeline,将2D分割mask通过语义+空间约束关联为3DGS中的一致3D物体实例,在大规模室内360°无人机图像上实现目标级检测,F1 score比SOTA GAGA提升65%,mAP提升11%。
- InstantHDR: Single-forward Gaussian Splatting for High Dynamic Range 3D Reconstruction
-
提出 InstantHDR,首个前馈式 HDR 新视角合成方法,通过几何引导的外观建模实现多曝光融合,配合元网络学习场景自适应色调映射器,在单次前向传播中从未校准的多曝光 LDR 图像重建 HDR 3D 场景,比优化方法快 ~700×(前馈)/ ~20×(后优化)。
- InstantHDR: Single-forward Gaussian Splatting for High Dynamic Range 3D Reconstruction
-
提出首个前馈HDR新视角合成方法InstantHDR,设计几何引导的外观建模模块解决多曝光融合中的外观不一致问题,并通过MetaNet预测场景特定色调映射参数实现泛化,从未标定多曝光LDR图像中秒级重建HDR 3D高斯场景,稀疏4视角下PSNR超GaussianHDR +2.90 dB,速度快约700倍。
- Iris: Bringing Real-World Priors into Diffusion Model for Monocular Depth Estimation
-
Iris 提出一种确定性扩散框架,通过两阶段"先验到几何"(PGD)调度将真实世界先验注入扩散模型:第一阶段在高时间步用频谱门控蒸馏(SGD)从教师模型提取低频布局先验,第二阶段在低时间步用合成数据精细化高频几何细节,同时引入频谱门控一致性(SGC)实现跨阶段高频信息对齐,在有限数据和计算预算下达到 SOTA 零样本深度估计性能。
- JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas
-
提出 JOPP-3D,首个联合处理3D点云和全景图像的开放词汇语义分割框架,通过切向分解将全景图映射到正二十面体面、用 SAM+CLIP 提取语义对齐的3D实例嵌入,在 S3DIS 上以弱监督达到 80.9% mIoU 超越所有封闭词汇方法。
- JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas
-
提出 JOPP-3D——首个联合处理 3D 点云和全景图的开放词汇语义分割框架:通过正二十面体切向分解将全景图转为 20 张透视图以适配 SAM/CLIP,提取掩码隔离的实例级 CLIP 嵌入实现 3D 语义分割,再经深度对应回投到全景域,免训练即在 S3DIS 上以 80.9% mIoU 超越所有监督方法。
- ECKConv: Learning Coordinate-based Convolutional Kernels for Continuous SE(3) Equivariant Point Cloud Analysis
-
提出ECKConv,在intertwiner框架下将卷积核定义在双陪集空间 \(\text{SO(2)}\backslash\text{SE(3)}/\text{SO(2)}\) 上,通过坐标网络显式参数化核函数,首次实现连续SE(3)等变性与大规模可扩展性的兼得,在分类、配准、分割四类任务上全面验证。
- Learning Explicit Continuous Motion Representation for Dynamic Gaussian Splatting from Monocular Videos
-
本文提出通过自适应 SE(3) B 样条运动基显式建模动态高斯的连续位置和朝向变形轨迹,配合软分段重建策略和多视角扩散模型先验,实现单目视频的高质量动态场景新视角合成,在 iPhone 和 NVIDIA 数据集上超越现有方法。
- Learning Multi-View Spatial Reasoning from Cross-View Relations
-
XVR(Cross-View Relations)构建了一个 10 万样本的大规模多视角视觉问答数据集,通过对应关系、几何验证和视点定位三类任务显式训练 VLM 的跨视图空间推理能力,在多视角基准和机器人操作任务上均取得显著提升。
- Let it Snow! Animating 3D Gaussian Scenes with Dynamic Weather Effects via Physics-Guided Score Distillation
-
提出 Physics-Guided Score Distillation 框架,利用物理仿真(MPM)作为运动先验引导 Video-SDS 优化,在静态 3DGS 场景中生成具有物理合理运动和真实感外观的动态天气效果(降雪、降雨、雾、沙尘暴)。
- Lifting Unlabeled Internet-level Data for 3D Scene Understanding
-
构建SceneVerse++,通过自动化数据引擎从6,687个无标注互联网视频中生成3D场景理解训练数据,在3D目标检测(F1@.25提升20.6)、空间VQA(+14.9%)和视觉语言导航(+14% SR)三个任务上展示了利用互联网级数据推进3D场景理解的可行性。
- LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds
-
LightSplat 提出了一种快速且内存高效的无训练框架,通过为3D高斯分配紧凑的2字节语义索引(而非高维CLIP特征),配合轻量级索引-特征映射和单步3D聚类,实现了比现有SOTA快50-400倍、内存降低64倍的开放词汇3D场景理解。
- Lite Any Stereo: Efficient Zero-Shot Stereo Matching
-
提出Lite Any Stereo,通过混合2D-3D代价聚合模块和三阶段百万级数据训练策略(监督→自蒸馏→真实数据知识蒸馏),以不到SOTA精确方法1%的计算量(33G MACs),在四个real-world benchmark上ranking 1st,首次证明超轻量模型可具备强零样本泛化能力。
- LitePT: Lighter Yet Stronger Point Transformer
-
LitePT 通过深入分析卷积和注意力在U-Net各层级的角色,提出在浅层使用稀疏卷积、深层使用注意力的分层混合架构,并引入无参数的PointROPE位置编码,实现了比Point Transformer V3少3.6倍参数、快2倍、省2倍内存,同时在多个点云基准上性能持平或超越。
- Long-SCOPE: Fully Sparse Long-Range Cooperative 3D Perception
-
Long-SCOPE提出了全稀疏的长距离协同3D感知框架,通过几何引导查询生成和上下文感知关联模块,在100-150m远距离场景下实现了SOTA性能,同时保持高效的计算和通信成本。
- LongStream: Long-Sequence Streaming Autoregressive Visual Geometry
-
提出LongStream,一种gauge-decoupled的流式视觉几何模型,通过关键帧相对位姿预测、正交尺度学习和缓存一致性训练,实现千帧级别稳定的度量尺度实时(18 FPS)场景重建。
- LoST: Level of Semantics Tokenization for 3D Shapes
-
提出Level-of-Semantics Tokenization (LoST),按语义显著性排序3D形状token,使短前缀即可解码出完整且语义合理的形状,配合RIDA语义对齐损失和GPT式自回归生成,仅用128个token即显著超越现有需数万token的3D AR方法。
- LTGS: Long-Term Gaussian Scene Chronology From Sparse View Updates
-
提出 LTGS 框架,通过构建可复用的物体级高斯模板,从时空稀疏的观测图像中高效更新 3DGS 场景重建,实现长期环境演化的时序建模。
- LumiMotion: Improving Gaussian Relighting with Scene Dynamics
-
LumiMotion 是首个利用场景动态(运动区域)作为监督信号来改善逆渲染的 Gaussian-based 方法,通过动静分离和运动揭示的材质变化来更好地分离光照与材质,albedo 估计 LPIPS 提升 23%,重光照提升 15%。
- M3DLayout: A Multi-Source Dataset of 3D Indoor Layouts and Structured Descriptions for 3D Generation
-
构建了多源大规模 3D 室内布局数据集 M3DLayout(21,367 布局、433k+ 物体实例),融合真实扫描、专业设计和程序化生成三种来源,配以结构化文本描述,为文本驱动的 3D 场景生成提供高质量训练基础。
- MAGICIAN: Efficient Long-Term Planning with Imagined Gaussians for Active Mapping
-
提出MAGICIAN框架,利用预训练占据度网络生成"想象高斯"(Imagined Gaussians)来高效估计表面覆盖增益,结合束搜索实现主动建图中的长期轨迹规划,在室内外场景均达到SOTA,覆盖率提升超10%。
- Mamba Learns in Context: Structure-Aware Domain Generalization for Multi-Task Point Cloud Understanding
-
提出SADG框架,首次将Mamba引入多任务点云域泛化的上下文学习,通过结构感知序列化(质心距离谱+测地曲率谱)、分层域感知建模和谱图对齐三个模块,在重建、去噪、配准三个任务上全面超越SOTA。
- MARCO: Navigating the Unseen Space of Semantic Correspondence
-
提出 MARCO,基于单一 DINOv2 backbone 的语义对应模型,通过粗到细高斯 RBF 损失逐步提升空间精度,并用自蒸馏框架将稀疏关键点监督扩展为稠密伪对应标签,在标准基准和未见关键点/类别上均达到 SOTA,同时比双编码器方法小 3 倍、快 10 倍。
- Masking Matters: Unlocking the Spatial Reasoning Capabilities of LLMs for 3D Scene-Language Understanding
-
发现 LLM 解码器中的 causal mask 与 3D 场景理解存在两个根本冲突(顺序偏置和指令隔离),提出 3D-SLIM 掩码策略(Geometry-adaptive Mask + Instruction-aware Mask)替换 causal mask,无需架构修改和额外参数即可在多个 3D 场景语言任务上获得显著提升。
- Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding
-
提出 BrainCoDec 框架,通过两阶段层级式上下文学习(先为每个体素估计编码器参数,再跨体素聚合做功能反演),实现了无需微调即可泛化到新被试的 fMRI 视觉解码,Top-1 检索准确率从 MindEye2 的 3.9% 提升到 22.7%。
- MimiCAT: Mimic with Correspondence-Aware Cascade-Transformer for Category-Free 3D Pose Transfer
-
本文提出 MimiCAT,一个级联 Transformer 框架,通过语义关键点标签学习柔性多对多软对应关系,结合百万级多类别动作数据集 PokeAnimDB,首次实现了跨类别(如人形到四足动物/鸟类)的高质量 3D 姿态迁移。
- Modeling Spatiotemporal Neural Frames for High Resolution Brain Dynamics
-
提出基于扩散 Transformer 的 EEG 条件 fMRI 重建框架,将脑活动建模为时空神经帧序列而非独立快照,在皮层顶点级分辨率下实现时空一致的 fMRI 重建,并通过零空间采样支持中间帧插值,下游视觉解码任务验证了功能信息的保留。
- MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer
-
提出 MoRe,一种前馈式运动感知 4D 重建 Transformer,通过注意力强制策略在训练时解耦动态运动与静态结构,结合分组因果注意力实现高效流式推理,在动态场景的相机位姿估计和深度预测上达到 SOTA。
- MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification
-
针对4D高斯泼溅在长视频动态场景建模中面临的内存爆炸、时序闪烁和遮挡处理等挑战,提出了基于锚点接力双向混合 (ARBB) 的MoRel框架,通过关键帧锚点的渐进式构建和可学习时序不透明度控制实现了无闪烁、内存有界的长程4D运动重建。
- Motion-Aware Animatable Gaussian Avatars Deblurring
-
提出首个从模糊视频直接重建清晰可动画3D人体高斯Avatar的方法,通过3D感知的物理模糊形成模型和基于SMPL的人体运动模型,联合优化Avatar表示和运动参数。
- MotionAnymesh: Physics-Grounded Articulation for Simulation-Ready Digital Twins
-
提出MotionAnymesh,一个零样本自动框架,通过运动感知分割(SP4D先验+VLM推理)和几何-物理联合优化关节估计,将静态3D网格转化为无碰撞的仿真就绪铰接数字孪生,在PartNet-Mobility和Objaverse上物理可执行性达87%。
- MotionAnymesh: Physics-Grounded Articulation for Simulation-Ready Digital Twins
-
提出MotionAnymesh零样本框架,通过SP4D运动学先验引导VLM消除运动学幻觉,并用物理约束轨迹优化保证无碰撞铰接,将静态3D网格自动转换为可在SAPIEN等物理引擎中直接使用的URDF数字孪生,物理可执行率达87%,远超现有方法。
- MotionScale: Reconstructing Appearance, Geometry, and Motion of Dynamic Scenes with Scalable 4D Gaussian Splatting
-
提出 MotionScale,一个可扩展的 4D 高斯泼溅框架,通过基于聚类的自适应运动场和渐进式优化策略,从单目视频中高保真重建大规模动态场景的外观、几何和运动,在 DyCheck 上 PSNR 达到 17.98,3D 跟踪 EPE 降至 0.070,显著超越现有方法。
- MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second
-
提出 MoVieS,一个前馈式 4D 动态场景重建框架,通过 动态溅射像素 (Dynamic Splatter Pixel) 表示将外观、几何和运动统一建模,从单目视频在约 1 秒内完成 4D 重建,并支持新视角合成、3D 点跟踪、场景流估计和运动物体分割等多种任务。
- MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation
-
提出多模态3D场景图(M3DSG)用动态分配的图像边替代纯文本关系边,构建零样本导航系统 MSGNav,通过关键子图选择、自适应词汇更新、闭环推理和可见性视角决策四个模块,在 GOAT-Bench 上 SR 达 52.0%、HM3D-ObjNav 上 SR 达 74.1%,均为 SOTA。
- MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation
-
提出多模态3D场景图(M3DSG),用动态分配的图像边替代传统文本关系边来保留视觉信息,构建零样本导航系统MSGNav,并提出可见性视点决策模块解决导航"最后一公里"问题,在GOAT-Bench和HM3D-ObjNav上取得SOTA。
- MV-RoMa: From Pairwise Matching into Multi-View Track Reconstruction
-
提出 MV-RoMa,首个多视图稠密匹配模型,通过 Track-Guided 多视图编码器和像素对齐多视图精炼器从一张源图同时估计到多个目标图的稠密对应关系,产生几何一致的轨迹用于 SfM,在 HPatches/ETH3D/IMC 等基准上全面超越现有方法。
- MVGGT: Multimodal Visual Geometry Grounded Transformer for Multiview 3D Referring Expression Segmentation
-
提出 MV-3DRES 新任务(从稀疏多视图 RGB 直接做语言引导的 3D 分割)和 MVGGT 框架(双分支设计融合冻结几何分支 + 可训练多模态分支),通过 PVSO 优化策略解决前景梯度稀释问题,在自建 MVRefer 基准上以 39.9 mIoU 大幅超越基线。
- NanoSD: Edge Efficient Foundation Model for Real Time Image Restoration
-
提出 NanoSD,通过对 SD 1.5 进行硬件感知的 U-Net 分解、逐块特征蒸馏和多目标贝叶斯优化,构建了一族 Pareto 最优的轻量扩散基础模型(130M–315M 参数,最快 12ms 推理),可作为 drop-in backbone 在超分、人脸修复、去模糊、单目深度估计等多任务上达到 SOTA 级表现。
- NeAR: Coupled Neural Asset–Renderer Stack
-
NeAR 提出将神经资产创作和神经渲染联合设计为一个耦合栈,通过光照均匀化的结构化 3D 潜变量(LH-SLAT)消除输入图像中的烘焙光照,再用光照感知的神经解码器实时合成可重光照的 3D 高斯场,在前向渲染、重建、重光照和新视角重光照四类任务上超越现有方法。
- Neu-PiG: Neural Preconditioned Grids for Fast Dynamic Surface Reconstruction on Long Sequences
-
Neu-PiG 提出一种基于预条件多分辨率潜在网格的快速优化方法,将关键帧参考网格的位置和法线方向编码为统一潜在空间,通过轻量级 MLP 解码为每帧 6-DoF 形变,在无需类别先验或显式对应关系的前提下,实现了比现有无训练方法快 60 倍以上的高保真动态曲面重建。
- Neural Field-Based 3D Surface Reconstruction of Microstructures from Multi-Detector Signals in Scanning Electron Microscopy
-
本文提出 NFH-SEM,一个基于神经场的混合框架,通过将 SEM 电子散射物理模型嵌入神经场优化过程,从多视角多检测器 SEM 图像重建高保真的微观结构 3D 表面,实现了自标定、抗阴影的纳米级精度重建(478nm 层叠特征、782nm 花粉纹理、1.559μm 断裂台阶)。
- Neural Gabor Splatting: Enhanced Gaussian Splatting with Neural Gabor for High-frequency Surface Reconstruction
-
Neural Gabor Splatting 为每个高斯原语嵌入一个轻量级 MLP(SIREN 架构),使单个原语能表示复杂的空间变化颜色模式,配合频率感知致密化策略,在相同数据预算下显著提升高频表面重建质量。
- NG-GS: NeRF-Guided 3D Gaussian Splatting Segmentation
-
提出 NG-GS 框架,利用 NeRF 的连续建模能力解决 3DGS 分割中的边界离散化问题,通过 RBF 插值构建连续特征场结合多分辨率哈希编码和 NeRF-GS 联合优化实现高质量对象分割。
- NI-Tex: Non-isometric Image-based Garment Texture Generation
-
提出NI-Tex框架,通过构建3D Garment Videos数据集、基于图像编辑的跨拓扑增强以及不确定性引导的迭代烘焙算法,首次以前馈架构实现了非等距条件下从单图到3D服装PBR纹理的高质量生成。
- NimbusGS: Unified 3D Scene Reconstruction under Hybrid Weather
-
NimbusGS 提出统一的3D场景重建框架,通过将天气退化分解为连续散射场(雾/霾)和逐视图粒子残差层(雨/雪),配合几何引导梯度缩放机制,在单一框架内实现跨天气和混合天气条件下的SOTA重建。
- No Calibration, No Depth, No Problem: Cross-Sensor View Synthesis with 3D Consistency
-
提出首个无需标定和深度的跨传感器视图合成框架,通过匹配-稠密化-3D整合 (match-densify-consolidate) 流程,将稀疏跨模态关键点扩展为稠密的、与 RGB 视角对齐的 X 模态图像(热成像/NIR/SAR),并通过置信度感知融合与自匹配过滤提升合成质量。
- Node-RF: Learning Generalized Continuous Space-Time Scene Dynamics with Neural ODE-based NeRFs
-
Node-RF 将 Neural ODE 与 NeRF 紧密耦合,用连续时间微分方程驱动隐式场景表征的时序演化,实现了远超训练时域的长程外推与跨轨迹泛化,在 Bouncing Balls、Pendulum、Oscillating Ball 等数据集上显著优于 D-NeRF、4D-GS 等基线。
- Node-RF: Learning Generalized Continuous Space-Time Scene Dynamics with Neural ODE-based NeRFs
-
Node-RF 将 Neural ODE 与 NeRF 紧密耦合,通过在隐空间中用微分方程建模场景动态演化,实现了超越训练时间范围的长程外推、跨序列泛化以及动态系统行为分析。
- NTK-Guided Implicit Neural Teaching
-
提出 NINT,利用 Neural Tangent Kernel (NTK) 的行向量来度量每个坐标对全局函数更新的影响力,从而动态选择既有高拟合误差又有高全局影响力的坐标进行训练,将 INR 训练时间减少近一半且不损失重建质量。
- Off The Grid: Detection of Primitives for Feed-Forward 3D Gaussian Splatting
-
本文提出一种基于关键点检测思路的前馈式3DGS解码器,将高斯原语从像素网格中解放出来,在亚像素级别自适应放置原语,结合自适应密度机制和置信度剪枝,仅使用输入像素数1/7的原语就在新视角合成上超越了SOTA前馈方法。
- OnlinePG: Online Open-Vocabulary Panoptic Mapping with 3D Gaussian Splatting
-
提出 OnlinePG,首个基于 3DGS 的在线开放词汇全景建图系统,通过 local-to-global 范式——在滑窗内用多线索聚类图(几何重叠+语义相似+视图共识)构建局部一致 3D 实例,再通过双向二部匹配增量融合到全局地图——实现了在线方法中最优的语义和全景分割性能,ScanNet 上 mIoU 48.48 超越 OnlineAnySeg +17.2,且达到 10-18 FPS 实时效率。
- OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness
-
提出 OpenVO,一个面向开放世界的单目视觉里程计框架,通过时间感知流编码器和几何感知上下文编码器,在无相机标定、帧率变化的条件下实现鲁棒的真实尺度自车运动估计,跨数据集 ATE 提升超 20%,变帧率场景误差降低 46%-92%。
- PAD-Hand: Physics-Aware Diffusion for Hand Motion Recovery
-
提出 PAD-Hand,一个物理感知的条件扩散框架,将欧拉-拉格朗日动力学残差建模为虚拟观测量融入扩散过程,同时通过最后一层拉普拉斯近似估计逐关节、逐帧的动态方差,实现了兼具物理可信度和不确定性感知的手部运动恢复,在 DexYCB 上加速度误差降低 50.1%。
- Pano360: Perspective to Panoramic Vision with Geometric Consistency
-
Pano360提出一种基于Transformer的全景拼接框架,将传统2D逐对对齐任务扩展到3D空间,直接利用相机位姿引导多图像全局对齐,结合多特征联合优化的接缝检测策略,在弱纹理、大视差、重复纹理等挑战场景下实现97.8%成功率,大幅超越现有方法。
- Pano360: Perspective to Panoramic Vision with Geometric Consistency
-
提出 Pano360,将全景拼接从传统的 2D 逐对匹配扩展到 3D 摄影测量空间,利用 Transformer 架构实现多视图全局几何一致性对齐,在弱纹理、大视差、重复纹理等挑战场景下达到 97.8% 成功率。
- Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image
-
提出 Pano3DComposer,一个从单张全景图出发的模块化前馈式组合3D场景生成框架,通过即插即用的 Object-World Transformation Predictor(基于 Alignment-VGGT)将生成的3D物体从局部坐标转换到世界坐标,约20秒即可在 RTX 4090 上生成高保真3D场景。
- PanoVGGT: Feed-Forward 3D Reconstruction from Panoramic Imagery
-
提出 PanoVGGT,一个置换等变的 Transformer 框架,能从一张或多张无序全景图像中在单次前馈中联合预测相机位姿、深度图和全局一致3D点云;同时贡献了 PanoCity——一个包含超过12万张室外全景图像的大规模数据集。
- Parallelised Differentiable Straightest Geodesics for 3D Meshes
-
提出 straightest geodesics 的并行 GPU 实现及两种可微分方案(外在代理函数法和测地线有限差分法),使三角网格上的指数映射可高效并行且可微分,并以此构建测地线卷积层、网格上的流匹配方法和二阶优化器三个下游应用。
- Particulate: Feed-Forward 3D Object Articulation
-
Particulate 提出了一个前馈式模型,给定静态 3D 网格即可在数秒内推断出完整的铰接结构(部件分割、运动学树、运动约束),基于 Part Articulation Transformer 在公开数据集上端到端训练,显著优于需要逐物体优化的现有方法,并能与 3D 生成模型结合实现从单张图像到铰接 3D 物体的生成。
- PCSTracker: Long-Term Scene Flow Estimation for Point Cloud Sequences
-
PCSTracker 是首个端到端的点云序列长程场景流估计框架,通过迭代几何-运动联合优化、时空轨迹更新和重叠滑动窗口策略,在合成数据集 PointOdyssey3D 上将 EPE_3D 降低 57.9%,并以 32.5 FPS 实时运行。
- PE3R: Perception-Efficient 3D Reconstruction
-
PE3R 提出一个免调优的前馈式3D语义重建框架,通过像素嵌入消歧、语义点云重建和全局视图感知三个模块,从无位姿的2D图像直接生成语义3D点云,实现了9倍加速且在开放词汇分割和深度估计上达到新SOTA。
- PhyGaP: Physically-Grounded Gaussians with Polarization Cues
-
提出 PhyGaP,通过偏振延迟渲染(PolarDR)将偏振线索融入 2DGS 优化,并设计自遮挡感知的 GridMap 环境图技术,实现光泽物体的精确反射分解与真实重光照。
- PhysGaia: A Physics-Aware Benchmark with Multi-Body Interactions for Dynamic Novel View Synthesis
-
PhysGaia 构建了一个包含 17 个场景的物理感知基准数据集,涵盖液体/气体/织物/流变物质等多种材料的多体交互,提供 3D 粒子轨迹和物理参数(如粘度)的 ground truth,并提出 Trajectory Distance (TD) 和 AUOP 两个新指标来量化 4DGS 方法的物理真实性,揭示了现有 DyNVS 方法在物理推理上的严重不足。
- PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis
-
首个从单张图像前馈预测3DGS+物理属性(材质类别/杨氏模量/泊松比)的框架,两阶段训练(监督预训练+DPO偏好微调)完全绕过SDS和可微物理引擎,配合50K+ PhysAssets数据集,1分钟内生成高保真4D物理仿真,CLIP_sim和人类偏好率均超越逐场景优化方法。
- PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis
-
PhysGM 提出首个前馈式框架,从单张图像一次推理即可同时预测 3D 高斯表示和物理属性(刚度、质量等),结合 MPM 仿真在一分钟内生成高保真的物理合理 4D 动画,无需任何逐场景优化。
- PhysGS: Bayesian-Inferred Gaussian Splatting for Physical Property Estimation
-
提出 PhysGS,将贝叶斯推断嵌入3D高斯溅射管线,利用视觉-语言模型先验和多视角置信度加权更新,实现逐点物理属性(摩擦力、硬度、密度、刚度)的概率估计与不确定性量化,在质量估计上比 NeRF2Physics 提升 22.8%(APE),岸氏硬度误差降低 61.2%。
- PhysHead: Simulation-Ready Gaussian Head Avatars
-
提出PhysHead——首个将物理驱动头发动力学与可动画3DGS头部Avatar结合的方法:用FLAME网格+3DGS建模可表达面部、用发丝(strand)+3DGS建模头发外观、用物理引擎驱动头发动画,并通过VLM生成秃头图像实现头发与面部的分层优化。
- Physically Inspired Gaussian Splatting for HDR Novel View Synthesis
-
提出PhysHDR-GS——一个物理渲染启发的HDR新视角合成框架:将高斯颜色分解为固有反射率和可调环境光照,通过图像-曝光(IE)分支和高斯-光照(GI)分支互补捕获HDR细节,跨分支HDR一致性损失提供无GT的显式HDR监督,光照引导梯度缩放解决曝光偏差的梯度饥饿问题,在多个基准上优于HDR-GS 2.04dB且保持76FPS实时渲染。
- PIP-Stereo: Progressive Iterations Pruner for Iterative Optimization based Stereo Matching
-
揭示迭代立体匹配中视差更新的空间稀疏性和时间冗余性,提出渐进迭代裁剪(PIP)将32次迭代压缩到1次、协同学习范式实现无需独立单目编码器的深度先验迁移、以及硬件感知的 FlashGRU 算子(7.28× 加速),使高精度迭代立体匹配首次在 Jetson Orin NX 上实现实时推理(75ms/帧,320×640)。
- PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction
-
提出 PixARMesh,首个在原生 mesh 空间(而非 SDF)中进行单视图场景重建的自回归框架,通过像素对齐图像特征和全局场景上下文增强点云编码器,在统一的 token 序列中同时预测物体位姿和mesh,在 3D-FRONT 上达到场景级 SOTA 且输出紧凑、可编辑的 artist-ready mesh。
- PointINS: Instance-Aware Self-Supervised Learning for Point Clouds
-
PointINS 提出首个显式学习语义一致性和几何推理的点云自监督框架,通过无标签的偏移分支配合偏移分布正则化(ODR)和空间聚类正则化(SCR),在室内实例分割上平均提升 +3.5% mAP,室外全景分割提升 +4.1% PQ。
- PointTPA: Dynamic Network Parameter Adaptation for 3D Scene Understanding
-
提出 PointTPA 框架,通过序列化邻域分组(SNG)和动态参数投射器(DPP)两个轻量模块在推理时为每个输入场景生成定制化的网络参数,仅增加 <2% 参数量即在 ScanNet 上达到 78.4% mIoU,超越现有参数高效微调(PEFT)方法。
- PoseMaster: A Unified 3D Native Framework for Stylized Pose Generation
-
PoseMaster 提出了一个将姿态风格化与 3D 生成统一在端到端框架中的 3D 原生方法,直接使用 3D 骨骼作为姿态控制信号(而非 2D 骨骼图),设计了骨骼稠密化策略和 Point Transformer 编码器提取精细的空间拓扑特征,并通过大规模"Image-Skeleton-Mesh"三元组数据引擎训练,在姿态规范化和任意姿态风格化上达到 SOTA。
- PR-IQA: Partial-Reference Image Quality Assessment for Diffusion-Based Novel View Synthesis
-
本文提出 PR-IQA,一种跨参考图像质量评估方法,先在多视图重叠区域计算几何一致的局部质量图,再通过参考条件化的交叉注意力网络将质量信息"补全"到非重叠区域,生成逼近全参考精度的密集质量图,集成到 3DGS 流水线中通过双重过滤策略显著提升稀疏视角 3D 重建质量。
- ProgressiveAvatars: Progressive Animatable 3D Gaussian Avatars
-
提出 ProgressiveAvatars,一种基于模板网格自适应隐式细分构建层级3DGS的渐进式头像表示,支持在不同带宽和算力约束下渐进传输和渲染——仅传输5%数据(2.6MB)即可获得可用头像,后续增量加载平滑提升质量至与 SOTA 方法可比。
- PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts
-
提出 Prompt Recurrent Unit (PRU),将单目深度基础模型的 DPT 解码器作为迭代精炼模块(替代 GRU),通过 Structure Prompt 和 Motion Prompt 将单目结构和立体运动线索以残差方式注入,在不破坏单目先验的情况下实现零样本 SOTA 立体匹配(Middlebury 2021 上误差降低近50%)。
- Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives
-
提出自适应重建感知剪枝策略(RPS)和 3D DoG 原语,在保持渲染质量的同时实现 90% 的高斯点裁减。
- QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment
-
提出质量感知域适应框架 QD-PCQA,通过 Rank-weighted Conditional Alignment 和 Quality-guided Feature Augmentation 两大策略,将图像域的质量评估先验迁移到点云域。
- QuadSync: Quadrifocal Tensor Synchronization via Tucker Decomposition
-
首次提出四焦张量(quadrifocal tensor)的全局同步算法 QuadSync,通过构造块四焦张量并证明其承认多线性秩为 (4,4,4,4) 的 Tucker 分解,利用 ADMM-IRLS 优化框架从四视图测量中恢复相机位姿,在密集视图场景下取得优于两视图/三视图方法的同步精度。
- R4Det: 4D Radar-Camera Fusion for High-Performance 3D Object Detection# R4Det: 4D Radar-Camera Fusion for High-Performance 3D Object Detection
-
提出R4Det,通过全景深度融合(PDF)、可变形门控时序融合(DGTF)和实例引导动态精炼(IGDR)三个即插即用模块,解决4D雷达-相机融合中深度估计不准、时序融合依赖ego pose、小目标检测困难的问题,在TJ4DRadSet和VoD上取得SOTA。
- Random Wins All: Rethinking Grouping Strategies for Vision Tokens
-
提出极简的随机分组策略替代 Vision Transformer 中各种精心设计的 token 分组方法,在图像分类、目标检测、语义分割、点云分割和 VLM 上几乎全面超越所有 baseline,并从位置信息、头特征多样性、全局感受野和固定分组模式四个维度解释了随机分组成功的原因。
- RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting Processing
-
提出 RAP,一种无需渲染的前馈式高斯原语重要性评分方法,通过从内在属性和局部邻域统计量提取 15 维特征,用轻量 MLP 预测重要性评分,训练一次即可泛化到未见场景。
- RayNova: Scale-Temporal Autoregressive World Modeling in Ray Space
-
提出 RayNova,一种基于双因果(尺度+时间)自回归的几何无关多视角世界模型,利用相对 Plücker 光线位置编码实现统一的 4D 时空推理,在 nuScenes 上取得 SOTA 多视角视频生成效果。
- Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface
-
提出 Real2Edit2Real 框架,通过"3D 重建 → 点云编辑生成新轨迹 → 深度引导视频生成合成演示"的三阶段管线,从仅 1-5 个真实演示生成大量多样化的操作演示数据,使策略性能达到甚至超过 50 个真实演示训练的水平,数据效率提升 10-50 倍。
- Regularizing INR with Diffusion Prior for Self-Supervised 3D Reconstruction of Neutron Computed Tomography Data
-
提出 DINR (Diffusive INR),在 DD3IP 扩散框架内用 INR 替代传统反演求解器,通过近端损失将扩散去噪估计注入 INR 优化过程,在极端稀疏视角(低至 4-5 视图)的中子 CT 重建中超越现有 SOTA 方法。
- Regularizing INR with Diffusion Prior for Self-Supervised 3D Reconstruction of Neutron Computed Tomography Data
-
提出 Diffusive INR (DINR) 框架,在 DD3IP 扩散重建流程中用 INR 替代传统 DIS,并通过近端损失函数将扩散模型去噪估计作为正则化先验注入 INR 优化过程,在仅 4-5 个视角的极端稀疏中子 CT 条件下实现超越 MBIR(qGGMRF)、DD3IP 和纯 INR 的重建质量。
- ReLaGS: Relational Language Gaussian Splatting
-
提出首个统一多层级语言高斯场与开放词汇3D场景图的无训练框架 ReLaGS,通过最大权重剪枝和鲁棒异常值感知特征聚合改进场景表示,结合GNN关系预测实现高效的结构化3D场景理解。
- Reliev3R: Relieving Feed-forward 3D Reconstruction from Multi-View Geometric Annotations
-
Reliev3R 首次提出无需多视图几何标注(无需 SfM/MVS 生成的点云和位姿)即可从头训练前馈3D重建模型(FFRM)的弱监督范式,利用单目相对深度和稀疏图像对应作为替代监督,性能追平甚至超过部分全监督 FFRM。
- Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery
-
提出 RepTRFD:通过将 Tensor Ring 因子重参数化为"可学习隐张量 × 固定基"的形式,解决 INR 参数化 TR 因子的频谱偏置问题,在图像修复/去噪/超分/点云恢复等任务上全面超越 SOTA。
- Rethinking Pose Refinement in 3D Gaussian Splatting under Pose Prior and Geometric Uncertainty
-
提出 UGS-Loc 框架,通过蒙特卡洛位姿采样和 Fisher 信息引导的 PnP 优化,联合建模位姿先验不确定性和几何不确定性,在无需重训练的条件下显著提升 3DGS 场景中的相机位姿精化鲁棒性。
- RetimeGS: Continuous-Time Reconstruction of 4D Gaussian Splatting
-
提出 RetimeGS,通过正则化时间不透明度 + Catmull-Rom 样条轨迹 + 双向光流监督 + 三重渲染等策略,解决 4DGS 在离散帧间插值时的鬼影/时间别名问题,实现任意时间戳的无鬼影连续时间 4D 重建。
- RetimeGS: Continuous-Time Reconstruction of 4D Gaussian Splatting
-
提出 RetimeGS,通过正则化时间不透明度(双 Sigmoid 短尾分布)和 Catmull-Rom 样条轨迹建模高斯基元的连续运动,结合双向光流监督、三重渲染和动态拉伸策略,解决 4DGS 帧间插值时的时间混叠(ghosting),在 Stage-Capture 数据集上达到 30.08 dB PSNR(超越先前 SOTA 1.29 dB)。
- ReWeaver: Towards Simulation-Ready and Topology-Accurate Garment Reconstruction
-
提出 ReWeaver 框架,从最少4张多视图RGB图像中联合重建3D服装几何与2D缝纫图案(sewing pattern),通过双路径Transformer预测3D曲面片/曲线及其拓扑连接,再经组内注意力将3D结构展平为2D面板边缘,首次实现拓扑准确且可直接用于物理仿真的服装资产恢复。
- Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation
-
Rewis3d 首次将 feed-forward 3D 场景重建作为辅助监督信号引入弱监督语义分割,通过双学生-教师架构实现 2D 图像与重建 3D 点云间的双向跨模态一致性学习(CMC),配合双置信度过滤和视角感知采样,在仅有稀疏标注(点、涂鸦、粗标注)下将多个数据集的 mIoU 提升 2-7%,且推理时仅需 2D 输入。
- Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation
-
提出 Rewis3d 框架,首次将前馈式 3D 场景重建作为辅助监督信号整合到弱监督语义分割中,通过双学生-教师架构和双置信度加权的跨模态一致性损失,在仅有稀疏标注的情况下将 mIoU 提升 2-7%,且推理时仅使用 2D 图像。
- RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations
-
RnG 提出重构引导因果注意力(Reconstruction-Guided Causal Attention),将 Transformer 的 KV-Cache 重新解释为隐式 3D 表示,用单个前馈 Transformer 统一完成从无位姿稀疏图像到完整 3D 几何与外观的重建与生成,速度比扩散方法快 100 倍以上。
- RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations
-
提出 RnG,一个统一的前馈 Transformer,通过重建引导的因果注意力机制将 KV-Cache 作为隐式 3D 表征,从少量无姿态图像中同时完成 3D 重建和新视角 RGBD 生成,推理速度比扩散方法快 100 倍以上。
- S2AM3D: Scale-controllable Part Segmentation of 3D Point Clouds
-
提出融合2D预训练先验与3D对比监督的点云部件分割框架S2AM3D,通过点一致性编码器获得全局一致的点特征,并设计尺度感知提示解码器实现连续可控的分割粒度调节,在多个基准上大幅超越现有方法。
- Sampling-Aware 3D Spatial Analysis in Multiplexed Imaging
-
本文系统研究了多重成像中采样几何(2D切片 vs 3D序列切片)对空间统计量恢复精度的影响,并提出了一种几何感知的稀疏3D重建模块,在有限的成像预算下实现可靠的深度感知空间分析。
- SASNet: Spatially-Adaptive Sinusoidal Networks for INRs
-
提出 SASNet,通过将冻结的频率嵌入层与轻量级哈希网格 MLP 学习的空间自适应掩码相结合,解决 SIREN 中频率初始化敏感和高频泄漏问题,在图像拟合、体数据拟合和 SDF 重建任务上实现更快收敛和更高重建质量。
- Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models
-
提出 QuatRoPE,一种基于四元数旋转的3D位置编码方法,仅需 \(O(n)\) 输入token即可保留所有 \(O(n^2)\) 物体间空间关系,并配合 IGRE 机制减少与语言 RoPE 的干扰,在多个3D视觉语言基准上取得大幅提升。
- Scaling View Synthesis Transformers (SVSM)
-
首次为无几何先验的 NVS Transformer 建立缩放定律:提出有效批量大小假设(B_eff = B·V_T)揭示 encoder-decoder 被低估的根因,设计单向 encoder-decoder 架构 SVSM,在 RealEstate10K 上以不到一半训练 FLOPs 达到新 SOTA(30.01 PSNR),Pareto 前沿比 LVSM decoder-only 左移 3×。
- Scene Grounding In the Wild
-
提出一种基于语义特征的逆优化框架,将野外拍摄的局部3D重建(SfM)对齐到完整的伪合成参考模型(如Google Earth Studio),通过DINOv2特征和鲁棒优化解决巨大的域差异问题,实现非重叠局部重建的全局一致性融合。
- SceneScribe-1M: A Large-Scale Video Dataset with Comprehensive Geometric and Semantic Annotations
-
提出SceneScribe-1M——一个包含100万个野外视频、超4000小时的大规模多模态视频数据集,提供详细文本描述、精确相机参数、连续深度图和一致性3D点轨迹等全面标注,为3D几何感知和视频生成任务提供统一资源。
- SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation
-
提出即插即用的SCOPE框架,利用类无关分割模型从基础训练场景的背景区域挖掘伪实例原型,通过检索+注意力融合增强few-shot新类原型,无需重训backbone即可在ScanNet上将新类IoU提升6.98%。
- SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation
-
提出 SeeThrough3D,通过半透明 3D 包围盒渲染的遮挡感知场景表示(OSCR)来条件化 FLUX 模型,实现了精确的 3D 布局控制与遮挡一致的文本到图像生成。
- SEPatch3D: Revisiting Token Compression for Accelerating ViT-based Sparse Multi-View 3D Object Detectors
-
提出 SEPatch3D,通过时空感知的动态 patch 大小选择和基于熵的信息性 patch 筛选增强机制,在 ViT 基稀疏多视角 3D 检测中实现 57% 推理加速且保持可比检测精度。
- SGAD-SLAM: Splatting Gaussians at Adjusted Depth for Better Radiance Fields in RGBD SLAM
-
提出SGAD-SLAM,采用像素对齐的简化高斯表示并允许高斯沿射线调整深度偏移以提升渲染质量和可扩展性,同时引入基于几何相似度的GICP跟踪策略加速相机位姿估计,在Replica、TUM、ScanNet和ScanNet++上全面超越最新方法。
- SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation
-
SGI 提出基于种子点(seed)的结构化 2D 高斯表示框架,通过将无结构高斯原语组织为种子驱动的神经高斯、结合上下文引导的熵编码和多尺度拟合策略,在高分辨率图像表示中实现最高 7.5× 压缩比和 6.5× 优化加速,同时保持甚至提升重建保真度。
- SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation
-
提出 SGI,通过种子点(seed)组织非结构化 2D 高斯基元并用轻量 MLP 解码属性,配合上下文模型驱动的熵编码和多尺度拟合策略,实现高分辨率图像表征中最多 7.5× 压缩和 6.5× 加速,同时保持或提升保真度。
- SGS-Intrinsic: Semantic-Invariant Gaussian Splatting for Sparse-View Indoor Inverse Rendering
-
SGS-Intrinsic 提出两阶段室内逆渲染框架,第一阶段利用语义和几何先验构建稠密几何一致的高斯场,第二阶段结合混合光照模型和材质先验进行材质-光照分解,并通过去阴影模块防止阴影烘焙到反照率中。
- Sky2Ground: A Benchmark for Site Modeling under Varying Altitude
-
本文提出Sky2Ground数据集(51个场景,80k图像,统一覆盖卫星/航拍/地面三种视角的合成+真实图像)和SkyNet模型(双流编码器+掩码卫星注意力+渐进式视角采样),首次系统研究了跨地面/航拍/卫星三视角联合相机定位问题,在RRA@5上提升9.6%,在RTA@5上提升18.1%。
- SonoWorld: From One Image to a 3D Audio-Visual Scene
-
提出 SonoWorld,一个 training-free 的框架,可以从单张图片出发,生成可探索的3D音频-视觉场景:先将图片扩展为360°全景并重建为3D高斯场景,再通过VLM驱动的语义定位放置声源锚点,最后用 Ambisonics 编码渲染空间音频,实现视觉与听觉的几何和语义对齐。
- SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs
-
提出球坐标位置编码 SoPE,将点云 token 从一维序列索引重映射到球坐标 \((t,r,\theta,\phi)\) 空间,并配合多维频率分配与多尺度频率混合策略,显著增强 3D 大视觉-语言模型的空间感知能力。
- SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection
-
提出 SPAN 即插即用几何协同约束框架,通过 Spatial Point Alignment(3D角点MGIoU对齐)和 3D-2D Projection Alignment(投影包围矩形GIoU对齐)两个可微损失,强制解耦预测的各属性满足全局几何一致性,配合 Hierarchical Task Learning 策略确保训练稳定,在 KITTI 上将 MonoDGP 的 Car Moderate AP3D 提升 0.92% 达到新 SOTA,推理零额外开销。
- Spectral Defense Against Resource-Targeting Attack in 3D Gaussian Splatting
-
提出首个针对 3DGS 资源耗尽攻击的频域防御框架,通过 3D 频率滤波器选择性剪枝异常高频高斯 + 2D 频谱正则化约束渲染图像的各向异性噪声,在攻击下将高斯过生长抑制最高 5.92×、显存降低最高 3.66×、渲染加速最高 4.34×,同时保持重建质量。
- Spectral Defense Against Resource-Targeting Attack in 3D Gaussian Splatting
-
提出首个针对 3DGS 资源瞄准攻击的频域防御框架——3D 频率滤波器选择性剪除高频异常高斯 + 2D 角度各向异性正则惩罚方向集中的高频噪声,将投毒过增长最多抑制 5.92×、峰值显存降 3.66×、渲染速度提升 4.34×,且 PSNR 反而提升 +1.93dB。
- Speed3R: Sparse Feed-forward 3D Reconstruction Models
-
Speed3R 为 feed-forward 3D重建模型设计了可训练的双分支全局稀疏注意力机制(GSA),通过压缩分支提供粗粒度场景摘要、选择分支聚焦关键 token 精细注意力,在1000视图序列上实现 12.4倍推理加速,同时仅引入微小精度下降。
- Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists
-
通过定期重置高斯尺度(Scale Reset)和对 alpha blending 权重施加熵约束(Entropy Constraint),缩短每个像素的高斯列表长度,实现 3DGS 训练 5-12 倍加速,同时保持可比的渲染质量。
- SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting
-
将3D超分辨率(3DSR)重新定义为从稀疏低分辨率视图到高分辨率3DGS的前馈映射问题,通过高斯偏移学习和特征精炼实现高保真HR 3DGS重建,无需逐场景优化即可实现强零样本泛化。
- STAC: Plug-and-Play Spatio-Temporal Aware Cache Compression for Streaming 3D Reconstruction
-
提出STAC框架,利用因果Transformer中KV缓存的时空稀疏性,通过工作时序token缓存、长期空间token缓存和分块多帧优化三个模块,在不需要额外训练的情况下将流式3D重建的内存消耗降低约10倍、推理速度提升4倍,同时几乎不损失重建质量。
- STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction
-
提出 STAvatar,通过 UV 自适应软绑定框架和时序自适应密度控制策略,从单目视频重建高保真可驱动的 3D 头部化身,在遮挡区域(口腔内部、眼睑)和精细细节方面显著优于现有方法。
- Stepper: Stepwise Immersive Scene Generation with Multiview Panoramas
-
提出 Stepper 框架,通过逐步生成多视角全景图并结合前馈式3D重建管线,实现文本驱动的高保真沉浸式3D场景生成,在PSNR上比现有方法平均提升3.3 dB。
- STS-Mixer: Spatio-Temporal-Spectral Mixer for 4D Point Cloud Video Understanding
-
STS-Mixer 首次将图傅里叶变换(GFT)引入 4D 点云视频理解,通过频域分解捕获不同尺度的几何结构(低频=全局形状、高频=局部细节),与时空信息混合后在动作识别和语义分割上达到 SOTA。
- SwiftTailor: Efficient 3D Garment Generation with Geometry Image Representation
-
提出两阶段轻量框架SwiftTailor,通过PatternMaker预测缝纫样板 + GarmentSewer将其转换为统一UV空间的Garment Geometry Image,结合逆映射与动态拼接直接生成3D服装网格,推理速度比现有方法快数十倍且达到SOTA质量。
- TagSplat: Topology-Aware Gaussian Splatting for Dynamic Mesh Modeling and Tracking
-
提出拓扑感知的高斯泼溅框架 TagSplat,通过显式编码高斯基元间的空间连接关系,在动态场景重建中生成拓扑一致的网格序列,并支持精确的3D关键点跟踪。
- Learning 3D Reconstruction with Priors in Test Time
-
提出测试时约束优化(TCO)框架,无需重训练或修改预训练多视图 Transformer 架构,通过在推理时将先验(相机位姿、内参、深度)作为预测约束进行优化,大幅提升 3D 重建精度。
- Text–Image Conditioned 3D Generation
-
本文发现图像条件和文本条件在3D生成中提供互补信息——图像给出精确外观但受视角限制,文本提供全局语义但缺乏视觉细节——并提出TIGON,一个最小化双分支DiT基线,通过零初始化跨模态桥(early fusion)和步级预测平均(late fusion)实现联合文本-图像条件的原生3D生成。
- TopoMesh: High-Fidelity Mesh Autoencoding via Topological Unification
-
提出 TopoMesh,通过将GT网格和预测网格统一到 Dual Marching Cubes (DMC) 拓扑框架下,首次实现了顶点和面片级别的显式对应,从而支持直接网格级别监督(拓扑、顶点位置、面法向量),F1-Sharp 指标比现有SOTA提升 5.9-7.1%,尤其在锐利特征保持上优势显著。
- Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos
-
提出 World Scene Graph Generation (WSGG) 任务,从单目视频构建包含所有物体(含被遮挡/出画面物体)的时空持久、世界坐标系锚定的场景图,并引入 ActionGenome4D 数据集和三种互补方法(PWG/MWAE/4DST)。
- TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Dual-Level Scale-Oriented Contrast
-
提出 TR2M 框架,利用图像和文本描述预测像素级的 scale/shift 映射图,将泛化性强但无尺度的相对深度转换为度量深度,仅用 19M 可训练参数和 102K 训练图像即可实现跨域零样本度量深度估计。
- tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction
-
tttLRM 首次将 Test-Time Training (TTT) 引入大规模3D重建模型,利用 LaCT 层以线性复杂度实现长上下文和自回归3D高斯重建,通过将多视图观测压缩到 TTT 快速权重中形成隐式3D表示,再解码为显式3DGS等格式,在物体和场景级数据集上达到了 SOTA 性能。
- Unblur-SLAM: Dense Neural SLAM for Blurry Inputs
-
Unblur-SLAM 不是简单把去模糊网络塞进 SLAM 前端,而是围绕“哪些模糊帧可以先去模糊再跟踪、哪些模糊帧必须直接在 3D 空间里建模”这一关键决策,设计了模糊检测、物理约束去模糊、3D Gaussian blur refinement 和严重模糊 fallback 的完整流水线,因此能同时处理运动模糊和散焦模糊,并显著提升跟踪与重建质量。
- UniSplat: Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images
-
UniSplat 通过双掩码策略、粗到细高斯溅射和位姿条件重校准三个组件,从无位姿多视角图像中学习统一的几何-外观-语义 3D 表示,为空间智能奠定感知基础。
- Using Gaussian Splats to Create High-Fidelity Facial Geometry and Texture
-
提出一套基于改进 Gaussian Splatting 的人脸重建管线:通过软约束和语义分割监督将高斯与三角网格紧耦合,从仅 11 张未标定图像重建高精度三角面片几何,并利用 PCA 先验 + 可重光照高斯模型分离光照获取去光照 albedo 纹理,最终兼容标准图形管线(MetaHuman)。
- UTrice: Unifying Primitives in Differentiable Ray Tracing and Rasterization via Triangles for Particle-Based 3D Scenes
-
UTrice 提出以三角形替代高斯椭球作为可微光线追踪的统一图元,无需代理几何体即可直接在 OptiX BVH 中追踪三角形,在保持实时渲染性能的同时显著超越 3DGRT 的渲染质量,并天然兼容光栅化方法 Triangle Splatting 优化的三角形,实现了光栅化与光线追踪的图元统一。
- VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM
-
提出 VarSplat,首个在3DGS-SLAM中学习逐splat外观方差 \(\sigma^2\) 并通过全方差定律渲染逐像素不确定性图 \(V\) 的系统,将不确定性统一应用于跟踪、子图配准和回环检测,在4个数据集上取得鲁棒且领先的性能。
- VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control
-
提出 VerseCrafter,一个基于4D几何控制表示(静态背景点云 + 逐物体3D高斯轨迹)的视频世界模型,通过轻量 GeoAdapter 将4D控制信号注入冻结的 Wan2.1-14B 视频扩散模型,实现了对相机和多物体运动的精确、解耦控制,同时构建了包含 35K 样本的真实世界数据集 VerseControl4D。
- VGG-T3: Offline Feed-Forward 3D Reconstruction at Scale
-
提出VGG-T3,通过测试时训练(TTT)将VGGT中全局注意力层的变长KV表示压缩为固定大小MLP,将离线前馈三维重建的计算复杂度从 \(O(n^2)\) 降至 \(O(n)\),实现了千张图片级别的大规模场景重建(1k张图仅需58秒)。
- VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection
-
提出 VGGT-Det,首个面向无传感器几何输入 (SG-Free) 的多视图室内3D目标检测框架,通过挖掘 VGGT 编码器内部的语义先验(注意力引导查询生成 AG)和几何先验(查询驱动特征聚合 QD),在 ScanNet 和 ARKitScenes 上分别超越最优方法 4.4 和 8.6 mAP@0.25。
- VGGT-SLAM++: Visual SLAM with DEM-Based Covisibility and Local Bundle Adjustment
-
VGGT-SLAM++ 在 VGGT 前馈 Transformer 里程计基础上,引入数字高程图(DEM)作为紧凑的几何保持表示,利用 DINOv2 嵌入实现高效环路检测和共视图构建,配合高频 Sim(3) 局部光束法平差修正短期漂移,在 TUM RGB-D 上 ATE 降低 45%(0.079m→0.036m)。
- VirPro: Visual-referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection
-
提出 VirPro——一种自适应多模态预训练范式,通过视觉引导的概率提示(Adaptive Prompt Bank + Multi-Gaussian Prompt Modeling)为弱监督单目3D检测提供场景感知的语义监督信号,可无缝集成到现有 WS-M3D 框架中,在 KITTI 上最高带来 4.8% AP 提升。
- Wanderland: Geometrically Grounded Simulation for Open-World Embodied AI
-
提出 Wanderland real-to-sim 框架:利用手持多传感器扫描仪(LiDAR+IMU+RGB)采集开放世界室内外场景,通过 LIV-SLAM 获取度量级精确几何与相机位姿,结合 3DGS 实现光学真实感渲染 + 几何接地碰撞仿真,构建 530 场景/42 万帧/380 万 m² 的大规模数据集,系统证明纯视觉重建在度量精度、Mesh 质量和导航策略训练/评估可靠性上远不及 LiDAR 增强方案。
- What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?
-
系统消融合成立体匹配训练数据的设计空间(浮动物体、背景、材质、基线等),发现"真实室内场景 + 密集浮动物体 + 宽基线"是最优组合,据此构建的 WMGStereo-150k 仅用单一数据集即超越四大经典数据集的混合训练。
- WMGStereo: What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?
-
系统研究合成立体数据集的设计空间——在 Infinigen 过程化生成器上逐一变换六大参数(浮动物体密度/背景物体/物体类型/材质/相机基线/光照增强),量化其对零样本立体匹配的影响;发现 "真实室内场景 + 浮动物体" 的组合最有效,据此构建 WMGStereo-150k 数据集,仅用此单一数据集训练即超越 SceneFlow+CREStereo+TartanAir+IRS 四合一(Middlebury 降 28%,Booster 降 25%),与 FoundationStereo 竞争力相当。
- Where, What, Why: Toward Explainable 3D-GS Watermarking
-
提出一种表示原生的 3D-GS 水印框架,通过 Trio-Experts 选载体(where)、Channel-wise Group Mask 控梯度(what)、解耦微调实现可审计归因(why),在渲染质量(PSNR +0.83 dB)和比特精度(+1.24%)上均超越 SOTA。
- Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion
-
提出 Yo'City 多智能体框架,通过"City–District–Grid"层次化规划 + produce–refine–evaluate 等距图像合成环 + 场景图引导扩展机制,实现用户个性化文本驱动的无界 3D 城市生成,在语义一致性和视觉质量上全面超过 SynCity 等现有方法。
- Zero-Shot Reconstruction of Animatable 3D Avatars with Cloth Dynamics from a Single Image
-
DynaAvatar 提出首个零样本框架,从单张图像重建具有运动依赖布料动态效果的可动画化3D人体Avatar,核心通过静态-动态知识迁移策略和光流引导的 DynaFlow 损失函数,在有限动态数据下实现了逼真的衣物动态建模,全面超越现有方法。