🧊 3D 视觉¶
🎞️ ECCV2024 · 172 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (252) · 🔬 ICLR2026 (65) · 🤖 AAAI2026 (74) · 🧠 NeurIPS2025 (116) · 📹 ICCV2025 (268) · 🧪 ICML2025 (11)
🔥 高频主题: 3D 高斯渲染 ×34 · 点云 ×20 · 扩散模型 ×20 · NeRF ×16 · Text-to-3D ×12
- 3D Congealing: 3D-Aware Image Alignment in the Wild
-
3D Congealing将一组语义相似的无标注互联网图像对齐到共享的3D canonical空间,通过结合预训练扩散模型的SDS指导获得3D形状 + DINO语义特征匹配估计位姿和坐标映射,无需模板、位姿标注或相机参数。
- 3D Reconstruction of Objects in Hands without Real World 3D Supervision
-
提出HORSE框架,通过从野外视频中提取多视角2D mask监督(以手部姿态作为物体姿态代理)和从合成3D形状集合中学习2D切片对抗形状先验,训练occupancy网络从单张RGB图像重建手持物体3D形状,在不使用任何真实世界3D标注的情况下,在MOW数据集上超越使用3D监督的方法11.6%。
- 3D Single-Object Tracking in Point Clouds with High Temporal Variation
-
HVTrack首次探索高时间变化场景下的3D单目标跟踪,通过相对位姿感知记忆模块(RPM)、基础-扩展特征交叉注意力(BEA)和上下文点引导自注意力(CPA)三个模块,分别解决点云形状剧变、相似物体干扰和背景噪声问题,在KITTI-HV 5帧间隔下比SOTA提升11.3%/15.7% Success/Precision。
- 3DEgo: 3D Editing on the Go!
-
3DEgo将传统三阶段3D编辑流程(COLMAP位姿估计→未编辑场景初始化→迭代编辑更新)压缩为单阶段框架:先用自回归噪声混合模块对视频帧进行多视角一致的2D编辑,再用COLMAP-free的3DGS从编辑后帧直接重建3D场景,速度提升约10倍且支持任意来源视频。
- 3iGS: Factorised Tensorial Illumination for 3D Gaussian Splatting
-
3iGS 用基于张量分解的连续入射光照场替代 3DGS 中每个高斯体独立优化的球谐系数,结合可学习 BRDF 特征和轻量神经渲染器来建模出射辐射,在保持实时渲染速度的同时显著提升了镜面反射等视角依赖效果的渲染质量。
- 3×2: 3D Object Part Segmentation by 2D Semantic Correspondences
-
提出了一种无需训练的3D物体部件分割方法3-By-2,利用扩散模型(DIFT)的2D语义对应关系从已标注2D数据集或少量3D标注对象中迁移部件标签到3D,在zero-shot和few-shot设置下均达到SOTA。
- 4Diff: 3D-Aware Diffusion Model for Third-to-First Viewpoint Translation
-
本文提出 4Diff,一个结合3D几何先验的 transformer-based 扩散模型,通过自中心点云光栅化和3D感知旋转交叉注意力两个机制,将第三人称(外视角)图像转换为第一人称(自中心视角)图像,在 Ego-Exo4D 数据集上达到 SOTA 并展现出对新环境的强泛化能力。
- 6DGS: 6D Pose Estimation from a Single Image and a 3D Gaussian Splatting Model
-
提出6DGS,通过反转3DGS渲染流程——从椭球体表面均匀发射光线(Ellicell),利用注意力机制将光线与目标图像像素绑定,再用加权最小二乘闭式求解相机位姿,无需迭代和初始位姿,在真实场景上旋转精度提升12%、平移精度提升22%,达到15fps近实时性能。
- A Compact Dynamic 3D Gaussian Representation for Real-Time Dynamic View Synthesis
-
将3DGS中的位置和旋转参数建模为时间的函数(位置用Fourier逼近、旋转用线性逼近),使动态场景的存储复杂度从O(TN)降低到O(LN),在D-NeRF/DyNeRF/HyperNeRF三个数据集上实现了与NeRF方法匹敌的渲染质量,同时保持118+ FPS的实时渲染速度。
- A Probability-guided Sampler for Neural Implicit Surface Rendering
-
提出一种概率引导的光线采样器(Probability-guided Sampler),在3D图像投影空间中建模概率密度函数来指导光线采样朝向感兴趣区域,同时设计了包含近表面和空白空间两个分量的新型表面重建损失,可作为插件集成到现有神经隐式表面渲染器中,显著提升重建精度和渲染质量。
- ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation
-
提出ADen框架,通过生成器输出多个位姿假设+判别器评分选择最佳的方式,统一了位姿回归和概率估计范式,仅需500个自适应样本即超越需要500K均匀采样的方法,同时实现实时推理。
- AEDNet: Adaptive Embedding and Multiview-Aware Disentanglement for Point Cloud Completion
-
提出AEDNet,通过自适应点云嵌入与多视角感知解耦(AED)模块,在编码器和解码器中分别对点云进行全局嵌入和局部解耦,利用从单位球面生成的3D视点从外部观察点云,实现了对3D对象几何的全面理解,在MVP和PCN数据集上达到SOTA。
- Analysis-by-Synthesis Transformer for Single-View 3D Reconstruction
-
提出Analysis-by-Synthesis Transformer(AST),在统一框架中通过Shape Transformer和Texture Transformer分别建模像素到形状和像素到纹理的关系,仅使用2D标注就能实现高质量的网格重建和纹理生成,在CUB-200-2011和ShapeNet上超越已有方法。
- Analytic-Splatting: Anti-Aliased 3D Gaussian Splatting via Analytic Integration
-
通过使用条件 logistic 函数解析近似高斯信号在像素窗口上的积分,替代 3DGS 的像素中心点采样,实现无混叠的 3D 高斯泼溅,在多尺度渲染上超越 Mip-Splatting。
- BAD-Gaussians: Bundle Adjusted Deblur Gaussian Splatting
-
首次将运动模糊物理成像模型引入 3D Gaussian Splatting 框架,联合优化场景 Gaussian 参数与曝光时间内的相机运动轨迹,从模糊图像中恢复清晰 3D 场景并实现实时渲染。
- BeNeRF: Neural Radiance Fields from a Single Blurry Image and Event Stream
-
提出 BeNeRF,仅从单张模糊图像及其对应的事件流(event stream)联合恢复神经辐射场与相机运动轨迹,无需多视角输入或已知位姿,即可实现高质量去模糊与新视角合成。
- Bi-directional Contextual Attention for 3D Dense Captioning
-
提出 BiCA,通过双向上下文注意力机制将 instance query 和 context query 解耦并行解码,解决了 3D 密集描述中定位与描述生成之间的目标冲突,在 ScanRefer 和 Nr3D 两个基准上取得 SOTA。
- Binomial Self-compensation for Motion Error in Dynamic 3D Scanning
-
提出二项式自补偿(BSC)算法,通过对运动受影响的相位序列按二项式系数加权求和,无需任何中间变量即可指数级消除四步相位移轮廓术中的运动误差,实现与相机帧率相同的高精度动态3D扫描。
- CaesarNeRF: Calibrated Semantic Representation for Few-Shot Generalizable Neural Rendering
-
提出 CaesarNeRF,在可泛化 NeRF(GNT)基础上引入场景级语义表征,通过相机位姿校准(特征旋转对齐到目标视角)和序列细化(跨 Transformer 层逐步更新全局特征),在 1-view 设置下 PSNR 比 GNT 提升 1.74dB(LLFF),且可即插即用地增强 IBRNet、MatchNeRF 等其他基线。
- Camera Height Doesn't Change: Unsupervised Training for Metric Monocular Road-Scene Depth Estimation
-
提出FUMET训练框架,利用道路上检测到的车辆尺寸先验聚合为相机高度估计,并利用相机高度在同一视频序列中不变的事实作为度量尺度监督,使任意单目深度网络无需辅助传感器即可学习绝对尺度。
- CG-SLAM: Efficient Dense RGB-D SLAM in a Consistent Uncertainty-Aware 3D Gaussian Field
-
提出CG-SLAM,基于一致性和几何稳定性优化的不确定性感知3D高斯场,实现高效稠密RGB-D SLAM,在定位精度和建图质量上均达到SOTA,跟踪速度最高15Hz。
- CityGaussian: Real-Time High-Quality Large-Scale Scene Rendering with Gaussians
-
提出 CityGaussian (CityGS),通过分治训练策略和 block-wise Level-of-Detail 机制,首次实现了城市级大规模场景(>1.5 km²)的高质量 3D Gaussian Splatting 训练与跨尺度实时渲染。
- Click-Gaussian: Interactive Segmentation to Any 3D Gaussians
-
提出Click-Gaussian,通过学习两级粒度(粗/细)的可区分3D特征场,结合全局特征引导学习(GFL)解决跨视角mask不一致问题,实现每次点击仅需10ms的实时3D高斯交互式分割,速度比现有方法快15-130倍,同时显著提升分割精度。
- CloudFixer: Test-Time Adaptation for 3D Point Clouds via Diffusion-Guided Geometric Transformation
-
本文提出CloudFixer,首个针对3D点云的测试时输入适应方法,通过预训练扩散模型引导的几何变换参数优化,将分布偏移的测试点云变换回源域,同时避免了扩散模型的反向传播,实现了不到1秒的单实例适应速度。
- CoherentGS: Sparse Novel View Synthesis with Coherent 3D Gaussians
-
提出CoherentGS,通过为3DGS引入结构化表示(每像素一个高斯)并利用隐式卷积解码器和全变差损失构建单视图和多视图一致性约束,结合基于单目深度的初始化策略,在极稀疏输入(如3张图像)下实现高质量新视角合成,LPIPS指标显著优于现有NeRF方法。
- ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance
-
提出ComboVerse,一个组合式3D资产生成框架:先将包含多个物体的输入图像分解并独立重建为单物体3D模型,再通过空间感知的Score Distillation Sampling (SSDS)引导物体的位置、缩放和旋转参数优化,实现高质量多物体组合3D资产创建,在CLIP Score和人类评估中均显著优于现有方法。
- Compress3D: a Compressed Latent Space for 3D Generation from a Single Image
-
提出一种高度压缩的 triplane 潜空间自编码器,配合两阶段扩散模型(先生成 shape embedding 再生成 triplane latent),仅需 7 秒即可从单张图像生成高质量 3D 资产,且训练数据和时间远少于同类方法。
- CoR-GS: Sparse-View 3D Gaussian Splatting via Co-Regularization
-
发现同时训练两个 3DGS 辐射场时它们在高斯位置和渲染结果上的差异(disagreement)与重建质量负相关,据此提出 CoR-GS 通过协同剪枝和伪视角协同正则化来抑制不准确重建,在稀疏视角下实现 SOTA 新视角合成。
- CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model
-
提出卷积重建模型 CRM,利用 triplane 与六个正交视图之间的空间对齐先验,用 U-Net 替代 Transformer 直接从六视图映射到 triplane,结合 FlexiCubes 端到端训练,10 秒内从单张图像生成高保真纹理网格,训练成本仅为 LRM 的 1/8。
- CrossScore: Towards Multi-View Image Evaluation and Scoring
-
提出 Cross-Reference(CR)图像质量评估新范式,通过对比查询图像与多个不同视角参考图像,利用 cross-attention 神经网络预测与 SSIM 高度相关的像素级质量分数,无需 ground truth 参考图像即可评估新视角合成质量。
- CrossScore: Towards Multi-View Image Evaluation and Scoring
-
提出 CrossScore——一种新型的交叉参考图像质量评估方法,利用多视角参考图像替代真实参考图,通过 cross-attention 机制预测 SSIM 分数图,在无需 ground truth 的条件下实现接近全参考指标的评估精度。
- D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction
-
提出双流条件扩散模型 D-SCo 从单张 RGB 图像重建手持物体点云,通过统一手-物语义嵌入和手关节几何嵌入两个分支分别提供语义和几何先验,配合手约束质心固定策略稳定扩散过程,在 ObMan 上 F-5 达 0.61(超 DDF-HO 10.9%),真实数据集 HO3D/MOW 上也大幅领先。
- DATENeRF: Depth-Aware Text-based Editing of NeRFs
-
利用NeRF重建的场景深度信息来引导基于文本的2D图像编辑(通过深度条件化的ControlNet + 投影修复方案),从而实现多视角一致的高质量NeRF场景编辑。
- Deblur e-NeRF: NeRF from Motion-Blurred Events under High-speed or Low-light Conditions
-
提出 Deblur e-NeRF,通过物理精确的像素带宽模型来建模事件相机的运动模糊,首次实现从运动模糊的事件流中直接有效地重建无模糊 NeRF。
- Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-observations for High-Quality Sparse-View Reconstruction
-
利用微调的 Stable Diffusion + ControlNet 将粗糙 NeRF/3DGS 渲染结果转化为高质量伪观测图像,将稀疏输入视图增密 5-10 倍后重新训练,在 Hypersim/LLFF/ScanNet 等数据集上超越 FreeNeRF 等方法 1-2dB PSNR,训练速度比扩散正则化方法快约 10 倍。
- Deep Patch Visual SLAM
-
基于 DPVO 视觉里程计系统,通过高效的邻近回环检测和经典回环检测机制,将其扩展为完整的 SLAM 系统 DPV-SLAM,在单 GPU 上实现实时、高精度、低显存的单目视觉 SLAM。
- DG-PIC: Domain Generalized Point-In-Context Learning for Point Cloud Understanding
-
提出 DG-PIC,首个在统一模型中同时处理多领域多任务的点云理解框架,通过双层次源域原型估计和测试时特征平移机制,在不更新模型的情况下提升对未知域的泛化能力。
- DG-PIC: Domain Generalized Point-In-Context Learning for Point Cloud Understanding
-
提出 DG-PIC,首个在统一模型中同时处理多域多任务点云理解的方法,通过双层源域原型估计和双层测试时特征平移机制,在无需模型更新的情况下提升对未见域的泛化能力。
- Differentiable Convex Polyhedra Optimization from Multi-view Images
-
提出一种基于对偶变换和三平面交点求解的可微凸多面体构造方法,绕过隐式场监督,直接利用多视角图像损失进行梯度优化,实现高保真的凸多面体形状表示。
- Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions
-
利用text-to-image扩散模型(ControlNet/T2I-Adapter)将简单场景图像转化为保持同一3D结构的恶劣条件图像,通过自蒸馏微调现有单目深度估计网络,统一解决恶劣天气和非朗伯表面等分布外挑战。
- DiffusionDepth: Diffusion Denoising Approach for Monocular Depth Estimation
-
本文首次将扩散去噪过程引入单目深度估计任务,通过在潜在深度空间中执行视觉条件引导的迭代去噪,并提出自扩散机制解决稀疏GT深度的模式崩塌问题,在KITTI和NYU-Depth-V2上达到SOTA性能。
- Divide and Fuse: Body Part Mesh Recovery from Partially Visible Human Images
-
提出"分而治之"的自底向上人体网格重建方法,通过独立重建各身体部位后融合,有效解决人体大面积不可见时传统自顶向下方法(如SMPL)失效的问题。
- DreamDissector: Learning Disentangled Text-to-3D Generation from 2D Diffusion Priors
-
提出DreamDissector框架,通过Neural Category Field和Deep Concept Mining将包含多物体交互的text-to-3D NeRF解耦为独立的带纹理网格,实现物体级别的3D编辑控制。
- DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting
-
提出DreamScene360,利用全景图像作为中间表示,结合GPT-4V自精炼机制和全景3D高斯溅射技术,实现从文本到沉浸式360°3D场景的快速生成。
- DreamView: Injecting View-specific Text Guidance into Text-to-3D Generation
-
提出DreamView,通过自适应文本引导注入模块,将视角特定的文本描述和全局文本描述协同注入扩散模型,实现可定制化且多视角一致的文本到3D生成。
- DreamView: Injecting View-Specific Text Guidance into Text-to-3D Generation
-
提出DreamView,通过自适应引导注入模块在扩散模型每个U-Net block中动态选择全局文本或视角特定文本作为条件,实现视角级3D定制化生成(如T恤正反面不同图案),同时保持实例级一致性,用户偏好率74.5%。
- Dual-level Adaptive Self-Labeling for Novel Class Discovery in Point Cloud Segmentation
-
提出双层自适应自标注方法,通过半松弛最优传输处理类别不平衡问题,并结合区域级表示增强点级分类器的学习,在点云分割中实现高效的新类发现。
- Dynamic Neural Radiance Field from Defocused Monocular Video
-
提出 \(D^2RF\),首个从散焦单目视频中恢复清晰动态NeRF的方法,通过将景深(DoF)渲染与体积渲染统一,引入分层DoF体积渲染来建模散焦模糊并恢复清晰新视角。
- Efficient Depth-Guided Urban View Synthesis (EDUS)
-
提出EDUS方法,利用噪声几何先验(单目/双目深度)引导可泛化NeRF,通过前景3D CNN + 背景/天空图像渲染的三部分分解,实现稀疏街景视角下的快速前馈推理和高效逐场景微调。
- Equi-GSPR: Equivariant SE(3) Graph Network Model for Sparse Point Cloud Registration
-
提出基于SE(3)等变图神经网络的稀疏点云配准方法Equi-GSPR,通过等变消息传播、低秩特征变换(LRFT)和隐式特征空间相似度匹配,在室内外数据集上以低模型复杂度实现SOTA配准性能。
- Explicitly Guided Information Interaction Network for Cross-modal Point Cloud Completion
-
提出EGIInet框架,通过统一编码器实现模态对齐,并利用显式引导的信息交互策略(FT-Loss)让网络精准识别图像中的关键结构信息,在视图引导点云补全任务上以更少参数实现了超越XMFnet 16% CD的性能。
- External Knowledge Enhanced 3D Scene Generation from Sketch
-
提出SEK框架,结合手绘草图和外部物体关系知识库作为扩散模型的条件,通过知识增强图推理和频谱滤波器,端到端地同时生成3D室内场景的布局和物体几何形状。
- FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance
-
提出 FALIP(Foveal-Attention CLIP),通过在 CLIP 的多头自注意力模块中插入类似人眼中央凹的注意力掩码,在不修改原始图像内容的前提下引导模型关注特定区域,显著提升指代表达理解、图像分类和 3D 点云识别等零样本任务的性能。
- FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance
-
提出FALIP(Foveal-Attention CLIP),一种免训练方法,通过在CLIP的多头自注意力模块中插入类似人类中央凹视觉的注意力掩码,在不修改原始图像的情况下增强CLIP的区域感知能力,在指代表达理解、图像分类和3D点云识别等零样本任务上均取得提升。
- FastCAD: Real-Time CAD Retrieval and Alignment from Scans and Videos
-
提出FastCAD,通过对比学习嵌入空间蒸馏和直接参数预测,实现50ms内完成场景中所有物体的CAD模型检索与对齐,比现有方法快50倍且精度更优。
- Flash Cache: Reducing Bias in Radiance Cache Based Inverse Rendering
-
提出一种无偏的辐射缓存逆渲染方法,通过遮挡感知的vMF重要性采样和快速缓存控制变量技术,在保持计算效率的同时消除现有方法中的渲染偏差,提升材质和光照分解的质量。
- FlashSplat: 2D to 3D Gaussian Splatting Segmentation Solved Optimally
-
将3D高斯溅射的2D-to-3D分割问题建模为整数线性规划,利用alpha混合的线性性质得到闭式最优解,仅需30秒完成优化,比现有方法快50倍。
- FlashTex: Fast Relightable Mesh Texturing with LightControlNet
-
提出LightControlNet——一种光照感知的ControlNet变体,结合两阶段纹理优化pipeline,能在约4分钟内为3D网格生成高质量、可重光照的PBR纹理,速度比现有方法快3-10倍。
- FLAT: Flux-Aware Imperceptible Adversarial Attacks on 3D Point Clouds
-
本文提出FLAT框架,从通量(flux)的角度解决3D点云对抗攻击中的不可感知性问题——通过计算局部扰动向量场的通量来评估均匀性变化,并在检测到高通量(均匀性破坏)时调整扰动方向,生成远比现有方法更难被察觉的对抗点云。
- Flying with Photons: Rendering Novel Views of Propagating Light
-
提出瞬态场(Transient Field)表示,结合首创的多视点超快成像数据集,首次实现从动态新视角渲染真实场景中传播光的视频,能处理散射、反射、折射和衍射等复杂光传输效果。
- Forest2Seq: Revitalizing Order Prior for Sequential Indoor Scene Synthesis
-
提出Forest2Seq框架,通过将无序的室内场景物体组织为层次化的场景树/森林结构,用广度优先遍历导出有意义的排列顺序作为先验知识,配合Transformer自回归解码器显著提升室内场景合成质量。
- FutureDepth: Learning to Predict the Future Improves Video Depth Estimation
-
提出FutureDepth,通过未来预测网络(F-Net)学习运动线索和重建网络(R-Net)学习多帧对应关系,将隐式的运动和场景特征注入深度解码器,在NYUDv2、KITTI、DDAD、Sintel四个数据集上达到SOTA精度和时序一致性,且推理效率显著优于现有视频深度方法。
- G2fR: Frequency Regularization in Grid-Based Feature Encoding Neural Radiance Fields
-
提出了G²fR(Generalized Grid-based Frequency Regularization),通过理论分析建立频率正则化与网格特征编码NeRF的联系,解决了GFE-NeRF在相机位姿优化和少样本重建中的核心问题。
- G3R: Gradient Guided Generalizable Reconstruction
-
提出G3R,一种梯度引导的可泛化重建方法,通过学习一个重建网络迭代地利用可微渲染的3D梯度反馈更新3D Neural Gaussians表示,在大规模场景(>10,000m²)上实现2分钟内重建,加速至少10倍且达到与3DGS可比或更优的渲染质量。
- GAURA: Generalizable Approach for Unified Restoration and Rendering of Arbitrary Views
-
提出GAURA,一种基于可泛化NeRF的统一复原与渲染框架,通过可学习的退化感知latent codes在特征聚合和渲染阶段动态适应不同图像退化类型,无需逐场景优化即可从退化图像中渲染清晰的新视角。
- GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing
-
提出GaussCtrl,利用深度条件化的ControlNet编辑和注意力对齐模块实现多视角一致的文本驱动3DGS场景编辑,支持一次编辑所有视角并仅需一次3D模型更新。
- Gaussian Grouping: Segment and Edit Anything in 3D Scenes
-
为 3D Gaussian Splatting 中的每个高斯学习 16 维 Identity Encoding 实现实例级分组,使用 SAM + DEVA 视频跟踪生成多视图一致的 2D 伪标签做监督,在 LERF-Mask 开放词汇分割上 mIoU 达 69-77%(超 LERF 2 倍+),全景分割超 Panoptic Lifting 4.9% mIoU 且 14× 更快,同时支持 3D 物体移除/修复/着色/风格迁移等多种编辑。
- GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting
-
提出GaussianImage,首次将2D Gaussian Splatting用于图像表示与压缩,通过紧凑的8参数2D高斯和累积求和光栅化算法,实现了2000 FPS的解码速度,同时与INR方法在表示质量和压缩性能上持平。
- GaussReg: Fast 3D Registration with Gaussian Splatting
-
首次探索3D Gaussian Splatting场景之间的配准问题,提出粗到精的GaussReg框架——粗阶段利用点云配准方法估计初始变换,精阶段通过渲染图像提取体积特征进行精细对齐,速度比HLoc快44倍且精度可比。
- Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis
-
提出GCD(Generative Camera Dolly),通过微调Stable Video Diffusion模型实现从单目视频生成任意视角的同步动态新视角视频,支持最高180°的极端相机变换,无需深度输入或显式3D建模。
- GeometrySticker: Enabling Ownership Claim of Recolorized Neural Radiance Fields
-
提出GeometrySticker,将二进制版权信息"贴"在NeRF的几何组件(而非颜色组件)上,使得即使NeRF被重着色(recolorization),原始创建者仍能从渲染图像中提取水印来主张所有权。
- GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image
-
本文提出GeoWizard,一个基于Stable Diffusion先验的几何估计基础模型,通过几何切换器(Geometry Switcher)实现单一模型联合预测深度和法线,并通过场景分布解耦策略(Scene Distribution Decoupler)消除混合场景布局的歧义,在零样本深度和法线基准上达到SOTA。
- GPSFormer: A Global Perception and Local Structure Fitting-Based Transformer for Point Cloud Understanding
-
提出GPSFormer,通过全局感知模块(GPM)学习点云短程和长程依赖,结合Taylor级数启发的局部结构拟合卷积(LSFConv)精确捕获局部几何细节,在ScanObjectNN上以纯监督学习方式达到95.4%准确率,超越所有预训练方法。
- GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation
-
提出GRM,一种基于纯Transformer架构的前馈式3D重建模型,将稀疏视图(4张图)的像素通过pixel-aligned Gaussians转化为稠密的3D高斯表示,约0.1秒完成重建,结合多视图扩散模型可实现文本/图像到3D生成。
- GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting
-
本文提出GS-LRM,一个极其简洁的基于Transformer的大规模重建模型,将多视角图像patch化后通过自注意力直接回归逐像素3D高斯参数,在物体级(超Triplane-LRM 4dB PSNR)和场景级(超pixelSplat 2.2dB PSNR)重建中均大幅超越SOTA,单张A100上0.23秒完成推理。
- GVGEN: Text-to-3D Generation with Volumetric Representation
-
提出GVGEN,首个直接从文本前馈生成3D高斯的框架,通过将无序高斯组织为结构化体积表示(GaussianVolume),并设计从粗到精的生成管线(先生成几何体积再预测高斯属性),在约7秒内完成文本到3D生成。
- HAC: Hash-grid Assisted Context for 3D Gaussian Splatting Compression
-
利用结构化二值哈希网格为无序的3DGS锚点建立空间上下文关系,通过条件概率建模和自适应量化实现高效熵编码,达到相比vanilla 3DGS 75× 的压缩率,同时保持甚至提升渲染质量。
- HeadGaS: Real-Time Animatable Head Avatars via 3D Gaussian Splatting
-
提出HeadGaS,通过为每个3D高斯基元配备可学习的潜在特征基底,利用表情参数线性混合特征并经MLP预测表情相关的颜色和不透明度,实现实时(250+ fps)且高质量的可动画头部重建,PSNR超越基线约2 dB。
- Heterogeneous Graph Learning for Scene Graph Prediction in 3D Point Clouds
-
提出 3D-HetSGP 框架,将3D场景图预测建模为异构图学习问题,通过两阶段的异构图结构学习(HGSL)和异构图推理(HGR),解决了现有同构全连接图方法中不加区分的消息传递导致的次优性能问题。
- Hiding Imperceptible Noise in Curvature-Aware Patches for 3D Point Cloud Attack
-
提出 Wavelet Patches Attack(WPA)方法,利用小波变换分析点云的局部曲率结构,将对抗扰动隐藏在曲率一致的patch中——在平滑区域沿切平面扰动、在尖锐区域沿法向量扰动——实现比现有方法更不可感知的3D点云攻击。
- High-Precision Self-Supervised Monocular Depth Estimation with Rich-Resource Prior
-
提出RPrDepth,在训练阶段利用多帧/高分辨率等"富资源"模型的特征和预测作为先验,通过先验深度融合模块和富资源引导损失,使仅用低分辨率单张图像推理的模型达到甚至超过多帧高分辨率模型的深度估计精度。
- High-Resolution and Few-shot View Synthesis from Asymmetric Dual-Lens Inputs
-
本文提出 DL-GS(Dual-Lens 3D-GS),利用移动设备上常见的非对称双镜头系统(广角+长焦)提供的立体几何约束和高分辨率引导,解决了 3D-GS 在少样本训练和超分辨率渲染上的两大难题,通过一致性感知训练策略和多参考引导细化模块实现了 SOTA 性能。
- Human Hair Reconstruction with Strand-Aligned 3D Gaussians
-
本文提出 Gaussian Haircut,通过经典发丝多段线和 3D 高斯基元的双表示(strand-aligned 3D Gaussians),结合 3D 方向场提升和粗到细的发丝拟合优化策略,从多视角图像重建出可直接用于图形引擎编辑、渲染和物理仿真的高保真发丝级发型,速度比之前方法快 10 倍以上。
- Hyperion: A Fast, Versatile Symbolic Gaussian Belief Propagation Framework for Continuous-Time SLAM
-
本文提出Hyperion,一个基于SymForce符号计算框架自动生成超高效B/Z样条实现的连续时间高斯置信传播(GBP)SLAM框架,在运动跟踪和定位场景中达到与传统NLLS求解器(Ceres)相当的精度,同时天然支持分布式多智能体推理。
- I²-SLAM: Inverting Imaging Process for Robust Photorealistic Dense SLAM
-
提出I²-SLAM,将物理成像过程(运动模糊建模+色调映射)集成到视觉SLAM系统中,通过HDR辐射场地图、多虚拟相机运动模糊模拟和可微分色调映射的联合优化,从手持随意拍摄的退化视频中重建出清晰的HDR 3D地图和更精确的相机轨迹。
- IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation
-
提出IDOL框架,通过统一双模态U-Net和运动一致性损失,实现以人为中心的视频与深度图联合生成,显著优于现有方法。
- Implicit Filtering for Learning Neural Signed Distance Functions from 3D Point Clouds
-
提出一种非线性隐式滤波器,在不需要法线的情况下对神经SDF的隐式场进行平滑同时保留尖锐几何细节,并通过扩展到非零等值面实现全场一致性正则化。
- Improving 2D Feature Representations by 3D-Aware Fine-Tuning
-
通过将2D基础模型特征提升到3D Gaussian表示中实现多视角融合,再用渲染的3D感知特征反向微调2D模型,以线性探测即可提升语义分割和深度估计性能。
- Improving Domain Generalization in Self-Supervised Monocular Depth Estimation via Stabilized Adversarial Training
-
提出 SCAT 框架,通过缩放深度网络(SDN)降低 UNet 跳跃连接对扰动的敏感性,并引入冲突梯度手术(CGS)解决对抗增强导致的双重优化冲突,首次将对抗数据增强成功应用于自监督单目深度估计以提升跨域泛化能力。
- Invertible Neural Warp for NeRF
-
提出用可逆神经网络(INN)过参数化相机位姿的刚性变换函数,在 NeRF 联合优化中显著提升位姿估计精度和重建质量,证明可逆性是 MLP 建模刚性 warp 的关键约束。
- JointDreamer: Ensuring Geometry Consistency and Text Congruence in Text-to-3D Generation via Joint Score Distillation
-
提出联合分数蒸馏(JSD),通过能量函数建模多视图去噪图像的联合分布,将 SDS 从单视图独立优化扩展为多视图联合优化,有效解决 3D 生成中的 Janus 问题,同时保持对复杂文本的生成保真度。
- Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance
-
提出大规模语言驱动6-DoF抓取数据集Grasp-Anything-6D(1M场景、200M抓取姿态),以及基于扩散模型的LGrasp6D方法,核心创新是负提示引导(Negative Prompt Guidance)策略,在推理时引导抓取姿态远离非目标物体。
- LaRa: Efficient Large-Baseline Radiance Fields
-
提出LaRa前馈重建模型,通过高斯体积(Gaussian Volume)表示和分组注意力层(Group Attention Layer)统一局部与全局推理,仅需4张图像即可从大基线视角重建360°辐射场,且仅用4×A100训练2天即可超越LGM等费时方法。
- Learning 3D-Aware GANs from Unposed Images with Template Feature Field
-
提出模板特征场(TeFF),通过联合学习生成辐射场和语义特征场,从无姿态标注的野外图像中自动提取3D模板并在线估计相机位姿,从而实现完整3D几何的生成对抗学习。
- Learning 3D Geometry and Feature Consistent Gaussian Splatting for Object Removal
-
提出 GScream 框架,通过单目深度引导训练和交叉注意力特征正则化,在 3D Gaussian Splatting 表示下实现高质量的物体移除,同时保持几何一致性和纹理连贯性。
- Learning to Generate Conditional Tri-Plane for 3D-Aware Expression Controllable Portrait Animation
-
提出 Export3D,通过对比预训练获取与外观解耦的表情表示(CLeBS),结合表情自适应层归一化(EAdaLN)直接生成条件tri-plane,实现无外观交换的跨身份3D-aware人像表情动画。
- LEIA: Latent View-Invariant Embeddings for Implicit 3D Articulation
-
提出LEIA方法,通过学习视角不变的潜在嵌入来表征铰接物体的不同状态,利用超网络(HyperNetwork)调制NeRF权重,实现在未见过的铰接配置之间进行平滑插值,无需任何运动先验或3D监督。
- LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation
-
本文提出LGM,一个基于非对称U-Net架构的多视角3D高斯重建模型,从4张正交视角图像预测65536个3D高斯原语,在512分辨率下5秒内完成从文本/图像到高分辨率3D模型的生成,通过数据增强策略弥合训练-推理域差异。
- LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation
-
提出LN3Diff++框架,通过3D感知的VAE将多视角图像压缩到紧凑的3D潜在空间,在该空间上训练扩散模型(U-Net或DiT),实现高质量、快速、通用的条件3D生成,包括文本到3D和图像到3D。
- MaRINeR: Enhancing Novel Views by Matching Rendered Images with Nearby References
-
提出MaRINeR方法,利用附近参考图像通过深度特征匹配和层次化细节传输来增强3D重建的渲染图像质量,适用于显式(mesh)和隐式(NeRF)等多种3D表示的渲染后处理。
- MegaScenes: Scene-Level View Synthesis at Scale
-
从Wikimedia Commons互联网照片构建包含10万+SfM重建的大规模场景级3D数据集MegaScenes,并结合warp条件和位姿条件提升场景级新视角合成的位姿一致性。
- Mesh2NeRF: Direct Mesh Supervision for Neural Radiance Field Representation and Generation
-
提出Mesh2NeRF,通过解析解直接从纹理网格(textured mesh)构造GT辐射场,用occupancy函数建模密度场、用反射模型建模颜色场,为NeRF表示与生成任务提供精确的3D逐点监督。
- MeshFeat: Multi-Resolution Features for Neural Fields on Meshes
-
提出MeshFeat,一种适用于mesh上神经场的参数化多分辨率特征编码方法,利用网格简化算法构建多分辨率特征表示,在保持重建质量的同时实现13倍推理加速。
- MIGS: Multi-Identity Gaussian Splatting via Tensor Decomposition
-
提出MIGS,通过CP张量分解将多个人体身份的3DGS参数统一到一个低秩张量中,在大幅减少参数量的同时实现了对未见姿态的鲁棒动画。
- milliFlow: Scene Flow Estimation on mmWave Radar Point Cloud for Human Motion Sensing
-
提出首个毫米波雷达点云场景流估计方法 milliFlow,通过多尺度特征提取、全局聚合、GRU 时序传播和约束回归,在自建数据集上将 EPE3D 从次优 0.107m 降至 0.046m(cm 级精度),并展示场景流特征对人体活动识别(+7.9%)、人体部位解析(+3.6%)、人体追踪等下游任务的增强效果。
- MVDiffusion++: A Dense High-Resolution Multi-View Diffusion Model for Single or Sparse-View 3D Object Reconstruction
-
MVDiffusion++提出了一种无需相机位姿的多视图潜在扩散模型,通过"无位姿架构"和"视图丢弃训练策略"两个简洁的想法,从单张或少量输入图像生成密集(32张)高分辨率(512×512)的多视图图像,进而实现高质量3D物体重建。
- MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo
-
将MVS的代价体深度估计与3D高斯溅射结合,通过混合渲染(splatting+volume rendering)提升泛化性,并提出基于多视图几何一致性的点云聚合策略,使per-scene优化仅需45秒就超越3D-GS的10分钟效果。
- MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images
-
提出MVSplat,通过plane-sweep构建代价体(cost volume)来精确定位Gaussian中心,以极少参数量(pixelSplat的1/10)和最快推理速度(22fps)实现了稀疏视角前馈式3D Gaussian预测的SOTA。
- NGP-RT: Fusing Multi-Level Hash Features with Lightweight Attention for Real-Time Novel View Synthesis
-
提出NGP-RT,通过轻量注意力机制聚合多级显式哈希特征替代per-point MLP,并引入占用距离网格减少光线行进中的内存访问,在Mip-NeRF 360数据集上实现1080p 108fps的实时NeRF渲染。
- NOVUM: Neural Object Volumes for Robust Object Classification
-
提出 NOVUM 架构,为每个物体类别维护一个由 3D 高斯组成的神经体积表征,通过将图像特征与各类别的高斯特征匹配实现分类,在遮挡/损坏/真实 OOD 场景下相比 ResNet/ViT/Swin 等标准架构分类准确率提升 6-33%,同时支持 3D 位姿估计和可解释性可视化。
- nuCraft: Crafting High Resolution 3D Semantic Occupancy for Unified 3D Scene Understanding
-
本文构建了基于nuScenes的高精度3D语义占用数据集nuCraft(分辨率达0.1m体素、8倍于现有benchmark),并提出VQ-Occ方法利用VQ-VAE将占用数据编码到紧凑潜在空间中进行预测,首次实现了无需后处理上采样的高分辨率语义占用直接生成。
- Omni-Recon: Harnessing Image-Based Rendering for General-Purpose Neural Radiance Fields
-
提出Omni-Recon框架,通过基于图像的渲染(IBR)管线构建通用NeRF,利用解耦的几何/外观双分支设计,首次在单一模型中实现可泛化3D重建、零样本多任务场景理解和实时渲染、场景编辑等多种下游3D任务的适配。
- Omni6D: Large-Vocabulary 3D Object Dataset for Category-Level 6D Object Pose Estimation
-
构建了 Omni6D——首个大规模类别级 6DoF 姿态估计 RGBD 数据集,覆盖 166 个类别、4688 个实例、80 万张图像,远超现有 NOCS 等数据集(仅 6 类),并提出对称感知评估指标和渐进式微调策略。
- On the Error Analysis of 3D Gaussian Splatting and an Optimal Projection Strategy
-
从数学上系统分析3D Gaussian Splatting中局部仿射近似引入的投影误差,证明误差函数在Gaussian均值方向与投影平面法线重合时取极小值,据此提出每个Gaussian投影到各自切平面的最优投影策略(Optimal Gaussian Splatting),在不影响实时性能的前提下显著降低渲染伪影。
- Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models
-
提出 Diff2Scene,首次将预训练的文本-图像扩散模型(Stable Diffusion)用于开放词汇3D语义分割,通过创新的掩码蒸馏方法将2D基础模型的语义丰富mask嵌入迁移到3D几何感知mask模型,在 ScanNet200 上超越 SOTA 12%。
- Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation
-
提出 GGSD 框架,利用3D几何先验(超点语义一致性)引导从2D模型到3D模型的知识蒸馏,并通过自蒸馏机制进一步挖掘3D数据的表征优势,在室内外开放词汇3D场景理解任务上大幅超越现有方法。
- P2P-Bridge: Diffusion Bridges for 3D Point Cloud Denoising
-
提出 P2P-Bridge,将点云去噪建模为 Schrödinger Bridge 问题,学习噪声点云到干净点云之间的最优传输计划,首次引入数据到数据(而非数据到噪声)的扩散范式,在合成数据和真实室内场景(ScanNet++、ARKitScenes)上均大幅超越现有方法。
- PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion
-
提出 PCF-Lift,通过概率特征嵌入(多元高斯分布)替代确定性特征,结合概率乘积核(PP Kernel)的对比损失和跨视图约束,有效应对2D分割中的不一致分割和不一致ID问题,在 ScanNet 和 Messy Room 数据集上显著超越前沿方法。
- Per-Gaussian Embedding-Based Deformation for Deformable 3D Gaussian Splatting
-
提出基于逐高斯嵌入(Per-Gaussian Embedding)的形变表示方法,将形变定义为逐高斯潜在嵌入与时间嵌入的函数,辅以粗细形变分解和局部平滑正则化,在多个动态场景数据集上取得了质量、速度和模型容量的全面优势。
- Pixel-GS: Density Control with Pixel-aware Gradient for 3D Gaussian Splatting
-
Pixel-GS通过在3DGS的点云生长判定条件中引入像素覆盖数量作为梯度加权因子,解决了大高斯体在初始点云稀疏区域无法有效分裂的问题,同时通过距离感知的梯度缩放抑制相机附近浮点伪影的产生。
- PointLLM: Empowering Large Language Models to Understand Point Clouds
-
将点云编码器(Point-BERT)通过 MLP 投影层对接 LLaMA 大语言模型,构建 PointLLM;利用 730K 指令数据(660K 简述 + 70K 复杂指令)两阶段训练后,在 3D 物体分类上达到 53.4% 生成式准确率(超越 LLaVA-13B 的 44.2%),在物体描述任务上人类评估胜率 55%(超越人工标注)。
- ProDepth: Boosting Self-Supervised Multi-Frame Monocular Depth with Probabilistic Fusion
-
提出一种概率融合框架 ProDepth,通过辅助解码器推断动态区域不确定性,以加权几何均值自适应融合单帧和多帧深度概率分布来修正代价体中的错误匹配代价,并配合不确定性感知的损失重加权策略,在自监督多帧单目深度估计中取得 SOTA。
- Progressive Classifier and Feature Extractor Adaptation for Unsupervised Domain Adaptation on Point Clouds
-
提出 PCFEA 方法用于点云无监督域自适应,通过渐进构建从源域到目标域的中间域,在宏观层面用目标风格特征增强训练分类器(PTFA),微观层面引导特征提取器向中间域对齐(IDFA),在 PointDA-10 上均值准确率达 76.5%(超 SOTA +2.9%),GraspNetPC-10 上达 87.6%(超 SOTA +13.7%)。
- Protecting NeRFs' Copyright via Plug-And-Play Watermarking Base Model
-
提出 NeRFProtector,利用预训练的水印基础模型(message extractor)以即插即用方式在 NeRF 创建过程中同步嵌入二进制水印,通过渐进式全局渲染(PGR)将水印知识蒸馏到 NeRF 表示中,无需修改 NeRF 架构即可实现高比特精度的版权保护。
- Ray-Distance Volume Rendering for Neural Scene Reconstruction
-
提出 RS-Recon 方法,用射线方向相关的有符号射线距离函数(SRDF)替代传统 SDF 来参数化体渲染中的密度函数,结合 SRDF-SDF 一致性损失和自监督可见性任务,在多物体室内场景重建中取得更准确的表面和视图合成。
- Spring-Gaus: Reconstruction and Simulation of Elastic Objects with Spring-Mass 3D Gaussians
-
提出 Spring-Gaus,将可学习的 3D 弹簧-质点模型集成到 3D Gaussian Splatting 中,从多视角视频重建弹性物体的外观、几何和物理动力学参数,支持未来预测和不同条件下的仿真。
- Reliable Spatial-Temporal Voxels For Multi-Modal Test-Time Adaptation
-
本文提出 Latte(ReLiable Spatial-temporal Voxels),一种多模态测试时适应方法,通过滑动窗口帧聚合构建时空体素(ST voxels)并计算时空熵(ST entropy)来评估预测可靠性,进而实现自适应跨模态学习,在三个 MM-TTA 基准上取得 SOTA 性能。
- Repaint123: Fast and High-Quality One Image to 3D Generation with Progressive Controllable Repainting
-
Repaint123 提出了一种渐进式可控重绘策略,用 2D 扩散模型生成多视角一致的高质量图像,再通过简单的 MSE 损失快速优化 3D 表征,仅需 2 分钟即可从单张图像生成纹理精细、多视角一致的 3D 内容,大幅超越基于 SDS 的方法。
- RISurConv: Rotation Invariant Surface Attention-Augmented Convolutions for 3D Point Cloud Classification and Segmentation
-
提出 RISurConv,通过构建局部三角表面并提取高表达力旋转不变表面属性(RISP),结合注意力增强卷积,实现首次在精度上超越非旋转不变方法的旋转不变点云分析网络。
- RoGUENeRF: A Robust Geometry-Consistent Universal Enhancer for NeRF
-
本文提出RoGUENeRF,一种结合3D重投影对齐、非刚性光流精炼和几何感知注意力的NeRF后处理增强器,能在保持视角一致性的同时显著提升多种NeRF方法的图像渲染质量,且对相机标定误差具有鲁棒性。
- RPBG: Towards Robust Neural Point-based Graphics in the Wild
-
本文针对Neural Point-based Graphics (NPBG)在真实场景中的鲁棒性不足问题,提出RPBG,通过退化感知卷积模块、注意力驱动的点可见性校正、轻量级背景建模和点云增强,在不修改点栅格化流程的前提下显著提升了点云神经重渲染在多种wild数据集上的质量和稳定性。
- S³D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis
-
提出 S³D-NeRF,利用分层面部外观编码器、跨模态面部形变场和唇音同步判别器,实现了仅需一张图片即可由语音驱动生成高保真说话头视频的 NeRF 方法,在视频质量和唇音同步方面超越了现有单图方法。
- SAGS: Structure-Aware 3D Gaussian Splatting
-
提出 SAGS,通过局部-全局图表示和图神经网络隐式编码场景几何结构,在保持实时渲染的同时提升3DGS的渲染质量、减少存储需求(最高24×压缩),并显著抑制浮点伪影。
- Sapiens: Foundation for Human Vision Models
-
Sapiens 提出了一个以人为中心的视觉基础模型家族(0.3B-2B参数),通过在3亿张人体图像上进行 MAE 自监督预训练,原生支持1K高分辨率推理,在2D姿态估计、身体部位分割、深度估计和表面法线预测四个人体视觉任务上全面超越现有SOTA。
- SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer
-
SC4D提出了一种基于稀疏控制点的视频到4D生成框架,通过将动态3D物体的运动和外观解耦为稀疏控制点(~512个)和密集高斯体(~50k个),结合自适应高斯初始化(AG)和高斯对齐损失(GA)解决形状退化问题,并实现了基于控制点运动的跨实体运动迁移应用。
- ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities
-
提出 3D reasoning grounding 新任务和 ScanReason 基准(10K+ QA-location pairs,5种推理类型),设计 ReGround3D 框架将 MLLM 推理与 3D grounding 模块通过 Chain-of-Grounding 机制协同,在隐式指令下实现准确的 3D 目标定位。
- ScatterFormer: Efficient Voxel Transformer with Scattered Linear Attention
-
提出 ScatterFormer,首个直接对跨窗口的变长体素序列施加线性注意力的体素 Transformer,通过 Scattered Linear Attention (SLA) 模块和 chunk-wise 矩阵乘法算法实现亚毫秒级延迟,配合 Cross-Window Interaction (CWI) 模块替代窗口平移,在 Waymo 和 nuScenes 上达到 SOTA 精度的同时保持 23 FPS 的检测速度。
- SceneGraphLoc: Cross-Modal Coarse Visual Localization on 3D Scene Graphs
-
提出 SceneGraphLoc,将查询图像在由多模态 3D 场景图组成的参考地图中进行粗定位,在不依赖大规模图像数据库的前提下,实现了接近 SOTA 图像级方法的定位精度,同时存储需求降低三个数量级。
- SceneGraphLoc: Cross-Modal Coarse Visual Localization on 3D Scene Graphs
-
提出SceneGraphLoc,首次将queryimage在多模态3D场景图数据库中进行粗定位,通过学习场景图节点和图像patch的统一嵌入空间,在存储效率提升1000倍的同时接近图像检索方法的定位精度。
- SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding
-
提出首个百万级 3D 视觉-语言数据集 SceneVerse(68K 室内场景 + 2.5M 场景-语言对),结合多层级对比预训练框架 GPS,在 3D visual grounding 和 QA 任务上取得 SOTA,并展现零样本迁移能力。
- SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding
-
提出SceneVerse——首个百万级3D视觉语言数据集(68K场景+250万语言描述),通过结合人工标注和基于场景图的自动生成pipeline构建多粒度描述,并设计GPS预训练框架实现多层次场景-文本对齐,在3D grounding和QA基准上达到SOTA。
- SEDiff: Structure Extraction for Domain Adaptive Depth Estimation via Denoising Diffusion Models
-
提出 SEDiff,首次利用扩散模型提取域不变的结构信息,通过结构一致的风格迁移消除合成数据与真实数据之间的域差距,实现了高性能的域自适应单目深度估计。
- SEED: A Simple and Effective 3D DETR in Point Clouds
-
SEED 提出了一种简洁高效的 3D DETR 检测器,通过双重查询选择(DQS)模块以粗到精方式获取高质量查询,结合可变形网格注意力(DGA)模块利用 3D 物体的几何结构信息实现灵活的查询交互,在 Waymo 和 nuScenes 上达到新 SOTA。
- SegPoint: Segment Any Point Cloud via Large Language Model
-
提出 SegPoint,首个利用多模态 LLM 推理能力在统一框架中完成 3D 指令分割、引用分割、语义分割和开放词汇分割四种任务的模型,并构建 Instruct3D 基准测试(2,565 对),mIoU 达 27.5%。
- SGS-SLAM: Semantic Gaussian Splatting for Neural Dense SLAM
-
提出SGS-SLAM,首个基于Gaussian Splatting的语义视觉SLAM系统,通过多通道优化融合外观、几何和语义特征,在相机姿态估计、地图重建和语义分割方面均达到SOTA。
- SINDER: Repairing the Singular Defects of DINOv2
-
揭示DINOv2特征图中高范数缺陷token的根源是网络权重的主左奇异向量(singular defect),并提出SINDER——仅需小数据集微调奇异值即可修复缺陷,同时保持特征质量。
- SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields
-
提出SlotLifter,通过将2D特征提升为3D并与Slot Attention结合的slot-guided feature lifting设计,在场景分解和新视角合成上同时达到SOTA,且训练效率提升约5倍。
- SparseSSP: 3D Subcellular Structure Prediction from Sparse-View Transmitted Light Images
-
提出 SparseSSP,一种混合维度拓扑的高效框架,通过 Z 轴深度到通道变换将 3D 亚细胞结构预测转化为 2D 网络任务,最多减少 87.5% 的成像频次同时保持领先精度。
- SplatFields: Neural Gaussian Splats for Sparse 3D and 4D Reconstruction
-
SplatFields发现3D高斯溅射(3DGS)在稀疏视图设置下的性能瓶颈源于splat特征缺乏空间自相关性,提出通过隐式神经场预测splat特征来引入空间正则化,在静态3D和动态4D的稀疏重建场景中一致提升了重建质量。
- SuperGaussian: Repurposing Video Models for 3D Super Resolution
-
提出SuperGaussian,通过复用预训练视频上采样模型实现3D超分辨率,无需类别特定训练,可处理多种3D输入格式(高斯、NeRF、网格等),输出高质量Gaussian Splat模型。
- Surface Reconstruction from 3D Gaussian Splatting via Local Structural Hints
-
针对3DGS在表面重建质量差的问题,提出利用单目法向/深度先验来增强高斯原语的几何组织性,并通过移动最小二乘(MLS)构建局部符号距离场,再联合学习神经隐式网络进行正则化,显著提升了3DGS的表面重建精度。
- SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion
-
提出SV3D,将图像到视频扩散模型适配为多视图合成和3D生成,利用视频模型的泛化能力和多视图一致性,并引入显式相机控制。
- TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting
-
提出TalkingGaussian,基于3D高斯溅射的形变驱动说话人头部合成框架,通过对持久性高斯基元施加平滑形变表示面部运动,并分解面部和口腔内部区域以解决运动不一致问题。
- MALD-NeRF: Taming Latent Diffusion Model for Neural Radiance Field Inpainting
-
提出MALD-NeRF,通过掩码对抗训练和场景定制的潜在扩散模型实现高质量NeRF修复,有效解决扩散模型的多视角不一致和纹理偏移问题。
- TCC-Det: Temporarily Consistent Cues for Weakly-Supervised 3D Detection
-
本文提出一种完全不需要人工3D标注的弱监督3D目标检测方法,通过利用现成的2D检测器(Mask-RCNN)和多帧时间一致性线索生成高质量伪3D标签,然后用于训练3D点云检测器(Voxel-RCNN),在KITTI和Waymo上超越所有弱监督方法并显著缩小与全监督方法的差距。
- TC-Stereo: Temporally Consistent Stereo Matching
-
提出TC-Stereo,通过时序视差补全提供良好初始化、时序状态融合保持隐藏态连贯性,以及双空间(视差+视差梯度)迭代精炼改善病态区域,实现时间一致的立体匹配。
- Texture-GS: Disentangling the Geometry and Texture for 3D Gaussian Splatting Editing
-
提出Texture-GS,首次为3D高斯溅射解耦几何与纹理,通过UV映射MLP和局部Taylor展开将外观表示为2D纹理图,实现实时纹理替换和编辑(58 FPS,RTX 2080 Ti)。
- The NeRFect Match: Exploring NeRF Features for Visual Localization
-
提出NeRFMatch,探索NeRF内部特征作为3D描述子的潜力,建立基于注意力机制的2D-3D匹配网络,在Cambridge Landmarks上实现有竞争力的定位性能,验证了NeRF作为定位场景表示的可行性。
- Thermal3D-GS: Physics-induced 3D Gaussians for Thermal Infrared Novel-view Synthesis
-
提出Thermal3D-GS,通过神经网络建模大气传输效应和热传导物理过程,并引入温度一致性约束,实现热红外图像的高质量新视角合成,创建了首个大规模热红外新视角合成数据集TI-NSD。
- TPA3D: Triplane Attention for Fast Text-to-3D Generation
-
提出TPA3D,一个基于GAN的文本引导3D生成框架,通过三平面注意力(TPA)模块在句子级和词级特征上进行逐层细化,实现快速且细粒度的文本到3D纹理网格生成。
- Track Everything Everywhere Fast and Robustly
-
提出一种高效鲁棒的测试时优化像素跟踪方法,通过引入CaDeX++可逆变形网络、单目深度先验和DINOv2长期语义一致性,将训练速度提升10倍以上,同时显著提高了跟踪精度和鲁棒性。
- TrackNeRF: Bundle Adjusting NeRF from Sparse and Noisy Views via Feature Tracks
-
提出TrackNeRF,将SfM中的特征轨迹(feature tracks)引入NeRF训练,通过全局多视角重投影一致性损失替代传统的成对对应损失,显著提升稀疏+有噪声位姿下的NeRF重建质量和位姿优化精度。
- Transferable 3D Adversarial Shape Completion using Diffusion Models
-
提出3DAdvDiff,利用3D扩散模型通过对抗性形状补全生成高质量的迁移性3D对抗点云,结合模型不确定性、集成对抗引导和显著性评分策略,在黑盒设置下对最新3D模型实现SOTA攻击成功率。
- UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation
-
提出UniDream,通过训练albedo-法线对齐的多视角扩散模型(AN-MVM),结合Transformer重建模型和分阶段SDS优化,实现可重光照的文本到3D生成,生成的3D物体具有干净的albedo纹理和PBR材质。
- VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing
-
提出VCD-Texture,在Stable Diffusion去噪过程中统一2D和3D自注意力学习(JNP),通过方差对齐(VA)解决光栅化引起的方差衰减问题,并用修复细化处理不一致区域,实现高保真、高一致性的3D纹理合成。
- VersatileGaussian: Real-Time Neural Rendering for Versatile Tasks Using Gaussian Splatting
-
本文提出 VersatileGaussian,通过为 3D 高斯赋予共享多任务特征并设计任务相关注意力(Task Correlation Attention)模块实现跨任务信息流动,在 ScanNet 和 Replica 数据集上同时达到了多任务标签预测的 SOTA 精度和 35 FPS 的实时渲染速度。
- View Selection for 3D Captioning via Diffusion Ranking
-
提出DiffuRank方法,利用预训练text-to-3D扩散模型(Shap·E)对3D物体渲染视角进行对齐度评分和排序,选出最具代表性的Top-6视角送入GPT4-Vision生成高质量字幕,修正Cap3D中约200k错误标注并扩展至150万条字幕。
- Vista3D: Unravel the 3D Darkside of a Single Image
-
提出Vista3D,通过粗到细的两阶段框架(高斯溅射→FlexiCubes等值面细化+解耦纹理),结合角度扩散先验组合,5分钟内从单张图像生成多样且一致的高保真3D网格。
- WaSt-3D: Wasserstein-2 Distance for Scene-to-Scene Stylization on 3D Gaussians
-
提出WaSt-3D,利用3D高斯溅射表示将风格迁移重新定义为两个高斯分布之间的最优传输问题,通过Sinkhorn散度匹配内容场景和风格场景的3D分布,首次实现了3D场景到场景的几何风格迁移。
- When Do We Not Need Larger Vision Models?
-
提出 Scaling on Scales (S2) 策略:冻结小模型(如 ViT-B)在多个图像尺度上运行并拼接特征,无需增加参数即可在分类、分割、深度估计、MLLM 等任务上匹敌甚至超越大模型(ViT-H/G),并从理论和实验上论证了大模型学到的表征大部分可由多尺度小模型线性近似。
- Zero-Shot Multi-Object Scene Completion
-
提出OctMAE,一种融合Octree U-Net和隐空间3D MAE的混合架构,从单张RGB-D图像实现高质量近实时的多物体场景形状补全,通过遮挡掩码策略和3D旋转位置编码显著提升效率和泛化能力。
- ZeST: Zero-Shot Material Transfer from a Single Image
-
提出ZeST,一种零样本免训练的材质迁移方法,通过IP-Adapter提取材质表示、ControlNet提供几何引导、前景灰度图提供光照线索,三条分支组合实现从单张材质样本图像到目标物体的2D材质迁移。