Exploring the Potential of Encoder-free Architectures in 3D LMMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=22Hh0Vj5Dd
代码: Ivan-Tang-3D/ENEL
领域: 3D 视觉 / 3D 多模态大模型
关键词: encoder-free、3D LMM、点云理解、自监督损失、几何聚合

一句话总结¶

本文提出首个无编码器（encoder-free）3D 大多模态模型 ENEL，把原本由预训练 3D 编码器承担的「高层语义提取」和「局部几何归纳偏置」两件事直接交给 LLM 自己完成，7B 模型在分类/描述/VQA 上追平 PointLLM-PiSA-13B。

研究背景与动机¶

领域现状：主流 3D LMM（PointLLM、ShapeLLM 等）都是 encoder-based 架构——先用 Point-BERT / I2P-MAE 等重量级预训练 3D 编码器把点云编成高层 embedding，再经投影层喂给 LLM。
现有痛点：这套范式有两个长期顽疾。其一点云分辨率受限（Point Cloud Resolution Limitation）——3D 编码器在固定分辨率（如 8192 点）上预训练，推理时点数变化（4K/12K）就会丢失空间信息，captioning GPT-4 分数从 8K 的 ~44 掉到 16K 的 ~42、2K 的 ~33；其二嵌入语义错位（Embedding Semantic Discrepancy）——编码器用 MAE / 对比学习等自监督目标训练，提取的特征未必对齐 LLM 的语义需求，简单 MLP 投影层也补不全这层语义鸿沟。
核心矛盾：编码器提供了现成知识，但它的固定分辨率与自监督先验恰恰成了天花板；要不要、能不能把编码器整个拿掉，让 LLM 自己当 3D 编码器？
本文目标：在尽量不掉点的前提下移除 3D 编码器，系统回答两个关键问题——(1) 如何补偿编码器原本提取的高层 3D 语义？(2) 如何把局部几何归纳偏置注入到本无局部建模能力的 LLM 中？
核心 idea：【语义补偿】 用「LLM-embedded Semantic Encoding + Hybrid Semantic Loss」在预训练阶段把高层语义压进 LLM 早期层；【几何补偿】 用「Hierarchical Geometry Aggregation」在指令微调阶段为 LLM 注入局部到全局的层级几何建模。

方法详解¶

整体框架¶

ENEL 以 PointLLM 为基线、Vicuna-7B 为底座，保留「预训练 + 指令微调」两阶段，但彻底删掉 3D 编码器。输入点云先经一个轻量 Point Embedding Layer（Point-PN 变体：FPS 下采样 + k-NN 局部聚合 + 线性层，3 层最佳）转成点 token，直接送入 LLM；并把 LLM 前 K=4 层解冻参与多模态对齐。两阶段各负责一个补偿任务：阶段一用 Hybrid Semantic Loss 灌高层语义，阶段二用 Hierarchical Geometry Aggregation 抓局部结构。

flowchart TD
    PC[原始点云] --> PE[Point Embedding Layer<br/>FPS+kNN+Linear]
    PE --> T[点 token]
    T --> S1[阶段一: 预训练<br/>前 K=4 层可学]
    S1 --> HSL[Hybrid Semantic Loss<br/>掩码建模+重建+CE]
    HSL --> S2[阶段二: 指令微调]
    S2 --> HGA[Hierarchical Geometry Aggregation<br/>聚合→H层建模→传播]
    HGA --> OUT[文本回答]

关键设计¶

1. LLM-embedded Semantic Encoding：让早期层接管编码器角色。 没有编码器，点云缺乏上下文建模，于是把「捕获全局交互、编码高层语义」这件事压给 LLM 自己——具体做法是解冻冻结 LLM 的前 $K$ 层，让 3D token 与文本 token 在共享语义空间里自然交互对齐（early fusion）。实验发现解冻 4 层、且预训练用较小学习率（$4\text{e-}4$ 而非默认 $2\text{e-}3$）能稳定早期层优化、效果最好；分类/描述 GPT-4 分从无编码器裸跑的 35.5/33.4 回升到 47.9/43.5。

2. Hybrid Semantic Loss：为 encoder-free 量身定制的自监督损失。 作者先逐一试了四类经典点云自监督损失——掩码建模（MSE 预测被 mask 的点 token）、重建（Chamfer 距离重建点 patch）、对比（几何变换正负对）、知识蒸馏（对齐 Uni3D-L 教师特征），发现掩码建模最强、对比最弱，且 KD/对比开销大收益小。据此提出混合损失：以掩码比 $r=30\%$ 随机 mask 点 token，对被 mask 部分做掩码建模、对可见部分做重建，两项与交叉熵各以系数 1 相加： $$\mathcal{L}_{\text{mask}}=\frac{1}{Mr}\sum_{i=1}^{Mr}\lVert F_{\text{pre}_i}-F_{\text{gt}_i}\rVert_2^2,\quad \mathcal{L}_{\text{recon}}=\frac{1}{M}\sum_i\Big(\min_j\lVert a_i-b_j\rVert_2^2+\min_j\lVert b_i-a_j\rVert_2^2\Big)$$ 关键洞见在于它利用了 encoder-free 架构的两个特性：点云的置换不变性让可学习 token 直接拼到可见 token 末尾、无需位置复原；以及 LLM 的因果掩码（区别于 3D 编码器的双向掩码）改变了可见/掩码 token 的信息流，让可见 token 学更难的目标、可学习 token 只做轻量重建。该损失把分类/描述推到 52.0/47.65。

3. Hierarchical Geometry Aggregation：给 LLM 补上局部到全局的几何层级。 标准 Transformer 每层 token 数与语义层级不变，缺少 3D 编码器那种 local-to-global 的归纳偏置。本设计在指令微调阶段从 LLM 第二层起，按点坐标用 Dynamic Grid Sampling 把 token 分组聚合，网格尺寸随聚合层累积放缩： $$s_i=\alpha\cdot e^{\sum_{j=1}^{i}\beta_j},\quad \beta_j=\gamma\cdot\tanh(\theta_j)+\beta_{\text{ctr}},\quad s_i\in[0.02,1]\text{ m}$$ 同一网格内的点做 gated self-attention（输出乘以零初始化的 $\tanh(\alpha)$ 自适应门控）后均值池化得到聚合 token；经 $l$ 次聚合、中间插 $H$ 层 LLM 做语义建模，再用 grid unpooling 把特征传播回原始点分布以保留细粒度。消融表明 $l=3$（约 1/8 采样率）、$H=2$、加 gated self-attention 最优，最终分类/描述达 55.55/51.03。

实验关键数据¶

主实验表格（Objaverse benchmark，GPT-4 评分）¶

模型	Cap (GPT-4)	Cls Avg (GPT-4)	QA (GPT-4)
PointLLM-7B	44.85	53.00	41.20
PointLLM-13B	48.15	54.00	46.60
ShapeLLM-13B	48.94	54.00	53.10
PointLLM-PiSA-13B	50.52	55.00	46.80
ENEL-7B	51.03	55.55	43.80
ENEL-7B* (Qwen2.5-7B + ShapeLLM 数据)	57.91	61.00	55.20

ENEL-7B 在描述与分类上以 7B 规模超过/追平 13B 的 encoder-based SOTA；换用 Qwen2.5-7B 底座与 ShapeLLM 训练数据（标 *）后进一步大涨。

消融实验表格¶

模块	配置	Cls (Avg)	Cap
Token Embedding	无编码器裸跑	35.50	33.37
Token Embedding	+3 层 T.E.（最佳）	45.55	41.36
自监督损失	Hybrid Semantic Loss_feat	52.00	47.65
几何聚合	l=3	53.00	48.93
几何聚合	H=2	54.25	49.56
几何聚合	+ gated Self-Attn.（最终）	55.55	51.03

关键发现¶

点云自监督损失整体都对 encoder-free 有益；其中掩码建模最有效、对比损失最差，KD 开销大收益小——故 Hybrid Loss 选「掩码建模+重建」组合。
掩码比 30% 优于 60%（过高增加训练难度）；聚合层 $l$ 太少抓不到局部、太多又过度简化空间关系，$H$ 过大导致聚合信息过平滑。
注意力可视化显示 encoder-free 的点 token 对文本 token 有更强语义相关性，直接佐证「LLM 当编码器」缓解了语义错位。

亮点与洞察¶

首个系统性 encoder-free 3D LMM 研究：不是单纯刷点，而是把「编码器到底做了什么、能否让 LLM 接管」拆成语义补偿 + 几何补偿两问，给出可复现的实证路径。
把架构特性变成损失设计的杠杆：Hybrid Semantic Loss 显式利用点云置换不变性 + LLM 因果掩码，让「拼接可学习 token + 可见/掩码分工」成立，是对 2D encoder-free 思路的本质改造而非照搬。
7B 追平 13B：在相同 PointLLM 训练数据下用更轻架构反超更大模型，说明编码器并非 3D 理解的必需品。

局限与展望¶

实验主要在对象级点云（Objaverse）上验证，未涉及场景级 3D 理解，可扩展性待证。
Hierarchical Geometry Aggregation 引入网格尺寸调度、门控注意力等超参，需逐项消融调优，迁移到新数据集的鲁棒性未充分讨论。
最强结果依赖换底座（Qwen2.5-7B）与 ShapeLLM 数据，纯方法贡献与数据/底座增益的解耦还可更清晰。
仍依赖两阶段训练流程，端到端简化与更大规模扩展是自然的下一步。

评分¶

新颖性: ⭐⭐⭐⭐ 首个 encoder-free 3D LMM，损失设计与几何聚合均有针对性创新。
实验充分度: ⭐⭐⭐⭐ 四类自监督损失、token 层数、可学习层、l/H/门控逐项消融扎实，但限于对象级。
写作质量: ⭐⭐⭐⭐ 以「两问驱动」组织全文，逻辑清晰、图表完备。
价值: ⭐⭐⭐⭐ 为 3D 多模态提供了去编码器的可行范式，7B 追平 13B 颇具说服力。