Efficient Encoder-Free Fourier-based 3D Large Multimodal Model¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 https://tev-fbk.github.io/Fase3D （未见开源代码）
领域: 多模态VLM（3D 场景大模型）
关键词: 3D大模型, 点云, 无编码器, 傅里叶变换, 超点 tokenizer

一句话总结¶

Fase3D 提出首个无视觉编码器、基于傅里叶变换的 3D 场景大模型——用「超点池化 + 空间填充曲线序列化 + 窗口 FFT」做轻量 tokenizer 直接处理原始点云，并用 Fourier 增强的 LoRA 把全局频域上下文注入冻结 LLM，在 ScanQA/SQA3D/ScanRefer/Nr3D 上用约 1/6～1/12 的视觉参数、约 1/20 的 FLOP 达到与重编码器方法（3D-LLaVA、PerLA）相当的效果。

研究背景与动机¶

领域现状：主流 3D 大模型（3D LMM）先用一个重量级预训练 3D 编码器（CLIP、Sparse 3D U-Net、Mask3D 等）从点云抽取几何/语义特征，再投影到 LLM 的 token 空间——LL3DA、PerLA、3D-LLaVA 都是这套「重编码器 + 对齐」的路线。

现有痛点：这些编码器带来巨大的计算与显存开销，限制了输入分辨率和可扩展性；而且它们产生的特征 embedding 常常和 LLM 的推理空间语义错配，需要额外的 Q-Former / 投影模块去对齐。2D 领域早已出现「无编码器」（encoder-free / 单体式）大模型（EVE、Mono-InternVL），把视觉直接映射进 LLM token 空间来提效，但这一范式迁移到 3D 几乎是空白。

核心矛盾：点云无序、不规则、规模巨大（场景级动辄几万点），不像 2D 像素那样有规则网格。无编码器架构又缺乏大规模视觉预训练，必须靠显式归纳偏置才能稳健地把无序点云 token 化——而这个 tokenizer 还得参数极少、计算极省，否则就失去了「去编码器」的意义。自注意力对长 token 序列是 \(O(M^2)\)，直接序列化点云做 attention 既贵又会破坏排列不变性。

本文目标：设计一个直接吃原始点云、既有效又高效的无编码器 3D 场景大模型，要同时解决三件事——token 排列无序、规模可扩展、全局上下文建模。

切入角度：作者把 token 处理看成空间域与频域的协同。关键观察是 FFT 是一个能以 \(O(M\log M)\) 近似自注意力、聚合全局上下文的强算子；只要先把无序点云序列化成 1D 序列，就能在频域里廉价地做全局混合。

核心 idea：用「点云序列化 + FFT」替代「重编码器 + 自注意力」，在 tokenizer 和 LLM 内部多个阶段都借频域处理来注入全局上下文，从而在几乎不增加参数的前提下让单体式 LLM 直接读懂 3D 场景。

方法详解¶

整体框架¶

Fase3D 是一个没有专用 3D 编码器的单体式 LMM：输入是场景级原始点云 + 文本指令，输出是问答/稠密描述文本。整条管线的核心是逐级压缩 token 数量、同时逐级增强每个 token 的语义和空间信息。点云先经轻量 MLP 得到点级特征并按几何聚类成 \(M\) 个超点 token；超点被序列化后送入 FFT 上下文增强器注入全局信息；再经图引导的 token 合并压成 \(T\) 个紧凑 token（\(T<M\)）；这些视觉 token 与文本/用户 prompt 一起喂给冻结的 LLM，而 LLM 内部的 LoRA 层被一个 Fourier 全局滤波模块（GFM）增强，把频域全局上下文注入进去。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：原始点云<br/>+ 文本/用户指令"] --> B["超点 token 初始化<br/>MLP 点特征 + Fourier 坐标编码<br/>几何聚类池化 → M 个超点 token"]
    B --> C["FFT 上下文增强器<br/>SFC 序列化 + 窗口 FFT 频域门控<br/>残差注入全局上下文"]
    C --> D["图引导 token 合并<br/>窗口投票建超点图<br/>点种子图池化 → T 个紧凑 token"]
    D --> E["Prompt 嵌入<br/>3D 坐标 token + 文本 token 拼接"]
    E --> F["冻结 LLM + Fourier 增强 LoRA<br/>GFM 频域滤波注入全局上下文"]
    F --> G["输出：问答 / 稠密描述"]

关键设计¶

1. 超点 token 初始化：把几万点压成几百个紧凑 token

无编码器架构最怕点云序列太长——直接拿降采样原始点当 token，既会让自注意力退化成 \(O(N^2)\)、训练慢且不稳，又无法承载场景级规模。Fase3D 先用一个浅层 MLP 把每个点的特征 \(f_i\)（颜色、法向等）投影成 \(d\) 维 token \(x^{(0)}_{\text{feat}}\)，并行地用非参数、多频率的 Fourier 特征编码把坐标 \(p_i\) 编成 \(x^{(0)}_{\text{coor}}\)，二者相加得到点级 token \(x^{(0)}=x^{(0)}_{\text{feat}}+x^{(0)}_{\text{coor}}\)。随后按几何聚类把点云划成 \(M\) 个超点，对每个超点内的点级 token 做平均池化得到超点 token：

\[\mathbf{S}=\text{SptPool}(\mathbf{X}^{(0)},\mathcal{Q})\in\mathbb{R}^{M\times d}\]

这一步用纯几何驱动的超点池化把 token 数砍掉约一个数量级，既缩短了序列又提升了语义一致性，而且学习参数极少（只有一个浅 MLP），是「去编码器」能成立的前提。

2. FFT 上下文增强器：用频域混合近似自注意力、廉价补全全局上下文

超点池化后的 token \(\mathbf{S}\) 只携带局部信息，缺乏跨物体的全局布局。已有的频域方法要么用体素/网格 3D FFT（场景级太贵），要么用图傅里叶变换（需显式建图 + 拉普拉斯，\(O(M^2)\)）。作者改成先把超点序列化再做 1D FFT，复杂度降到 \(O(M\log M)\)。具体地，用四种空间填充曲线（z-order、转置 z-order、Hilbert、转置 Hilbert）把超点坐标映射成保持 3D 局部性的 1D 序列 \(\mathbf{S}[\pi_i]\)。对每条曲线序列做频域门控：

\[\mathbf{S}'(\pi_i)=\mathcal{F}^{-1}\!\left(\mathcal{F}(\mathbf{S}(\pi_i))\odot \mathbf{G}_v\right)\]

其中 \(\mathbf{G}_v\) 是可学习的非负频域门，\(\odot\) 为逐元素乘——本质是在频域里自适应地放大/抑制不同频率成分以做上下文混合。为了让混合具有位置感知，FFT 在长度 \(L_w=128\)、步长 \(L_s=L_w/2\) 的重叠窗口上做，再用平方 Hann 权重做 overlap-add 重建，每窗复杂度 \(O(L_w\log L_w)\)。最后把四条曲线的结果逆排列回原序、做均匀平均 \(\tilde{\mathbf{S}}=\frac{1}{|\pi|}\sum_{\pi_i}\mathbf{S}'(\pi_i)\)，并以残差融合 \(\mathbf{S}\leftarrow\mathbf{S}+\tilde{\mathbf{S}}\)。多曲线序列化是为了缓解单一序列带来的排序偏置、让 1D 邻接更鲁棒。这一模块是把 FFT 当「廉价自注意力」用，从而让每个 token 同时具备局部和全局上下文。

3. 图引导 token 合并：几何驱动地把超点压成 T 个对象级 token，省掉检测头

要进一步省算力就得继续减 token，但合并不能破坏对象级结构。作者把超点建成稀疏图 \(G=(V,E)\)，节点是超点、边编码空间关系。建图避开了昂贵的 Delaunay/kNN，改用窗口投票：把所有点按四条 SFC 序列化，在每条曲线上以步长 \(s_r\) 扫描锚点窗口，窗口内若两点属于不同超点 \(s_i\neq s_j\) 就给边 \((s_i,s_j)\) 投一票 \(v_{s_i,s_j}\!\leftarrow\!v_{s_i,s_j}+1\)，跨曲线累票得到稀疏邻接。合并阶段用点种子图池化：先用最远点采样取 \(T\) 个锚点映射到超点作种子 \(\{s_t\}\)，经图感知非极大抑制去重并补未覆盖超点；对每个种子定义 1-hop 邻域支持集 \(\mathcal{N}_t=\{s_t\}\cup N(s_t)\)，用图边权（特征相似度 × 多曲线投票强度）作池化先验，归一化权重 \(w_{it}=\tilde{w}_{it}/(\sum_{j}\tilde{w}_{jt}+\epsilon)\)，池化得 \(z^{\text{pool}}_t=\sum_{i\in\mathcal{N}_t}w_{it}s_i\)，锚点位置固定 \(c'_t=a_t\)。这样 token 位置由点级空间覆盖决定、token 内容由局部图邻域读出，最后沿 Hilbert 曲线把合并 token 重新序列化以适配 LLM 的旋转位置编码。这一纯几何驱动的合并直接去掉了 3D LMM 常用的学习式 mask 提议（如 Mask3D）/检测阶段——稠密描述时只需对超点图做谱聚类即可生成 proposal。

4. Fourier 增强 LoRA 适配器（GFM）：在频域里给 LoRA 的输入补全局上下文

LoRA 能高效适配 FFN，但喂给它的表示 \(\mathbf{Z}'\) 来自冻结的预训练 backbone，并未为下游任务优化，限制了 LoRA 的潜力。作者插入一个轻量全局滤波模块（GFM）：对序列里每个 token \(z\in\mathbb{R}^D\)，沿通道维做频域滤波 \(z_{\text{mixed}}=\text{iFFT}(\text{FFT}(z)\odot \mathbf{G}_t)\)，其中 \(\mathbf{G}_t\in\mathbb{R}^D\) 是可学习滤波器，再以平均残差 \(z_{\text{out}}=(z+z_{\text{mixed}})/2\) 融合，作为 LoRA 适配层的输入。这相当于在送进 FFN 前给 token 注入全局混合信息，既稳定训练又增强表达，而代价极小——只引入 \(D\) 个可学习参数，并用 \(N_h\) 头形式把复杂度降到 \(O\!\left(\frac{D}{N_h}\log\frac{D}{N_h}\right)\)。消融显示这个频域残差只加在视觉支路收益最大（同时加到文本支路反而掉点），说明频域线索对视觉路径最有用。

损失函数 / 训练策略¶

两阶段训练（沿用 3D-LLaVA/PerLA 思路）：先做通用 3D 指令微调，再在下游任务上专门化。语言建模用标准 next-token 交叉熵，仅对 caption token 计损（用掩码 \(m_t=\mathbf{1}[t\ge t_0]\) 屏蔽 prompt 前缀、忽略 padding）：

\[\mathcal{L}_{\text{LM}}=-\frac{1}{\sum_t m_t}\sum_t m_t\log p_\theta(w_t\mid w_{<t},\mathbf{Z}')\]

实现细节：每场景均匀采 50k 点 → 池化超点 → 聚成 256 个 token，\(N_h=8\)；LLM 用冻结的 Qwen2.5-3B-Instruct（float16），LoRA 秩 \(r=768\)、\(\alpha=768\) 加在前 8 层；AdamW、cosine 衰减 \(10^{-4}\!\to\!10^{-6}\)、约 100k 迭代，4×A100 64GB 训练约 7 天，每个下游任务再微调约 30k 迭代。

实验关键数据¶

主实验¶

评测 3D 问答（ScanQA、SQA3D）与 3D 稠密描述（ScanRefer、Nr3D）。#Params/FLOP 仅指 3D token 化阶段激活的参数量与浮点运算量。

任务/数据集	方法	LLM	#Params↓	FLOP↓	关键指标
ScanQA(val)	LL3DA	OPT-1.3B	118.87M	40.21	CIDEr 76.79
ScanQA(val)	PerLA	OPT-1.3B	119.76M	163.38	CIDEr 78.13
ScanQA(val)	3D-LLaVA	Vicuna-7B	58.26M	37.75	CIDEr 92.60
ScanQA(val)	Fase3D	Qwen2.5-3B	10.54M	2.04	CIDEr 90.11
ScanQA(val)	Fase3D	Vicuna-7B	12.11M	2.09	CIDEr 91.74
SQA3D(test)	3D-LLaVA	Vicuna-7B	58.26M	37.75	EM@1 54.5
SQA3D(test)	Fase3D	Vicuna-7B	12.11M	2.09	EM@1 54.3

核心结论：Fase3D 用约 1/6（vs 3D-LLaVA）～1/12（vs LL3DA/PerLA）的视觉参数、约 1/18～1/80 的 FLOP，在 ScanQA/SQA3D 上达到与 3D-LLaVA 相当、显著超过 LL3DA/PerLA 的效果。稠密描述（ScanRefer [email protected]）：用 Mask3D segmenter 时 Fase3D 78.14 与 3D-LLaVA 78.80 相当；不用外部 segmenter（仅靠自身图聚类 proposal）时 70.72，仍接近 PerLA。

消融实验¶

模块组合（ScanQA val）	CIDEr	说明
仅原始点 token (Point)	76.04	序列长、自注意力 \(O(N^2)\)、慢且不稳
+ 超点池化 (Superpoint)	79.70	token 数砍约一个量级，+3.66
+ FFT 上下文增强（无超点）	82.97	单加 FFT +6.93
超点 + FFT（完整 tokenizer）	86.91	二者叠加 +10.87
完整模型 + 预训练	90.11	全指标进一步提升

LoRA 配置（ScanQA val）	CIDEr	说明
单支 LoRA（仅视觉/仅文本）	76.45 / 76.21	单路 LoRA
sLoRA（双支共享）	78.24	共享 LoRA
dLoRA（双支解耦）	82.53	解耦 LoRA
dLoRA + FFT（仅视觉支）	86.91	比 dLoRA +4.38 CIDEr，最优
dLoRA + FFT（双支都加）	83.64	文本支也加反而掉点

关键发现¶

FFT 上下文增强器是 tokenizer 里单点贡献最大的模块：单独加它就有 +6.93 CIDEr，比超点池化（+3.66）更显著；二者叠加近似可加（+10.87）。
频域残差只在视觉支路有用：dLoRA+FFT 仅加视觉支 +4.38，加到文本支反而从 86.91 掉到 83.64，说明频率域线索对几何/视觉路径最契合。
跨 LLM backbone 稳定泛化：换 OPT-1.3B，Fase3D 仅 9.30M 参数 / 2.01G FLOP，CIDEr 86.24 仍超 PerLA 的 78.13（+8.11）；换 Qwen2.5-3B 达 90.11。
即使不用外部 segmenter、纯靠图谱聚类生成 proposal，稠密描述也只小幅落后，验证了几何驱动 token 合并可替代检测头。

亮点与洞察¶

「序列化 + FFT」当廉价自注意力：把无序点云先用空间填充曲线压成保局部性的 1D 序列，再用 \(O(M\log M)\) 的窗口 FFT 做全局上下文混合，绕开了 \(O(M^2)\) 自注意力和昂贵的体素/图傅里叶——这是全文最可迁移的 trick，思路可搬到任何「无序大规模 token 需要全局混合」的场景。
频域处理贯穿全管线：坐标编码（Fourier 特征）、上下文增强（FFT 门控）、LoRA 输入（GFM 通道域滤波）三处都用频域，且都只加极少参数（如 GFM 仅 \(D\) 个），把「频域 = 廉价全局算子」用到了极致。
几何驱动合并去掉检测头：用窗口投票建超点图 + 点种子图池化，纯几何地把 token 压到对象级，省掉了 3D LMM 普遍依赖的 Mask3D 学习式 proposal，简化了流水线还能做稠密描述。
「token 位置由空间覆盖定、内容由图邻域读」 的解耦设计很巧妙：位置稳定（利于旋转位置编码），内容仍能从局部图聚合，兼顾几何结构与语义。

局限与展望¶

作者承认 Fase3D 继承了序列化方法（如 PTv3）的固有缺陷：在高度杂乱场景中对非欧式的长程关系可能表现不佳——空间填充曲线在 1D 上相邻不等于 3D 上语义相关。
自评：FFT 门控/GFM 的「频域可学习门」更像黑盒，论文未深入解释学到了什么频率模式；多曲线均匀平均也是较朴素的融合，可能不是最优。
ScanQA CIDEr 90.11 仍略低于 3D-LLaVA 的 92.60，说明在绝对精度上「去编码器」还差一口气，强项是效率/精度权衡而非刷绝对 SOTA。
展望：更大更多样的 3D 语料预训练、自适应/可学习序列化、接入 RGB 等更多模态。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个无编码器、傅里叶式 3D 场景大模型，「序列化 + FFT 近似自注意力」贯穿全管线，思路新颖。
实验充分度: ⭐⭐⭐⭐ QA + 稠密描述 4 个数据集 + 三组消融（tokenizer/LoRA/backbone）较完整，但缺更大规模/更多模态验证。
写作质量: ⭐⭐⭐⭐ 动机—方法—消融链条清晰，公式与 pipeline 图到位，部分频域模块解释偏简。
价值: ⭐⭐⭐⭐⭐ 把 3D 视觉 token 化成本降一个数量级而不掉点，对 3D LMM 落地与边缘部署很有价值。