跳转至

Flow Autoencoders are Effective Protein Tokenizers

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=5p9uled7JM
代码: 开源软件包(独立仓库,论文中提供)
领域: 计算生物学 / 蛋白质结构生成
关键词: 蛋白质结构 tokenizer, 流匹配, 自编码器, FSQ 量化, 自回归生成

一句话总结

本文提出 Kanzi——一个用流匹配损失训练的非等变蛋白质结构 tokenizer,用一个扩散解码器加一个 FSQ 量化瓶颈,替换掉传统 tokenizer 里那套 SE(3)-不变模块和繁杂损失,以 1/20 参数量、1/400 训练数据就拿下重建 SOTA。

研究背景与动机

领域现状:把连续的三维蛋白质结构 \(x\in\mathbb{R}^{L\times A\times 3}\)\(L\) 为残基长度、\(A\) 为骨架原子数)离散成有限词表里的 token,是构建蛋白质序列-结构-功能多模态大模型(如 ESM3、DPLM2)的关键一步。这类 structure tokenizer 普遍沿用 AlphaFold2 的范式,依赖 SE(3)-不变的架构组件(invariant point attention)和 SE(3)-不变的损失(frame-aligned point error),靠显式编码对称性归纳偏置来避免模型生成破坏物理对称的结构。

现有痛点:这些不变模块虽然原理上"安全",但难以在大规模下优化、难以扩展到更丰富的生物分子(带翻译后修饰的蛋白、RNA、DNA),训练管线里堆叠了一大堆复杂的 frame-based 表示与多项不变损失(FAPE、dRMSD、Kabsch、violation 等组合),工程上既笨重又脆弱。

核心矛盾:归纳偏置带来的"物理可信"与可扩展性、灵活性之间存在张力。AlphaFold3、Boltz、Proteina 等近期工作已证明在生成任务里抛弃对称性架构反而能更好地扩展——但"非不变 tokenizer 是否可行"这一问题此前没有答案,这类模型根本不存在。

本文目标:造出第一个不显式编码空间对称性、却能匹配甚至超越现有 tokenizer 的蛋白结构 tokenizer,并验证它能驱动可设计(designable)的自回归结构生成。

核心 idea用扩散/流模型当解码器——把 tokenizer 的重建问题改写成"用离散码本条件一个流匹配模型去重建结构"。这样一来 frame 表示可换成全局坐标、一堆不变损失可换成单一流匹配损失、SE(3)-不变注意力可换成标准注意力,三处简化同时发生。

方法详解

整体框架

Kanzi 是一个非等变流自编码器:轻量编码器 \(e_\theta\) 把原始坐标压成隐序列,经 FSQ 量化瓶颈离散成 token \(\hat c\),再用一个更深的扩散 Transformer 解码器 \(d_\phi\)\(\hat c\) 为条件、对加噪结构做流匹配重建。整套用单一扩散损失端到端训练,无任何辅助损失。训练好后,token 序列可喂给一个自回归先验模型,实现长度无关的结构生成。

flowchart LR
    X[蛋白结构 x<br/>L×A×3 坐标] --> E[编码器 e_θ<br/>滑窗注意力·轻量]
    E --> C[隐序列 c]
    C --> Q[FSQ 量化<br/>码本≈1000]
    Q --> Chat[离散 token ĉ]
    Xnoise[加噪结构 x_t] --> D[扩散解码器 d_φ<br/>DiT·标准注意力]
    Chat -. 条件 .-> D
    D --> V[向量场 v_θ → 重建 x]
    Chat --> AR[自回归先验<br/>生成 token 序列] -.-> D

关键设计

1. 扩散解码器 + 单一流匹配损失:一损替众损。 全文的支点是把解码器换成流模型,于是 tokenizer 训练只需最小化一个流匹配目标 \(L_{\text{flow}}=\mathbb{E}_{x_1\sim p_{\text{data}},\,x_0\sim\mathcal N(0,1)}\lVert v_\theta(x_t,t,\hat c)-(x_1-x_0)\rVert_2^2\),其中 \(\hat c=\mathrm{FSQ}(e_\theta(x))\)\(x_t=(1-t)x_0+t x_1\) 是线性插值噪声、回归目标即条件向量场 \(u=x_1-x_0\)。这一项直接替代了 ESM3/IST 那套 FAPE+violation+dRMSD+binned direction 的损失大杂烩——把"如何度量结构误差"的工程难题,交给扩散模型自己去隐式学习,从根上消除了对 frame 与不变损失的依赖。

2. 非对称编解码器 + 单流/双流的关键取舍。 编码器显著小于解码器(更窄更浅,tokenizer 常见做法),并用滑窗注意力(sliding window)只做局部信息混合,为下游自回归建模引入因果友好的偏置;解码器则保持全双向连通、用 RoPE 相对位置编码。一个被作者强调为"决定成败"的细节是:编码器用单流(single stream),而解码器把量化隐变量当 in-context 条件做双流拼接。因为蛋白坐标本身维度极低,双流条件能让梯度高效地穿过浅编码器回传——这与图像领域 FlowMo 的双流编码器设计相反,是低维数据特有的选择。

3. FSQ 量化 + 直通梯度。 量化瓶颈采用有限标量量化(FSQ),把连续隐变量离散为 \(\hat c=\lfloor \ell/2\rfloor\tanh(\mathrm{Linear}(c))\),每维取 \(\ell=8,5,5,5\) 个 level,等效码本约 1000。梯度用标准直通估计器(straight-through estimator)传回编码器。作者观察到一个有趣现象:训练初期原始坐标高度相关导致码本利用率很低,但码本利用率会随长时训练自发涌现地铺开变高,无需额外的负载均衡损失。

4. 共享 adaLN + 推理期灵活采样。 与标准 DiT 不同,Kanzi 在所有 DiT block 间共享 adaLN 的时间条件权重,参数量直降约 30%。由于解码器是连续流模型,推理时可享受图像扩散的全套技巧:闭式 score 场 \(s_\theta=\tfrac{t v_\theta(x_t,t,\hat c)-x_t}{1-t}\)、分类器无关引导 \(\tilde v_\theta=v_\theta(x_t,t,\hat c)+g\big(v_\theta(x_t,t,\hat c)-v_\theta(x_t,t,\varnothing)\big)\)(训练时以 0.1 概率 mask 条件以启用),以及把噪声尺度 \(\gamma\)、score 尺度 \(\eta\) 当超参数调的 ad hoc SDE 采样器——这是离散/自回归 tokenizer 难以企及的灵活度。

实验关键数据

主实验表格

Cα 重建(CAMEO / CATH / AFDB,RMSD↓ / TM↑),Kanzi 以远小的规模匹配或超越大模型:

模型 (参数量) CAMEO RMSD CATH RMSD AFDB RMSD AFDB TM
DPLM2 (118M) 1.651 1.641 4.676 0.810
ESM3 (648M) 0.860 1.048 2.384 0.915
IST (11M) 1.637 1.201 2.872 0.862
bio2token (1.1M) 1.076 1.212 0.932
Kanzi (30M)* 0.817 0.953 0.870 0.962
Kanzi (11M)* 0.863 0.994 0.994 0.952

注:* 采样设 \(\eta=0.45,\gamma=1.0,g=2.0\),且该设定刻意"欠优化"(仅在 100 条 AFDB 子集上调过)。Kanzi 用约 ESM3 的 1/20 参数、1/400 训练数据,AFDB 上 RMSD/TM 全面领先。

消融实验表格

生成评测(自回归先验,Designability↑ / scRMSD↓):

模型 (参数量) Designability scRMSD scTM α%
ESM3-AR (300M) 0.520 4.252 0.804 38.6
DPLM2-AR (300M) 0.320 8.989 0.706 41.2
Kanzi-AR (250M), \(\eta=0\) 0.328 4.210 0.724 71.9
Kanzi-AR (250M), \(\eta=0.66\) 0.562 3.781 0.795 88.7
Kanzi-AR (250M), \(\eta=0.66\) + BoN 0.617 3.655 0.807 88.2

关键发现

  • 编码器需要 token mixing 才能生成,但重建不需要:把编码器窗口缩到 0(即逐点 MLP)仍能给出好重建,却严重损害下游生成质量——说明重建与可生成性是两个不同目标。
  • best-of-N(\(N=2\),用对数似然当 reward proxy) 进一步提升设计性,证明自回归先验学到了有意义的分布。
  • Kanzi-AR 是已知首个无需海量预训练就能产出可设计结构的 tokenized 模型;但它倾向过度预测 α 螺旋(合成数据依赖的已知通病),且尚未追平连续扩散 SOTA。
  • 引入 rFPSD(重建 Fréchet 蛋白结构距离)这一分布级重建指标,揭示了"强重建≠强生成"——DPLM2 重建不如 ESM3,rFPSD 却更好。

亮点与洞察

  • "换解码器"四两拨千斤:把 tokenizer 的难点从"设计正确的不变损失"转移到"让扩散解码器隐式学结构分布",一举消掉 frame 表示、不变损失、不变注意力三座大山,工程极简且更易扩展。
  • 非不变路线的独特价值被实证:在 cryoET 体积图条件生成这类"条件信号本身就非不变"的任务上,其他不变 tokenizer 直接崩溃,而 Kanzi token 天然可用。
  • 低维数据下"双流条件解码器 + 单流编码器"这个反直觉取舍,是让浅编码器梯度可学的关键,给后来者省了踩坑。

局限与展望

  • 生成质量虽超同类 tokenized 模型,但仍落后于连续扩散 SOTA;过度预测 α 螺旋需要额外后训练修正(留作未来工作)。
  • 训练数据全为合成结构(Foldseek 聚类的 AFDB,约 49.9 万条),分布偏置可能传导到生成。
  • 滑窗/全注意力、绝对/相对位置编码等在编码器侧的取舍仍较经验化;非不变编码器在残基级表示任务上仍逊于不变 tokenizer。

相关工作与启发

  • 图像流自编码器(FlowMo、DiTo)证明用扩散解码器可省去 VQGAN 的感知+对抗损失组合,本文是把这一思路首次迁移到蛋白结构。
  • 抛弃对称性的生成模型(AlphaFold3、Proteina、Boltz)为"非不变也能 scale"提供先验信心,Kanzi 把这一判断延伸到 tokenization 环节。
  • 对做多模态生物大模型的人:一个可扩展、易训练、还能吃非不变条件信号的结构 tokenizer,意味着结构模态可以更轻地接进语言模型。

评分

  • 新颖性: ⭐⭐⭐⭐ — 首个非不变流自编码器蛋白 tokenizer,"换解码器消损失"的迁移虽借鉴图像领域,但在蛋白结构上是开创性的,并解决了"非不变 tokenizer 不存在"的空白。
  • 实验充分度: ⭐⭐⭐⭐ — 5 个held-out 测试集 + Cα/全骨架双设定 + 重建/生成/表示三类任务 + 系统消融 + 新指标 rFPSD,覆盖很全;略欠真实(非合成)大规模训练验证。
  • 写作质量: ⭐⭐⭐⭐ — 动机清晰、简化叙事有说服力,图 2/图 4 把架构与"简化损失管线"讲得很直观。
  • 价值: ⭐⭐⭐⭐ — 以极小算力拿下重建 SOTA、首个无海量预训练即可生成可设计结构的 tokenized 模型,对多模态生物建模有直接落地意义。