TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling¶
会议: AAAI 2026
arXiv: 2507.19229
代码: 未公开
领域: AI for Science / 基因组学
关键词: DNA基础模型, 长序列建模, 反向互补, 沟槽融合, 多窗口注意力, 进化训练策略
一句话总结¶
提出 TrinityDNA,一个生物启发的DNA基础模型,整合三大创新:Groove Fusion模块捕获DNA大小沟槽结构特征、Gated Reverse Complement机制处理双链互补对称性、Sliding Multi-Window Attention实现多尺度长程依赖建模,配合从原核到真核的进化训练策略(ETS),在GUE基准15个任务上平均MCC达0.708(超越2.5B参数的NT),在19个零样本任务上的原核/真核表现均领先,并提出新的CDS标注基准供长序列推理评估。
研究背景与动机¶
领域现状:基因组学中的DNA序列建模面临独特挑战——序列极长(数万到数十万碱基对)、信息密度低(大量重复和非编码区域)、包含复杂的生物学结构(双链互补、沟槽结构、长程调控依赖)。现有DNA基础模型(如HyenaDNA、Caduceus/MambaDNA、DNABERT2)各有局限。
现有痛点: - SSM的局部性偏置:虽然SSM理论上能处理长序列,但实证分析(Figure 2)显示Caduceus的影响分数随距离快速衰减,在长距离上"失去焦点" - 全注意力的过平滑问题:随序列长度增加,自注意力熵趋于均匀分布(Figure 3),所有token权重几乎相等,有用信号被淹没 - 缺乏生物学结构感知:现有模型未显式建模DNA的大小沟槽结构,也未充分利用反向互补链信息 - 单物种训练泛化性差:许多模型仅在单一物种数据上训练,跨物种泛化能力有限
核心矛盾:如何在保持计算效率的同时,让模型既能捕获DNA的生物学结构特征,又能建模超长序列中的多尺度依赖?
切入角度:"序列+结构+策略"三位一体——序列建模(多窗口注意力)、结构感知(沟槽融合+反向互补)、训练策略(进化学习从原核到真核)。
方法详解¶
整体架构¶
输入DNA序列 → Groove Fusion 多尺度卷积分词 → TrinityDNA Transformer块(SMWA + FFN)× L → Gated Reverse Complement 双链融合 → 输出
关键设计¶
-
Groove Fusion Module(沟槽融合模块):
- 生物学动机:DNA双螺旋有大沟槽(5-7个核苷酸宽)和小沟槽(3-5个核苷酸宽),分别在蛋白质结合和分子交互中扮演不同角色
- 实现:使用三种卷积核(k=3,5,7)进行多尺度分词,对应小沟槽、过渡区域和大沟槽的空间尺度 \(\text{GrooveFusion}(S) = \sum_{k \in \{3,5,7\}} \text{GELU}(\text{Conv}_k(S))\)
- 效果:预训练困惑度降低0.065
-
Sliding Multi-Window Attention (SMWA):
- 动机:解决全注意力的过平滑和SSM的局部性偏置
- 设计:不同注意力头分配不同的窗口大小 \(L_h\),各头通过滑动窗口关注不同尺度的依赖 \(\text{Attn}_h(S_i) = \text{Softmax}\left(\frac{Q_h(i) K_h(i+[-L_h, L_h])^T}{\sqrt{d_k}}\right) V_h(i+[-L_h, L_h])\)
- 小窗口头捕获局部特征(启动子、结合位点),大窗口头捕获远程调控关系
- 效率提升:在1B参数模型上,计算量减少31%(TFLOPs: 64.5→44.5),同时困惑度仅增加0.010
-
Gated Reverse Complement (GRC):
- 生物学动机:DNA双链互补是基因表达的基础,正链 \(S\) 和反向互补链 \(S^R\) 都包含重要信息
- 实现:共享参数的Transformer同时处理正链和反向互补链,通过门控机制融合 \(\text{GRC}(S, S^R) = f_\theta(S) + \sigma(W_G \cdot f_\theta(\text{Flip}(S^R)))\)
- 其中 \(\sigma\) 为恒等函数,\(W_G\) 为可学习门控权重
- 效果:困惑度降低0.132(三个模块中贡献最大)
-
Evolutionary Training Strategy (ETS,进化训练策略):
- Stage 1:在原核生物(细菌/古菌)DNA上预训练,序列长度8K,学习基础核酸模式
- Stage 2:继续在多物种数据(真菌、脊椎动物等)上训练,序列长度扩展至100K,学习复杂的内含子-外显子结构和跨基因调控元件
- 两阶段分别产出 TrinityMicroDNA(仅原核)和 TrinityDNA(原核+真核)
Scaling Laws¶
- 在6M到1B参数范围内,TrinityDNA在每个计算等级上的困惑度-FLOPs前沿均优于Transformer、Caduceus、EVO和EVO2
- 上下文窗口从8K→30K→100K,困惑度持续稳步下降
实验¶
实验1:GUE基准(15个基因组理解任务)¶
| 模型 | 参数量 | H3 | H3K14ac | H3K36me3 | Human TF | Mouse TF | Splice | 平均 |
|---|---|---|---|---|---|---|---|---|
| DNABERT | 86M | 0.731 | 0.401 | 0.473 | 0.642 | 0.564 | 0.841 | 0.552 |
| NT | 2.5B | 0.788 | 0.562 | 0.620 | 0.633 | 0.670 | 0.894 | 0.636 |
| DNABERT2 | 117M | 0.783 | 0.526 | 0.569 | 0.701 | 0.680 | 0.850 | 0.621 |
| Caduceus | 40M | 0.799 | 0.541 | 0.609 | - | - | - | 0.586 |
| TrinityDNA | 1B | 0.814 | 0.694 | 0.692 | 0.714 | 0.786 | 0.927 | 0.708 |
- TrinityDNA 在15个任务中大多数取得最佳,整体平均MCC 0.708,超过2.5B参数的NT(0.636)
- 在组蛋白修饰预测、转录因子结合位点预测等需要长程依赖的任务上提升尤为显著
实验2:零样本性能(19个任务)¶
| 模型 | 参数 | 原核RNA/蛋白DMS平均 | 真核ClinVar+DMS平均 |
|---|---|---|---|
| TrinityMicroDNA | 1B | 0.475 | 0.404 |
| TrinityDNA | 1B | 0.366 | 0.699 |
| EVO | 7B | 0.328 | 0.415 |
| EVO2 | 40B | 0.335 | 0.667 |
| EVO2 | 1B | 0.353 | 0.670 |
| Caduceus | 40M | 0.099 | 0.314 |
关键发现: - TrinityMicroDNA 在原核任务上 碾压所有基线(0.475 vs EVO2-40B的0.335),验证进化训练策略的有效性 - TrinityDNA 在真核任务上超越40B参数的EVO2(0.699 vs 0.667),1B参数模型的效率优势巨大 - 互补优势证明ETS的价值:原核阶段学习基础模式,真核阶段学习复杂结构
实验3:CDS标注基准(新提出)¶
| 方法 | 类别 | Exact Match F1 | 75% Match F1 |
|---|---|---|---|
| Prodigal | 经典管道 | 0.725 | 0.829 |
| GENSCAN | 经典管道 | 0.702 | 0.799 |
| TrinityMicroDNA-1B | 预训练模型 | 0.754 | 0.803 |
| Caduceus-40M | 预训练模型 | 0.140 | 0.180 |
- TrinityMicroDNA 在Exact Match F1上超越经典工具Prodigal(0.754 vs 0.725),展示强泛化能力
- 20K序列长度的CDS标注验证了长序列推理能力
消融实验¶
| 组件 | 无 PPL | 有 PPL | FLOPs变化 |
|---|---|---|---|
| GRC | 2.731 | 2.599 (-0.132) | - |
| GFM | 2.599 | 2.534 (-0.065) | - |
| SMWA | 2.534 | 2.544 (+0.010) | -31% |
- GRC 贡献最大,说明反向互补信息对DNA建模至关重要
- SMWA 虽然困惑度微增0.01,但计算量减少31%,是效率-性能的良好权衡
- ETS验证:从原核预训练初始化 → 联合数据微调 优于 从头在联合数据上训练
效率分析¶
- 在64K tokens序列长度上,TrinityDNA仍保持>80%的短序列吞吐量
- 归因于SMWA和优化的融合核(fused kernels),内存流量几乎不随上下文增长
亮点与洞察¶
- 生物学知识深度融合:不是简单套用NLP模型,而是从DNA的物理结构(沟槽)、化学特性(碱基互补)、进化规律出发设计模块
- "序列+结构+策略"三位一体设计哲学:每个组件对应一个核心挑战,命名"Trinity"恰如其分
- 小模型胜大模型:1B参数超越7B的EVO和40B的EVO2,说明归纳偏置比蛮力scale更重要
- 进化训练策略的生物学直觉:先学简单(原核,基因组小、结构简单)再学复杂(真核,基因组大、内含子外显子复杂),符合课程学习原理
- CDS标注基准的实用价值:将评估从人工小任务扩展到实际的基因组注释场景,序列长度20K更接近真实应用
- 过平滑问题的清晰诊断:Figure 3 直观展示了全注意力在长序列上的熵均匀化现象,为SMWA的设计提供了直接的实证依据
局限性¶
- 1B参数仍然较大:对于实际生物信息学工具链来说,推理成本仍不低
- 仅使用MLM预训练目标:未探索自回归或其他预训练范式的可能性
- SMWA困惑度微增:虽节省计算,但在困惑度上轻微退化,在某些对精度极端敏感的任务上可能有影响
- 训练数据质量控制:整合GTDB、IMG、RefSeq等多个数据库,未详细讨论数据清洗和去重
- GRC使用恒等门控函数:\(\sigma\) 设为identity,未探索更复杂的门控机制(如sigmoid或softmax)
- CDS标注基准仅限原核:真核生物的CDS标注(含内含子-外显子结构)更复杂,未验证
- 代码未公开:限制了可复现性和社区跟进
相关工作¶
- DNA基础模型:DNABERT, DNABERT2,Nucleotide Transformer (NT), HyenaDNA, Caduceus/MambaDNA, EVO, EVO2, VQDNA
- SSM架构:S4, Mamba, Hyena
- 基因组学任务:GUE基准, ProteinGym, ClinVar, ENCODE
- 长序列建模:BigBird, DuoAttention, Longformer
评分 ⭐⭐⭐⭐¶
生物学知识融合深度突出,设计理念清晰,实验结果强劲(1B胜40B)。但代码未公开、部分设计选择(如GRC门控函数)讨论不充分,且CDS基准仅覆盖原核。整体是DNA基础模型领域的有价值贡献。