跳转至

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

会议: AAAI 2026
arXiv: 2507.19229
代码: 未公开
领域: AI for Science / 基因组学
关键词: DNA基础模型, 长序列建模, 反向互补, 沟槽融合, 多窗口注意力, 进化训练策略

一句话总结

提出 TrinityDNA,一个生物启发的DNA基础模型,整合三大创新:Groove Fusion模块捕获DNA大小沟槽结构特征、Gated Reverse Complement机制处理双链互补对称性、Sliding Multi-Window Attention实现多尺度长程依赖建模,配合从原核到真核的进化训练策略(ETS),在GUE基准15个任务上平均MCC达0.708(超越2.5B参数的NT),在19个零样本任务上的原核/真核表现均领先,并提出新的CDS标注基准供长序列推理评估。

研究背景与动机

领域现状:基因组学中的DNA序列建模面临独特挑战——序列极长(数万到数十万碱基对)、信息密度低(大量重复和非编码区域)、包含复杂的生物学结构(双链互补、沟槽结构、长程调控依赖)。现有DNA基础模型(如HyenaDNA、Caduceus/MambaDNA、DNABERT2)各有局限。

现有痛点: - SSM的局部性偏置:虽然SSM理论上能处理长序列,但实证分析(Figure 2)显示Caduceus的影响分数随距离快速衰减,在长距离上"失去焦点" - 全注意力的过平滑问题:随序列长度增加,自注意力熵趋于均匀分布(Figure 3),所有token权重几乎相等,有用信号被淹没 - 缺乏生物学结构感知:现有模型未显式建模DNA的大小沟槽结构,也未充分利用反向互补链信息 - 单物种训练泛化性差:许多模型仅在单一物种数据上训练,跨物种泛化能力有限

核心矛盾:如何在保持计算效率的同时,让模型既能捕获DNA的生物学结构特征,又能建模超长序列中的多尺度依赖?

切入角度:"序列+结构+策略"三位一体——序列建模(多窗口注意力)、结构感知(沟槽融合+反向互补)、训练策略(进化学习从原核到真核)。

方法详解

整体架构

输入DNA序列 → Groove Fusion 多尺度卷积分词 → TrinityDNA Transformer块(SMWA + FFN)× L → Gated Reverse Complement 双链融合 → 输出

关键设计

  1. Groove Fusion Module(沟槽融合模块)

    • 生物学动机:DNA双螺旋有大沟槽(5-7个核苷酸宽)和小沟槽(3-5个核苷酸宽),分别在蛋白质结合和分子交互中扮演不同角色
    • 实现:使用三种卷积核(k=3,5,7)进行多尺度分词,对应小沟槽、过渡区域和大沟槽的空间尺度 \(\text{GrooveFusion}(S) = \sum_{k \in \{3,5,7\}} \text{GELU}(\text{Conv}_k(S))\)
    • 效果:预训练困惑度降低0.065
  2. Sliding Multi-Window Attention (SMWA)

    • 动机:解决全注意力的过平滑和SSM的局部性偏置
    • 设计:不同注意力头分配不同的窗口大小 \(L_h\),各头通过滑动窗口关注不同尺度的依赖 \(\text{Attn}_h(S_i) = \text{Softmax}\left(\frac{Q_h(i) K_h(i+[-L_h, L_h])^T}{\sqrt{d_k}}\right) V_h(i+[-L_h, L_h])\)
    • 小窗口头捕获局部特征(启动子、结合位点),大窗口头捕获远程调控关系
    • 效率提升:在1B参数模型上,计算量减少31%(TFLOPs: 64.5→44.5),同时困惑度仅增加0.010
  3. Gated Reverse Complement (GRC)

    • 生物学动机:DNA双链互补是基因表达的基础,正链 \(S\) 和反向互补链 \(S^R\) 都包含重要信息
    • 实现:共享参数的Transformer同时处理正链和反向互补链,通过门控机制融合 \(\text{GRC}(S, S^R) = f_\theta(S) + \sigma(W_G \cdot f_\theta(\text{Flip}(S^R)))\)
    • 其中 \(\sigma\) 为恒等函数,\(W_G\) 为可学习门控权重
    • 效果:困惑度降低0.132(三个模块中贡献最大)
  4. Evolutionary Training Strategy (ETS,进化训练策略)

    • Stage 1:在原核生物(细菌/古菌)DNA上预训练,序列长度8K,学习基础核酸模式
    • Stage 2:继续在多物种数据(真菌、脊椎动物等)上训练,序列长度扩展至100K,学习复杂的内含子-外显子结构和跨基因调控元件
    • 两阶段分别产出 TrinityMicroDNA(仅原核)和 TrinityDNA(原核+真核)

Scaling Laws

  • 在6M到1B参数范围内,TrinityDNA在每个计算等级上的困惑度-FLOPs前沿均优于Transformer、Caduceus、EVO和EVO2
  • 上下文窗口从8K→30K→100K,困惑度持续稳步下降

实验

实验1:GUE基准(15个基因组理解任务)

模型 参数量 H3 H3K14ac H3K36me3 Human TF Mouse TF Splice 平均
DNABERT 86M 0.731 0.401 0.473 0.642 0.564 0.841 0.552
NT 2.5B 0.788 0.562 0.620 0.633 0.670 0.894 0.636
DNABERT2 117M 0.783 0.526 0.569 0.701 0.680 0.850 0.621
Caduceus 40M 0.799 0.541 0.609 - - - 0.586
TrinityDNA 1B 0.814 0.694 0.692 0.714 0.786 0.927 0.708
  • TrinityDNA 在15个任务中大多数取得最佳,整体平均MCC 0.708,超过2.5B参数的NT(0.636)
  • 在组蛋白修饰预测、转录因子结合位点预测等需要长程依赖的任务上提升尤为显著

实验2:零样本性能(19个任务)

模型 参数 原核RNA/蛋白DMS平均 真核ClinVar+DMS平均
TrinityMicroDNA 1B 0.475 0.404
TrinityDNA 1B 0.366 0.699
EVO 7B 0.328 0.415
EVO2 40B 0.335 0.667
EVO2 1B 0.353 0.670
Caduceus 40M 0.099 0.314

关键发现: - TrinityMicroDNA 在原核任务上 碾压所有基线(0.475 vs EVO2-40B的0.335),验证进化训练策略的有效性 - TrinityDNA 在真核任务上超越40B参数的EVO2(0.699 vs 0.667),1B参数模型的效率优势巨大 - 互补优势证明ETS的价值:原核阶段学习基础模式,真核阶段学习复杂结构

实验3:CDS标注基准(新提出)

方法 类别 Exact Match F1 75% Match F1
Prodigal 经典管道 0.725 0.829
GENSCAN 经典管道 0.702 0.799
TrinityMicroDNA-1B 预训练模型 0.754 0.803
Caduceus-40M 预训练模型 0.140 0.180
  • TrinityMicroDNA 在Exact Match F1上超越经典工具Prodigal(0.754 vs 0.725),展示强泛化能力
  • 20K序列长度的CDS标注验证了长序列推理能力

消融实验

组件 无 PPL 有 PPL FLOPs变化
GRC 2.731 2.599 (-0.132) -
GFM 2.599 2.534 (-0.065) -
SMWA 2.534 2.544 (+0.010) -31%
  • GRC 贡献最大,说明反向互补信息对DNA建模至关重要
  • SMWA 虽然困惑度微增0.01,但计算量减少31%,是效率-性能的良好权衡
  • ETS验证:从原核预训练初始化 → 联合数据微调 优于 从头在联合数据上训练

效率分析

  • 在64K tokens序列长度上,TrinityDNA仍保持>80%的短序列吞吐量
  • 归因于SMWA和优化的融合核(fused kernels),内存流量几乎不随上下文增长

亮点与洞察

  1. 生物学知识深度融合:不是简单套用NLP模型,而是从DNA的物理结构(沟槽)、化学特性(碱基互补)、进化规律出发设计模块
  2. "序列+结构+策略"三位一体设计哲学:每个组件对应一个核心挑战,命名"Trinity"恰如其分
  3. 小模型胜大模型:1B参数超越7B的EVO和40B的EVO2,说明归纳偏置比蛮力scale更重要
  4. 进化训练策略的生物学直觉:先学简单(原核,基因组小、结构简单)再学复杂(真核,基因组大、内含子外显子复杂),符合课程学习原理
  5. CDS标注基准的实用价值:将评估从人工小任务扩展到实际的基因组注释场景,序列长度20K更接近真实应用
  6. 过平滑问题的清晰诊断:Figure 3 直观展示了全注意力在长序列上的熵均匀化现象,为SMWA的设计提供了直接的实证依据

局限性

  1. 1B参数仍然较大:对于实际生物信息学工具链来说,推理成本仍不低
  2. 仅使用MLM预训练目标:未探索自回归或其他预训练范式的可能性
  3. SMWA困惑度微增:虽节省计算,但在困惑度上轻微退化,在某些对精度极端敏感的任务上可能有影响
  4. 训练数据质量控制:整合GTDB、IMG、RefSeq等多个数据库,未详细讨论数据清洗和去重
  5. GRC使用恒等门控函数\(\sigma\) 设为identity,未探索更复杂的门控机制(如sigmoid或softmax)
  6. CDS标注基准仅限原核:真核生物的CDS标注(含内含子-外显子结构)更复杂,未验证
  7. 代码未公开:限制了可复现性和社区跟进

相关工作

  • DNA基础模型:DNABERT, DNABERT2,Nucleotide Transformer (NT), HyenaDNA, Caduceus/MambaDNA, EVO, EVO2, VQDNA
  • SSM架构:S4, Mamba, Hyena
  • 基因组学任务:GUE基准, ProteinGym, ClinVar, ENCODE
  • 长序列建模:BigBird, DuoAttention, Longformer

评分 ⭐⭐⭐⭐

生物学知识融合深度突出,设计理念清晰,实验结果强劲(1B胜40B)。但代码未公开、部分设计选择(如GRC门控函数)讨论不充分,且CDS基准仅覆盖原核。整体是DNA基础模型领域的有价值贡献。