Rethinking Genomic Modeling Through Optical Character Recognition¶

会议: ICML 2026
arXiv: 2602.02014
代码: 见 OpenReview / 项目主页（论文标注有 Code 链接）
领域: 计算生物学 / 基因组基础模型 / 视觉-语言模型
关键词: 基因组建模, OCR, 视觉 token 压缩, 长序列, eQTL 预测

一句话总结¶

OpticalDNA 把一维 DNA 序列渲染成多页"文档图像"，再用一个 OCR 式的视觉-语言模型去"阅读"它，把碱基内容压成少量可重建的视觉 token，从而在最长 45 万碱基的长序列任务上以约 \(20\times\) 更少的有效 token、仅 256K 可训练参数就超过比它大 \(985\times\) 的序列基础模型。

研究背景与动机¶

领域现状：当前主流的基因组基础模型（Nucleotide Transformer、HyenaDNA、Caduceus、Evo-2、JanusDNA 等）几乎全部沿用大语言模型那一套——把 DNA 当成 A/T/C/G 四字母表上的一维 token 序列，用 Transformer 做掩码语言建模或自回归建模来学上下文表示。

现有痛点：作者指出这种"顺序逐 token 阅读"和基因组语义存在结构性错配，体现在两点。其一是缺乏结构感知的阅读：基因组的功能信号是稀疏、不连续的，被大段低信息量的背景区隔开，相距很远的位点之间存在"跳跃式"依赖；可顺序模型继承了自然语言"语义稠密、逐 token 读"的归纳偏置，把大量算力浪费在扫描背景上，而不是建模真正重要的功能区。其二是缺乏理解驱动的压缩：基因组信息密度本就低，长序列建模天然需要压缩，但高保真压缩要求"先看懂再压"——识别稀疏的、任务相关的结构并抑制背景；而 token 级 LLM 范式对背景区和功能区一视同仁地分配算力，运行时间和显存随序列长度急剧膨胀。

核心矛盾：一维序列表示既无法表达基因组坐标/区间这类一等公民的操作（区间定位、子序列检索只能靠位置编码隐式编码），又无法做"看懂之后再压缩"，于是长上下文下效率和精度同时受限。

切入角度：作者做了一个关键观察——OCR 式文档理解和基因组分析高度同构。文档 OCR 里的"定位（grounding）、检索（retrieval）、缺失补全（span completion）"恰好对应基因组里的"变异定位、子序列检索、缺失区间推断"。把 DNA 当成一篇可以选择性跳读的"文档"而非一句必须逐字读完的"句子"，就能用区域感知的视觉归纳偏置去处理稀疏信号。

核心 idea：把基因组建模重新表述为 OCR 式文档理解——将 1D DNA 渲染成结构化的 2D 多页图像，用视觉编码器把碱基内容压成紧凑且可重建的视觉 token，再用文档解码器在六类 OCR 式 prompt 任务下学习"布局感知"的 DNA 表示。

方法详解¶

整体框架¶

OpticalDNA 的输入是一条 FASTA 里的 DNA 序列 \(S=(s_1,\dots,s_N)\)（\(s_i\in\{A,C,G,T,N\}\)），输出是下游表型/调控预测，中间走"渲染成文档图 → 视觉编码压缩 → prompt 条件解码"三段。具体地：先把 \(S\) 按每页约 1800 个碱基逐行光栅化成多页图像 \(\mathcal{D}(S)\)，并为每个碱基记录像素级 bounding box，建立"序列区间 ↔ 像素区域"的双向映射 \(\Phi\)；然后视觉编码器 \(E_\theta\) 只吃页面图像、把多页融合成一段定长视觉 token \(Z\in\mathbb{R}^{L\times d}\)（实现里 \(L=100\)）；最后文档解码器 \(G_\psi\) 在六类 OCR 式 prompt 监督下自回归生成各任务输出。预训练完成后，冻结的编码器被当作通用表示提取器，只在上面挂一个轻量 MLP 头 \(g_\phi\) 做下游预测。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["1D DNA 序列<br/>(FASTA, 长达 450k 碱基)"] --> B["DNA 文档渲染<br/>逐行光栅化 + 碱基级 box"]
    B --> C["视觉编码与多页融合<br/>压成 100 个可重建视觉 token"]
    C --> D["六类 OCR 式 prompt 预训练<br/>读取/定位/检索/补全/分类"]
    D -->|冻结编码器 + 轻量 MLP 头| E["下游表型/调控预测<br/>eQTL / 亚种分类 / 全基因组性状"]

关键设计¶

1. DNA 文档渲染：把跳跃式长程依赖变成 2D 空间结构

针对"顺序阅读浪费算力、长程依赖跳跃"的痛点，OpticalDNA 不再喂 token 序列，而是把 \(S\) 用等宽字体在固定分辨率画布（页面 \(H=W=640\)）上逐行写出来：每行从左到右、行间从上到下，渲染内容只含 A/C/G/T/N，不插入任何索引、分隔符或坐标标记；写不下就自动续到下一页，默认 font_size=14、line_spacing=1.6，一页约 1800 个碱基。每页都附一份有序的碱基级标注 \(\mathcal{B}^{(p)}=[b_0^{(p)},\dots]\)，每个标注 \(b_k^{(p)}=(c_k^{(p)},g_k^{(p)},\mathbf{r}_k^{(p)})\) 记录渲染字符、在 \(S\) 中的全局索引 \(g_k\) 以及像素框 \(\mathbf{r}_k=(x_1,y_1,x_2,y_2)\)。这样就建立了区间到区域的映射 \(\Phi:(i,j)\mapsto b_{ij}\)（box 形如 \([img\_id,x_1,y_1,x_2,y_2]\)，\(img\_id\) 指明页号），让"按坐标取一段 DNA""定位某个区间"这类区间级操作变成图像上现成可监督的几何对象，而不是只能靠位置编码隐式表达。作者还用受控实验佐证了这条路线：2D CNN 骨干在 eQTL 上的精度-效率折中明显优于 1D CNN，说明把序列摊成二维布局本身就带来更好的归纳偏置。

2. 六类 OCR 式 prompt 任务：把基因组原语对齐到文档理解原语

光有图像还不够，得让模型在合适的目标下学会"看懂"。作者把基因组理解拆成四个核心原语——识别（reading）、定位（grounding）、检索（retrieval）、补全（completion），实例化为六个 prompt 家族 T1–T6，每个训练样本是一段两轮多模态对话 \(\mathcal{C}=[m^{(u)},m^{(a)}]\)，user 轮带页面图和任务 prompt，assistant 轮给监督目标。六个任务覆盖：T1 自由式 DNA 转写（纯 OCR）、T2 转写 + 空间定位（输出序列-box 对）、T3 给定 ROI 框内转写、T4 给定 ROI 的掩码区间补全、T5 query 驱动的子序列定位（返回所有命中的 box）、T6 染色体级文档分类。每个任务有形式化的监督空间（如 \(\mathcal{Y}_2=(\Sigma^*\times\mathbb{B})^*\) 表示变长的"DNA 串 + box"对列表，\(\Sigma=\{A,C,G,T,N\}\)）。这套设计的巧妙在于：grounding↔变异定位、retrieval↔子序列检索、completion↔缺失区间推断，OCR 原语和真实基因组分析工作流天然一一对应，因此 prompt 监督学到的是区域级可解释、碱基级可理解的表示，而不是全局序列 token 预测。

3. 视觉编码器 + 文档解码器：把碱基压成可重建的紧凑视觉 token

要做"理解驱动的压缩"，关键是编码器既要压得狠又要可重建。OpticalDNA 复用 DeepSeek-OCR 的 SAM–Conv–CLIP-L 视觉前端：每页切成 \(16\times16\) patch，Conv 阶段沿 token 轴做固定 \(16\) 倍下采样，再用投影器 \(\Pi_\theta\) 对齐到解码器宽度得到逐页 token \(\tilde{U}\in\mathbb{R}^{P\times T\times d}\)（\(T=T_0/16\)）。由于一条 DNA 可能跨多页，多页融合模块 \(\mathcal{F}_\theta\)（单层、20 头自注意力 + 沿页维均值约简）把它聚合成与页数无关的定长文档表示 \(Z=\mathcal{F}_\theta(\tilde{U})\in\mathbb{R}^{L\times d}\)，\(L=100\)。文档解码器 \(G_\psi\) 是 DeepSeek-3B 的 MoE（570M 激活参数），prompt 里放一个 <image> 占位符并追加 NUM_IMAGES=P 元信息行，条件于 \(Z\) 和任务 prompt \(q\) 自回归生成 \(P_\psi(\hat Y\mid Z,q)=\prod_t P_\psi(\hat y_t\mid \hat y_{<t},Z,q)\)。正是这条"碱基→视觉 token"的路径把有效 token 数相比碱基/\(k\)-mer 分词降了约 \(20\times\)，同时通过 T1/T3/T4 的转写与补全监督保证压缩可重建、不丢细粒度信息。

损失函数 / 训练策略¶

预训练用统一的 prompt 条件生成目标：给定 prompt \(q\) 和融合视觉 token \(Z\)，只在 assistant 回复 span 上做 teacher-forcing 自回归损失

\[\mathcal{L}_{\mathrm{pt}}=-\sum_{t=1}^{T}\log P_\psi\!\left(y_t\mid y_{<t},Z,q\right).\]

训练时任务索引按类别分布 \(t\sim\mathrm{Cat}(\boldsymbol\pi)\) 采样以平衡 T1–T6，并对依赖区域条目的 T2/T3/T5 做尾部截断、行/块跨度随机化、T5 的 query 长度随机化等增强来提升鲁棒性。参数侧：冻结 SAM–Conv–CLIP-L 视觉前端，解码器 \(G_\psi\) 用 LoRA 微调，多页融合 \(\mathcal{F}_\theta\) 全参数更新，投影器 \(\Pi_\theta\) 视设置用 LoRA 或全参。在 HG38 上用两阶段调度（Stage 1 约 8 天训 \(\mathcal{F}_\theta\)+LoRA，Stage 2 约 3 天调 \(\Pi_\theta\)），8×H100 训练。

实验关键数据¶

主实验¶

OpticalDNA 在三个长序列基准上评测：DNALONGBENCH（eQTL，序列长达 45 万碱基）、RiceSubBench（水稻亚种跨分布泛化）、RiceWGPB（约 4 亿碱基全基因组性状预测）。下表为 DNALONGBENCH eQTL 九个 GTEx 组织的平均 AUROC：

模型	可训练参数	平均 AUROC	相对本文
HyenaDNA	1.6M	0.514	−65.8%(相对)
Caduceus-Ph	7.7M	0.750	OpticalDNA +13.6%
NT-v2-500M*	1.03K	0.772	+10.4%
GENERator-1.2B*	10.24K	0.782	+9.0%
JanusDNA (w/o mid-Attn)	7.66M	0.791	+7.7%
专家模型 Enformer	252M(激活)	0.681	—
OpticalDNA (Linear Probe)	256K	0.852	SOTA
OpticalDNA (MLP)	1.3M–2.3M	0.867	5/9 组织最佳

仅用 256K 线性探针就拿到 0.852 平均 AUROC，比 JanusDNA 用约 \(30\times\) 更少的可训练参数还全面更优；换轻量 MLP 头进一步到 0.867，在 WB（0.927 vs 0.821）、Thyroid（0.876 vs 0.793）上大幅领先。相对激活 252M 参数的 Enformer，OpticalDNA 以最多 \(985\times\) 更少的激活参数胜出。

水稻跨亚种泛化（RiceSubBench，Accuracy/AUROC）：

模型	参数	In-Domain japonica	Far-OOD glaberrima
Evo-2	7B	0.486 / 0.700	0.489 / 0.705
LucaOne	1.8B	0.510 / 0.703	0.526 / 0.736
OpticalDNA	409M	0.590 / 0.739	0.599 / 0.731

OpticalDNA 在所有 split 的 accuracy 上都最好，且分布偏移越强优势越大（rufipogon +8.49%、barthii +9.35%、glaberrima +13.88%）。在 RiceWGPB（约 4 亿碱基）上，它在 TGW（RMSE 2.952）和 LRI（9.531）上均最低，且在 389.8M 碱基的代表基因组上把推理时间从 Evo-2 的 5h40m、LucaOne 的 32.5m 压到 12.3 分钟。

消融实验¶

作者以同样协议把 OpticalDNA 和它的骨干 DeepSeek-OCR 对比，回答两个问题：

配置	关键指标	说明
DeepSeek-OCR 骨干	eQTL AUROC 基线	通用 OCR 模型直接做下游
OpticalDNA (Q1 下游)	平均 +5.37% 相对增益	DNA 专用文档化 + 预训练，全部 9 组织都涨；Thyroid +16.86%、SNSES +14.30% 最猛
DeepSeek-OCR (Q2 转写)	EM ≈ 0（全程）	通用 OCR 几乎转写不出 DNA
OpticalDNA (Q2 转写)	EM 79.6/74.9（满长），CS 90.6–100.0	在 HG38/rice 上近乎完美短前缀转写（10% 前缀 EM 97.3/98.5）

关键发现¶

把基因组渲染成文档 + OCR 式预训练带来的不是花架子：下游 eQTL 平均 +5.37%，且在更难的组织（Thyroid、SNSES）上增益最大，说明区域感知表示对弱信号组织帮助更显著。
可重建是压缩有效的前提：通用 DeepSeek-OCR 的 DNA 转写 EM 几乎为零，而 OpticalDNA 在严苛尾部截断下仍保持 90%+ 的字符相似度，证明 100 个视觉 token 真的"压而不丢"。
极致参数/token 效率：256K 可训练参数 + 约 \(20\times\) 更少有效 token 就超越 7B 级多物种基础模型，长基因组推理从数小时降到十几分钟，是真正可落地的规模优势。

亮点与洞察¶

范式级 reframing：第一个把基因组建模当成 OCR 式文档理解的工作。它的"啊哈"在于发现 grounding/retrieval/completion 这套文档原语和变异定位/子序列检索/缺失推断这套基因组原语严丝合缝地对齐，于是能直接借用成熟 OCR 模型与监督形式。
可重建视觉 token 是压缩落地的钥匙：用 T1/T3/T4 的转写与补全任务逼编码器学到"可还原"的压缩，避免了一般 token 压缩"压完就丢信息"的陷阱，这套思路可迁移到任何"低信息密度长序列"建模（如蛋白、时间序列、日志）。
坐标即一等公民：把序列区间显式映射到像素 box，让区间定位/检索从"隐式位置编码"变成"可监督的几何输出"，给基因组分析里大量 region-based 操作提供了天然接口。

局限与展望¶

渲染配置（每页约 1800 碱基、字号/行距固定）是经验设定，论文也指出转写在接近单页容量时会退化，说明"页面密度"是个未充分探索的敏感超参，过密会丢精度。
训练成本不低：HG38 两阶段约 11 天、8×H100，虽然推理高效，但预训练门槛仍高于轻量序列模型。
评测集中在 eQTL / 亚种分类 / 全基因组性状这几类，尚未覆盖更细粒度的调控元件注释、突变效应预测等任务；OCR 渲染对含大量 N（未知碱基）或重复区的序列是否稳健也有待验证。
视觉化是否在所有基因组语义上都优于序列建模仍是开放问题——本文主要在长上下文场景展示优势，短序列任务上的相对收益未充分讨论。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把基因组建模 reframe 成 OCR 文档理解是真正的范式创新，并给出原语级对齐论证
实验充分度: ⭐⭐⭐⭐⭐ 三个长序列基准 + 多个强基线（含 7B 级）+ 转写/下游双消融 + 污染分析
写作质量: ⭐⭐⭐⭐ 动机和方法链条清晰，但部分关键配置散落在附录，正文略密
价值: ⭐⭐⭐⭐⭐ 极致参数/token 效率 + 长基因组可落地推理，给长序列建模提供了可迁移的新思路