ICML2026 计算生物论文解读论文笔记生物分子扩散模型布局/合成多模态自监督学习 Agent

🧬 计算生物¶

🧪 ICML2026 · 51 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (21) · 🔬 ICLR2026 (155) · 💬 ACL2026 (5) · 🤖 AAAI2026 (20) · 🧠 NeurIPS2025 (76) · 📹 ICCV2025 (4)

🔥 高频主题： 生物分子 ×22 · 扩散模型 ×7 · 布局/合成 ×3 · 多模态 ×3 · 自监督学习 ×3

Active Timepoint Selection for Learning Measure-Valued Trajectories: 本文研究“什么时候采样一个分布快照最有价值”，用 LOT 把 Wasserstein 空间中的测度轨迹线性化，再用带时间扭曲的多输出 GP 给出 epistemic uncertainty，从而主动选择最能降低轨迹重建误差的时间点。
Advancing Ligand-based Virtual Screening and Molecular Generation with Pretrained Molecular Embedding Distance: 这篇论文提出直接用冻结的预训练分子模型（GeoDiff、MoLFormer）算嵌入之间的距离（PED）当分子相似度，不做任何相似度专项训练，就能同时用于虚拟筛选的候选排序和分子生成的奖励信号；它和工业标准的 3D 相似度（ROCS/ROSHAMBO2）强相关，在 LIT-PCBA 上 EF1% 反超传统度量，还把生成采样最高提速 3.3×。
CARD: Coarse-to-fine Autoregressive Modeling with Radix-based Decomposition for Transferable Free Energy Estimation: CARD 用"基数 \(r\) 分解"把分子 3D 坐标双射映射为先粗后细的离散-连续混合 token 序列，让一个跨系统通用的自回归 Transformer 作为"零自由能 proposal"通过 BAR 直接估算任意分子系统的绝对自由能，在 70 个新系统的溶剂化任务上达到经典 MFES 的精度且推理快约 40 倍。
Circuit Tracing in Autoregressive Protein Language Models: ProGenMech 把"跨层转码器（CLT）"这套机制可解释性工具首次搬到自回归生成式蛋白质语言模型 ProGen3 上，用一套零样本电路发现算法找出不到 2% 的稀疏隐变量电路，既能复现 ProGen3 的生成概率分布和零样本适应度打分，又能把电路对应到激酶 HRD/DFG 等真实保守生物 motif。
CoSiNE: 条件位点独立的抗体序列神经进化模型: CoSiNE 用神经网络参数化的条件位点独立连续时间马尔可夫链（CTMC）来建模抗体亲和力成熟过程，在保持可处理性的同时捕获位点间上位效应，并通过 Guided Gillespie 采样实现抗原特异性的抗体优化，在零样本变体效应预测上超越了现有语言模型和进化模型。
Constrained Flow Optimization via Sequential Fine-Tuning for Molecular Design: 本文针对"在满足领域硬约束（如合成可达性、能量上界）的前提下最大化奖励（如结合亲和、偶极矩）"这一关键场景，提出 CFO 算法：用增广拉格朗日把约束生成式优化拆成一串带 KL 正则的标准微调子问题，自适应地更新罚因子 \(\rho_k\) 与对偶变量 \(\lambda_k\)，在合成低维场景与 FlowMol 分子设计任务上同时给出可证收敛与显著的奖励—约束 Pareto 改进。
CountsDiff: A Diffusion Model on the Natural Numbers for Generation and Imputation of Count-Based Data: 针对生物测序计数（scRNA-seq、ATAC-seq 等本质上是自然数）既不适合连续扩散也不适合类别扩散的问题，本文提出 CountsDiff——一个直接在自然数集 \(\mathbb{N}_0\) 上运行的扩散框架，把 Blackout 扩散用「生存概率调度 \(p(t)\) + 显式损失加权」重新参数化，并补齐连续时间训练、无分类器引导、churn/remasking（attrition）非单调反向轨迹与随机舍入等现代扩散工具，在 CIFAR-10/CelebA 图像和单细胞 RNA-seq 插补上以最简实例就匹敌甚至超过 SOTA 离散生成模型和专用插补方法。
Cross-Chirality Generalization by Axial Vectors for Hetero-Chiral Protein-Peptide Interaction Design: 本文提出 AFI（Axial Feature Injection），把轴向量特征以线性混合方式注入 \(E(3)\)-等变标量化模型的极向量通道，使其退化为 \(SE(3)\)-等变并对手性敏感；以此改造 UniMoMo 得到 PepMirror，仅用同手性（L-L）训练数据即可零样本生成异手性（D-L）多肽 binder，并通过湿实验在 CD38 靶点上验证为首个实验确证的 AI de novo D-肽设计框架。
Demystifying Multimodal Biomolecular Co-design with Intrinsic Geodesic Coupling: 作者把"序列 + 三维结构"这种异质模态的共生成问题，重新建模为时序最优传输 (Temporal Optimal Transport) 问题，用双层优化 + 高斯过程代理 (GeoCoupling) 在训练过程中自动学出非对角的时间耦合曲线（即让结构和序列以各自适合的节奏被去噪），在 SBDD 和无条件蛋白质共设计两个任务上同时打败"同步耦合"和"随机耦合"两大类基线，并意外发现一条普适的"结构先行 (structure-leading)"几何先于语义的生成规律。
Disentangling Latent Risk Pathways via Bayesian Hypergraph Inference: 针对电子健康档案（EHR）里"多疾病、长尾稀有、共享危险因素"的建模难题，作者把多疾病风险重构成"危险因素调制的潜在疾病通路"，用一张潜在超图（超边=共享危险因素的疾病子集）来表达高阶结构，配上一个排斥先验保证通路稀疏可辨识，再用一套保持逻辑依赖的结构化变分推断做可扩展、带校准不确定性的后验估计。
DNAChunker: Learnable Tokenization for DNA Language Models: DNAChunker 在掩码 DNA 语言模型中嵌入一个端到端可学习的"动态分块器"，通过双向 Mamba 编码 + 余弦相似度边界预测把 base-pair 序列压成变长 chunk，并配合 mask 保护与残差门控防止信息泄露，仅用人类参考基因组、172M 参数就在五个基因组 benchmark 上全面超越 2.5B 级别的多物种预训练基线。
EvoEGF-Mol: Evolving Exponential Geodesic Flow for Structure-based Drug Design: EvoEGF-Mol 把 SBDD 的连续坐标与离散原子/键类型放到同一个指数族自然参数空间里，用动态收紧的目标分布替代奇异的 Dirac 端点，沿着 Fisher-Rao 几何下的指数测地线同步演化，在 CrossDock 上把 PoseBusters 通过率推到 93.4%，逼近参考分子水平。
Flexible Kernels for Protein Property Prediction: 本文为蛋白质序列设计了一族"灵活核"（LOCK / CLOCK），把进化替换矩阵（BLOSUM）的生物物理先验和"性质对突变近似可加"的局部线性假设直接编进高斯过程核里，在数据稀缺的蛋白质性质预测上常常打败依赖大模型 embedding 的复杂方法，并且能零样本吸收结构基础模型的信息做多任务学习。
Flow Sampling: Learning to Sample from Unnormalized Densities via Denoising Conditional Processes: 本文提出 Flow Sampling，把流匹配/扩散模型从"数据驱动"反转为"噪声驱动"——以源噪声样本为条件构造去噪扩散漂移，在 interpolant 上用 detached 模型采得 \(X_1\) 的能量梯度做回归目标，从而学到无数据情况下的高效扩散采样器，并自然推广到常曲率黎曼流形。
From Feasible to Practical: Pareto-Optimal Synthesis Planning: PareSP 用多目标 MCTS 搜索联合优化合成路径的成本 / 时间 / 可行性 / 环境影响——找到完整帕累托前沿而非单一"最佳"路径，在 USPTO 和 ASKCOS 基准上较单目标方法节省 23% 成本、35% 时间，同时保持 ≥ 95% 化学可行性。
From Holo Pockets to Electron Density: GPT-style Drug Design with Density: 本文把结构药物设计的 condition 从"刚性 empty pocket"换成"包含配体与溶剂的 filler 低分辨率电子云"，并提出第一个 decoder-only autoregressive 的 EDMolGPT，在 DUD-E 101 个靶点上 bioactive recovery 达 41%、远超先前 ED-based 方法。
Hyperbolic Neural Population Geometry Benefits Computation: 为"海马群体活动呈双曲结构"这一实验现象建一套理论：先证明感受野宽度服从指数分布的位置细胞会统计意义上诱导出树状/双曲的刺激几何，再揭示现代 Hopfield 网络的更新规则其实在算 MMSE 最优解码器，最后据此提出一个定义在双曲空间的联想记忆模型（Karcher-flow 模型），其容量随维度指数、随最大范数双指数增长，远超现有模型。
iLoRA: Bayesian Low-Rank Adaptation with Latent Interaction Graphs for Microbiome Diagnosis: iLoRA 用贝叶斯方法从每个微生物组样本里推断一张稀疏的菌群交互图（Poisson 边 → Laplace 稀疏化 → GNN 嵌入），再用这个图去生成 input-conditioned 的 LoRA 矩阵 \(A\)，让 LLM 在做 IBD 诊断的同时把"是哪些菌在 cross-talk"这件事和预测一起学出来。
Influence-Guided Symbolic Regression: Scientific Discovery via LLM-Driven Equation Search with Granular Feedback: IGSR 把符号回归拆成"LLM 提议基函数 ψ_j + 逐项影响力分数 Δ_j 剪枝"两步循环，并把这个循环嵌入 MCTS 来搜组合空间，在 6 个生物医学基准和 LLM-SRBench 上同时拿下最佳 MSE 与符号召回，还在湿实验里发现了 DNA 甲基化与 RNA Pol II 停顿的新关系。
Insertion Based Sequence Generation with Learnable Order Dynamics: 本文提出 LoFlexMDM——一个把"插入掩码 + 解掩码"两步插入式掩码扩散模型的固定生成顺序换成可学习、依样本的顺序动态的生成模型：通过把离散流匹配推广到变长序列、用 Kumaraswamy CDF 参数化可学习的插入/解掩码时刻，并用 REINFORCE 联合训练生成器与目标顺序网络，在分子和图任务上让模型自己学到接近最优的生成顺序，de novo 分子质量比 FlexMDM 最高提升 17.5 个百分点。
Learning Protein Structure-Function Relationships through Knowledge-guided Representation Decomposition: ProtDiS 把预训练蛋白质微环境嵌入（如 ESM-3）通过信息瓶颈+冗余消除的方式拆解成 8 个生物物理可解释的"知识通道"和 1 个残差通道，让结构表示在十二个下游任务（尤其是结构相似但功能不同的情形）上一致提升。
Learning the Interaction Prior for Protein-Protein Interaction Prediction: A Model-Agnostic Approach: L3-PPI 把生物学里的 "L3 规则"（蛋白质对之间的 length-3 路径越多越可能相互作用）变成可学习的 graph prompt：用预训练 GNN 识别 L3 模式，再用门控网络生成虚拟 L3 路径并按 PPI 标签正则路径数量，做成一个即插即用的分类头，把任意 PPI 表征模型平均涨 2-4 个点。
Learning the Neighborhood: Contrast-Free Multimodal Self-Supervised Molecular Graph Pretraining: C-FREE 把分子拆成固定半径的 k-EgoNet 子图，2D 拓扑 + 多个 3D 构象走 GINE + PaiNN + Transformer 编码后用 JEPA 风格的潜空间预测做预训练，全程无负样本、无增广、无位置编码，仅用 0.33M 分子（GEOM）就在 MoleculeNet 8 个任务上超越了用 19M–77M 分子训练的 UniMol / MolFM 等多模态基线。
LineageFlow: Flow Matching for High-Fidelity Family-Aware Protein Sequence Generation: 把通用的均匀/掩码噪声先验换成由祖先序列重建（ASR）得到的家族特异 Dirichlet 先验，让 Dirichlet flow matching 从"已经进化好的脚手架"出发去做结构化突变，再在中间时刻插入一次 mutate–select–amplify 的 rerouting，从而在 Pfam 8886 个家族上把家族识别准确率推到接近自然序列（95.3% vs 96.6%）、同时保持高新颖度和折叠置信度。
Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models: 本文从一个预训练 masked diffusion model (MDM) 的隐藏状态出发，训练一个轻量级"互信息预测头"，一次前向就能输出全部 token 对之间的条件互信息矩阵，并据此挑选"条件独立"的 token 子集做并行解码，在 Sudoku 和蛋白质 (ESM-C) 上把推理 NFE 降低 3-5 倍同时保持甚至超过顺序解码的质量。
On the Collapse of Generative Paths: A Criterion and Correction for Diffusion Steering: 本文指出"用 ratio-of-densities 组合多个异质扩散/流模型"的推理时引导会出现 Marginal Path Collapse（MPC）——中间时刻的复合密度变得不可归一化，进而提出一个充要的 Path Existence Criterion (PEC) \(C(t)>0\) 来诊断塌缩，并设计 ACE 通过对指数 \(\gamma_i(t)\) 加 bump 函数来动态修正路径，把 Feynman–Kac 修正器推广到时变指数情形，在合成 Checkerboard、柔性 pose scaffold decoration（DN/CONF/SBDD 三专家组合）以及 COCO-MIG 多属性生成上都显著优于 NR/FKC 等常数指数基线。
Plug-and-Play Guidance for Discrete Diffusion Models via Gradient-Informed Logit Correction: 本文提出 GILC（Gradient-Informed Logit Correction），把预训练的去噪网络当作价值函数的变分代理，再用一个「绕过模型雅可比、直接在 clean 预测 logit 上做梯度修正」的机制，实现无需任何再训练的离散扩散可控生成，在 DNA、蛋白质、分子三类科学任务上同时超过免训练基线、甚至打平/超过微调方法。
Protein Autoregressive Modeling via Multiscale Structure Generation: PAR 把图像领域 VAR 的 "next-scale prediction" 思路搬到蛋白质 Cα 骨架生成上，用多尺度下采样 + 自回归 Transformer + flow-based 解码器替代单尺度扩散模型，配合 noisy context learning 和 scheduled sampling 缓解曝光偏差，在无条件生成 FPSD 上达到 161.0 的同时解锁 zero-shot 点提示生成与 motif scaffolding，并取得 2.5× 采样加速。
Protein Circuit Tracing via Cross-layer Transcoders: 作者把 NLP 中的 cross-layer transcoder 搬到蛋白质语言模型 ESM2 上,提出 ProtoMech 框架以 < 1% 的稀疏潜变量电路恢复 79% 的下游性能,并能沿电路 steering 设计出高 fitness 的蛋白变体,在 70%+ 案例中击败基线。
Protein Fold Classification at Scale: Benchmarking and Pretraining: 作者基于 TED + Foldseek 聚类的 AlphaFold 结构构建了规模空前（约 49 万条、965 类）的非冗余蛋白质折叠分类基准 TEDBench，并提出 SE(3)-不变的掩码自编码器 MiAE：用高达 90% 的极端掩码率 + 重编码器/轻解码器的非对称架构，仅 100M 参数即在线性探测和微调上击败 ESM2-650M、SaProt-650M 等更大模型。
Protein Language Model Embeddings Improve Generalization of Implicit Transfer Operators: 本文把预训练蛋白质语言模型（pLM）的残基嵌入直接灌进可迁移隐式转移算子（TITO），训出 PLaTITO 在 mdCATH 上仅用 56 ms 轨迹和 1100 GPU 小时就让小到 19 M 参数的粗粒化 \(C_\alpha\) 模型在快折叠蛋白等离群系统的平衡采样上全面超过 BioEmu。
Rethinking Genomic Modeling Through Optical Character Recognition: OpticalDNA 把一维 DNA 序列渲染成多页"文档图像"，再用一个 OCR 式的视觉-语言模型去"阅读"它，把碱基内容压成少量可重建的视觉 token，从而在最长 45 万碱基的长序列任务上以约 \(20\times\) 更少的有效 token、仅 256K 可训练参数就超过比它大 \(985\times\) 的序列基础模型。
RETROSPECT: RETROsynthesis via Sequential Prediction, and Chemically Transformed-ranking: 把单步逆合成拆成"提议（proposal）+ 选择（selection）"两个独立模块——用一个强化训练的单模型 ChemAlign Transformer 生成候选前驱体，再用 LambdaMART 对合并去重后的候选池做学习排序重排，在 USPTO-50K 上单模型 top-1 达 55.00%、重排后 59.4%，并诚实地拆清了"重排增益主要来自哪些特征"。
Routing by Reaching: Composition of Pre-trained GFlowNets for Multi-Objective Generation: 本文提出一种无需训练的 GFlowNets 组合框架，通过用每个预训练模型的"到达概率"作为权重去混合各自的前向策略，使得在推理阶段就能针对任意线性标量化或逻辑算子的多目标组合直接采样，并在线性情形下被证明可精确恢复目标分布。
Scalable Single-Cell Gene Expression Generation with Latent Diffusion Models: scLDM 用统一的多头交叉注意力块 (MCAB) 把可交换的基因表达数据编成固定长度、置换不变的潜变量集合，再用 DiT + 流匹配 + 联合多属性 classifier-free guidance 替代 Gaussian 先验，在多个 scRNA-seq 数据集上的重构、(有/无条件) 生成、扰动响应预测全面超过 scVI / scDiffusion / CFGen。
scCBGM: Interpretable Single-Cell Counterfactual Editing: 本文提出单细胞概念瓶颈生成模型 scCBGM，把"概念瓶颈"架构搬到单细胞 RNA 测序数据上，通过解码器跳连和交叉协方差解耦惩罚，实现对单个细胞做"如果改变某个生物概念会怎样"的可解释、可控反事实编辑，并能挂到流匹配模型上提升生成质量。
SIGMA: Structure-Invariant Generative Molecular Alignment for Chemical Language Models via Autoregressive Contrastive Learning: SIGMA 用 token 级对比损失把同一分子不同 SMILES 排列的隐状态强制对齐到同一条轨迹，并配套提出 IsoBeam 在解码阶段剪掉同构冗余路径，让序列模型在化学空间中真正"按图而非按字符串"思考。
Site4Drug: Predicting Drug-Binding Target Sites with an AI Agent: Site4Drug 把"在蛋白质上选哪里下药"这一上游瓶颈重构为一个约束优先的证据整合问题——LLM Agent 从序列推导拓扑、PTM、Motif、半胱氨酸等可行性信号，输出带分数、风险标签和可追溯日志的候选位点排序，并自动推荐应当采用抗体/多肽还是小分子模态。
SPATIA: Multimodal Generation and Prediction of Spatial Cell Phenotypes: 面向"细胞形态 + 基因表达 + 空间位置"三模态联合建模的空间转录组难题，SPATIA 用 细胞→niche→组织 的层级注意力学统一表示，并配一个空间条件的形态生成模块（弱配对 + 置信度感知的最优传输重加权 + 形态-profile 对齐流匹配），在 25.9M 细胞、12 个任务上同时刷新生成与预测 SOTA。
Stein Diffusion Guidance: Training-Free Posterior Correction for Sampling Beyond High-Density Regions: SDG 把"训练免（training-free）扩散引导"和"随机最优控制（SOC）后验采样"两条路线统一起来：用 SOC 推出引导项的变分上界后，发现现有 Tweedie 类方法都漏掉了一个 KL 正则项，于是借 Stein 变分梯度下降设计一个"先 Tweedie 倒推到数据流形 \(\mathcal{M}_T\)、再 Stein 修正、再前推回噪声流形 \(\mathcal{M}_t\)"的回环修正机制，在图像引导和小分子-蛋白对接两类任务上都显著超过 DPS/LGD/MPGD/UGD 等基线，特别擅长在低密度区域采到稀有高价值样本。
STRIDE: Post-Training LLMs to Reason and Refine Bio-Sequences via Edit Trajectories: STRIDE 把"优化蛋白质/分子序列"重新表述成"在编辑空间里做轨迹规划"：训练一个 LLM 显式吐出可执行的 INSERT/DELETE/REPLACE 原子编辑脚本，先用 Levenshtein 最短编辑路径做 SFT、再用 GRPO 类强化学习对齐任务奖励，从而在变长、带语法约束的离散序列优化上，把蛋白质全动作压力测试的成功率从 42% 拉到 89%、新颖性从 47% 拉到 97%。
Supervised Graph Contrastive Learning for Gene Regulatory Networks: 把"基因敲低实验"当作监督信号喂给图对比学习，让基因调控网络（GRN）的图增广不再依赖随机扰动而是基于真实生物扰动，在三种癌症的患者特异 GRN 上拿到更清晰的疾病亚型聚类，并在 13 个下游任务上稳定超过现有图表示学习基线。
SwitchCraft: A Programmatic Framework for Designing State-Switching Proteins: SwitchCraft 把"设计一个能在多个功能态之间切换的蛋白质"形式化为一个对组合约束求解的优化问题，通过对结构预测模型 Boltz-1 反向传播多组状态相关的损失（基序、结合、构象变化、接触），直接梯度下降优化氨基酸 logits，实现首个通用的多态蛋白计算设计框架，并在体外硅基实验中演示了正/负变构、基序切换、诱导结合、配体修饰、配体辨识与 cpGFP 荧光生物传感器的从头设计。
TadA-Bench: A Million-Variant Benchmark for Future-Round Discovery Toward Agentic Protein Engineering: TadA-Bench 用 31 轮真实定向进化湿实验中的百万级 TadA 变体序列，把蛋白工程问题形式化为"用前若干轮排出后若干轮"的固定数据回放任务，并配套 Seq2Graph 图式标签统一管线，揭示了主流生物大模型在"未来轮发现"上严重失效。
TD3B: Transition-Directed Discrete Diffusion for Allosteric Binder Generation: TD3B 把激动剂/拮抗剂的设计当作「方向性转移算子」生成任务，用一个方向 Oracle + 亲和力门控 + 树搜索摊销微调的掩码离散扩散框架，让预训练肽段生成器学会写出能定向偏移蛋白质活/失活构象转移的多肽序列。
Temporal Score Rescaling for Temperature Sampling in Diffusion and Flow Models: 通过对预训练扩散/流模型的 score 输出乘以一个仅依赖时间步、变量 \(k\) 与 \(\sigma\) 的解析重标缩因子 \(r_t\)，即可在推理阶段把采样分布"局部"地变得更尖或更平，而无需任何微调，对 DDIM 等确定性采样器也完全兼容。
Towards A Generative Protein Evolution Machine with DPLM-Evo: 本文提出 DPLM-Evo，把蛋白质语言模型的离散扩散从"只支持掩码替换"扩展为"显式建模替换+插入+删除三种进化编辑"，通过把变长观测序列解耦到上采样长度的隐对齐空间 + 上下文化进化噪声核，实现变长进化生成、进化轨迹式的蛋白质后编辑/优化，并在 ProteinGym 单序列变体效应预测上取得 SOTA。
Towards Universal Gene Regulatory Network Inference: Unlocking Generalizable Regulatory Knowledge in Single-cell Foundation Models: 本文指出单细胞基础模型 (scFM) 蕴含丰富但被"重建式预训练"遮蔽的基因调控知识，并提出 Virtual Value Perturbation 与 Gradient Trajectory 两种探针，从冻结的 scFM 中蒸馏出可跨基因/跨数据集泛化的成对基因特征，在 BEELINE 基准上把 AUPRC 从 ~0.5 推到 0.8–0.97，开启了"通用 GRN 推断 (UGRN)"这一新范式。
Transformed Latent Variable Multi-Output Gaussian Processes: 本文提出 T-LVMOGP：把多输出 GP 的核心建模问题——跨输出协方差 \(k_{p,p'}(x, x')\) 的构造——转化成"在 Lipschitz 正则的 RCNN 嵌入空间里用单个标量基核做内积"，并完整嵌入 SVGP 框架，使 MOGP 第一次能可扩展且高表达力地处理 \(P > 10000\) 输出（含 ZINB 似然的空间转录组数据），同时全面胜过 SV-LMC / OILMM / GS-LVMOGP 等基线。
Viral Proteins Reveal Geometry of Protein Language Models: 这篇论文以病毒蛋白为探针，发现 ESM 系列蛋白质语言模型（pLM）的嵌入空间里存在一条由掩码重建困惑度主导的"原生性轴"（PC1），它把序列从建模良好的细胞蛋白、经病毒蛋白、一直排到打乱/随机序列；同时证明嵌入里还保留着超出困惑度的"残余病毒信号"——线性探针能近天花板地区分病毒/细胞蛋白，而单靠困惑度做不到。
What Makes a Representation Good for Single-Cell Perturbation Prediction?: 这篇论文提出 PerturbedVAE，认为单细胞扰动预测的好表征必须显式分离占主导的扰动不变背景程序和稀疏的扰动响应信号，并用因果结构组织后者，从而更好泛化到未见双基因组合扰动。