NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=odatOcBi61
代码: https://github.com/ritzz-ai/Next-OMNI
领域: 多模态 / 全模态基础模型
关键词: 离散流匹配, 全模态, any-to-any, 统一表示, 跨模态检索

一句话总结¶

用离散流匹配（Discrete Flow Matching, DFM）取代自回归（AR）作为统一建模范式，搭出第一个完全基于 DFM 的开源全模态基础模型 NExT-OMNI，单编码器统一表示同时支撑文/图/视频/音的理解、生成与跨模态检索。

研究背景与动机¶

领域现状：统一的多模态理解+生成被视为通往 AGI 的关键瓶颈。主流做法是把大语言模型的自回归成功经验搬到多模态上，再用混合架构或模块解耦（Janus、Show-o、Bagel 等）分别处理理解和生成。
现有痛点：AR 范式在理解与生成任务间存在内在冲突，难以平衡两者；混合/解耦方案本质是"按任务路由"，引入冗余参数化模块、结构复杂、推理慢，而且编码特征过度分离，无法产出真正统一的表示，导致跨模态检索这类需要深度特征融合的任务表现糟糕。
核心矛盾：解耦能换来单项任务表现，却以牺牲统一性和通用性为代价；想要 any-to-any、跨模态检索这种"广义多模态"能力，又恰恰需要融合而非解耦。
本文目标：找一条"融合"而非"解耦"的统一建模路径，让一个精简架构同时把理解、生成、检索都吃下，并且推理更快。
核心 idea：用离散流匹配做统一范式——DFM 从全损坏序列出发并行迭代去噪，天然具备双向信息整合和并行解码加速；配合重建增强的统一表示，让单个编码器既保留高层语义又保留低层细节，从而支撑深度特征融合下的检索与多轮交互。

方法详解¶

整体框架¶

NExT-OMNI 把视觉、文本、音频统一编码成离散 token 序列，用一个从 AR-LLM（Qwen2.5-7B）初始化的骨干在每层做多模态自注意力深度融合，整个序列在离散流匹配范式下并行去噪预测，再由轻量的模态专属 head 解码回各模态。与"多编码器 + MoE/MoT 解耦"的前作不同，它训练单一编码器同时服务理解与生成，产出可直接用于检索的统一表示。

flowchart LR
    A[文本/图像/视频/音频输入] --> B[模态编码器<br/>CLIP-ViT / Whisper + VQVAE]
    B --> C[离散 token 序列 x1]
    C --> D[加噪 xt ~ pt·|x1]
    D --> E[共享骨干<br/>每层多模态自注意力<br/>DFM 速度预测]
    E --> F[模态专属 Head<br/>LM/Vision/Audio]
    F --> G[Any-to-Any 生成]
    E --> H[EOS token 特征<br/>跨模态检索]

关键设计¶

1. 离散流匹配统一建模：把 any-to-any 变成一次并行去噪。 给定从目标分布采样的"视觉-文本-音频"交错序列，先用 VQVAE 编码器和文本 tokenizer 转成离散目标 token 序列 \(x_1=(x_1^1,\dots,x_1^D)\)，每步均匀采样时刻 \(t\in[0,1]\)、按概率路径 \(p_t(\cdot|x_1)\) 采出带噪序列 \(x_t\)，模型吃进 \(x_t\) 并预测 \(x_1\)，损失就是逐 token 的期望交叉熵 \(L_{ce}=\mathbb{E}_{t,x_1,x_t}\big[-\sum_{i=1}^{D}\log p_{1|t}(x_1^i|x_t)\big]\)。这一范式让所有模态共享同一套去噪目标，省掉了 AR 的因果掩码与生成专用的 diffusion/flow head，只留轻量 token 解码头，既加速训练又加速响应。一个实现巧思是：模型并不直接喂离散 token，而是从编码器码本里抽出带丰富语义和细节的连续表示向量 \(c^M_{z_q}\)，经轻量投影与文本嵌入对齐后再送入骨干，简单却显著提升后续优化效果。

2. 重建增强的统一表示：单编码器既要语义又要细节。 先做 warmup 训练，让视觉/音频编码器在两个目标下学统一表示——一是借助辅助 VQVAE 量化器和模态解码器的重建损失 \(L^M_{rec}=L^M_R+L^M_{VQ}+L^M_G\)（量化为 \(z_q=\arg\min_{c\in C^M}\|z^M-c\|_2\)，捕捉低层细节），二是语义对齐损失 \(L^M_{sem}\)（视觉用 CLIP 式句级对比 \(L^V_{constra}\)、音频用 Whisper 式 token 级 caption 对齐 \(L^A_{cap}\)），合成 \(L^M_{total}=L^M_{rec}+L^M_{sem}\)。关键在于 DFM 训练时复用这套重建损失，把总目标写成 \(L_{overall}=\lambda_1 L_{ce}+\lambda_2 L^V_{rec}+\lambda_3 L^A_{rec}\)，并用 GradNorm 动态平衡三项梯度贡献。这样防止模型在 DFM 训练中过度偏向高层语义而丢掉细粒度信息，既保住理解/生成质量，又让统一表示足够"深融合"，从而支撑基于特征相似度的精准跨模态检索——检索时直接取 \<EOS> token 特征即可。

3. 动态长度生成策略（DGS）：补上 DFM 在理解任务上的短板。 DFM 并行去噪天生不擅长变长文本生成，作者在训练时插入额外 \<PAD> 让响应序列对齐到 block size 的整数倍；推理时利用"简单 token 单步即可确定"的性质，根据 \<EOS> 置信度以 block size 为步长动态扩展到合适的预设长度，再做多步迭代去噪。这一招以极小代价把理解任务（如 VQA）拉回到与 AR 相当的水平，消融里 DGS 让 VQAv2 从 51.7 直接回升到 54.3。

4. 自适应缓存 + 交错单模态训练：把"更快"落到实处。 推理时观察到多步去噪中大部分特征变化极小（类 DLLM 现象），于是对指令部分整段缓存并最小更新，对响应部分按"value 特征与缓存特征的余弦相似度"自适应更新，配合 DFM 的并行解码，相比 AR 架构拿到 1.2× 响应加速。训练侧则规避"随机混合多模态导致负载不均"的浪费——每个 batch 只训一个模态，靠多任务交错 + 梯度累积达成联合目标，换来 1.4× 训练效率提升。

实验关键数据¶

主实验表格¶

全模态理解（三个 benchmark 平均，AR 对手中最强 OpenOmni 36.5）：

模型	OmniBench(T+A+V)	WorldSense(T+A+V)	AV-Odyssey	AVG.
OpenOmni	37.4	37.2	32.8	36.5
NExT-OMNI	40.7	40.5	36.4	39.7

相比 OpenOmni 三数据集平均 +3.2 绝对提升。多轮语音交互（Spoken QA，S→T 平均）NExT-OMNI 62.0 居首；多轮视觉交互（OpenING）AVG. 55.0 显著超过同架构 MMaDA(47.7)、FUDOKI(44.5) 与 AR 系 SEED-X(50.2)。

消融实验表格¶

Paradigm	Rep.	DGS	Recon.	VQAv2(Und)	GenEval(Gen)	InfoSeek(Ret)	AVG.
AR	Decoupled	×	×	55.2	53.4	28.3	41.4
DFM	Decoupled	×	×	52.3	59.8	29.6	42.6
DFM	Unified	×	×	51.7	59.2	32.8	43.0
DFM	Unified	✓	×	54.3	59.4	33.1	43.9
DFM	Unified	✓	✓	56.2	62.6	33.7	45.6

关键发现¶

范式替换有得有失：AR→DFM 让理解微降但生成、检索明显上升；再转统一表示时理解因粒度冲突进一步下滑，但检索持续受益——印证"统一表示更适合广义应用"。
DGS 救理解：动态长度生成把理解拉回与 AR 可比，VQAv2 +2.6。
重建项救生成与检索：复用重建损失给特征补低层细节、抑制对高层语义的过度偏置，生成 GenEval +3.2、整体 AVG. 升到 45.6。
检索上 DFM/扩散类 > AR/混合类：双向信息编码退化成 BERT 式特征提取，比因果掩码能更好聚合上下文，解耦方案因特征过度分离反而检索吃亏。

亮点与洞察¶

范式层面的"第一个"：首个完全基于离散流匹配的开源全模态基础模型，把 DFM 从单模态语言/图像建模推广到 text-image-video-audio 的统一 any-to-any。
统一表示的额外红利：把"理解+生成"的统一表示直接用于跨模态检索，揭示了一个被解耦路线牺牲掉的应用维度——检索性能反过来成为衡量"表示是否真统一"的探针。
工程与范式互补：重建损失复用、GradNorm 平衡、单模态交错训练、自适应缓存，都是围绕"DFM 弱在哪就补哪"的针对性设计，把范式优势真正兑现为速度与多任务覆盖。

局限与展望¶

理解仍需 DGS 补救：DFM 在变长文本生成上的固有短板靠工程策略弥补，说明纯 DFM 在语言密集型理解上尚未天然胜过 AR。
视频生成偏初步：长视频靠"抽 8 帧当多图"的简化策略，video/long-audio 生成仍是"preliminary"级别。
检索训练规模有限：仅在 M-BEIR 100K 子集上做检索微调，更大规模与更多检索场景的泛化待验证。
作者展望：把 NExT-OMNI 推向 VLA 的动作轨迹生成与世界模型的物理视频生成等更广领域。

评分¶

新颖性: ⭐⭐⭐⭐ 首个全 DFM 全模态基础模型，把离散流匹配从单模态推广到 any-to-any 并用统一表示打通检索，范式选择有清晰动机。
实验充分度: ⭐⭐⭐⭐ 覆盖理解/语音交互/视觉交互/检索四类任务 + 关键组件消融，对照面广；但视频生成、检索规模偏弱。
写作质量: ⭐⭐⭐⭐ 动机与"解耦 vs 融合"主线清晰，图 2 pipeline 和消融逐项归因到位。
价值: ⭐⭐⭐⭐ 为统一多模态建模提供了一条可复现的非 AR 路线（开源代码+权重），并把跨模态检索抬为衡量统一性的有用探针。