M4V: Multimodal Mamba for Efficient Text-to-Video Generation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 https://huangjch526.github.io/M4V_project/（代码待确认）
领域: 视频生成 / 扩散模型 / 高效架构（Mamba）
关键词: 文生视频, Mamba/状态空间模型, 多模态融合, 线性复杂度, 扩散模型

一句话总结¶

M4V 把文生视频扩散模型里二次复杂度的注意力块换成线性复杂度的 Mamba 块（MM-DiM），靠一套「多模态 token 重排」让单向扫描的 SSM 也能做文本条件融合和时空建模，在 768×1280 长视频上把混合层 FLOPs 砍掉约 45%，质量与基线 PyramidFlow 持平、迁移到 Wan2.1 后还反超原模型。

研究背景与动机¶

领域现状：文生视频（T2V）这两年随 Sora 爆火，主流高质量模型（Sora、Kling、HunyuanVideo、Wan2.1）几乎都建立在 Transformer 扩散架构（DiT）之上，靠堆 3D 全注意力来建模视频的时空联合分布。

现有痛点：注意力对序列长度是二次复杂度。视频的 token 数 = 帧数 × 每帧空间 token，本来就巨大，3D 全注意力的代价是 \(O((TM)^2)\)（\(T\) 帧、\(M\) 个空间 token）。这让训练和部署都极其昂贵，尤其在高分辨率长视频场景下几乎不可承受。

核心矛盾：要高质量就得建模庞大的时空空间，而能把时空联合建模做好的注意力又恰恰是复杂度爆炸的来源——画质与算力天然对立。线性复杂度的 Mamba（选择性状态空间模型）本来是天然的替代品，但它有两个硬伤：(1) 它是为单向 1D 序列设计的，而视频要做复杂的 2D 空间 + 时间建模；(2) 它没有多模态交互机制，靠隐状态串行传播信息，不像注意力有显式的 QKV，很难把文本条件喂进去。所以此前 Mamba 在文本条件视觉生成上几乎是空白，少数工作也只敢用 Mamba 处理单模态、再外挂 cross-attention 做文本控制。

本文目标：设计一个统一的 Mamba 块，既能做文本-视觉的多模态融合，又能把 3D 视频 latent 重排成 SSM 能顺畅处理的 1D 序列，从而在不牺牲质量的前提下用线性复杂度替换掉注意力。

核心 idea：不改 Mamba 本身，而是在 SSM 前后做 token 重排——把文本 token 放到序列首尾形成双向条件通路、给视频序列插入帧级寄存器并用 zigzag 扫描保留时空结构，再配一条轻量时间分支补长程时序，组成 MM-DiM 块整体替换 Transformer 块。

方法详解¶

整体框架¶

M4V 沿用 PyramidFlow（基于 FLUX 的多级压缩、自回归 flow-matching 视频生成）的宏观结构：文本经文本编码器、视频经 3D VAE + patchify 编成 token；前 8 个 MM-DiT 块用独立参数分别编码文本与视觉（保持不变），后续 16 个统一 Transformer 块全部替换成本文的 MM-DiM 块，用共享参数同时处理文本和视觉 token，最终预测噪声。整篇论文的核心就是这个 MM-DiM 块怎么设计。

一个 MM-DiM 块有两条并行支路：主支路先对输入 token 做 MM-Token Re-Composition（多模态 token 重排），过 SSM（含 Conv），再做 Inv-MM-Token Re-Composition 还原；时间分支轻量地用因果注意力补长程时序，结果残差加回主支路。时空被解耦成「2D 空间扫描（SSM 主支）+ 1D 时间处理（时间分支）」，正好契合视频沿时间维天然单向自回归的特性，不增加架构复杂度。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["文本 Prompt + 视频<br/>(3D VAE→token)"] --> B["8× MM-DiT 块<br/>分模态编码(保持不变)"]
    B --> C["16× MM-DiM 块<br/>(替换原 Transformer 块)"]
    subgraph MMDiM["单个 MM-DiM 块"]
        direction TB
        D["MM-Token Re-Composition<br/>文本首尾双向 + 视频帧级寄存器"] --> E["SSM 选择性扫描<br/>(线性复杂度时空建模)"]
        E --> F["Inv-MM-Token Re-Composition<br/>去寄存器/复原顺序/首尾文本相加"]
        G["轻量时间分支<br/>压缩条件帧+因果注意力"] -.残差相加.-> F
    end
    C --> MMDiM
    MMDiM --> H["噪声预测<br/>(可选 Reward Learning 后训练)"]

关键设计¶

1. MM-Token Re-Composition：用「序列重排」让单向 SSM 同时吃下文本条件和 3D 时空结构

这是全文的发动机，针对的就是 Mamba 两大硬伤——没有显式跨模态交互、不会处理 3D 视频。它不动 SSM 内部，而是在扫描前把序列拆成三步重排。

第一步 文本 token 重排：输入序列 \(X=[Z, X_v]\)（\(Z\) 文本、\(X_v\) 视觉）。把文本放到最前面、左侧补零得 \(Z_l=[\varnothing, Z]\)——因为隐状态 \(h\) 零初始化，左侧补零保证 SSM 在真正读到文本前 \(h\) 一直是零，文本作为最干净的条件先注入；再把视觉接在文本之后、从左到右扫描，实现文本对视觉的条件控制。但单向扫描只能「文本→视觉」单向传播，为了让视觉信息也能回流到文本、促成双向对齐，又把文本复制到序列末尾、右侧补零得 \(Z_r=[Z, \varnothing]\)。于是序列变成 \(\hat{X}=[Z_l, \hat{X}_v, Z_r]\)，仅靠 token 排布就在单向 SSM 里造出了双向多模态通路。

第二步 视频 token 重排：3D 张量拍平成 1D 会丢时空结构，所以空间上用 zigzag 扫描（八种扫描路径在不同层交替，让各层隐状态足够多样以捕捉丰富空间关系）；又因为 PyramidFlow 各金字塔层的条件帧数和分辨率是动态变化的，作者在帧之间插入 Per-Frame Registers（帧级寄存器）——三种对应不同分辨率阶段的可学习 token，用来标记「下一帧开始」和「分辨率切换」。视觉序列 \(X_v=[x_0,\dots,x_i]\) 被重排为 \(\hat{X}_v=[r_0, x_0, \dots, r_1, x_{i-1}, r_2]\)，寄存器几乎不增算力却显著增强模型的时序感知与对齐。

第三步 Inv-MM-Token Re-Composition：SSM 输出 \(\hat{X}'=[Z_l', \hat{X}_v', Z_r']\) 后再逆操作还原——移除帧级寄存器、复原视觉 token 原始顺序、把首尾两份文本序列对齐相加 \(Z'=Z_l'+Z_r'\)，恢复成下一层能用的标准结构。整套重排的巧妙在于：它把 Mamba「缺多模态交互、缺时空感知」两个先天缺陷，全部转化成对输入序列的纯排布工程，零额外注意力开销。

2. 轻量时间分支：用一条便宜的因果注意力补 Mamba 的长程时序短板

纯 Mamba 在超长上下文上仍逊于 Transformer，业界共识是「Mamba+Transformer 混合」效果最好，但已有混合多是块级重型设计（整块换注意力，很贵）。本文反其道，挂一条与主支并行的轻量时间分支专补长程时序。做法是把条件 latent \(X_C=[x_0,\dots,x_{i-1}]\) 全部下采样到最小空间分辨率 \(x_s\in\mathbb{R}^{\frac{H}{K_s}\times\frac{W}{K_s}\times c\times i}\)，再把空间维压进通道维形成很短的序列 \(x_s\in\mathbb{R}^{i\times S}\)（\(S=c\cdot\frac{H}{K_s}\cdot\frac{W}{K_s}\)）；噪声 latent \(x_i\) 切成 \(K_s\) 个 token，与压缩条件拼接后沿时间维做因果注意力，结果 reshape 回原尺寸残差加回主支。因为只在被极度压缩的「短时间序列」上做注意力，\(O(T^2)\) 的代价很小，却拿回了注意力擅长的长程时序建模——是「主支 Mamba 管效率、副支注意力管长时序」的分工。

3. Reward Learning 后训练：在公开数据天花板下用奖励模型救质量

公开视频数据集（WebVid-10M 等）质量有限，别人靠扩数据到上亿样本，本文改走后训练。设模型用 flow-matching 训练，在随机时间步 \(t\)（噪声尺度 \(\sigma_t\)）拿到末帧预测速度 \(\hat{v}_i\)，假设它近似真速度，做一步去噪得到预测干净 latent：

\[\hat{x}_1^i=\frac{1}{\sigma_e}\Big[x_t^i+\frac{\sigma_e-\sigma_t}{\sigma_e-\sigma_s}\hat{v}_i-(1-\sigma_e)x_0^i\Big]\]

解码后用奖励模型 HPSv2（\(r_1\)）和 CLIP（\(r_2\)）打分，反向回传奖励损失：

\[L_{\text{reward}}=-r_1(D(\hat{x}_1^i))-r_2(D(\hat{x}_1^i))\]

其中 \(D\) 是 3D VAE 解码器。这个损失逐帧矫正不良运动、提升与 prompt 的语义贴合，在不扩数据的前提下涨语义分。

损失函数 / 训练策略¶

主损失为 flow-matching 目标；可选叠加上面的 \(L_{\text{reward}}\) 做后训练。训练用渐进策略：先 384p 文生图（T2I），再从 384p 升到 768p，视频长度从 57→121→241 帧逐步拉长，图像与视频数据混训，稳定适应更长序列。Mamba 块的部分参数用预训练注意力权重初始化以加速收敛；条件帧加线性递增的噪声以稳早期训练。迁移到 Wan2.1 时，因其非自回归、无金字塔，直接把所有 self-attention 换成 MM-DiM、整段视频 latent 上算 flow-matching 和奖励损失。

实验关键数据¶

主实验¶

VBench 评测，1000 prompts、121 帧 768p、每 prompt 五个随机种子。下表对比公开数据训练的模型（粗体为公开数据组最优）：

模型	训练数据	Total	Semantic	Aesthetic	Dynamic Degree
PyramidFlow†	Public	81.61	73.90	63.96	66.66
M4V (PyramidFlow)	Public	81.55	74.47	64.08	60.55
Wan2.1	Proprietary	84.70	80.95	61.53	94.35
*M4V (Wan2.1)**	Public	86.14	80.45	67.52	96.70
HunyuanVideo	Proprietary	83.24	75.82	60.36	70.83

关键看点：以 PyramidFlow 为基线，M4V 的 Total Score 几乎持平（81.55 vs 81.61），但算力大降；而当 MM-DiM 块迁移到 Wan2.1 并在公开数据上微调后，M4V(Wan2.1) 反而超过原版 Wan2.1*（86.14 vs 84.70），且推理更快——说明 Mamba 块不只是省算力的妥协，换得好还能涨点。

效率对比（生成速度，越低越好）：

模型	视频尺寸	时间(s)
PyramidFlow	768×1280×241	812
M4V (PyramidFlow)	768×1280×241	613
Wan2.1	720×1280×81	1700
M4V (Wan2.1)	720×1280×81	1210

复杂度上，全注意力 \(O((TM)^2)\)，SSM 仅 \(O(TM)\)、时间分支 \(O(T^2)\)，因 \(T\ll M\) 总体 \(O(TM+T^2)\)；生成 241 帧时混合层 FLOPs 从 55.44 降到 29.52 TFLOPs（约 −45%）。

消融实验¶

组件消融（Fast Evaluation Protocol，50 prompts）：

Text	Vis	Temp	Overall-Cons	Aes-Qual	Img-Qual	Avg.
			19.77	46.60	63.16	55.70
✓			21.23	45.39	54.83	53.41
	✓		18.86	48.69	64.18	56.79
✓	✓		21.26	49.82	63.79	57.10
✓	✓	✓	21.68	51.25	66.38	58.75

架构选型与算力（241 帧，A100）：

结构	TFLOPs	推理(s)	Avg. Score
Full Attn	55.44	812	59.84
Parallel	82.03	858	59.97
Full (全 Mamba)	26.64	570	57.10
Full+Temp-Branch	29.52	613	58.75

关键发现¶

Text 重排专提文本对齐、却小掉画质：单加 Text，Overall-Cons 从 19.77 升到 21.23（文-视对齐增强），但 Img-Qual 从 63.16 掉到 54.83——文本侧设计会轻微挤压视觉质量，需配 Vis 补回。
Per-Frame Registers 全面提画质：单加 Vis，几乎所有视频质量指标上升（Img-Qual 64.18），印证帧级寄存器帮 Mamba 抓住了时空依赖；Text+Vis 合用各项稳定超基线。
全 Mamba 省算力但掉点，加时间分支扳回：Full（全 Mamba）TFLOPs 仅 26.64、远低于 Full Attn 的 55.44，但 Avg. 掉到 57.10；补上轻量时间分支后涨到 58.75，且算力（29.52）仍远低于注意力——这是全文「效率-质量」最佳点。Parallel 虽分最高（59.97）但算力最贵（82.03）、仅比全注意力高 0.09%，不划算。
Reward Learning + 合成数据涨语义：单加 Reward Learning，VBench Total 从 81.55 升到 81.71、Semantic 74.47→75.27；再叠加约 8 万条 HunyuanVideo 合成运动视频，Total 进一步到 81.91、Semantic 76.10。

亮点与洞察¶

把架构难题降维成「排序问题」：Mamba 不能多模态、不懂 3D，本文不去改 SSM 内核，而是用文本首尾双向放置 + 帧级寄存器 + zigzag，把这些能力全部用 token 排布「拼」出来——几乎零额外算力，思路非常省力且可迁移。
左侧补零 + 零初始化隐状态的小技巧：利用 SSM「读到文本前 \(h\) 恒为零」的特性保证文本条件干净注入，是对状态空间模型工作机理理解很到位的设计。
轻量时间分支的「压缩再注意力」：先把条件帧空间维压进通道、变成极短时间序列再做因果注意力，用很小的 \(O(T^2)\) 代价拿回注意力的长程时序优势，是混合架构里更经济的做法，可迁移到任何 SSM 视频骨干。
Fast Evaluation Protocol 值得借鉴：架构消融全做满训练上千 GPU 小时不现实，作者用「20k 步 + 50 prompts + 子集指标」做相对趋势评测来指导设计选型，是大规模生成研究里务实的工程实践。
即插即用证明泛化：同一 MM-DiM 块在自回归金字塔 PyramidFlow 和非自回归 Wan2.1 上都成立，后者还反超原模型，说明设计不依赖特定骨干。

局限性 / 可改进方向¶

绝对质量未碾压顶级闭源模型：M4V(PyramidFlow) 只是与基线持平，人类评测里运动平滑度/语义连贯仍落后 HunyuanVideo（仅美学占优），主要瓶颈仍是公开训练数据质量。
前 8 个 MM-DiT 块没动：作者明说移除其分模态参数化超出本文范围，意味着整网并非纯 Mamba，仍保留了注意力编码段，效率上限未完全释放。
Reward Learning 收益偏小：VBench 仅 +0.16%，且依赖 HPSv2/CLIP 奖励模型本身的偏好与天花板；一步去噪近似真速度的假设在大噪声步是否稳健存疑。
效率对比不完全公平：各模型分辨率/帧数不同，作者也承认严格公平的效率比较不可行，速度数字只能作参考。
可改进方向：把前 8 个块也 Mamba 化、探索更强奖励信号或视频专用奖励模型、在更高质量数据上验证 Mamba 路线的质量上限。

评分¶

新颖性: ⭐⭐⭐⭐ 首个把 Mamba 系统性推向高分辨率文本驱动 T2V，token 重排做多模态的思路新颖且优雅。
实验充分度: ⭐⭐⭐⭐ VBench 主结果 + 组件/架构/训练三类消融 + 人类评测 + 双骨干验证，较完整；但绝对质量未碾压、效率比较承认不完全公平。
写作质量: ⭐⭐⭐⭐ 动机与三步重排讲得清楚，图文配合好；部分公式排版（缓存里）需对照原文。
价值: ⭐⭐⭐⭐ 线性复杂度 T2V 的可行路线，对降低长视频生成成本有实际意义，MM-DiM 块即插即用可复用。