Unified Vision-Language Modeling via Concept Space Alignment¶

会议: ICLR 2026
arXiv: 2603.01096
代码: 无
领域: 多模态VLM
关键词: 视觉-语言嵌入空间, 潜在扩散模型, 多语言, 视频字幕, Large Concept Model

一句话总结¶

提出v-Sonar将视觉编码器后置对齐到文本嵌入空间Sonar，使得在Sonar空间上训练的Large Concept Model (LCM)能零样本处理视觉输入，并通过指令微调扩展为v-LCM，在61/62种语言上超越现有VLM。

研究背景与动机¶

现有的语言和模态无关嵌入空间（如SONAR，支持1500种文本语言和177种语音语言）在文本和语音任务中取得了出色表现，但仍局限于文本和语音模态，无法处理视觉任务。Large Concept Model (LCM)在Sonar空间中用扩散目标做next-embedding预测，展示了在连续嵌入空间而非离散token上进行语言建模的可行性。

本文的核心动机是：能否将视觉模态也对齐到Sonar空间，使LCM无需任何视觉数据训练就能理解视觉输入？进一步地，能否通过视觉-语言指令微调来增强LCM？

方法详解¶

整体框架¶

方法的核心是把视觉这个"新模态"塞进已经训练好的 Sonar 文本/语音嵌入空间里，从而免费复用在该空间上预训练的 Large Concept Model。具体分三步走：先用 v-Sonar 把 Perception Encoder 的输出对齐到 Sonar 文本嵌入，验证纯文本训练的 LCM 能零样本读懂这些视觉嵌入，最后在 v-Sonar 与 Sonar 共享的统一空间上做视觉-语言指令微调，得到 v-LCM。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    IN["输入图像 / 视频"] --> PE["Perception Encoder<br/>逐帧编码"]
    PE --> PROJ
    subgraph PROJ["v-Sonar 视觉编码器对齐"]
        direction TB
        A["注入位置编码<br/>(带上时序信息)"] --> B["temporal attention<br/>帧间交互"] --> C["attention pooling<br/>聚合成视频级表征"]
    end
    PROJ --> CUR["粗到细三阶段课程<br/>图文12M → 合成视频2M → 人工200K<br/>MSE 对齐到冻结 Sonar"]
    CUR --> VEMB["v-Sonar 视觉嵌入<br/>(落入 Sonar 文本空间)"]
    VEMB -->|纯文本 LCM 零样本读取| CAP["视频检索 / 字幕"]
    VEMB --> VLCM["v-LCM 潜在扩散视觉-语言模型<br/>拼接视觉+文本嵌入<br/>two-tower 预测下一嵌入"]
    VLCM --> OUT["多语言图像/视频理解"]

关键设计¶

1. v-Sonar 视觉编码器对齐：让视觉嵌入落进文本空间。 难点在于 Perception Encoder (PE) 产出的逐帧特征既无时序结构，也不在 Sonar 这个目标空间里。作者不重训编码器，而是在 PE 之上堆一个轻量投影器：先注入位置编码让帧带上时序信息，再过一层 temporal attention 做帧间交互，最后用 attention pooling 把所有帧聚合成单一视频级表征。整个对齐用最朴素的 MSE 把视觉嵌入往冻结的 Sonar 文本嵌入上拉，目标为 \(\mathcal{L}_{\text{align}} = \frac{1}{N}\sum_{i=1}^{N}\|f_\theta(V_i) - g(T_i)\|_2^2\)，其中 Sonar 编码器 \(g\) 全程冻结作为"锚点"，只更新投影器和视觉编码器。因为目标空间已经是高质量、模态无关的，对齐做的只是搬运而非重建语义，所以一个回归损失就够，也正是这一点让后续的零样本迁移成为可能。

2. 粗到细的三阶段课程：从图文先验过渡到视频时序。 直接用稀缺的人工视频字幕训练既不够量又难收敛，所以作者把对齐拆成由粗到细三段：Stage 1 用 12M 大规模图文对建立从像素到 Sonar 空间的基础映射，Stage 2 引入 2M 合成视频字幕让模型适应时序动态，Stage 3 再用 200K 高质量人工标注视频字幕做精细对齐。这种"先打地基、再补时序、最后抛光"的顺序既摊薄了对昂贵标注的依赖，消融里去掉合成视频阶段（w/o Stage2）Bleu 从 40.1 掉到 39.6 也印证了中间过渡数据确实在起作用。

3. v-LCM 潜在扩散视觉-语言模型：在统一空间上做生成式建模。 一旦视觉和文本都落在同一个连续嵌入空间，就可以把它们拼成一条潜在嵌入序列，用和 LCM 文本预训练完全相同的潜在扩散目标继续训练，而不必引入离散 token。模型采用 two-tower 架构，contextualizer 负责编码前序嵌入作为条件 \(c\)，denoiser 在此条件下迭代重建下一个嵌入。前向加噪为 \(x_t = \alpha_t x^0 + \sigma_t \epsilon\)，训练则最小化 \(\mathcal{L}(\theta) = \mathbb{E}\|x^0 - \mu_\theta(\alpha_t x^0 + \sigma_t \epsilon, t, c)\|_2\)，即在每个噪声水平上预测干净嵌入 \(x^0\)。由于建模目标和文本侧一致，v-LCM 天然继承了 Sonar 原生支持 1500 种语言的多语言能力。

损失函数 / 训练策略¶

v-Sonar 阶段只用上面的 MSE 对齐损失配合三阶段课程。训练时一个实际坑是：投影器是新初始化的、而 PE 已预训练好，若用同一学习率会让梯度不稳定，作者因此采用异步学习率给投影器和编码器分别设置不同步长；消融显示加上异步学习率后 Bleu 从 38.0 提到 39.7，是单项收益最大的技巧，再叠加归一化初始化和 attention pooling 进一步把 Cos.Sim 推到 0.716。v-LCM 阶段则沿用 LCM 原始文本预训练的潜在扩散目标，在 M3IT 多模态多语言指令数据上做指令微调。

实验关键数据¶

主实验¶

数据集	指标	v-Sonar	PECoreG	SigLIP2-G-OPT
PE-Video	R@1	73.03	63.91	47.55
Vatex	R@1	40.75	18.90	27.52
Dream-1k	R@1	63.30	72.10	61.50

数据集	指标	v-Sonar+OmniSONAR Decoder	PLM-3B	Qwen2.5-VL-3B
PE-Video	Bleu	39.0	21.1	30.0
Dream-1k	Bleu	23.9	19.6	16.1
Vatex-zh	R-L	26.9	-	-

M3IT多语言评测	v-LCM	InternVL	Qwen-VL
62种语言中超越对手数	61/62	-	-

消融实验¶

配置	MSE↓	Cos.Sim↑	Bleu↑	说明
Linear Proj.	1.45e-3	0.694	38.0	冻结PE基线
Full PE	1.54e-3	0.672	37.1	全部微调反而更差
+ Async. LR	1.43e-3	0.700	39.7	异步学习率有效
+ Norm. Init.	1.39e-3	0.708	39.8	归一化初始化
+ Attn. Pooling	1.39e-3	0.708	39.8	注意力聚合
Full Pipeline (3-stage)	1.36e-3	0.716	40.1	完整三阶段最优
w/o Stage2 (SV)	1.39e-3	0.710	39.6	去掉合成视频阶段
w/o Stage1&2	1.39e-3	0.708	39.8	仅用人工标注

关键发现¶

v-Sonar在PE-Video和Vatex上检索R@1分别比原始PE提升9.12和21.85
纯文本训练的LCM可以零样本处理v-Sonar视觉嵌入，在视频字幕任务上与VLM差距有限
OmniSONAR较Sonar1对齐更容易（嵌入范数1.69 vs 0.264，协方差trace 1.83 vs 0.049），Sonar1空间存在坍缩问题
v-LCM在M3IT评测中匹配SOTA VLM的图像/视频理解能力，同时在61种非英语语言上显著领先

亮点与洞察¶

提出了一种新范式：在模态无关的连续嵌入空间中统一视觉和语言，使用扩散目标而非离散token
后置对齐策略(post-hoc alignment)的成功证明高质量文本嵌入空间可以"免费"接纳新的模态
LCM零样本视觉理解能力令人印象深刻，验证了共享嵌入空间的跨模态迁移潜力
多语言能力是天然优势：Sonar原生支持1500种语言，v-LCM自动继承

局限与展望¶

Dream-1k检索v-Sonar不如原始PE（63.3 vs 72.1），说明对齐可能损失某些特征
Vatex短字幕场景表现不及InternVL，受训练数据偏向详细字幕影响
当前v-LCM规模较小，与大规模VLM（7B+）的直接对比有待验证
Sonar1版本空间坍缩问题需要更好的解决方案（目前依赖OmniSONAR改进版）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将视觉对齐到模态无关嵌入空间+潜在扩散生成的新范式极具创新
实验充分度: ⭐⭐⭐⭐ 检索、字幕、多语言评测全面，消融完整；但大规模对比有限
写作质量: ⭐⭐⭐⭐ 结构清晰，方法描述流畅
价值: ⭐⭐⭐⭐⭐ 为多模态多语言AI提供了极具潜力的新方向，61/62语言领先很有说服力