MuTri: Multi-view Tri-alignment for OCT to OCTA 3D Image Translation¶

会议: CVPR 2025
arXiv: 2504.01428
代码: https://github.com/xmed-lab/MuTri
领域: 模型压缩
关键词: OCT, OCTA, 向量量化, 对比学习, 3D图像翻译, 视网膜血管

一句话总结¶

本文提出MuTri，首次将向量量化（VQ）引入OCT到OCTA的3D体积翻译任务，通过两阶段训练——先预训练OCT和OCTA重建VQVAE提供多视图先验，再用对比语义对齐（3D OCT/OCTA视图）和血管结构对齐（2D OCTA投影图视图）三视图指导翻译VQVAE的码本学习，在三个数据集上全面超越SOTA。

研究背景与动机¶

领域现状：光学相干断层扫描血管成像（OCTA）能提供视网膜微血管的3D成像，对糖尿病视网膜病变、青光眼等疾病诊断至关重要。但OCTA需要专用传感器和昂贵设备，远不如OCT普及。

现有痛点：(1) 早期方法（AdjacentGAN、MultiGAN）仅处理2D B-scan或投影图，丢失3D深度信息；(2) 最新3D方法TransPro在连续无限空间中直接学OCT→OCTA映射，映射不确定性大；(3) TransPro依赖预训练的血管分割模型，而高质量血管分割标注获取成本极高；(4) 朴素VQVAE因OCT-OCTA巨大域差导致码本利用率低、翻译质量差。

核心矛盾：OCT（结构信息）和OCTA（血流信息）域差巨大——直接用VQVAE学映射时，编码器输出的unquantized特征难以有效量化到OCTA码本，码本坍塌导致大量码字闲置。

本文目标 (1) 在离散有限空间（而非连续无限空间）中学习OCT→OCTA映射以降低不确定性；(2) 解决VQVAE在跨域翻译中的码本利用率低问题；(3) 不依赖额外的血管分割标注。

切入角度：利用预训练的OCT和OCTA重建模型提供高质量的领域特征作为多视图指导信号，通过对比学习最大化翻译模型与预训练模型之间的互信息，驱动码本探索更多码字。

核心 idea：预训练OCT和OCTA重建VQVAE提供三视图先验（3D OCT + 3D OCTA + 2D OCTA投影图），用对比语义对齐和血管结构对齐分别从语义和结构层面指导翻译VQVAE的码本学习。

方法详解¶

整体框架¶

Stage 1：分别训练OCT和OCTA的VQVAE重建模型。OCT VQVAE将OCT体积编码→量化→解码重建OCT；OCTA VQVAE同理。两者分别拥有码本 \(\mathcal{Z}_{oct}\) 和 \(\mathcal{Z}_{octa}\)。

Stage 2：训练翻译VQVAE，输入OCT体积，输出OCTA体积。三个对齐损失利用Stage 1预训练模型的特征作为指导：(a) 对比语义对齐从3D OCT视图对齐unquantized特征；(b) 对比语义对齐从3D OCTA视图对齐quantized特征；(c) 血管结构对齐从2D OCTA投影图视图对齐血管结构。

关键设计¶

对比语义对齐（Contrastive-inspired Semantic Alignment, CSA）：
- 功能：最大化翻译模型与预训练OCT/OCTA模型间的互信息，驱动码本探索
- 核心操作：将翻译模型和预训练模型的特征图切成非重叠patch，经投影后做对比学习——同位置patch为正样本，不同位置为负样本
- OCT视图对比：\(\mathcal{L}_{OCT}\) 对齐翻译模型的unquantized特征与预训练OCT模型的unquantized特征
- OCTA视图对比：\(\mathcal{L}_{OCTA}\) 对齐翻译模型的quantized特征与预训练OCTA模型的quantized特征
- 理论保证：最小化 \(\mathcal{L}_{OCT}\) 等价于最大化互信息的下界 \(I(\mathbf{P}, \mathbf{Q}) \geq \log(\frac{W}{S} \cdot \frac{H}{S} - 1) - \mathbb{E}\mathcal{L}_{OCT}\)
血管结构对齐（Vessel Structure Alignment, VSA）：
- 功能：利用2D OCTA投影图的血管结构先验，补充3D对齐缺失的细节
- 核心操作：将预训练OCTA模型和翻译模型各自的2D OCTA投影图切成patch，计算patch间余弦相似度矩阵 \(\mathcal{C}^{octa}\) 和 \(\mathcal{C}^{oct2octa}\)，最小化两者差异：\(\mathcal{L}_{proj} = \sum \|\mathcal{C}^{octa} - \mathcal{C}^{oct2octa}\|\)
- 设计动机：真实OCTA投影图存在扫描不稳定导致的血管不连续伪影，而预训练OCTA模型的重建投影图更平滑连续。用后者作为指导避免翻译模型过拟合到这些伪影
- 相比TransPro的血管分割辅助任务，VSA不需要任何额外标注
两阶段VQVAE训练策略：
- 功能：先学习各域的离散表示空间，再利用它们指导跨域翻译
- Stage 1损失：标准VQVAE损失 = 重建损失 + 码本损失 + commitment损失
- 码本利用率提升：朴素VQVAE的利用率仅~30%，MuTri的CSA将利用率提升到~80%+

损失函数¶

\[\mathcal{L}_{stage2} = \mathcal{L}_{VQVAE}^{oct2octa}(\mathcal{Z}, E_{oct2octa}, D_{oct2octa}) + \lambda(\mathcal{L}_{OCT} + \mathcal{L}_{OCTA} + \mathcal{L}_{proj})\]

\(\lambda=0.5\)，\(\tau=0.1\)（对比温度），均通过敏感性分析确定，模型对两者均不敏感。

实验关键数据¶

主实验：三个数据集（Tables 1 & 2）¶

方法	OCTA-3M PSNR(dB)↑	OCTA-6M PSNR(dB)↑	OCTA2024 PSNR(dB)↑
Pix2Pix3D	31.58	30.66	41.87
VQ-I2I	31.72	29.54	41.25
Palette (Diffusion)	32.42	30.02	41.40
TransPro	32.56	30.53	42.69
MuTri	34.10	33.08	43.38

消融实验（Table 3，OCTA-6M）¶

CSA	VSA	MAE↓	PSNR(dB)↑	SSIM(%)↑
✗	✓	0.0765	32.31	89.53
✓	✗	0.0748	32.87	89.19
✓	✓	0.0741	33.08	90.04

OCTA2024投影图指标¶

方法	MAE↓	PSNR(dB)↑	SSIM(%)↑
TransPro	0.01056	37.85	87.61
MuTri	0.00870	39.65	90.31

关键发现¶

在所有三个数据集的所有指标上全面SOTA
OCTA-3M比TransPro提高1.54 dB PSNR，OCTA-6M提高2.55 dB
CSA是最关键组件，单独贡献0.56 dB；VSA在此基础上再贡献0.21 dB
大规模OCTA2024数据集上提升更显著（因为更多数据能训练更好的预训练模型）
眼科医师诊断分析确认MuTri翻译的OCTA更接近真实OCTA的病变模式

亮点与洞察¶

离散vs连续空间：将跨模态翻译从连续空间转到离散码本空间，用码本的有限性约束映射不确定性，对医学影像翻译是重要的方法论转变
预训练模型作教师：不直接蒸馏，而是通过对比学习让翻译模型与预训练模型的特征互信息最大化，驱动码本探索新码字
投影图的巧妙利用：2D投影图是3D体积沿深度平均，天然突出血管结构。用patch-level相似度矩阵做结构对齐，比逐像素损失更鲁棒
首个大规模数据集OCTA2024：846对OCT-OCTA体积，推动领域发展

局限性¶

VQVAE的码本大小和patch大小作为超参需要手动调优
两阶段训练增加了总体训练时间和复杂度
编码器/解码器仅用ResBlock堆叠，未探索更强backbone（如Swin Transformer）
仅在视网膜OCT/OCTA上验证，泛化到其他3D医学翻译任务（如CT→MRI）需进一步验证

评分¶

⭐ 创新性：8/10 — VQ+三视图对齐的框架新颖，对比学习驱动码本探索有理论支撑
⭐ 实验完备性：8/10 — 三数据集+消融+敏感性+临床诊断分析全面
⭐ 实用价值：7/10 — 解决了实际临床需求（低成本OCT设备升级），但两阶段训练略重
⭐ 总体：8/10 — 医学影像跨模态翻译的扎实工作，方法论可推广性强