Sketch2CT: Multimodal Diffusion for Structure-Aware 3D Medical Volume Generation¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/adlsn/Sketch2CT
领域: 医学图像
关键词: 医学图像合成, 潜空间扩散, 草图与文本条件, 3D体生成, 数据增广

一句话总结¶

Sketch2CT 让用户用一张 2D 草图加一段文本描述，先经双模态融合生成解剖一致的 3D 分割掩码、再用分割条件的潜扩散合成对应的 3D CT 体，实现低成本、可控、保结构的医学体数据增广。

研究背景与动机¶

领域现状：医学影像因隐私、采集成本和专家标注稀缺而长期面临数据匮乏，扩散模型凭借高保真和稳定训练成为医学图像合成的主力，并可通过文本、分割掩码、草图等辅助模态做条件生成。

现有痛点：现有医学合成路线各有硬伤——(1) 2D 切片扩散视觉逼真但相邻切片间缺乏解剖连续性，拼不出一致的 3D 体；(2) 直接做全 3D 扩散能保空间连贯，却算力/显存开销巨大，限制分辨率和可扩展性；(3) 分割引导的条件模型依赖预先给定的分割掩码，输出的多样性和可控性都受限。

核心矛盾：要可控就得给条件，但纯分割掩码条件要么需要现成掩码、要么（如 MedGen3D 先随机生成掩码再合成体）因掩码随机而失去结构控制；单一草图又缺深度和体积语境，从一张投影很难还原完整 3D 分割。可控性、3D 一致性、计算成本三者难以兼得。

本文目标：把问题拆成两步——先从低成本草图+文本可控地生成解剖一致的 3D 分割掩码，再用该掩码条件合成高保真 3D CT 体。

切入角度：作者观察到草图与文本天然互补——草图给出器官的粗结构轮廓（结构蓝图），文本给出草图缺失的深度/体积/几何语义（如对称性、拓扑连续性）；把二者融合就能在潜空间高效生成保结构的 3D 体。

核心 idea：用"草图+文本"双模态条件，经局部（FiLM 文本调制草图）与全局（两级注意力）两层融合驱动两阶段潜扩散，先生成 3D 分割掩码、再据此合成 3D 医学体。

方法详解¶

整体框架¶

Sketch2CT 是清晰的两阶段潜空间扩散流水线。第一阶段做"分割掩码生成"：从 3D 分割提取 2D 草图捕捉轮廓、用 LLM 把几何度量转成文本描述、把草图与文本经 TSFE+CGFM 两层融合，再喂给胶囊注意力骨干的分割潜扩散模型，从噪声生成解剖一致的 3D 分割掩码。第二阶段做"医学体生成"：把生成的分割潜变量按通道拼进体的潜扩散模型作结构先验，合成与分割对齐的高保真 3D CT 体。两阶段都在 MONAI 的 3D AutoencoderKL 压缩出的潜空间里做扩散，并采用 v-prediction 参数化。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：用户 2D 草图 + 文本描述"] --> B["双模态条件获取<br/>草图提取(轮廓) + 文本(LLM几何描述→句向量)"]
    B --> C["TSFE：文本增强草图特征<br/>FiLM 用文本调制草图通道"]
    C --> D["CGFM：跨模态全局融合<br/>文本引导交叉注意力 + 草图自注意力"]
    D --> E["分割潜扩散<br/>胶囊注意力骨干, 噪声→3D分割掩码"]
    E --> F["体素潜扩散<br/>分割潜变量按通道拼接, 合成3D CT体"]
    F --> G["输出：3D 分割掩码 + 3D 医学体"]

关键设计¶

1. 双模态条件获取：草图给结构、文本补 3D 语义

痛点在于单一草图缺深度和体积语境，从一张 2D 投影难以还原完整 3D 分割，而多视角草图又会大幅增加用户负担。作者让两种廉价模态互补：草图侧——在 3D Slicer 里渲染器官表面投影（体积型器官如肝/心取轴位、管状器官如主动脉取矢状位以贴合主轴），再经灰度化、直方图均衡、双边滤波、Canny 边缘检测和形态学细化得到干净连续的轮廓草图；通过调阈值/核大小可控制抽象程度。文本侧——沿轴/冠/矢三轴生成 2D 快照，并从分割掩码算出体积、表面积、主轴长度、最大/最小直径、球度、紧致度、中心线长度等几何度量，把快照+度量喂给 GPT-4o-mini 当"几何描述专家"，只输出形状/表面光滑度/对称性/拓扑连续性等几何 JSON（显式排除任何诊断/临床信息，因此无需医学专用 LLM），再用预训练 sentence transformer 编码成文本嵌入。其有效性在于：草图提供直观结构先验、文本补上草图缺失的 3D 几何语义，且推理时用户可自由编辑文本，无需参考分割就能交互式控制生成。

2. TSFE：文本增强的草图特征提取（局部调制）

痛点在于草图稀疏、只有边缘，纹理/阴影信息少且边界常因投影或噪声而断续，直接用卷积骨干编码会导致特征歧义、结构线索丢失。TSFE 用文本语义先验来"加固"稀疏草图：草图先经卷积骨干 + 主胶囊 + 注意力路由编码成胶囊嵌入 \(f_s \in \mathbb{R}^{d_s}\)，文本经句向量编码为 \(f_t \in \mathbb{R}^{d_t}\)；再用 FiLM 机制由文本生成逐通道的缩放和平移参数 \(\gamma, \beta = g(f_t)\)，对草图特征做调制 \(\tilde{f}_s = \gamma \odot f_s + \beta\)（\(\odot\) 为逐元素乘）。这样文本能自适应放大语义相关的草图通道、抑制无关通道，产出更稳定、信息量更高的草图嵌入。它有效是因为把"文本懂什么器官"这一全局语义直接注入到草图的通道级表示里，缓解了稀疏边缘的特征歧义。

3. CGFM：跨模态全局融合（两级注意力对齐）

光有局部调制还不够全局对齐，CGFM 用两级注意力做跨模态联合推理：先以文本引导的交叉注意力整合细粒度语义，\(F_{local} = \text{Attention}(\tilde{f}_s, f_t, f_t)\)，捕捉草图轮廓与文本语义的局部对应；再用草图引导的自注意力聚合成全局表示 \(F_{global} = \text{SelfAttn}(F_{local})\)，概括器官整体几何与语义；最后拼接投影得到联合多模态特征 \(z_{fusion} = \text{Proj}([F_{local} \| F_{global}])\) 作为分割潜扩散的条件输入。TSFE 做局部通道调制、CGFM 做全局层次对齐，二者互补地弥合了模态鸿沟，产出几何感知的稳健多模态嵌入。

4. 两阶段潜空间扩散（分割 LDM → 体 LDM）

痛点在于直接在体素空间做 3D 扩散算力/显存吃不消。两阶段都先用 MONAI 的 3D AutoencoderKL 把数据压到紧致潜空间再扩散。分割阶段：把分割体 \(x_0\) 编码为 \(z_0 = E_{seg}(x_0)\)，前向加噪 \(q(z_t|z_{t-1}) = \mathcal{N}(\sqrt{\alpha_t} z_{t-1}, (1-\alpha_t)I)\)，反向用 UNet 去噪网络 \(\epsilon_\theta\) 在多层经交叉注意力注入条件 \(z_{fusion}\)；采用 v-prediction 参数化，目标速度 \(v_t = \sqrt{\alpha_t}\,\epsilon - \sqrt{1-\alpha_t}\,z_0\)，损失 \(L_{diff} = \mathbb{E}_{t,z_0,\epsilon}[\|\epsilon_\theta(z_t,t,z_{fusion}) - v_t\|_2^2]\)，去噪得潜变量再解码出 3D 分割掩码。体生成阶段：把上一步分割掩码编码成 \(z_{seg}\) 当结构先验，与带噪图像潜变量按通道拼接 \(z_{t-1} = \epsilon_\theta(z_t \| z_{seg}, t)\) 引导去噪，使合成体既保解剖几何、又能生成真实组织纹理。其有效性在于：潜空间扩散把全 3D 生成的算力压下来，而"分割潜变量作结构先验"在几何与纹理之间建立了强约束，保证图像与解剖结构对齐。

损失函数 / 训练策略¶

两阶段扩散均用 v-prediction 参数化、最小化预测速度与目标速度的 MSE（式 9）。AutoencoderKL 用三级分辨率、通道宽 (32,64,64)、每级一个残差块、仅最深层加空间注意力；扩散训练时冻结自编码器只当潜编解码器。去噪 3D UNet 通道宽 (32,64,64)、每级一个残差块、最后两级加空间注意力，交叉注意力条件维 1024、每个注意力层一层 transformer。用 DDPM 调度 1000 步，Adam 学习率 \(1\times10^{-4}\)、batch 10、混合精度，训练 300 epoch（单张 NVIDIA H200）。所有体重采样到 \(128\times128\times128\)，数据集按 8:2 划分训练/测试。

实验关键数据¶

在三个公开 CT 数据集 + 一个 MRI 数据集上评测：CHAOS liver（20 CT，肝）、AVT aorta（56 CT，主动脉）、Decathlon liver（131 CT，肝）、Decathlon heart（20 MRI，心）。

主实验：合成图像质量（Table 1，FID↓ / LPIPS↑）¶

方法	CHAOS肝 FID/LPIPS	AVT主动脉 FID/LPIPS	Decathlon肝 FID/LPIPS	Decathlon心 FID/LPIPS
Med-DDPM	114.4 / 0.220	119.6 / 0.213	115.3 / 0.207	128.7 / 0.192
MedGen3D	43.6 / 0.300	47.1 / 0.294	45.7 / 0.296	96.8 / 0.248
Seg-Diff	37.8 / 0.310	38.9 / 0.313	34.8 / 0.335	68.4 / 0.265
Sketch2CT	33.7 / 0.332	36.9 / 0.321	36.5 / 0.328	65.1 / 0.269

Sketch2CT 在多数数据集上 FID/LPIPS 最优；在含噪、各方法都更难的 Decathlon 心脏上仍明显领先。Seg-Diff 仅在数据量更大的 Decathlon 肝上 FID 略胜（其 2D 扩散受益于更多数据），但缺轴向连续性；Sketch2CT 在保全 3D 空间信息的同时达到了与 2D 方法相当的图像质量。

下游有用性实验¶

(a) 对输入掩码的忠实度（Table 2，Dice）：用辅助分割网络在生成图上预测分割，与输入掩码 \(m\) 及真实图预测的分割 \(m^{pred}_{real}\) 比 Dice，Sketch2CT 全数据集最高（如 CHAOS 肝 0.868/0.852、Decathlon 肝 0.912/0.904），表明合成图最忠实地保留了空间结构。

配置 / 指标	CHAOS肝 Dice(gen,m)	Decathlon肝 Dice(gen,m)	说明
Med-DDPM	0.501	0.512	结构保真最差
MedGen3D	0.814	0.821	—
Seg-Diff	0.827	0.892	2D 单切片强
Sketch2CT	0.868	0.912	3D 结构忠实度最高

(b) 下游分割泛化（Table 3，Dice）：用各方法合成图训练分割网络、在真实数据上测。Sketch2CT 全数据集最接近"真实训练集"上界（CHAOS 肝 0.893 vs 真实 0.897；Decathlon 肝 0.904 vs 0.912），说明其合成图最逼真地复刻了解剖细节，最适合做数据增广。

关键发现¶

3D 一致性是 Sketch2CT 的核心优势：2D 方法（Seg-Diff）单切片质量高但缺轴向连续性，Sketch2CT 在保全 3D 空间连贯的前提下追平 2D 的图像质量。
草图+文本双模态可控且低成本：实验用真值导出的草图/文本，以及"手绘草图+轻量文本"两种来源各造 20 对，验证用户廉价手绘也能驱动生成。
合成数据真能涨点：用 Sketch2CT 合成图训练的分割模型逼近真实数据上界，证明其作为数据增广手段的实际价值；两位医学影像专家也从解剖真实性、结构连续性、临床合理性上做了定性确认。

亮点与洞察¶

"先掩码后体"两阶段把可控性和 3D 一致性同时拿下：分割阶段保证解剖结构受草图+文本控制，体阶段把结构先验翻译成纹理，避免了纯随机掩码（MedGen3D）失控、也避免了纯 2D 拼接断层。
用 LLM 当"纯几何描述器"很巧：只让 GPT-4o-mini 输出形状/对称/拓扑等几何 JSON、显式排除临床诊断，既补足了草图缺的 3D 语境、又规避了对医学专用 LLM 的依赖——这套"把分割当通用 3D 物体来描述"的思路可迁移到任何形状条件生成。
局部 FiLM + 全局两级注意力的双层融合：TSFE 在通道级注入文本语义先验稳住稀疏草图，CGFM 再做跨模态全局对齐，互补地弥合模态鸿沟，是处理"稀疏结构模态 + 语义文本模态"融合的可复用范式。

局限与展望¶

当前实现仅覆盖少数器官、且专注单器官合成，未做多器官联合生成（作者承认）。
潜空间压缩会损失部分细尺度细节；作者认为对医学分析而言全局解剖一致性比细节更关键，但这对需要细微病灶的任务可能不够。
草图提取依赖 3D Slicer/PyVista 渲染 + 一串 OpenCV 手工算子（阈值、核大小需调），自动化与鲁棒性有限，对不同器官需重新调参。
评测以分割忠实度/下游泛化为主，缺乏放射科医生的大规模盲评与病理多样性验证；作者计划扩到多器官、引入疾病特异草图编辑模拟病理变化，并做更广的专家评估。

评分¶

新颖性: ⭐⭐⭐⭐ 首个把草图+文本双模态扩散用于结构感知 3D 医学体生成，两阶段+双层融合设计清晰
实验充分度: ⭐⭐⭐⭐ 四数据集、FID/LPIPS + 忠实度 + 下游泛化三类评测扎实；但消融在正文缺席（放补充材料）
写作质量: ⭐⭐⭐⭐ 动机与方法叙述清楚、公式完整；部分模块细节偏简
价值: ⭐⭐⭐⭐ 提供低成本可控的医学体数据增广路径，下游分割接近真实数据上界