跳转至

Multi-Modal Masked Autoencoders for Learning Image-Spectrum Associations for Galaxy Evolution and Cosmology

会议: NeurIPS 2025
arXiv: 2510.22527
代码: 有(GitHub + Zenodo 数据集 GalaxiesML-Spectra)
领域: 天体物理 / 多模态学习
关键词: 多模态掩码自编码器, 星系图像, 光谱重建, 红移回归, 缺失模态

一句话总结

将多模态掩码自编码器(MMAE)应用于星系图像(HSC-PDR2五波段)和光谱(DESI-DR1)的联合建模,构建134,533个星系的跨模态数据集GalaxiesML-Spectra,在75%掩码率下重建光谱主要发射线和图像形态,在光谱完全缺失时仅用图像实现 \(\sigma_{\text{NMAD}}=0.016\) 的红移预测,优于AstroCLIP且红移范围首次扩展到 \(z \sim 4\)

研究背景与动机

领域现状:下一代天文巡天将产生数十亿星系图像,但获取一条光谱的时间约为拍图像的100倍。光谱编码了红移、化学组成、恒星形成率等关键物理信息,但在巡天规模上获取光谱不现实。天文学家长期依赖光度红移(从图像估计红移)替代光谱红移。

现有痛点:(1)传统光度红移方法(MLP、CNN、BCNN)只用图像信息,未从图像-光谱关联中学习深层跨模态表征;(2)AstroMAE仅在星系图像上用MAE,未引入光谱模态;(3)AstroCLIP用对比学习对齐图像和光谱,但未优化重建任务;(4)红移范围限制在 \(z \lesssim 0.5\)

核心矛盾:巡天规模下图像丰富但光谱稀缺,需要模型在光谱缺失时仍利用图像-光谱关联推理。现有方法要么只用一种模态,要么依赖对比学习而非生成式建模。

切入角度:将MultiMAE架构迁移到天文学,通过大比例掩码强迫模型学习跨模态互补关系。训练时50%概率完全置零光谱模拟实际缺失场景。

核心 idea:用MMAE同时学习星系图像-光谱的跨模态重建和红移回归,使模型在光谱完全缺失时也能利用从图像推断的光谱信息准确预测。

方法详解

整体框架

两模态分别patch tokenization → 75%随机掩码 → 各自独立Transformer编码 → 交叉注意力融合 → 注意力池化生成全局嵌入 → 三个任务头并联:图像解码、光谱解码、红移回归。红移回归直接集成在MAE训练中(多模态MAE中首次)。

关键设计

  1. 双模态Patch Tokenization:

    • 图像(\(64 \times 64 \times 5\)波段)经2D卷积分为 \(8 \times 8 \times 5\) 的patch,投影到256维嵌入 + 2D可学习位置编码
    • 光谱(7783→259像素下采样)经1D patch(长度8)+ 线性投影
    • 设计动机:图像是2D空间结构(形态),光谱是1D频谱结构(发射线/连续谱),分别用2D和1D patch保留各自原始结构
  2. 独立编码 + 交叉注意力融合:

    • 各模态独立用1D Transformer编码器(深度4,8头注意力,dropout 0.1)
    • 4层交叉注意力块:图像特征query光谱(获取物理信息),光谱query图像(获取形态信息)
    • 注意力池化聚合为全局嵌入,拼接为联合表示
    • 设计动机:先各自编码保持模态完整性,再交叉注意力学习跨模态关联
  3. 训练时50%光谱完全置零 + 联合红移损失:

    • 50%概率完全置零光谱,模拟真实巡天中绝大多数星系无光谱的场景
    • 三个任务头同时训练:图像MSE×0.1 + 光谱MSE×0.01 + 红移损失×1.0
    • 红移损失:\(\mathcal{L}_z = 1 - \frac{1}{1+(dz/0.15)^2}\)\(dz = (z_{\text{pred}} - z_{\text{spec}})/(1+z_{\text{spec}})\)
    • 设计动机:多任务联合训练使表示同时编码重建和物理量预测信息。将红移回归直接集成到MAE训练而非后续微调是新做法

损失函数 / 训练策略

AdamW优化器(weight decay 0.01, lr 0.0001),梯度裁剪。数据集70/15/15划分。

实验关键数据

主实验(20,181个星系测试集)

红移回归(25%图像掩码 + 100%光谱掩码):

模型 \(\sigma_{\text{NMAD}}\) 条件 红移范围
MMAE (本文) 0.016 25%图像掩码+无光谱 \(z \lesssim 0.4\)
AstroCLIP 0.020 对比学习 \(z \lesssim 0.4\)
BCNN (微调) 0.012 CNN专门优化 \(z \lesssim 0.4\)
MMAE 0.026 0%掩码+无光谱 \(z \lesssim 0.4\)

光谱重建:能恢复常见发射线位置(低红移H-α、高红移Lyα和CIV),但线宽系统性高估(10-15倍)、线强低估。

消融实验

配置 关键发现
25% vs 0%图像掩码 25%掩码(\(\sigma=0.016\))优于完整图像(\(\sigma=0.026\))——适度掩码起正则化作用
低 vs 高红移 低红移精度高,高红移退化(训练数据偏向低红移)
发射线重建 位置大致正确但线宽过宽、线强过弱,无法用于物理诊断

关键发现

  • 掩码即正则化:25%图像掩码比完整图像红移预测更好——防止过拟合到小尺度特征和噪声
  • MMAE在散度上优于AstroCLIP(0.016 vs 0.020),生成式预训练对下游回归有优势
  • BCNN仍更好(0.012),Transformer在红移预测上尚未超越Inception-style CNN
  • 红移预测在 \(z \sim 2\) 附近出现阶梯状,对应Lyα等强谱线进出光谱仪波长范围的界点
  • 模型学到了发射线位置但未学好物理参数(宽度/强度/比值)

亮点与洞察

  • 掩码正则化效应:25%图像掩码反而提升红移预测,暗示轻度信息丢失防止过拟合到噪声。可迁移到其他多模态回归任务。
  • 缺失模态的跨模态推理:训练时50%完全置零光谱+测试时零光谱,模型仍能做合理红移预测。交叉注意力有效地让图像编码器"记住"了光谱信息。适用于任何一种模态获取成本远高于另一种的场景。
  • 数据集贡献:GalaxiesML-Spectra(134K星系,\(z_{max}=4.119\))是目前最大的公开图像-光谱配对数据集,对天文ML社区有长期价值。

局限与展望

  • 发射线宽度被严重高估(10-15倍),需引入物理感知损失(线中心/线宽/线比率约束)
  • 高红移性能退化严重,需补充更多高红移样本
  • 图像分辨率限64×64,精细形态细节丢失
  • 未与更多基线系统对比(如直接图像MAE、CLIP+线性头)
  • 可探索物理驱动掩码(模拟波段间隙、仪器噪声)和文本模态扩展

相关工作与启发

  • vs AstroCLIP: 对比学习对齐图像-光谱但未优化重建,MMAE生成式目标学得更丰富跨模态表征
  • vs AstroMAE: 仅图像单模态MAE。MMAE首次在天文学中做图像-光谱联合MAE
  • vs BCNN: 专门优化的CNN在红移精度上仍领先,Transformer在天文小样本场景中优势未确立

评分

  • 新颖性: ⭐⭐⭐ MultiMAE迁移到天文学是合理应用创新,架构无大突破
  • 实验充分度: ⭐⭐⭐ 数据集可观但基线对比不足,光谱重建缺定量指标
  • 写作质量: ⭐⭐⭐⭐ 天文背景清晰,结果分析诚实讨论了局限
  • 价值: ⭐⭐⭐⭐ 数据集贡献显著,为天文基础模型铺路