Hyperbolic Relational Prompts for Intersectional Fairness in Medical VLMs¶
会议: CVPR 2026
论文: CVF Open Access
代码: 未公开
领域: 医学图像 / 多模态VLM / 公平性
关键词: 医学VLM、交叉公平性、双曲几何、关系图、提示学习
一句话总结¶
FRP 把医学 VLM 的"提示生成"从孤立处理单样本改成动态关系推理:用一张样本间关系图捕捉细粒度依赖,再用双曲图层显式建模种族×性别等交叉身份的层级结构,从而在缓解"交叉盲区"偏见的同时把诊断 AUC 推到 SOTA(FairVLMed 77.50%、Harvard-GF 85.94%)。
研究背景与动机¶
领域现状:医学诊断对公平性要求极高,算法在种族、性别等敏感属性(SA)上的偏见会直接造成医疗不平等。随着领域从纯视觉模型转向能同时读图像+临床文本的 VLM(CLIP、MedCLIP、BiomedCLIP),诊断能力增强了,但 VLM 会从图像和文本双路继承并放大偏见。
现有痛点:传统公平性方法(如 FairCLIP)靠"宽泛的分布对齐"去偏,只盯单一属性。这带来交叉盲区(intersectional blindness)——为某个属性(如种族)去偏,反而会放大另一个属性(如性别)上的偏见,比如修了种族公平却让"女性黑人"子群更吃亏。同时主流提示学习虽然参数高效,但对公平性无感知:它采用独立建模范式,样本被孤立处理,完全不考虑公平性所需的样本间上下文。
核心矛盾:交叉身份天然带有层级结构(如 Gender → Black Female),而现有方法(1)孤立处理样本、丢掉了跨样本的细粒度依赖;(2)把多个敏感属性当独立因子、无法刻画其组合的非线性交互;(3)用欧氏空间嵌入层级关系会产生高失真。三者叠加导致交叉子群的公平性无从谈起。
本文目标:(1)让提示从"静态条件"变成"动态、上下文感知的推理机制";(2)显式建模敏感属性的关系结构 + 层级(交叉)结构,而非孤立、独立地处理。
切入角度:作者从信息论出发——交叉公平本质是要最小化各人口子群间的性能方差,而这要求模型能感知"细粒度、属性条件化的样本间依赖"。他们用一个定理(Theorem 3.1)证明:带属性感知邻接矩阵的关系模型相比孤立模型,能获得严格更高的公平条件互信息 \(I(X;Y\mid S)\),且增益下界由公平调制邻接矩阵 \(A_{fair}\) 决定。这就把"为什么要做关系建模 + 属性调制"从直觉变成了可量化的动机。
核心 idea:用"关系图 + 双曲层级建模"驱动公平感知的关系提示(FRP),把公平性直接嵌入提示生成过程,而不是事后 post-hoc 去偏。
方法详解¶
整体框架¶
输入是一批样本(SLO 眼底图像 + 结构化临床文本 + 任务标签 + 敏感属性向量 \(s_i\)),输出是为每个样本动态合成、且对齐其关系与交叉结构的提示,喂给冻结 CLIP 做青光眼诊断。整体流程:CLIP 编码 → 构建统一邻接矩阵(双曲结构先验 \(A_{base}\) + 公平调制器 \(A_{fair}\) 凸组合)→ 双曲图层 HGL 做公平信息传递 → 双路提示合成(局部实例路径 + 全局关系上下文路径)→ 与静态基础提示相加得最终提示。注意:推理时关系图仅用视觉特征构建、不需要敏感属性。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:眼底图像 + 临床文本<br/>+ 敏感属性 s_i(CLIP 编码)"] --> B["双曲结构先验 A_base<br/>Poincaré 球上测地距离建层级"]
A --> C["公平调制器 A_fair<br/>MLP 建 SA 非线性交互 + 行随机归一化"]
B --> D["统一邻接矩阵 A<br/>A=(1−μ)A_base+μA_fair(μ 可学)"]
C --> D
D --> E["双曲图层 HGL<br/>切空间聚合→变换→Möbius 加回,L=2 层"]
E --> F["关系上下文提示合成<br/>局部实例路径 + 全局关系路径双路融合"]
F --> G["最终提示 → 冻结 CLIP 诊断"]
关键设计¶
1. 双曲结构先验 \(A_{base}\):用 Poincaré 球的测地距离建样本间层级
针对"欧氏空间嵌入交叉身份层级会高失真"的痛点,FRP 把每个 mini-batch 的样本看成关系图节点 \(z_i=[z_{Ii};z_{Ti}]\)(图像+文本特征拼接),映射到 Poincaré 球后用双曲测地距离 \(d_c(\cdot,\cdot)\) 度量相似性,并据此定义基础邻接矩阵:\((A_{base})_{ij}=\frac{\exp(-d_c(z_i^{\mathbb{H}},z_j^{\mathbb{H}}))}{\sum_k \exp(-d_c(z_i^{\mathbb{H}},z_k^{\mathbb{H}}))}\)。双曲几何天生擅长低失真嵌入层级结构(树状结构在双曲空间体积指数膨胀),恰好契合"Gender → Black Female"这类交叉身份的层级本质。但这个先验是属性无关(attribute-agnostic)的,还没用到敏感属性,留待下一步补足。
2. 公平调制器 \(A_{fair}\):用 MLP 显式建模敏感属性的非线性交互
为了让邻接矩阵真正"看见"敏感属性、使方差目标 \(\mathcal{L}_{fair}\) 可解,FRP 用一个 MLP 对成对属性建权重 \(w_{ij}^{fair}=\sigma(\text{MLP}([s_i;s_j]))\),得到对称权重矩阵 \(W_{fair}\)。再以 Hadamard 积调制结构先验 \(A_{raw}=A_{base}\odot W_{fair}\),并做行随机归一化 \(A_{fair}=\text{diag}(A_{raw}\mathbb{I})^{-1}A_{raw}\)。这一步直接对应 Theorem 3.1 的要求——只有引入属性调制的 \(A_{fair}\),才能捕捉"属性条件化依赖"、带来正的信息增益下界。最终把两者凸组合成统一矩阵 \(A=(1-\mu)A_{base}+\mu A_{fair}\),\(\mu\in[0,1]\) 是可学习参数,让模型自适应权衡"纯层级先验"与"属性调制"。
3. 双曲图层 HGL:在双曲空间原生做公平信息传递
标准 GNN 在欧氏空间传递层级数据会引入显著失真,FRP 改用双曲图层 HGL,让信息在 Poincaré 球上原生流动。给定初始节点特征 \(Z^{(0)}\),先指数映射到双曲空间 \(Z^{\mathbb{H}}=\exp_0^c(Z^{(0)})\),然后每层做四步:对数映射到切空间 \(Z_{tan}=\log_0^c(Z^{\mathbb{H}})\) → 用统一邻接 \(A\) 聚合 \(H_{agg}=A\cdot Z_{tan}\) → 稳定化线性变换 \(H_{trans}=\text{Dropout}(\text{LayerNorm}(\text{Linear}(H_{agg})))\) → 映回球面并用 Möbius 加法整合 \(Z^{(l+1)}=Z^{(l)}\oplus_c\exp_0^c(H_{trans})\)。堆 \(L=2\) 层后映回切空间得 \(Z_{final}\),再按维度拆回图像 \(Z_{img}\) 与文本 \(Z_{text}\) 两支。这一步是把交叉公平信息沿关系图"无失真"地扩散开,是 Theorem 3.1 承诺增益的落地操作。
4. 关系上下文提示合成:局部实例 + 全局关系双路融合成动态提示
最后把关系信息合成为自适应提示。双路设计:局部路径处理实例特征 \(z_{Ii}\) 生成 \(P_{img}=\text{Reshape}(W_{img}\cdot\frac{1}{B}\sum_i z_{Ii})\),捕捉个体信息;全局路径先用多头注意力互相融合 HGL 输出的 \(Z_{img}/Z_{text}\),残差归一化池化得上下文向量 \(f_{fused}\),再投影成 \(P_{text}\),捕捉全局关系上下文。两条提示取平均成动态分量,与静态基础提示相加得最终上下文 \(C_{final}=C_{base}+(P_{img}+P_{text})/2\),并拼成各类提示 \(T_k=[T_{prefix,k};C_{final,k};T_{suffix,k}]\)。这保证下游 VLM 的预测同时受"局部实例细节"和"全局关系公平上下文"双重条件约束。
损失函数 / 训练策略¶
总目标 \(\min_\theta[\mathcal{L}_{task}+\lambda\mathcal{L}_{fair}]\)。任务损失沿用 CLIP 对称对比损失对齐图文嵌入;公平损失是关键创新——它跳出"分布对齐",转而最小化各人口子群(race×gender 组合的 \(M\) 个组 \(G\))平均任务损失的方差:\(\mathcal{L}_{fair}=\text{Var}_{G\in\mathcal{G}}(\mathcal{L}_G)\),其中 \(\mathcal{L}_G=\mathbb{E}_{i\in G}[\ell_{task}(\cdot)]\)。即直接逼模型在各子群上性能均衡而非分布相似。训练用 SGD、batch 32、50 epochs、cosine lr(峰值 0.002)、1 epoch warmup,公平系数 \(\lambda=0.1\)、提示长度 \(N_{ctx}=32\)。⚠️ 双曲映射与测地距离的具体公式作者放在补充材料,正文未给完整定义,以原文为准。
实验关键数据¶
主实验¶
在 FairVLMed(10k 眼底图+临床文本,青光眼诊断,含 race/gender)与 Harvard-GF(3,300 OCT,纯视觉)上评测。指标:AUC↑、ES-AUC↑(equity-scaled AUC,\(\text{ES-AUC}=\frac{\text{AUC}}{1+\sum_a|\text{AUC}-\text{AUC}_a|}\),平衡整体性能与子群差异)、DPD↓(人口均等差,组间正预测率差异)、DEOdds↓(均等几率差,TPR/FPR 差异)。基线含 CoOp/CoCoOp/VPT/MaPLe(提示学习)、BiomedCLIP/MedCLIP/PubMedCLIP(医学 CLIP)、FairCLIP(子群分布对齐)。
FairVLMed(种族属性,%):
| 模型 | DPD ↓ | DEOdds ↓ | AUC ↑ | ES-AUC ↑ | Black AUC ↑ |
|---|---|---|---|---|---|
| CLIP | 15.35 | 15.11 | 67.84 | 61.67 | 70.78 |
| FairCLIP | 6.07 | 10.50 | 70.24 | 65.50 | 71.39 |
| MaPLe | 8.51 | 10.82 | 75.19 | 68.89 | 70.66 |
| VPT | 7.82 | 15.73 | 74.98 | 72.96 | 73.85 |
| BiomedCLIP | 12.29 | 15.37 | 71.20 | 66.88 | 66.61 |
| FRP (Ours) | 4.14 | 6.37 | 77.50 | 74.08 | 78.19 |
Harvard-GF(种族属性,%):
| 模型 | DPD ↓ | DEOdds ↓ | AUC ↑ | ES-AUC ↑ |
|---|---|---|---|---|
| CLIP | 3.03 | 17.15 | 80.23 | 74.83 |
| MaPLe | 8.67 | 8.74 | 83.03 | 78.19 |
| BiomedCLIP | 2.36 | 9.55 | 83.12 | 79.53 |
| FRP (Ours) | 2.50 | 8.67 | 85.94 | 81.32 |
FRP 在两个基准上同时拿到最高 AUC 与最优/接近最优的公平指标,AUC 比 BiomedCLIP 高 2.82 点,Black 子群 AUC 显著提升。
消融实验¶
FairVLMed 上逐组件消融(\(G_{hyp}\) 双曲 GNN、\(A_{fair}\) 公平调制、\(P_{mm}\) 多模态提示、\(\mathcal{L}_{fair}\) 公平损失):
| 配置 | AUC ↑ | DPD(Gender) ↓ | DPD(Race) ↓ | 说明 |
|---|---|---|---|---|
| Baseline(全去) | 67.84 | 4.34 | 15.35 | 纯 CLIP |
| w/o \(A_{fair}\) | 74.90 | 6.13 | 8.20 | 去公平调制,公平显著退化 |
| w/o \(G_{hyp}\)(换欧氏 GAT) | 75.61 | 4.36 | 11.47 | 诊断 AUC 明显掉 |
| w/o \(\mathcal{L}_{fair}\) | 78.80 | 10.26 | 9.30 | AUC 略升但公平崩塌 |
| Full FRP | 77.50 | 0.38 | 4.14 | 精度—公平最佳权衡 |
关键发现¶
- 每个组件都"理论有据、缺一不可":去 \(\mathcal{L}_{fair}\) 公平指标直接崩(DPD-Gender 0.38→10.26);去 \(A_{fair}\) 公平退化;把双曲层换成欧氏 GAT 则诊断 AUC 掉——印证双曲几何对保留层级结构的必要性。
- 交叉权衡被实证:FairCLIP 单属性对齐时,Gender 对齐策略把性别 DPD 压到 0.84,却让黑人患者 AUC 从 71.39% 降到 69.83%——典型"修一个属性、伤另一个"。FRP 则在两个维度同时改善,黑人子群 AUC 比 Gender-Aligned FairCLIP 高 8.36%。
- 超参稳健:ES-AUC 在较大范围内稳定,但 \(\lambda\ge1.0\) 时退化;\(N_{ctx}\) 增到 32 后趋于平台,最优为 \((N_{ctx}=32,\lambda=0.1)\)。
- 训练稳定:50 epoch 内整体性能稳步上升、公平差异持续下降。
亮点与洞察¶
- 把公平嵌进提示生成本身:不同于事后去偏,FRP 让提示成为"动态公平推理机制",公平性是架构内生的——这是最核心的范式转变。
- 双曲几何 × 交叉身份是绝配:交叉身份本质是层级树,双曲空间低失真嵌入树结构,把"为什么要用双曲"讲成了几何必然性,而非炫技。
- 公平损失=子群性能方差:直接逼"各组性能均衡"而非"分布相似",比传统分布对齐更贴合"交叉公平"的真实诉求,是个可迁移到其他公平任务的目标函数设计。
- 推理不需敏感属性:训练靠 SA 调制,推理时仅用视觉特征建图,规避了部署时拿不到/不该用敏感属性的隐私顾虑。
局限与展望¶
- 仅两个青光眼数据集:FairVLMed 与 Harvard-GF 都是眼科,未验证胸片、皮肤病等其他医学模态,泛化性待考。
- 属性维度有限:交叉只覆盖 race×gender,社会经济地位、年龄等更高阶交叉未纳入;组数 \(M\) 增大时方差目标的样本稀疏问题可能恶化。
- 关键几何公式在补充材料:正文未给双曲映射/测地距离完整定义 ⚠️ 以原文为准,复现需查补充。
- mini-batch 关系图依赖批内构成:图在每个 batch 内动态构建,batch 大小与采样策略可能影响关系建模质量,作者未深入分析。
相关工作与启发¶
- vs FairCLIP:FairCLIP 做单属性子群分布对齐,会引发交叉权衡(修种族伤性别);FRP 用关系图+双曲层显式建模交叉层级,在两个属性上同时改善。
- vs CoOp / CoCoOp / MaPLe(提示学习):它们孤立处理样本、对公平无感知;FRP 把样本建成关系图节点、做公平感知的动态提示合成。
- vs 双曲嵌入 / 图方法:以往要么只用双曲建层级、要么只用图建样本依赖,FRP 首次把"双曲层级建模 + 参数高效提示学习"合二为一,并给出信息论理论justification,号称首个面向医学 VLM 交叉公平的框架。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 双曲层级+关系图+公平提示三者合一,并有信息论定理支撑,视角独特
- 实验充分度: ⭐⭐⭐⭐ 两基准 + 充分消融 + 交叉权衡分析,但医学模态单一(仅眼科)
- 写作质量: ⭐⭐⭐⭐ 动机—理论—方法链条清晰,但核心几何公式藏在补充材料
- 价值: ⭐⭐⭐⭐ 医疗公平刚需,公平损失=子群方差与"推理不需SA"设计可迁移