Position: Stop Chasing the C-index when Evaluating Survival Analysis Models¶

会议: ICML 2026
arXiv: 2506.02075
代码: https://github.com/thecml/position-cindex
领域: 医学图像 / 生存分析评估 / 临床预测
关键词: 生存分析、C-index、删失假设、评估指标、Ladder Hypothesis

一句话总结¶

作者审计了 2023–2025 年 92 篇生存分析论文，发现约 72% 的工作所用评估指标（尤其是被滥用的 C-index）与其建模目标和删失假设不对齐，并提出"双螺旋阶梯假设"（Ladder Hypothesis）：模型与指标必须站在同一级"删失假设"上，否则报告的性能与排名都可能是偏差伪影。

研究背景与动机¶

领域现状：生存分析（time-to-event prediction）广泛用于医疗、机械、经济等领域，其数据的标志性特征是删失（censoring）——许多个体在研究结束时尚未发生事件，只能观察到事件时间的下界。社区评估生存模型时几乎是"默认"用 Harrell 的 C-index：Zhou 等（2023）统计发现超过 80% 的生存论文以 C-index 为主指标。

现有痛点：作者亲自审阅 92 篇 2023–2025 年的方法和应用论文，发现两类系统性错配：(1) 目标—指标错配：明明做"时间到事件估计"或"概率校准"，却只汇报 C-index 这种排序判别指标；(2) 删失假设缺失：使用 IPCW、Brier、KM 估计器的论文几乎不声明也不验证"随机删失"假设是否成立。典型反例包括 MOTOR（55M 患者基础模型，目标是时间预测但只评估 C-index 与 Brier）、Zisser-Aran（ALL 生存预测只评 Harrell C-index）、HACSurv（专门建模依赖删失却用假设独立删失的 IPCW-IBS 评估）。

核心矛盾：评估指标的有效性内嵌了对 \(E \perp\!\!\!\perp C\)、\(E \perp\!\!\!\perp C \mid \boldsymbol{X}\) 或依赖删失的不同假设，而模型本身也基于某一假设训练；当二者不一致时，指标会系统性地朝错误方向偏移，甚至在 oracle 真值变差时仍报告"提升"。

本文目标：拆成三个子问题——(a) 形式化"什么是合格的生存指标"；(b) 揭示常用指标在不同删失机制下的偏差行为；(c) 给出可执行的指标选择决策流程。

切入角度：把"删失假设的强弱"看成一个梯子（random → conditionally independent → dependent），让模型梯子与指标梯子并排站立——如果两者落在不同的横档（rung），评估就失去意义。

核心 idea：用 5 条 desiderata + Ladder Hypothesis 重新框定评估问题，用受控合成实验证明：当数据偏离随机删失假设时，标准 C-index 与 IBS 的偏差会单调放大，且方向与 oracle 性能相反。

方法详解¶

本文是 position paper，"方法"指其分析框架与受控实验设计。

整体框架¶

论文构造了一个三层论证结构：(1) 诊断层——通过 92 篇文献元分析量化"目标—指标—假设"错配比例；(2) 理论层——提出 5 条 desiderata 与 Ladder Hypothesis，把已有指标按是否满足各条性质打表对比；(3) 实证层——固定 CoxPH 模型与 Weibull 事件分布，仅改变删失机制（random / independent / Clayton-copula dependent with \(\tau \in \{0.25, 0.5, 0.75\}\)），观测 oracle 指标与censored 指标的差值随依赖强度的演化。输入是同一份合成生存数据 \(\mathcal{D}=\{(\boldsymbol{x}_i, t_i, \delta_i)\}\)，输出是各指标在三类删失下的 bias 曲线（图 5）与排名一致性。

关键设计¶

五条评估指标 desiderata（D1–D5）：
- 功能：把"什么算好指标"从模糊偏好转成可勾选清单，逐条审计所有主流指标（Harrell/Uno/Antolini C-index、IBS、MAE、D-Cal、LL）。
- 核心思路：D1 proper scoring rule（预测分布等于真分布时取得最优）；D2 interpretable（单位是天/月/概率而非 p-value）；D3 model-agnostic（不依赖模型内部参数，否则相同预测的不同模型分数会不同）；D4 sensitive to miscalibration（能识别系统性高估/低估生存概率）；D5 robust to censoring（指标对删失机制的处理与数据中实际机制一致）。表 1 的对比一目了然：三种 C-index 全部在 D1 和 D4 上失败，IBS 是唯一同时满足 D1+D3+D4 的指标但 D5 仅"半满足"，MAE 在 D3 上最优但 D4 失败。
- 设计动机：以往关于"C-index 局限性"的讨论都是单点批评（Hartman 等 2023），缺乏统一比较框架；desiderata 把批评结构化，使研究者能根据科学目标点亮所需性质再倒推指标。
Ladder Hypothesis of Model-Metric Consistency：
- 功能：把"模型假设"与"指标假设"投影到同一个删失强度坐标轴上，宣判错位组合的评估无效。
- 核心思路：构造一个 double-helix ladder（图 4），左股为模型发展（CoxPH/RSF → IWSG/SurvivalBoost → DCSurvival/HACSurv），右股为指标发展（KM-based Brier → Uno's CI with IPCW → 仍缺失的依赖删失指标）。每一档对应一类删失假设：random / conditionally independent / dependent。命题是模型与指标必须站在同档；典型反例 HACSurv 把模型抬到第三档（建模依赖删失）却仍用第二档的 Antolini-CI+IBS，导致 SOTA 声明实际上"未被验证过"。
- 设计动机：以往论文要么单独讨论模型方法，要么单独评估指标，从未把两者画在同一坐标系。Ladder 把"是否能合法宣告 SOTA"变成"两条曲线在同一 rung 上是否都有实心节点"的视觉判断。
受控删失消融实验：
- 功能：在保持真实模型性能可控的情况下，分离出"指标本身的偏差"，证明 Ladder Hypothesis 的实际后果。
- 核心思路：固定 CoxPH 模型与同一 Weibull 事件分布，仅改变删失机制：随机删失、依赖 \(\boldsymbol{X}\) 的独立删失、以及 Clayton copula 注入的依赖删失（Kendall's \(\tau \in \{0.25, 0.5, 0.75\}\)）。计算两套指标：oracle 版本（使用真实 \(e_i\)，反映"模型真实性能"）与 censored 版本（使用 \(t_i, \delta_i\) + KM-based IPCW）。Metric error = censored − oracle，恰好隔离了"评估偏差"。结果：oracle CI 从 0.634 单调降到 0.609、oracle IBS 从 0.090 升到 0.245（模型真在变差），但 Harrell CI 与 naive IBS 在某些 \(\tau\) 下反而"看起来变好"。
- 设计动机：纯理论批评无法说服那些"凭经验觉得 C-index 一般够用"的研究者；只有让大家看见"模型在退化、指标却在上升"这种反常方向，才能击穿习惯性默认。

损失函数 / 训练策略¶

本文不提出新模型，因此无训练目标。其"实验损失"是 metric error 的均值与方差（100 次随机种子），用以估计删失机制对各指标的统计偏差。

实验关键数据¶

主实验：合成数据上 oracle 性能 vs 删失指标偏差¶

删失机制	#Events (Cens.%)	oracle CI ↑	oracle IBS ↓
Random	2641 (73.6%)	0.634 ± 0.018	0.090 ± 0.040
Independent	3157 (68.4%)	0.634 ± 0.018	0.084 ± 0.037
Dependent (\(\tau=0.25\))	2969 (70.3%)	0.628 ± 0.021	0.132 ± 0.096
Dependent (\(\tau=0.50\))	2758 (72.4%)	0.618 ± 0.025	0.199 ± 0.144
Dependent (\(\tau=0.75\))	2536 (74.6%)	0.609 ± 0.030	0.245 ± 0.157

关键观察：模型真实性能（oracle）随依赖删失增强单调下降，但 Harrell 的 CI 与未加权 IBS 误差随之放大且方向不一致——即在依赖删失 \(\tau=0.75\) 时，标准 CI 实测值反而高于 oracle，IBS 偏差超过 ±0.1，整套"SOTA 比较"瞬间失效。

元分析：92 篇论文的评估对齐度¶

指标维度	方法论论文（不达标比例）	应用论文（不达标比例）
目标—指标对齐 + 删失假设说明	73%	68%
仅汇报判别（discrimination）指标占比	> 80%（Zhou 2023）	多数
显式声明 / 修正删失假设	极少	几乎没有

指标—desiderata 速查表（论文表 1 摘要）¶

指标	D1 proper	D3 agnostic	D4 calib	D5 robust
Harrell CI	✗	▲	✗	✗
Uno CI	✗	▲	✗	▲
Antolini CI	✗	▲	✗	✗
IBS	✓	✓	✓	▲
MAE	▲	✓	✗	✗
D-Cal	✗	✓	✓	✗

关键发现¶

C-index 全家都不满足 proper scoring rule 与 calibration sensitivity：纯排序信息无法分辨"系统性把所有事件时间预测成 2 倍真值"这种错误，因而无法支撑临床决策。
依赖删失 + 标准 IPCW = 排名翻转风险：即便只是 Clayton \(\tau = 0.5\) 这种中等依赖强度，IBS 偏差就达到 \(\approx 0.115\)（接近 oracle 自身量级），足以把"较差模型"评为"较好"。
IBS 是当前最均衡的单一指标，但仍假设独立删失；论文呼吁开发对依赖删失稳健的新指标，列为 next frontier。

亮点与洞察¶

从"批 C-index"升级到"批整套评估文化"：以往文献只讨论 C-index 的局限，本文把镜头拉远到"目标—指标—假设"的三元错配，并用 92 篇论文量化，证明这是结构性问题而非个案。
Ladder Hypothesis 是个高复用思维框架：任何"模型假设与评估假设不对称"的子领域都可套用（如对抗鲁棒、因果推断、分布外检测都有类似的"训练假设强于评估假设"病灶）。
Metric error = censored − oracle 的实验设计：用合成数据隔离评估偏差，是一种值得在任何"指标审计"研究中通用的范式，可避免把模型方差和指标偏差混在一起。
Recommendation 1–3 给出了可立刻照做的清单：(1) 让目标决定指标族；(2) 方法论文必须从判别/误差/校准三个角度各报一个指标；(3) 显式声明删失假设，不能保证一致时做 sensitivity analysis。

局限与展望¶

受控实验只用了一个数据生成机制（covariate-dependent Weibull + Clayton copula）和一个学习器（CoxPH），尚未在多种 marginal 分布与 copula 家族下系统验证 Ladder Hypothesis 的稳健性。
提出的"双螺旋阶梯"目前是定性框架，没有给出某一档指标偏差的解析界或一致性证明；Copula-Graphic 估计器（Lillelund 2025c）虽被提及但仍需指定 copula 家族这一难以验证的假设。
文章没有提出新指标，因此对"依赖删失下应该用什么"只能给出原则性建议而非可即用工具；从 community 角度看，落地仍需一波后续工作开发并验证 robust metric。
92 篇论文的人工审阅样本偏向高引用与近期顶会，可能低估"长尾应用论文"中的错配比例（直觉上应更严重）。

评分¶

新颖性: ⭐⭐⭐⭐ 不是新方法，而是新的元层审计与统一框架，思想新但元素不新。
实验充分度: ⭐⭐⭐ 受控合成实验干净，但模型/分布单一，缺真实数据复现。
写作质量: ⭐⭐⭐⭐⭐ 结构清晰、desiderata 表格与 Ladder 图都是极好的传播器，position paper 范本。
价值: ⭐⭐⭐⭐⭐ 直接挑战社区默认实践，对临床预测、生物统计的可信度提升有显著意义。