Knowledge-driven Augmentation and Retrieval for Integrative Temporal Adaptation¶
会议: ACL 2026
arXiv: 2604.22098
代码: https://github.com/trust-nlp/TemporalLearning-KARITA
领域: 时序适配 / 数据漂移 / 医学 NLP
关键词: 时序偏移、本体知识、检索增强、合成同义词、多标签分类
一句话总结¶
KARITA 把"时序漂移"拆成不确定性、特征距离和本体术语稀有度三种互补信号,对每个被命中的目标样本回溯检索语义相近的源样本,再用 LLM + 领域本体(MeSH / EuroVoc / CSO)生成同义词改写做数据增强,从而以纯数据驱动的方式把源时段模型迁移到未来时段,在临床、法律、科学三类长跨度多标签分类数据上稳定优于强基线。
研究背景与动机¶
领域现状:现实部署中模型在历史数据训练、在未来数据推理,语义分布、领域知识都在变化。已有的时序自适应工作要么忽略时间维度,要么只盯一种漂移信号——例如词义偏移(diachronic embedding)、特征空间距离、或概念分布——靠单一信号统一描述全部偏移。
现有痛点:在临床(MIMIC)、法律(EurLex)、科学(arXiv-CS)这类长跨度高风险语料里,时序偏移天然是多源叠加:用药新规、立法改动、新兴 CS 子方向等同时进行。统一特征表征会把不同性质的漂移压扁、误判,导致在某些时段模型崩盘(论文里 EATA 在 MIMIC 上 ma-F1 从源 → 目标降到 28.02 即典型失败)。
核心矛盾:偏移有"语义可见的"和"语义不可见的"两类。术语层面的演变(如新疾病编码、新法规缩写)常常不会在特征空间产生显著距离,纯 feature-shift 检测会漏;而 entropy/uncertainty 仅看输出,可能漏掉模型自信但实际语义已变的样本。任何单信号都不够。
本文目标:(1) 用多角度、互补的信号刻画异质时序漂移;(2) 不依赖目标标签、不做盲目伪标,而是利用源域真实标注做"回溯检索";(3) 对检索回来的样本做术语级同义改写,让模型在不重训整个体系的前提下增强对术语演化的鲁棒性。
切入角度:作者把时序自适应重新理解为"数据中心、迭代选择"过程:每个目标 batch 都先识别"哪些被漂移命中",再有针对性地把对应源样本拉回来增强,而不是一次性全量重训。
核心 idea:用 uncertainty + feature + ontology 三种漂移信号做联合命中,把对应"还可信"的源样本做 LLM/本体同义增强后回灌训练,实现"shift-aware retrieval + knowledge-aware augmentation"的迭代适配。
方法详解¶
整体框架¶
KARITA 主循环(Algorithm 1):源时段模型 \(\Theta_s\) 作为初始化。对每个流式进来的目标 batch \(\mathcal{B}_t\):(1) Shift Detection 模块用 \(U(x),F(x),O(x)\) 三种信号取交并得到 \(\mathcal{D}_{shift}\);(2) Source Backtracking Retrieval 对每个被命中的 \(x_t\),用源模型 encoder 的 \([CLS]\) 嵌入做余弦相似度,从源数据 \(\mathcal{D}_s\) 取 top-\(k\)(默认 \(k{=}3\))的语义最近邻;(3) Knowledge-driven Augmentation 调 GPT-4o-mini 抽出与标签相关的 term 并产同义词、或查 MeSH / EuroVoc / CSO 本体得到同义词,对检索到的源样本做术语替换;(4) 用这些"高质量真标签 + 术语对齐"的扩增样本梯度更新 \(\Theta\)。LLM 端的术语识别每个目标样本只跑一次,缓存复用以省成本。
关键设计¶
-
多角度漂移检测(U+F+O):
- 功能:判断哪些目标样本"需要被关注"——既兼顾输出不确定性,也兼顾特征空间漂移,更关键地补上"本体术语稀有度"。
- 核心思路:(i) Uncertainty 用最大 sigmoid 概率与平均二元熵的双阈值 \(U(x)=\mathbf{1}[\max_l p_l(x)<\tau_p \wedge H(x)>\tau_H]\)(\(\tau_p{=}0.5,\tau_H{=}0.25\));(ii) Feature 用 Mahalanobis 距离 \(d(x)=\sqrt{(E(x)-\mu)^\top\Sigma^{-1}(E(x)-\mu)}\),min-max 归一化后取 top-\(\rho\);(iii) Ontology 把源时段的本体概念频率 \(p_{t_1}(c)\) 视为先验,对目标文档中所有本体概念做 surprisal 平均 \(O_{\text{tail}}(x)=\frac{1}{|\mathcal{C}(x)|}\sum_c -\log(p_{t_1}(c)+\varepsilon)\),越大说明用到越多稀有/新术语。最终 \(\mathcal{D}_{shift}=\mathcal{D}_U\cup\mathcal{D}_F\cup\mathcal{D}_O\),\(\rho{=}0.1\)。
- 设计动机:t-SNE 显示 ontology-shift 样本和 feature-shift 样本几乎不重叠(MIMIC 上 \(O\cap F\) 仅 0.37%),三者并集是真正必须的——这也是本文相对单信号工作的最大差异。
-
源回溯检索(Source Backtracking):
- 功能:为每个被命中的目标样本,从源时段找语义最近的真标签邻居作"桥梁"。
- 核心思路:用源训练模型 encoder 把 \(x_t,x_s\) 各编码成 \(\mathbf{z}_t,\mathbf{z}_s\),按余弦 \(\text{sim}(x_t,x_s)=\cos(\mathbf{z}_t,\mathbf{z}_s)\) 取 top-\(k\),把这 \(k\) 条源样本作为"语义对齐的可信教师"。
- 设计动机:相比 Self-Labeling 给目标样本打伪标(错误会累积)、相比 TTA 直接最小化目标熵(易在分布漂移下不稳定),用"已知真标签的源近邻"做监督显著降低误差累积;消融中 w/o retrieval 让 arXiv-CS ma-F1 从 49.82 暴跌到 36.40,证明这一步是适配主力。
-
知识驱动同义词增强:
- 功能:把检索到的源样本的术语改写成目标时段可能出现的同义表达,逼模型学到术语不变性。
- 核心思路:双源同义词:(i) LLM 路线(用于 EurLex / arXiv-CS):给 GPT-4o-mini 提供文档 + 候选标签,让它挑 3-10 个"对分类信息量大的 term"并产同义词、历史表述;(ii) 本体路线(用于 MIMIC 由于隐私原因不允许送 LLM):MeSH 的 descriptor + supplementary concept、EuroVoc 的 PT-NPT、CSO 的 topic 关系,提供受控、可靠的同义关系。对每个候选 term,在源句子里做受控词替换生成增强样本。
- 设计动机:从表征角度,"同义词改写 = 受控词法扰动",鼓励模型对术语变体不变,这正好对应本文最关注的"术语演化型漂移"。在 MIMIC 因隐私不能用 LLM 时退化为纯本体,仍然有效,说明该模块对外部资源类型不敏感。
损失函数 / 训练策略¶
源模型:EurLex/arXiv-CS 用 XLM-RoBERTa-base、MIMIC 用 Longformer,在最早时段 \(T_1\) 上以 lr=\(3\times10^{-5}\) 训 10 epoch;多标签 BCE。KARITA 适配阶段沿用同样的 BCE,仅在增强后的检索源样本上做 SGD;不需要任何目标标签。\(\rho{=}0.1, k{=}3\) 在 MIMIC 敏感性分析里是最优;LLM 同义词识别每个目标样本一次性产出后缓存。
实验关键数据¶
主实验¶
源 → 目标分类性能(%),目标时段测试集:
| 数据集 | 指标 | Source 模型 | Self-Labeling | EATA (TTA) | IFT | KARITA | Target 上界 |
|---|---|---|---|---|---|---|---|
| MIMIC | ma-F1 | 40.65 | 40.55 | 28.02 | 43.05 | 52.12 | 65.78 |
| MIMIC | mi-F1 | 52.86 | 52.34 | 45.98 | 55.24 | 63.95 | 76.66 |
| EurLex | ma-F1 | 46.75 | 42.02 | 47.97 | 37.12 | 56.15 | 71.74 |
| arXiv-CS | ma-F1 | 34.86 | 34.94 | 27.63 | 40.67 | 49.82 | 65.51 |
| arXiv-CS | sa-F1 | 43.36 | 43.46 | 34.90 | 49.17 | 62.63 | 74.98 |
KARITA 把源 → 目标的 ma-F1 差距在 MIMIC 上缩小 +11.47,在 arXiv-CS 上 +14.96;EATA 在 MIMIC 上反而比 Source 还差 12 个点,验证了无监督 TTA 在医疗领域容易崩。
消融实验¶
Llama-encoder 共享设定下,移除 KARITA 单一组件(target 测试 ma-F1):
| 配置 | MIMIC | EurLex | arXiv-CS | 说明 |
|---|---|---|---|---|
| Full KARITA | 52.12 | 56.15 | 49.82 | 完整方法 |
| w/o detection(随机选样) | 49.33 | 48.77 | 31.02 | arXiv-CS 暴跌 18.8 |
| w/o augmentation | 48.13 | 54.60 | 43.74 | 失去术语对齐 |
| w/o retrieval(选不相似源) | 50.67 | 44.16 | 36.40 | EurLex 跌 12 |
单信号检测器对比(取代多信号联合,target 测试 ma-F1):
| 检测器 | MIMIC | EurLex | arXiv-CS |
|---|---|---|---|
| Full(U+F+O) | 52.12 | 56.15 | 49.82 |
| Feature only | 51.58 | 44.57 | 23.00 |
| Ontology only | 40.94 | 50.48 | 29.69 |
| Uncertainty only | 42.45 | 54.97 | 42.64 |
关键发现¶
- 本体术语漂移是不可替代的信号:MIMIC 上 \(U\cap O\) 仅 3.05%、\(O\cap F\) 仅 0.37%,t-SNE 显示 ontology-shift 样本和 feature-shift 样本占据不同区域;纯特征检测在 arXiv-CS 上让 ma-F1 直接掉到 23.00。
- 检索 + 增强是协同作用:去掉任意一个都比同时去掉两个塌得快,且三者的贡献顺序在不同领域不同(MIMIC 更依赖 augmentation、arXiv-CS 更依赖 detection),说明这是真正的整合框架。
- TTA 范式在多源叠加漂移下不稳:EATA / SAR 在 MIMIC 上不仅没提升反而退化,因为熵最小化会进一步强化错误标签;而 KARITA 用真源监督避免了这种漂移累积。
- 时序距离 ↑ 三种 shift 同步 ↑:EurLex 与 arXiv-CS 上 F、O、entropy 三个分数都随年份单调上升,但增速不同——验证多信号联合的必要性。
- 超参鲁棒:\(k\) 从 1 到 5、\(\rho\) 从 0.05 到 0.3 的网格里,\(k{=}3,\rho{=}0.1\) 最优但邻近设置波动小,落地友好。
亮点与洞察¶
- "时序漂移"通常被当作一个标量来度量;本文把它结构化为"输出层、表征层、本体层"三个解耦视角,第一次把 surprisal 在本体上的展开当作主一阶检测信号,思路清晰且直接落到选样上。
- 用 LLM 抽 task-relevant term + 同义词,把不可控的 free-form 改写收窄到"对分类有信息量的术语",最大程度避免改坏标签语义,是 LLM 数据增强里少见的"标签感知"做法。
- MeSH/EuroVoc/CSO 路线给出一个非常实用的"隐私退路":在医疗场景不许送外部 LLM 时,纯本体仍能保持有效,工程上极有价值。
- 把"自适应"从一次性变成 batch 级迭代,配合可重用的同义词缓存,相比 TTA 不需要在线反传巨大模型,部署成本低。
局限与展望¶
- 框架强依赖外部知识资源(LLM / 本体),低资源、闭域场景需要替代方案(如领域 LM 自挖同义词)。
- 仅处理词汇/术语层漂移;新概念出现、标签定义变化、任务再定义等结构性漂移没有显式建模。
- 三个信号的合并是简单并集 + 等权 top-\(\rho\),没有学习不同领域应给每个信号多少权重,存在调优空间。
- 检索仍是单源域;多源时段或跨领域回溯还未探索。
- LLM 同义词质量没有人工评估,可能引入潜在偏置。
相关工作与启发¶
- vs IFT / ChronosLex:IFT 用时序排序的增量训练让模型"顺着时间走";KARITA 用数据增强让源样本"假装来自未来",两者可叠加。
- vs Self-Labeling:Self-Labeling 在目标样本上打伪标,错误累积;KARITA 用源真标签做桥梁,鲁棒性显著更好(消融与主表都印证)。
- vs SAR / EATA / TENT:这些 TTA 在源 → 目标分布差异极大时反而崩;KARITA 走数据中心路线,回避了 entropy minimization 的负面循环。
- vs Huang & Paul 2019 (diachronic embeddings):他们把所有漂移压缩进词向量,本文显式拆出三种信号;本体路线本质上把 diachronic 思想从词向量扩展到了知识图谱。
评分¶
- 新颖性: ⭐⭐⭐⭐ "多信号 shift + 源回溯 + 知识同义增强"组合在时序自适应里第一次系统化提出;本体 surprisal 做检测尤其新颖。
- 实验充分度: ⭐⭐⭐⭐ 三领域 × 四时段 × 多基线 × 单信号 ablation + 重叠分析 + 时间趋势 + 超参敏感性,几乎覆盖了想得到的角度。
- 写作质量: ⭐⭐⭐⭐ 故事讲得很顺、表 4-6 的设计直接回答"信号到底互补不互补",结构清晰;个别公式与符号介绍可更紧凑。
- 价值: ⭐⭐⭐⭐ 在医疗、法律、科技三个真实高风险领域都涨点,且对外部资源种类不挑食,工程落地价值高。
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评