Self-Reinforcing Controllable Synthesis of Rare Relational Data via Bayesian Calibration¶

会议: ACL 2026 Findings
arXiv: 2604.16817
代码: GitHub
领域: LLM推理 / 表格数据生成
关键词: 表格数据合成, 不平衡分类, 自强化反馈, 贝叶斯校准, 上下文学习

一句话总结¶

本文提出RDDG，基于渐进式CoT的表格数据合成框架，通过核心集选择、关系挖掘和自强化反馈机制引导LLM生成高保真表格数据，在不平衡分类上平均提升2%+ Macro-F1。

研究背景与动机¶

领域现状：不平衡数据在真实应用中普遍存在，数据合成是缓解稀有类样本稀缺的常用手段。大语言模型已经革新了文本生成，多模态基础模型也被用来生成图像数据增强视觉学习，但把 LLM 用到关系型 / 结构化表格数据合成上仍探索不足。相比之下，GAN、扩散模型等非 LLM 方法在表格数据生成上已经被验证有效。

现有痛点：现有 LLM 表格合成方法存在两个缺口。其一，数据生成方法与下游任务（尤其是不平衡分类）的优化目标之间存在明显错位——生成只追求像真实数据，却没盯住分类要的东西。其二，缺少一个内部的自强化反馈机制，能在 in-context 合成全程持续引导 LLM 优化生成质量，而不是一次性生成完就撒手。

核心矛盾：表格数据的属性之间有复杂的函数关系和相关性约束，直接让 LLM 自由生成容易脱离真实分布；但要把这些约束塞进提示又受限于上下文窗口长度，且静态约束无法随生成过程动态纠偏。

本文目标：提出 RDDG（Relational Data generator with Dynamic Guidance），一个统一的 in-context learning 框架，用渐进式 CoT 步骤生成表格数据来提升下游不平衡分类性能，并给自强化反馈机制配上贝叶斯校准的理论保证。

核心 idea：先用核心集选择压缩出代表性样本绕开上下文限制，再用关系挖掘把属性间的函数关系固化成显式约束，最后用一个把质量评估前向传播到下一批的自强化反馈闭环，让生成质量在批次间持续爬升——并证明这个闭环本质上是在做序贯贝叶斯校准。

方法详解¶

整体框架¶

RDDG 要解决的是「让 LLM 在不微调的前提下，合成高保真且服务于不平衡分类的表格数据」。整条流水线分三步串起来：先做核心集构建，从原始训练数据里挑出最有代表性的少量样本，绕开 LLM 上下文窗口的限制；再做关系挖掘，用 in-context learning 从核心集里挖出属性间的潜在 pattern 和相关性，固化成显式的结构约束；最后做数据生成与约束优化，把训练集切成多个 batch 作为参考集逐批生成，并在每批之后用自强化反馈机制评估质量、把评估结果转成反馈提示喂给下一批。形式上，第 \(i\) 批合成数据由 \(\mathcal{S}_i = S_\phi(\mathcal{R}_i, \mathcal{C}, \mathcal{F}_{i-1})\) 产生，其中 \(\mathcal{R}_i\) 是真实参考集、\(\mathcal{C}\) 是关系挖掘得到的约束、\(\mathcal{F}_{i-1}\) 是上一批的反馈，总目标是逼近 \(\min_{\mathcal{S}_i} d(\hat{\mathbb{P}}_{\mathcal{S}_i}, \mathbb{P}_{\mathcal{R}})\)（\(d\) 为 KL 散度等分布距离）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["原始训练表（不平衡）"] --> B["基于误差方差的核心集选择<br/>MLP 估误差方差 → 按类取 Top-K"]
    subgraph REL["渐进式 CoT 关系挖掘与约束驱动生成"]
        direction TB
        C["prompt 1：挖属性间函数关系"] --> D["prompt 2：固化为显式约束 C"]
    end
    B --> C
    D --> E["prompt 3：逐 batch 带约束生成 S_i"]
    E --> F["自强化反馈：质量评估<br/>统计一致性 / 相关性保持 / 分布一致性"]
    F -->|"反馈 F_i 前向传播到下一批"| E
    F --> G["合成数据达标 → 下游不平衡分类"]
    H["贝叶斯校准<br/>序贯后验更新，保证闭环收敛"] -.->|"理论保证"| F

关键设计¶

1. 基于误差方差的核心集选择：用一小撮「最难学」的样本撑起整个分布

LLM 的上下文窗口塞不下整张训练表，硬截断又会丢掉分布的尾部，正是稀有类最吃亏。RDDG 借用核心集选择的思路：训练一个简单的 MLP，把训练过程切成 early / middle / late 三个阶段，对每个样本在每个 epoch 算 L2 预测误差 \(\mathcal{L}_2(\mathbf{y}_{\text{pred}}, \mathbf{y}_{\text{true}}) = \|\mathbf{y}_{\text{pred}} - \mathbf{y}_{\text{true}}\|_2^2\)，再统计每个样本在 early 和 late 阶段误差的均值与方差，按类选出方差最高的 Top-K：\(\text{Top}_k(k) = \arg\text{top}_K([\text{Var}_i \mid i \in N_k])\)；某类样本不足 \(K\) 时重复采样补齐。误差方差高的样本往往处在决策边界附近、信息量最大，而「按类各取 Top-K」的平衡策略保证少数类不会在喂给 LLM 时被多数类淹没。

2. 渐进式 CoT 的关系挖掘与约束驱动生成：把领域先验显式化成可控的生成规则

直接让 LLM 凭空生成表格行，结果常常属性之间互相矛盾、脱离真实相关结构。RDDG 把生成拆成一条类 CoT 的推理链：prompt 1 先让 LLM 从核心集里分析属性间的函数关系（pattern 和 inter-attribute correlation）；prompt 2 再让它综合核心集、metadata 和上一步关系，建立显式的生成规则与约束；prompt 3_1 才把训练集分成多个 batch 当参考集，带着这些约束生成新样本。这样把领域先验从「藏在数据里」变成「写在约束里」，实现 constraint-driven、可控的合成，而不是放任 LLM 自由发挥。

3. 自强化反馈的动态引导调整：让每一批都站在上一批的肩膀上

一次性生成完就结束，错误无从纠正。RDDG 在每批生成后立刻从三个维度评估质量：Statistical Consistency（比较生成与真实数据的均值、标准差）、Correlation Preservation（用 Pearson 相关系数检查属性间关系是否保持）、Distribution Consistency（用 Kolmogorov-Smirnov 检验验证分布对齐）。关键在于，batch \(i\) 的反馈不是拿去重生成同一批，而是转成反馈提示 \(\mathcal{F}_{i-1}\) 前向传播到 batch \(i+1\)，与既有约束一起带进下一轮 in-context learning：\(\mathcal{S}_i = S_\phi(\mathcal{R}_i, \mathcal{C}, \mathcal{F}_{i-1})\)，直到合成样本总数达到目标阈值。每一轮都吸收前面几轮的洞察，形成一个自优化的生成流水线，语义一致性和统计保真度随批次逐步抬升。

4. 贝叶斯校准视角：给经验性的反馈闭环上一道理论保险

自强化反馈为什么会越调越好、而不是随机游走？论文把这个序贯过程严格化为 Bayesian calibration：把生成器超参 \(\phi\) 当成未知量，放一个先验 \(p(\phi)\) 编码关系挖掘阶段发现的结构信念；用 summary targets \(T(\mathcal{R})\)（均值、标准差、Pearson 相关、KS 距离）构造似然 \(p(T(\mathcal{R}) \mid T(S_\phi))\) 给合成批次打分；后验则是 \(p(\phi \mid T(\mathcal{R})) \propto p(T(\mathcal{R}) \mid T(S_\phi)) \, p(\phi)\)。整个闭环就是对 batch \(i=1,2,\dots\) 做序贯贝叶斯更新，反馈指标 \(F_i\) 充当 posterior predictive check，每次更新把 \(\phi\) 往「既保持函数关系、又改善类不平衡目标」的方向推。Theorem 1 证明最大化后验期望效用的 Bayes-optimal prompt \(\phi^\star\) 能最小化后验期望 regret；Proposition 1 进一步用 Robbins–Monro 随机逼近证明，在合适步长条件下更新序列 \(\phi_i\) 几乎必然收敛到 Bayes 最优集 \(\Phi^\star\)（后验期望效用严格凹时收敛到唯一 \(\phi^\star\)）。这把「自强化提示」从经验技巧抬成了后验期望效用最大化。

损失函数 / 训练策略¶

RDDG 不微调 LLM，整条合成靠 in-context learning 完成；唯一需要训练的是核心集选择里那个用来估误差方差的 MLP。默认 LLM 为 GPT-3.5-turbo-0125，真实数据集上还额外测了 Llama 3.0 和 Mistral Max。优化目标是逐批最小化合成数据经验分布与真实分布的散度 \(\min_{\mathcal{S}_i} d(\hat{\mathbb{P}}_{\mathcal{S}_i}, \mathbb{P}_{\mathcal{R}})\)。

实验关键数据¶

主实验¶

在 8 个数据集上评测：4 个真实数据集（Travel、Sick、Heloc、Thyroid）和 4 个带显式属性间相关性的合成数据集（Consumer Behavior、Health Metrics、Real Estate、Social Network），每个数据集按 80% / 20% 划分训练 / 测试。对比方法覆盖 GReaT、EPIC、TabDDPM、CDTD、REaLTabFormer、ADS-GAN，以及不使用任何合成数据的 Original。下表摘录 Travel 数据集（GPT-3.5 为默认 LLM）：

方法	Macro-F1	Balanced Acc
Original	58.12	71.21
TabDDPM	65.32	73.19
CDTD	66.32	74.82
EPIC（此前 SOTA）	66.65	78.23
RDDG（本文）	68.63	79.67

汇总到全部数据集，RDDG 相比此前最强的 in-context 方法 EPIC 平均提升 >2% weighted Macro-F1 和 >1% Balanced Accuracy，同时保持更优的数据保真度。

关键发现¶

RDDG 在 Travel 上把少数类敏感度（Sensitivity 78.23）做到与 EPIC 持平的同时，Macro-F1 和 Balanced Accuracy 双双登顶，说明自强化反馈带来的保真度增益确实转化成了下游分类收益，而非只在生成端好看。
在 Sick 等已经较平衡的数据集上，RDDG 的 Balanced Accuracy（93.62）仍领先 CDTD（93.25）和 EPIC（92.45），表明框架不靠牺牲多数类来换少数类。
跨 GPT-3.5 / Llama 3.0 / Mistral Max 三个 LLM 都能复现提升，说明增益来自框架设计而非某个特定模型。

亮点与洞察¶

把反馈闭环从经验技巧抬成理论保证：多数 LLM 数据合成方法的「迭代改进」止于工程直觉，RDDG 用 Bayesian calibration 证明了序贯反馈会收敛到 Bayes-optimal prompt，这种「先证明再实现」的路线在数据合成方向少见。
反馈前向传播而非原地重生成：把 batch \(i\) 的质量评估带到 \(i+1\) 而不是反复打磨同一批，既避免了对单批过拟合，又让真实参考集不断轮换，是一个很务实的设计取舍。
核心集选择用「误差方差」而非随机采样：在上下文长度硬约束下，挑边界附近的高信息样本比均匀抽样更能撑起分布，且天然按类平衡照顾稀有类。

局限与展望¶

核心集选择依赖一个额外 MLP 来估误差方差，对极高维或样本极少的稀有类，这个代理模型本身可能不稳。
自强化反馈的三个质量维度（统计一致性、相关性保持、分布一致性）是手工设定的，对强非线性、高阶交互的属性关系刻画可能不足。
贝叶斯最优性的证明依赖若干理想化假设（无偏随机超梯度、紧致参数空间、合适步长），与提示工程的离散现实之间仍有距离。
实验以表格分类为主，对回归、时序等其他结构化数据形态的迁移尚待验证。

评分¶

新颖性: ⭐⭐⭐⭐ 有创新但部分技术是已有方法的组合
实验充分度: ⭐⭐⭐⭐ 评估较全面
写作质量: ⭐⭐⭐⭐ 结构清晰
价值: ⭐⭐⭐⭐ 对领域有实际贡献