GenCtrl — A Formal Controllability Toolkit for Generative Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=HJTFgDYoLO
代码: https://github.com/apple/ml-genctrl
领域: 可解释性 / 控制理论 / 生成模型分析
关键词: 可控性, 可达性, PAC 界, 控制理论, 黑盒生成模型

一句话总结¶

这篇论文把"用户与生成模型对话"建模成一个离散时间非线性控制系统，提出蒙特卡洛算法去估计模型的可达集与可控集，并给出分布无关、只需输出有界假设的 PAC（probably-approximately-correct）误差界，从而第一次能形式化地回答"这个生成模型到底可不可控"，实验发现现代 LLM 和文生图模型的可控性出人意料地脆弱且高度依赖任务设定。

研究背景与动机¶

领域现状：随着生成模型普及，控制其输出成了刚需，相关方法层出不穷——从提示工程（in-context、CoT）、微调（RLHF、DPO），到直接操纵激活的表示工程（activation steering）。整个领域都在比拼"怎么把模型控制得更好"。

现有痛点：所有这些方法都默默建立在一个从未被验证的前提上——模型本来就是可控的。具体拆成三条隐含假设：① 可达性（reachability）：用某种控制手段 + 某个初始提示，目标输出集合确实能被够到；② 普遍可控性（universal controllability）：目标输出从任意初始状态都能够到；③ 校准性（calibration）：输出是控制变量的直接函数（你调输入，输出就跟着变）。但学界根本没有工具去检验这三条到底成不成立。

核心矛盾：大家一直在"尝试控制"，却从没问过"这个系统是否原则上可控"。控制理论里可达性/可控性是核心概念，可惜过去把它们搬到机器学习上，要么只能分析强化学习/训练动力学，要么依赖对黑盒模型不可验证的假设（如 Lipschitz 连续），要么返回连续的可达集估计——而 LLM/文生图的可达集是可数的（离散瓶颈），导致连续估计被撑得"空泛地大"（vacuously large），毫无信息量。

本文目标：把生成模型当成黑盒非线性控制系统，给出能在现代大模型上实际跑得动、带概率保证的可达集/可控集估计工具，并用它去量化前述三条假设。

切入角度：作者借控制理论（Sontag 1998）的语言，把"对话"重新解读成一个反馈控制过程——用户每轮的输入是对模型的"干预"（control input），模型生成是"状态"，外部打分函数是"读出"（readout）。这个视角下，可达性/可控性有了严格定义。

核心 idea：用一套分布无关、只假设输出有界的蒙特卡洛采样算法，配上 PAC 样本复杂度界，去估计任意黑盒生成模型在对话设定下的可达集与可控集——把"试图控制"前置成"先理解控制的根本极限"。

方法详解¶

整体框架¶

GenCtrl 把"用户↔生成模型的多轮对话"形式化成一个随机离散时间非线性控制系统 \((\phi, \mathcal{T}, X, U, h, Y)\)：时间域 \(\mathcal{T}=\mathbb{N}\) 是对话轮次；状态 \(x_t\in X\) 是当前的字符串/图像上下文；控制输入 \(u_t\in U\) 是用户这一轮给的提示（干预手段）；动力学 \(\phi: X\times U\to X\) 把历史状态和输入映射到下一轮生成 \(x_{t+1}=\phi(x_t,\dots,x_0;u_t,\dots,u_0)\)；读出映射 \(h: X\to Y\) 把生成映射成一个可度量的属性值（如文本正式度、图中物体数量，例如直接用 Python len()）。控制目标就是把测量值 \(y_t=h(x_t)\) 限制到一个期望子集 \(Y'\subset Y\)。

在这个壳子上，论文要回答两个问题（图 1 中的 Q1/Q2）：可达性 Q1——从某个固定初始提示 \(x_0\) 出发，能命中哪些属性值；可控性 Q2——从任意初始提示都能命中目标集合吗。方法的核心难点是 LLM/T2IM 的离散瓶颈：可达集是可数的，不能直接套连续可达集估计。整条流水线是：先把测量空间做粗粒度量化以绕过离散瓶颈 → 用蒙特卡洛采样 + Thm 1 估计单个初始态的可达集 → 对 \(k\) 个采样初始态的可达集求交集 + Thm 2 估计可控集 → 输出覆盖率/校准指标供诊断。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["用户↔生成模型<br/>多轮对话"] --> B["对话过程建模为控制系统<br/>状态/输入/读出/动力学"]
    B --> C["粗粒度可达性<br/>γ-量化绕过离散瓶颈"]
    C --> D["可达集 PAC 估计<br/>蒙特卡洛 + Thm 1（Alg 1a）"]
    D -->|对 k 个初始态求交集| E["可控集 PAC 估计<br/>蒙特卡洛 + Thm 2（Alg 1b）"]
    E --> F["覆盖率 cvg + 校准指标<br/>ρ / R / MAE 诊断"]

关键设计¶

1. 把"用户↔模型对话"形式化成黑盒非线性控制系统

要回答"模型可不可控"，先得有一套能严格定义"可控"的语言。论文把一轮轮对话映射成控制论里的标准对象（Def. 1）：初始提示是初始状态 \(x_0\)，用户后续每句话是控制输入 \(u_t\)，模型生成是状态转移 \(\phi\)，外部打分器是读出 \(h\)。在这套语言下，可达集被定义为从固定 \(x_0\) 出发、用某条输入序列在 \(t\) 步内能命中的所有测量值：

\[R(x_0, U, t) = \{\tilde{y}\in Y \mid \exists\, u_0,\dots,u_{t-1}\in U \text{ s.t. } y_t=\tilde{y}\}\]

可控性则更强（Def. 3）：系统在 \(Y'\subseteq Y\) 上可控，当且仅当存在某个 \(t\)，使得所有 \(x_0\in X\) 的可达集都等于 \(Y'\)。这个区分正好对应前面三条隐含假设——可达性管 Q1，可控性管 Q2。这套形式化的价值在于它对模型架构、输入/输出是离散还是连续都不可知（agnostic），因此能统一处理 LLM 的文本和 T2IM 的图像，是后面所有估计算法的地基。

2. 粗粒度可达性：用 γ-量化绕过离散瓶颈

LLM/T2IM 的字符串提示是离散的，导致可达集是可数的，哪怕测量值本身连续（如 [0,1] 的正式度分数），真实可达集也只是一堆离散点。直接套现有的连续可达集估计器，返回的集合会"空泛地大"，没有判别力。作者的解法是把可达性问题松弛成 γ-量化版本（Def. 4）：不再要求精确命中某个值，而是允许 \(\gamma\) 的误差容忍——

\[R_\gamma(x_0, U, t) = \{\tilde{y}\in Y \mid \exists\, u_0,\dots,u_{t-1}\in U \text{ s.t. } \|y_t-\tilde{y}\|_\infty \le \gamma\}\]

比如不要求正式度恰好 0.3，而是命中 \(0.3\pm0.05\) 即可。对应地，把测量空间 \(Y\) 用半径 \(\gamma/2\) 的 \(\infty\)-球做一个最小覆盖，得到有限基数 \(N=|Y_q|\) 的量化空间 \(Y_q\)（分类型属性 \(Y_q=Y\) 无需量化）。用 \(\infty\)-范数还有个好处：理论对多个正交读出维度（如同时控正式度和句长）天然成立。这一步是后面 PAC 界能成立的前提——只有 \(Y_q\) 有限，才能谈"采够多少样本就能覆盖所有可达 bin"。

3. 蒙特卡洛可达集估计 + 分布无关 PAC 界（Thm 1）

生成模型是非线性、高维、动力学未知的，可达集没法解析推导，只能靠采样。论文先给采样定一个概率误差概念：用户设阈值 \(p\in(0,1)\)，只保留概率质量 \(p_{y,t}(y_{\text{bin}})\ge p\) 的 bin（密度低于 \(p\) 的视为可忽略并丢弃），得到 \(p\)-近似可达集 \(R_{t,p}\)（Def. 5）。然后给出样本复杂度界（Thm 1）：设 \(Y_q\) 基数为 \(N\)，固定置信参数 \(\delta\in(0,1)\)，只要 i.i.d. 采样数

\[m \ge \max\!\left(N,\ \frac{\log(\delta/N)}{\log(1-p)}\right)\]

就有 \(P(R^{(\gamma)}_{t,p}\subset \hat{R}_t)\ge 1-\delta\)，其中 \(\hat{R}_t\) 是采样点（分类型）或采样点的 \(\gamma\)-球并集（量化型）。这个界分布无关、除"输出有界"外不需任何假设、对任意黑盒（含随机模型）都成立，且样本数 \(m\) 不依赖模型是否随机、不依赖时间步——附录给出 \(m\sim O(N\log N)\)。直观含义：采够 \(m\) 次后就能以 \(1-\delta\) 置信度断言"所有可达 bin 都被覆盖了"；若目标集 \(Y^*\) 不在 \(\hat{R}_t\) 里，就能以 \(\ge 1-\delta\) 置信度说它不可达。对应 Alg 1a。

4. 蒙特卡洛可控集估计 + PAC 界（Thm 2）

可控性要求"从所有初始态都能到 \(Y'\)"，自然的估计法就是对多个初始态的可达集求交集。作者引入测度 \(\mu(y_{\text{bin}})=P_{x_0\sim p_0}[y_{\text{bin}}\in R^\gamma_{t,p}(x_0)]\)，刻画"有多大比例的初始态能 \(p\)-近似够到某个 bin"，并据此定义 α-可控集（Def. 6）：被 \(\ge 1-\alpha\) 比例初始态够到的 bin 集合 \(C^\alpha_t=\{y_{\text{bin}}\mid \mu(y_{\text{bin}})\ge 1-\alpha\}\)。估计量是对 \(k\) 个采样初始态的可达集求交 \(\hat{C}_t=\cap_{i=1}^k \hat{R}_t(x_0^{(i)})\)。Thm 2 回答"\(k\) 要多大"：固定 \(\epsilon,\delta_C,p,\alpha\)，只要

\[k \ge \frac{\log \epsilon\delta_C}{\log(1-\alpha)}\]

就有 \(P(\mu(\hat{C}_t\setminus C^\alpha_t)<\epsilon)\ge (1-\delta_C)(1-\delta_R)^k\)。这里误差用"假阳性的 \(\mu\) 测度" \(\mu(\hat{C}_t\setminus C^\alpha_t)\) 衡量——由于求交集只会让运行中的可控集收缩，\(\hat{C}_t\) 是 \(C^\alpha_t\) 的严格过估计（没有假阴性）。整体置信度 \(1-\delta=(1-\delta_C)(1-\delta_R)^k\) 由"每个可达集的置信 \(\delta_R\)"和"采够初始态的置信 \(\delta_C\)"复合而成，给定 \(\delta\) 后自动分配 \(\delta_C,\delta_R\) 以最小化总样本数 \(n=m\cdot k\)。对应 Alg 1b。

损失函数 / 训练策略¶

本文不训练任何模型、也不做控制器设计（不研究"该选哪个输入去达成目标"），而是把生成模型完全当黑盒，只通过采样轨迹做统计估计。唯一的"超参"是 PAC 界里的用户可调参数：置信 \(\delta\)、精度阈值 \(p\)、量化误差 \(\gamma\)、部分可控参数 \(\alpha\)、可控集误差 \(\epsilon\)。

实验关键数据¶

实验在多种现代 LLM 与文生图模型（T2IM）上跑可达性/可控性诊断，核心结论是可控性脆弱且高度任务依赖。主要评估指标：覆盖率 \(\text{cvg}=|Y\cap\hat{C}_t|/|Y|\in[0,1]\)（越高越好，衡量"控制器存在性"）；以及作为校准代理的 Spearman \(\rho\)（单调性）、Pearson \(R\)（线性度）、MAE（恒等性）。

主实验¶

正式度控制（LLM，5 轮对话，δ=0.05）：要求 LLM 生成指定正式度的文本，每轮把上一轮的实际正式度反馈回去。

模型	设定	t=5 覆盖率 cvg	备注
SmolLM3-3B	5-shot	0.57	5 步内仍不完全可控
Qwen3-4B	5-shot	1.00	t=5 达到完全可控，且最忠实（中位 MAE=0.09）
Gemma3-4B	5-shot	1.00	t=5 达到完全可控

0-shot 设定下三个模型在 5 步内都不完全可控（虽然可控集随轮次增长），且都有"偏正式"的系统性 bias。

物体数量控制（T2IM，单轮）：提示 "White background. [N] [obj]s."，N∈{0…20}，obj 遍历 80 个 COCO 类，用 0-shot 目标检测器作读出。

模型	中位 MAE	校准 ρ, R	结论
FLUX-s	3.52	ρ, R > 0.9	该任务最佳，但仍有显著计数误差
FLUX-d / SDXL / DMD2	更差	更低	控制物体数量比预期难得多

消融实验¶

分析维度	关键指标	说明
0-shot vs 5-shot	cvg @ t	"反馈"还是"示例"更重要高度依赖模型：Qwen/Gemma 示例更管用，SmolLM 反之
模型规模 (Qwen 0.6B→14B)	cvg ↑, ρ/R/MAE	可控性随规模可靠上升到 14B；但校准 R 在 ~8B 饱和，校准提升主要发生在 0.6B→1.7B 的小尺寸段
贪心 vs 采样解码	高层趋势	是否随机解码不改变高层结论
任务语义 (i–v)	cvg / 校准	Gemma3-4B 在奇偶数/字符串长度上近乎完美校准，却在正式度上很差；物体位置(iv)比数量更难控，图像饱和度(v)不可控

关键发现¶

可控性远非默认成立：哪怕是论文刻意设计的简单任务（被视为真实应用复杂度的下界），也没有任何单一模型或提示策略能在所有任务上保证可控——这正是框架的价值：能定位可控性失败。
对话会"过冲"（overshoot）：即使反馈里同时给了目标正式度 \(u_0\) 和上轮产出 \(y_{t-1}\)，模型也不收敛到目标，反而出现强烈过冲，5-shot 下更明显——说明把对话当反馈控制回路时，模型并不像理想控制器那样稳定收敛。
大模型更可控但校准早饱和：可控性（表达力代理）随规模单调上升，但校准在 4B 左右饱和，连 14B 的正式度 MAE 仍约 0.25（误差容忍 γ=0.1）——可控 ≠ 校准好。
极度任务依赖：同一个 Gemma3-4B 在奇偶数任务近完美、在正式度上很差；T2IM 能勉强控数量却控不了位置/饱和度。结论是必须做逐任务的可控性分析，不能一刀切下结论。

亮点与洞察¶

范式转变：把"努力去控制模型"前置成"先形式化地理解控制的根本极限"。这是第一套能刻画生成模型控制"操作边界"的形式语言，把三条一直被默认的隐含假设（可达/普遍可控/校准）变成可检验的对象。
离散瓶颈的精准处理：明确指出 LLM/T2IM 可达集是可数的，连续可达集估计会空泛地大，并用 γ-量化 + \(\infty\)-球覆盖巧妙绕过——这个洞察对任何想把控制理论搬到离散生成系统的工作都可复用。
PAC 界的"无假设"优势：分布无关、只需输出有界、对随机黑盒也成立、样本数与模型随机性/时间步无关。这让理论第一次能在不透明的大模型上实际落地，而不是停留在需要 Lipschitz 之类不可验证假设的纸面分析。
求交集 = 过估计：用 \(k\) 个初始态可达集求交来逼近可控集，天然只有假阳性没有假阴性，误差可用 \(\mu\) 测度严格控制——把"普遍可控"这个 \(\forall x_0\) 的难题转成可采样的统计问题。

局限与展望¶

保证不跨设定迁移：所有保证都绑定到从业者自己选的输入分布、读出映射、初始态分布；换一组就失效，因此每个任务的结论只对该任务成立——这既是诚实声明，也限制了"一次诊断、到处复用"。
黑盒 ≠ 可解释：框架返回所有采样轨迹（输入/状态/测量值），能揭示"哪些输入触发哪些输出""哪些区域系统性不可控"，但不提供因果诊断模型内部为何失败的可解释性工具——论文明确把内部机理排除在范围外。
高精度高维下样本复杂度不 scale：Thm 1 的样本数随可达集覆盖数 \(N\) 增长，虽然实际靠"内在维度低于外在维度"缓解了维度灾难，但要高精度估计内在复杂的可达集时仍然吃力，这是高维可达集估计的公开难题；作者的 workaround 是构造基数 \(N\) 可控的量化 \(Y_q\)。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次为生成模型可控性提供形式语言 + 分布无关 PAC 界，问对了一个被全行业默认的问题。
实验充分度: ⭐⭐⭐⭐ 覆盖多模型/多任务/多规模/解码方式，但多数任务复杂度偏低（作者也承认是真实应用的下界）。
写作质量: ⭐⭐⭐⭐⭐ 控制论与生成模型的桥接讲得清晰，定义/定理层层递进。
价值: ⭐⭐⭐⭐⭐ 提供开源工具 + 范式转变，把"控制"从隐含假设变成可检验对象。