String Seed of Thought: Prompting LLMs for Distribution-Faithful and Diverse Generation¶

会议: ICLR 2026
arXiv: 2510.21150
代码: 无
领域: 机器人
关键词: prompting, probabilistic instruction following, diversity, LLM reasoning, randomness

一句话总结¶

本文提出 String Seed of Thought（SSoT），一种简洁的提示方法，通过指示 LLM 先生成随机字符串再从中提取随机性来选择答案，显著提升了概率指令跟随（PIF）的分布忠实度和开放式任务（DAG）的响应多样性，理论证明了 TV 距离随字符串长度指数衰减，实验表明推理型 LLM 的表现接近伪随机数生成器。

背景与动机¶

LLM 在概率性选择上存在系统性偏差：LLM 擅长确定性单答案任务，但在需要按特定分布选择答案时表现不佳。例如让 LLM 模拟公平抛硬币，结果往往严重偏斜，而非接近 50-50。
多种真实应用需要概率行为：人类行为模拟、内容多样化、博弈论中的混合策略（如猜拳的纳什均衡）等场景，都要求 LLM 的经验分布与目标分布对齐，而非找到单一最优答案。
响应多样性对 test-time scaling 至关重要：生成大量候选方案再选择最优解是 test-time scaling 的核心策略，但 LLM 的输出往往坍缩到有限答案集中，限制了候选方案的多样性。
现有去偏方法效果有限：调高温度、few-shot 示例、prompt 集成等方法虽能部分缓解偏差，但在有偏分布任务上效果不稳定，且多数方法需要针对每个任务单独调整。
LLM 能描述分布但不能采样：已有研究表明 LLM 能准确描述一个概率分布，但让它们实际从该分布中采样时准确率明显滞后，存在"知道但做不到"的鸿沟。
推理型 LLM 的长 CoT 提供新机遇：deepseek-r1、QwQ-32B 等推理模型具有超长思维链，这为在推理过程中生成足够的随机性熵源提供了可能性。

方法详解¶

核心思想¶

SSoT 的设计极其简洁——只需在 prompt 中添加一条两阶段指令：

生成随机字符串：指示 LLM 输出一个随机字符串，利用这个与任务无关的简单指令产生足够的熵
从字符串中提取随机性：指示 LLM 操作该字符串（如求和取模、哈希等）来推导最终答案

对于 PIF 任务，核心指令为"生成随机字符串，操作它以从目标分布中采样"；对于 DAG 任务，指令为"生成随机字符串，操作它以生成一个多样化的响应"。

关键设计原理¶

偏差隔离：直接从 prompt 选择答案会受到选项位置、标签频率等训练偏差影响；SSoT 将随机性生成与答案选择解耦，"生成随机字符串"这一与任务无关的指令不易受选择偏差影响
完全可并行化：每次生成是独立的，无需维护历史记录，不同于顺序采样方法
统一 prompt 框架：同一个 prompt 框架适用于所有 PIF/DAG 任务，LLM 自主选择最优策略

理论分析¶

定理 4.1（2-universal 哈希函数界）：假设 LLM 生成的字符串中每个字符的条件概率有界（\(\delta \leq P(x_i|\{x_j\}_{j<i}) \leq 1-(A-1)\delta\)），使用 2-universal 哈希函数提取随机性时，TV 距离满足：

\[d_{TV} \leq \frac{\sqrt{M}}{2\delta''} 2^{-\frac{n}{2}\log_2 \frac{1}{(1-(A-1)\delta)^2+(A-1)\delta^2}} + \sqrt{\frac{\ln((2^M-2)/\delta')}{K\phi(\pi_{P_X})}}\]

第一项随字符串长度 \(n\) 指数衰减，第二项是有限样本误差。

定理 4.2（Sum-Mod 策略界）：当 LLM 使用求和取模策略（将字符 ASCII 码求和后对 \(M\) 取模）时，TV 距离同样随字符串长度指数衰减，只要各字符的边际分布不严重偏离均匀分布。

LLM 自主策略选择¶

分析 CoT 发现 LLM 会根据任务复杂度自主选择策略： - Sum-Mod：对均匀分布任务使用简单的 ASCII 码求和取模 - Rolling Hash：对有偏分布任务自动切换到更复杂的多项式哈希（\(\sum_i B^i \text{ord}(c_i)\) 后取模） - DAG 任务：创造性类别自动采用模板+局部采样策略，其他类别用列表+全局采样

实验结果¶

PIF 性能：5 个前沿 LLM 的系统评估¶

模型	方法	2-choice	Biased 2-choice	3-choice	Biased 3-choice	Biased 9-choice
deepseek-v3	Baseline	5.97	111.45	136.03	117.28	297.33
deepseek-v3	SSoT	2.91 (↓51%)	3.54 (↓97%)	15.33 (↓89%)	15.65 (↓87%)	44.90 (↓85%)
deepseek-r1	Baseline	36.09	69.58	106.30	49.53	138.21
deepseek-r1	SSoT	3.03 (↓92%)	1.51 (↓98%)	4.98 (↓95%)	4.30 (↓91%)	18.06 (↓87%)
QwQ-32B	SSoT	3.39	2.47 (↓98%)	1.82 (↓98%)	1.30 (↓99%)	11.48 (↓96%)
PRNG（理想）	—	1.85	1.93	3.36	2.85	13.72

（JS 散度 ×10³，越低越好）

关键发现：deepseek-r1 和 QwQ-32B 使用 SSoT 后的 JS 散度接近伪随机数生成器（PRNG），特别是 QwQ-32B 在 Biased 3-choice 上 JS 散度仅 1.30，甚至优于 PRNG 的 2.85。

DAG 性能与对抗博弈¶

方法	NoveltyBench Overall (Distinct / Utility)
Baseline	4.70 / 5.17
Paraphrase	5.63 / 5.57
T=1.0	5.57 / 6.03
SSoT	6.19 / 5.92

SSoT 在 Distinct 分数上最高（6.19），且在 Creativity 类别上同时提升了 Distinct 和 Utility。WildChat 数据集上 SSoT 的 Distinct 从 3.39 提升到 5.25（+55%）。

猜拳对抗实验：SSoT 使 LLM 在面对 10 个"黑带"猜拳机器人时平均得分接近零（理想的混合策略均衡），而 Baseline 和 Simple prompt 均被机器人系统性击败。

CoT Scaling 分析¶

使用 budget forcing 控制推理长度发现： - 随着 thinking token 增加，生成整数的均匀性显著改善（JS 散度持续下降） - 即使在 T=0（完全确定性解码）下，更长的推理链也能生成更高复杂度的字符串（Lempel-Ziv 复杂度和 zlib 压缩率均随推理长度增长）

亮点与创新¶

极致简洁：仅需在 prompt 中添加一条指令即可大幅改善概率行为，无需训练或外部工具
理论与实践统一：严格证明了 TV 距离的收敛保证，且实验结果与理论预测高度吻合
LLM 自主策略选择：揭示了 LLM 能根据任务复杂度自动发明合适的随机性提取策略（Sum-Mod vs Rolling Hash）
推理长度 scaling law：首次证明 PIF 性能随 CoT 长度 scaling，为推理模型的概率能力提供了新的理解维度

局限性¶

依赖模型推理能力：8B 以下小模型可能无法正确执行取模/哈希等算术操作，导致效果不佳
偏差传播风险：若 LLM 生成的随机字符串具有强位置偏差且采用"懒惰"策略（仅用首字符），输出分布将有偏
不适用于单答案任务：SSoT 专为多有效答案或概率需求场景设计，应用于数学/事实检索等单答案任务可能分散模型注意力
推理开销增加：生成随机字符串和执行字符串操作会增加 CoT 长度和推理成本

评分¶

⭐⭐⭐⭐⭐ 新颖性：将"先生成随机字符串再提取随机性"作为 prompt 策略极具创意，开辟了 LLM 概率行为研究新方向
⭐⭐⭐⭐ 技术质量：理论分析严谨（两个定理），实验覆盖 5 个模型、多种任务设置和对抗场景
⭐⭐⭐⭐ 实用性：零成本即可部署，适用于游戏、模拟、内容多样化等多种场景
⭐⭐⭐⭐ 写作质量：结构清晰，理论-实验-分析层层递进，CoT 策略分析尤为精彩

String Seed of Thought: Prompting LLMs for Distribution-Faithful and Diverse Generation¶

一句话总结¶

背景与动机¶

方法详解¶

核心思想¶

关键设计原理¶

理论分析¶

LLM 自主策略选择¶

实验结果¶

PIF 性能：5 个前沿 LLM 的系统评估¶

DAG 性能与对抗博弈¶

CoT Scaling 分析¶

亮点与创新¶

局限性¶

相关工作对比¶

vs. Prompt Ensemble（提示集成）¶

vs. Few-shot Examples（少样本示例）¶

vs. Sequential Sampling（顺序采样）¶

评分¶

String Seed of Thought: Prompting LLMs for Distribution-Faithful and Diverse Generation¶

一句话总结¶

背景与动机¶

方法详解¶

核心思想¶

关键设计原理¶

理论分析¶

LLM 自主策略选择¶

实验结果¶

PIF 性能：5 个前沿 LLM 的系统评估¶

DAG 性能与对抗博弈¶

CoT Scaling 分析¶

亮点与创新¶

局限性¶

相关工作对比¶

vs. Prompt Ensemble（提示集成）¶

vs. Few-shot Examples（少样本示例）¶

vs. Sequential Sampling（顺序采样）¶

评分¶

相关论文¶