Building Social World Models with Large Language Models¶

会议: ICML 2026
arXiv: 2606.11482
代码: https://github.com/ulab-uiuc/social-world-model
领域: 时间序列预测 / LLM / 世界模型 / 社会计算
关键词: 社会世界模型, 信念动力学, 预测市场, 潜在事件归因, 后验引导

一句话总结¶

本文提出"社会世界模型"（SWM），把集体信念当作状态、把社会事件当作外生动作，用 LLM 作转移引擎学一个事件条件的状态转移分布 \(P_\theta(\mathbf s_{t+1}\mid\mathbf s_t,e_t)\)；通过一个冻结的"事后后验归因器"提供伪标签来绕开"事件→信念变化"标注缺失的难题，在用真实预测市场（Kalshi/Polymarket）构建的 SWM-Bench 上显著超过时间序列基础模型与 GPT-5.5 等强基线。

研究背景与动机¶

领域现状：社会信念（如"未来五年是否出现 AGI""谁会当选美国总统"）会随重大事件剧烈波动，理解并预测它的演化对社会事件预测、商业决策都很关键。一个自然的问题是：LLM 既有常识又有社会智能，能不能用它来对"事件驱动的信念动力学"建模？

现有痛点：作者把困难拆成三层：(C1) 可量化性与数据稀缺——集体信念是语义驱动的，难以结构化测量，缺高保真时序数据，连标准 benchmark 都难建；(C2) 社会转移的语义复杂性——信念迁移由心理和文化语境驱动，是非符号化的，传统统计/符号模型抓不住这些隐式转移规则；(C3) 缺乏显式归因标签——就算观察到信念变了，"哪个具体事件导致的"往往是隐的，没有"事件→变化"的监督，模型学不出机制。

核心矛盾：信念动力学本质是 \(P(\mathbf s_{t+1}\mid\mathbf s_t,e_t)\) 这样一个转移过程，但它的"状态"难测、"转移规则"非符号、"驱动事件"无标注——三件事彼此缠绕，缺一不可。

本文目标：分别破这三关——给信念找一个可量化的高保真状态、给语义转移找一个能装下常识的引擎、给归因找一套不依赖人工标注的监督信号。

切入角度：作者的关键观察是预测市场（Polymarket/Kalshi）是比问卷/社媒更优的集体意见聚合信号——参与者用真金白银下注，价格逼近群体对某二值命题的平均信念，且天然围绕不确定结果形成、规模大、投资驱动质量高。于是把市场价格波动当作集体信念的代理，把信念测量变成可观测的时序问题。

核心 idea：把社会信念建成"状态"、社会事件建成"外生动作"，用 LLM 当转移引擎学一个共享的世界模型 \(P_\theta\)，并用"事后看结果更容易归因"这一直觉，让冻结 LLM 做后验归因、产出伪标签来训练前向模型——把社会推理与动力学建模解耦。

方法详解¶

整体框架¶

SWM 把一个命题 \(q\)（如"OpenAI 是否在 2025 年 2 月发布 GPT-5"）的信念建成状态 \(\mathbf s_t=(q,(v_{t-k},\dots,v_t))\)，其中 \(v_t\in[0,1]\) 是市场隐含的"Yes"概率（取每日收盘价），用历史窗口而非单点是为了带上动量与波动信息；把每天的新闻事件建成外生动作 \(e_t^i\)，并定义一个"空事件" \(e_t^\emptyset\) 表示当天没有显著外部冲击。模型要学的是事件条件的转移分布 \(\mathbf s_{t+1}\sim P_\theta(\cdot\mid\mathbf s_t,e_t^i)\)。

训练管线由三个以 LLM 为骨干的模块协同：社会世界模型 \(P_\theta\)（学转移动力学）、先验归因器 \(P_\eta\)（推理时不见未来、给候选事件打分）、后验归因器 \(Q_\phi\)（冻结、看得到未来 \(\mathbf s_{t+1}\)，给出"是哪个事件造成了这次变化"的软标签）。三步走：先收集观测到的状态-事件转移三元组 \((\mathbf s_t,e_t^i,\mathbf s_{t+1})\)；再用后验 \(Q_\phi\) 产出的尖锐分布 \(\pi_t\) 去监督前向——\(P_\theta\) 学"给定被归因事件下的变化"、\(P_\eta\) 学"在看不到未来时预测归因"。注意只有 \(P_\eta\) 和 \(P_\theta\) 在训练中更新，\(Q_\phi\) 始终冻结。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["预测市场数据<br/>Polymarket + Kalshi"] --> B["信念接地为状态<br/>s_t=(q, v历史窗口)"]
    B --> C["后验归因器 Q_φ（冻结）<br/>看到 s_t+1，给软标签 π_t"]
    C -->|"top-k 加权回归 Δ"| D["世界模型 P_θ<br/>学事件条件转移动力学"]
    C -->|"KL 蒸馏归因"| E["先验归因器 P_η<br/>不看未来预测是哪个事件"]
    D --> F["推理：预测(marginalize)<br/>/ 模拟(what-if)"]
    E --> F

关键设计¶

1. 把社会信念接地为预测市场状态：用价格波动当集体信念的高保真代理

直击 C1（信念难量化、无标准 benchmark）。作者不去用充满抽样偏差的问卷或自选择严重的社媒，而是用预测市场价格——理性参与者用财务下注表达预期，价格逼近交易者的平均信念。形式上，一个社会信念是命题-价格对 \(b_t=(q,v_t)\)，\(v_t\in[0,1]\) 取每日收盘价；状态 \(\mathbf s_t=(q,(v_{t-k},\dots,v_t))\) 是回看窗口为 \(k\) 的有序序列（实验取 \(w=16\) 天），用轨迹而非静态点是为了让模型感知动量和波动。基于此作者建出 SWM-Bench：覆盖 3k+ 市场、超 1.2 万条信念预测数据点，横跨政治、金融、加密货币，是首个从真实预测市场切出的信念演化 benchmark，把潜在的社会信念变成了可测、可评的时序格式。

2. LLM 作转移引擎 + 潜在事件归因：用一个共享世界模型装下非符号的社会转移规则

直击 C2（社会转移语义复杂、符号模型抓不住）。SWM 不去逐个模拟 agent 还原宏观动态，而是直接参数化宏观信念动力学：把每个市场当作状态空间 \(\mathcal S\) 的一个实例，学一个共享的转移函数 \(P_\theta\)，借 LLM 在人类话语上的海量预训练当"认知引擎"提供常识推理。每次转移的驱动事件被建成一个分类潜变量 \(Z_t\in\{0,1,\dots,m\}\)（索引候选事件集 \(\mathcal E_t\)，\(Z_t=0\) 留给空事件），预测分布对 \(Z_t\) 边缘化：

\[P(\mathbf s_{t+1}\mid\mathbf s_t,\mathcal E_t)=\sum_{i=0}^m \underbrace{P_\theta(\mathbf s_{t+1}\mid\mathbf s_t,e_t^i)}_{\text{世界模型}}\,\underbrace{P_\eta(Z_t{=}i\mid\mathbf s_t,\mathcal E_t)}_{\text{先验归因器}}.\]

一个巧妙处是空事件分支无参数：固定 \(\mathbb E_{P_\theta}[\mathbf s_{t+1}\mid\mathbf s_t,e_t^\emptyset]=\mathbf s_t\)，即有效市场下的鞅/持续性预测；这样 \(\theta\) 只建模非空事件的动力学，而归因到空事件的区间仍能给 \(P_\eta\) 提供监督（不被丢弃）。这条持续性基线也成了度量事件效应的参照——\(\mathbb E_{P_\theta}[\mathbf s_{t+1}\mid\mathbf s_t,e]-\mathbf s_t\) 就是事件 \(e\) 的"异常效应"，呼应经典事件研究。

3. 后验引导训练：用"事后诸葛"的冻结 LLM 造伪标签，绕开归因标注缺失

直击 C3（无"事件→变化"标签）。直接最大化边缘对数似然不可行：\(Z_t\) 不可观测、\(\mathcal E_t\) 里多数候选与某次变化无关。关键观察是事后归因容易得多——一个看得到真实结果 \(\mathbf s_{t+1}\) 的冻结 LLM（后验归因器 \(Q_\phi\)）能可靠判断"哪个候选的时机与内容解释了这次变化"，产出一个高度尖锐的分布 \(\pi_t\coloneqq Q_\phi(\cdot\mid\mathbf s_t,\mathbf s_{t+1},\mathcal E_t)\)。前向模型（必须在结果揭晓前行动）被训去匹配这些事后标签，整个过程就是伪标签：事后供标签、事前学预测。训练目标为

\[\mathcal L_{\theta,\eta}=\underbrace{-\,\mathbb E_{Z_t\sim\pi_t}\big[\log P_\theta(\mathbf s_{t+1}\mid\mathbf s_t,e_t^{Z_t})\big]}_{\mathcal L_{\text{wm}}}+\underbrace{D_{\mathrm{KL}}\big(\pi_t\,\|\,P_\eta\big)}_{\mathcal L_{\text{attr}}}.\]

由于 \(P_\theta\) 与 \(P_\eta\) 参数不相交，两项解耦、各自独立优化、无需平衡超参。把式子整体读作 \(\log P_{\theta,\eta}(\mathbf s_{t+1}\mid\mathbf s_t,\mathcal E_t)\) 的负 ELBO（\(Q_\phi\) 当变分分布、\(P_\theta\) 当似然、\(P_\eta\) 当先验），但与标准 VAE 不同：变分分布是冻结的、先验反而被学，所以界一直是松的——作者诚实地把它定位成"后验引导蒸馏"而非变分推断，成败取决于 \(Q_\phi\) 的零样本校准而非收紧界。

损失函数 / 训练策略¶

世界模型项：信念变化 \(\Delta_t=\mathbf s_{t+1}-\mathbf s_t\) 连续，取最简单的同方差高斯似然 \(\Delta_t\sim\mathcal N(\mu_\theta(\mathbf s_t,e),\sigma^2 I)\)，\(\mu_\theta\) 是 LLM 骨干上的回归头；方差固定（下游只用点预测），负对数似然退化为按事后概率加权的平方误差 \(\mathcal L_{\text{wm}}=\sum_{i\in\mathcal I_t}\bar\pi_t^i\|\Delta_t-\mu_\theta(\mathbf s_t,e_t^i)\|^2\)，空事件固定 \(\mu_\theta(\cdot,e_t^\emptyset)\equiv0\)。因 \(\pi_t\) 实际很集中，只在其 top-\(k\) 支撑上重归一化后计算。归因器项：候选数 \(m\) 随时间变，故每个候选独立打 salience logit 再 softmax，含一个可学空 logit，\(\mathcal L_{\text{attr}}\) 就是对事后标签的交叉熵。推理两用：预测（forecasting）对先验 \(P_\eta\) 的不确定性边缘化，化简为"持续性基线 + 归因加权的期望移动" \(\widehat{\mathbf s}_{t+1}=\mathbf s_t+\sum_{i\ge1}P_\eta(Z_t{=}i)\mu_\theta(\mathbf s_t,e_t^i)\)；模拟（simulation）则绕过归因器、直接对一个假设事件 \(e_h\) 取期望，做反事实 what-if。

实验关键数据¶

主实验¶

在 SWM-Bench 上用 MASE / MAE / 三向方向准确率 (DA) / 皮尔逊相关 (Corr) 评测，分全测试集 (all) 与"被归因子集" (attr)。SWM 用 Qwen3-8B 骨干，与时序模型、零样本提示 LLM、微调 LLM 三类基线比。SWM（后验）在 Kalshi 上取得 SOTA，论文报告相对 GPT-5.5 约 +4% 方向准确率，并在 Corr 上大幅领先；Polymarket 上则为有竞争力的表现。

方法	Kalshi MASE↓ (all/attr)	Kalshi MAE↓ (all/attr)	Kalshi Corr↑ (all/attr)
TimeMixer (时序)	1.079 / 1.135	0.065 / 0.119	−0.056 / −0.224
PatchTST (时序)	1.174 / 1.232	0.071 / 0.129	−0.035 / −0.194
GPT-5.5 (提示)	0.997 / 1.004	0.060 / 0.105	0.242 / 0.250
Qwen3.5-397B (提示)	1.142 / 1.194	0.069 / 0.125	0.108 / 0.181
SWM (prior)	1.013 / 0.800	0.061 / 0.084	0.167 / 0.380
SWM (posterior)	0.915 / 0.738	0.055 / 0.077	0.367 / 0.525

在 Polymarket 上 SWM（后验）MASE 0.980/0.892、MAE 0.042/0.068 同样位列最优/并列最优，Corr 0.221/0.439 与 GPT-5.5（0.264/0.482）相当——印证"Kalshi SOTA、Polymarket 有竞争力"。

消融实验¶

配置	变量	趋势 / 说明
归因器规模	Qwen3-0.6B / 4B / 8B	归因器越大，归因质量越好、整体性能越高
世界模型规模	Qwen3-0.6B / 4B / 8B	世界模型越大性能越好（受益于更强社会推理）
时序窗口 \(w\)	1 / 2 / 4 / 8 / 16 天	更长历史窗口带来更好的动量/波动建模
后验 vs 先验	SWM(post) vs SWM(prior)	后验引导在所有平台全面优于先验，验证"事后归因更易"
事件集规模 \(N\)	随 \(N\) 变化的 MASE	后验选择很快饱和，支持"归因稀疏"（单事件近似）假设

关键发现¶

后验 > 先验 是最核心的实证：SWM(posterior) 在 MASE/MAE/Corr 上一致优于 SWM(prior)，直接证明"看得到结果的事后归因"能给前向模型造出更干净的训练信号。
后验分布 \(\pi_t\) 极其集中（397B 后验更尖锐、质量几乎压在 top-1 事件上），这既支撑了 top-\(k\) 截断的工程简化，也印证了"单事件主导一次大波动"的一阶近似 (A1)。
SWM 在 Kalshi 上 SOTA、Polymarket 上有竞争力——作者将差异归于两平台市场结构不同；这提示方法对市场特性敏感。
纯时序基线（TimesNet/iTransformer/PatchTST 等）Corr 普遍接近 0 甚至为负，说明"只看价格历史、不看新闻事件"难以捕捉事件驱动的信念跳变，新闻条件确实带来增益。

亮点与洞察¶

"事后归因更容易"这一直觉被工程化成后验引导蒸馏，是全文最"啊哈"的地方：把无标注的因果归因问题，转成"冻结 LLM 当事后裁判→产伪标签→前向模仿"，且因两个前向模型参数不相交而免去了平衡超参。
把世界模型范式从物理环境迁移到社会信念：状态=信念轨迹、动作=外生事件、空事件=鞅基线，框架干净且可解释，预测/模拟两用（forecasting 验证保真、simulation 做 what-if）。
空事件分支无参数、固定为持续性预测，既当了高效市场的合理基线，又顺手给归因器提供了"无显著事件"区间的监督——一个设计解决了两个问题。
"用预测市场价格当集体信念代理"这一数据视角可迁移到更广的社会计算任务，绕开问卷/社媒的抽样偏差。

局限与展望¶

方法建立在两条简化假设上：(A1) 一阶单事件近似（一次变化只归因到单个事件），(A2) 条件外生性（候选事件给定状态后外生）。作者承认对"市场自反性事件"外生性较弱，此时 SWM 只能当预测模型而非因果识别模型；若 A1 失效（多事件共同驱动），单事件效应可能被高估。
模拟（what-if）对非典型假设事件 \(e_h\) 需要分布外外推，\(\mathcal L_{\text{wm}}\) 只监督了训练中被判可信的事件，覆盖之外不保证可靠（仅无参持续性基线仍精确）。
整套界一直是松的（变分分布冻结、先验被学），成败完全押在 \(Q_\phi\) 的零样本校准上；换一个校准更差的后验 LLM 可能整体退化。
评测局限在 Kalshi/Polymarket 两个预测市场，是否能推广到没有市场价格代理的社会信念领域（如纯舆论）还未验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 世界模型范式迁移到社会信念 + 后验引导蒸馏解归因，组合很新
实验充分度: ⭐⭐⭐⭐ 三类基线全覆盖、多维消融，但仅限两个预测市场平台
写作质量: ⭐⭐⭐⭐⭐ 三层难题→三大破解一一对应，ELBO 解读诚实标注界松
价值: ⭐⭐⭐⭐ 提供新 benchmark 与可解释的信念预测管线，应用面广但依赖市场代理