跳转至

Evaluating LLMs on Large-Scale Graph Property Estimation via Random Walks

会议: ACL 2026
arXiv: 2605.01484
代码: https://zenodo.org/records/19632942
领域: 图学习 / LLM 评测 / 估计算法
关键词: large graph reasoning, random walk, LLM benchmark, graph property estimation, partial access

一句话总结

现有 LLM 图推理 benchmark 只用 20–50 节点的小图、还要求全图可见;本文用「随机游走统计量」把最多 2.39M 节点的真实图压成 prompt,提出 EstGraph 评估 LLM 在节点/边数、社区数、图结构、影响节点 4 项估计任务上的表现,发现 LLM 在中等规模图上可达 < 20% 相对误差并能识别图结构。

研究背景与动机

领域现状:NLGraph / GraphQA / GraphArena / GraphPattern 等几乎所有 LLM 图推理 benchmark 都把整张图编码成 edgelist 或邻接表塞进 prompt,问模型最短路径、连通性、Hamilton 路径等"算法执行"问题。

现有痛点:(1) 上下文容不下——典型 benchmark 上限 20–50 节点,跟真实世界差 4–6 个数量级;(2) 全图可见假设不成立——社交网/Web/P2P 的图常通过 API 只能局部查询,无法一次拿全;(3) LLM 在大图上崩盘——作者实测 edgelist→adjacency list 这种最简单的局部任务,随节点数增加,LLM 都会开始漏边或幻觉新边(Fig. 1);(4) 任务焦点错位——大图实际关心的是 community 结构、度分布、影响节点这类全局统计量,而不是具体算法执行。

核心矛盾:图规模增长 → 编码 token 数线性增长 → 撞上 context window;而即便强行塞进 prompt,LLM 也很难维持「全图一致视角」。同时,传统图估计算法(MH-walk、max-degree walk、return-time)要么需要无偏采样(实际 API 做不到),要么要 maximum degree 这种全局信息。

本文目标:(1) 抛掉「全图可见」假设,引入「partial access via random walks」新设置;(2) 设计 4 项面向大图的估计任务,覆盖 size / community / structure / influential node;(3) 构造任务专用的"游走统计量 prompt",让 prompt 长度独立于图规模;(4) 在合成图(最大 100k 节点)与真实图(最大 2.39M 节点)上系统对比 LLM 与经典估计器。

切入角度:作者注意到经典图估计文献(capture-recapture、Chapman 估计器)本就是从局部随机游走推全局;如果先把游走结果压成统计量(度分布、回访率、共现节点数等)再喂给 LLM,让 LLM 用图论先验做推理,就能绕开 context limit、同时利用 LLM 的世界知识。

核心 idea:用「task-specific random-walk statistics」替代「full graph encoding」做 prompt,把 LLM 当成"有图论常识的估计器"而非"算法执行器"。

方法详解

EstGraph 把每个估计任务抽象为:从大图 \(G=(V,E)\) 上采若干条 srw / MH 随机游走 → 统计游走衍生量(节点交集、度分布直方图、重访率等) → 写入 prompt 模板,让 LLM 输出标量估计(节点数、社区数)或排序(top-k 影响节点)。

整体框架

四类任务共享同一个 pipeline:① 选定游走策略(srw or MH)与预算(步数、起点数) → ② 在图上跑游走并记录 (节点 id, 度) → ③ 根据任务转写为 statistics-only prompt(含图论先验提示) → ④ LLM 输出估计值 → ⑤ 与经典估计器对比。

关键设计

  1. Statistics-only Prompt:把 prompt 长度从 \(\Theta(n+m)\) 降到 \(\Theta(\log n)\):

    • 功能:避免把节点 / 边塞进 prompt,让 evaluation 可扩展到百万节点图。
    • 核心思路:对节点/边数估计,用 Chapman 估计器 \(\hat{N}=\frac{(|\mathcal{S}_1|+1)(|\mathcal{S}_2|+1)}{|\mathcal{C}|}-1\)\(\mathcal{S}_1, \mathcal{S}_2\) 是两条独立 MH 游走采到的节点集,\(\mathcal{C}\) 是交集),prompt 中只塞 \(|\mathcal{S}_1|, |\mathcal{S}_2|, |\mathcal{C}|, \bar{d}\) 等汇总量;边数由 \(\hat{M}=\bar{d}\hat{N}/2\) 推得。对结构识别,prompt 只塞游走访问节点的度直方图。对社区估计,prompt 塞游走子图的节点重访 + 跳转模式。
    • 设计动机:真实图(ego-Twitter、twitch-gamers、email-EuAll、as-skitter、wiki-Talk)做 edgelist 编码需 \(10^5\)\(10^7\) token,远超任何 LLM 上下文;统计量 prompt 把 token 数压到几百级别(Fig. 4),相对 edgelist 缩减最多 559×,且与图规模脱钩。
  2. 四任务 benchmark 覆盖大图核心估计需求:

    • 功能:把"大图分析"拆成 4 个互补、有 ground truth 且能跑经典 baseline 对照的任务。
    • 核心思路:① Size estimation(节点 + 边数)—— BA/ER/GRP 合成 + 5 个 SNAP 真实图,与 uniform / MH / max-degree / return-walk 比对;② Community count——20 个 LFR 合成图,与 Louvain / Greedy / Label Propagation 比;③ Graph structure recognition——4 类合成图(BA / ER / LFR / Grid)做 4-分类;④ Influential node ranking——LFR 图上预测 Betweenness / Closeness / PageRank 的 top-20,用 Precision@20 评。
    • 设计动机:4 任务依次对应规模 → 模块化 → 全局拓扑 → 节点重要性,是真实世界分析大图最常用的 4 类问题;每个都有经过几十年研究的成熟 baseline,可公平对比 LLM 表现。
  3. MH vs srw 双采样协议 + 真实可用性约束:

    • 功能:同时报告"理想无偏采样"与"现实可行采样"两档结果,揭示部署 trade-off。
    • 核心思路:MH-walk(含 burn-in)是无偏估计的金标准但要 reject samples 也要预知部分全局信息;srw(simple random walk)按邻居均匀转移,可纯 API 实现,但有度偏置。作者两种都跑、两种都报告,并在表里用 † 标注「需无偏采样(真实不可用)」vs「真正可用」。
    • 设计动机:以往工作只跑 MH 给出乐观结果;本文把"真实部署里你只能用 srw"这一约束 explicit 化,让结论更具操作性——比如对 BA 真实图,srw 下 LLM 表现仅比 MH 差 9%,证明现实部署可行。

损失函数 / 训练策略

本文是纯评测工作,无训练:所有 LLM(gemini-2.5-pro、o3、sonnet-4、deepseek-v3.1)都是闭/开源 API 直推;游走超参(步数、起点数、burn-in)固定,每实验跑 5 个独立游走集合后报中位数 / 均值 / 标准差。

实验关键数据

主实验

合成 BA/ER/GRP 大图节点数估计,相对误差 % 中位数(节选 Large 档:10k–100k 节点):

图类型 uniform† MH† o3 (MH)† o3 (srw) gemini-2.5-pro (srw) deepseek-v3.1 (srw)
BA Large 0.60 12.17 13.08 25.47 52.56 26.97
ER Large 0.77 2.39 3.41 5.57 8.08 6.87
GRP Large 0.56 2.51 2.81 4.94 16.84 4.94

真实大图(百万节点)节点数估计,相对误差 % 中位数:

数据集 (规模) MH† gemini-2.5-pro (MH) o3 (srw) deepseek-v3.1 (srw)
ego-Twitter 51.02 66.04 51.85 51.83
twitch-gamers 59.62 36.64 52.41 52.41
email-EuAll 136.20 19.06 28.84 29.99
as-skitter 75.21 30.01 49.84 50.21
wiki-Talk 181.04 64.37 33.03 34.38

LLM 在真实图上的多数表现超过经典 MH baseline,gemini-2.5-pro 在 email-EuAll 上甚至从 136% 降到 19%。

结构识别准确率(4 类):

模型 BA ER LFR Grid
gemini-2.5-pro 33.3% 73.3% 80.0% 100%
o3 93.3% 93.3% 26.7% 100%
sonnet-4 100% 13.3% 6.7% 100%
DeepSeek-V3.1 80.0% 66.67% 66.67% 100%

Influential node ranking Precision@20 (%):

模型 Betweenness Closeness PageRank
gemini-2.5-pro 6.5 ± 7.4 9.3 ± 8.4 27.5 ± 18.4
o3 31.5 ± 14.2 35.0 ± 11.7 81.0 ± 19.9
sonnet-4 15.3 ± 10.1 23.8 ± 16.1 42.8 ± 28.4
DeepSeek-V3.1 23.0 ± 13.6 20.0 ± 16.4 28.5 ± 23.0

消融实验

维度 观察
srw vs MH (BA Large) srw 比 MH 误差高 78%(合成)/ 9%(真实)
LLM vs Baseline (BA Large, MH) o3 13% vs uniform 0.6%(uniform 需全 nodelist 不可用)
游走预算 (Fig. 6) budget ↑ → size estimate 误差单调下降
多次取中位数 中位数 < 均值很多,提示存在长尾 over-estimate
Community 数 (5–12 范围) LLM 平均绝对误差 1.9–2.6;Louvain ≈ 0
Token 压缩比 statistics prompt vs edgelist:最大 559× 缩减

关键发现

  • 小图 vs 大图差异:合成中等规模图上 LLM 中位误差 < 20%,与 MH baseline 相当;大图上 LLM 更稳定,gemini/o3 在真实百万节点图上反而比 MH 误差小。
  • srw 已经够用:实际部署最重要的指标——srw 路线 LLM 误差只比 MH 差几个百分点,证明"无 burn-in、无 reject"的纯 API 友好方案可行。
  • 中位 ≠ 均值:LLM 偶发 over-estimate 把均值拉得很高(如 deepseek-v3.1 srw BA Large mean 35.38 vs median 26.97),暗示要多次跑取中位作为稳健估计。
  • 模型差异显著:o3 在结构识别、影响节点 ranking 全面最强;gemini-2.5-pro 在 size estimation 真实图上最稳;sonnet-4 偏向把任何图分类为 BA。
  • PageRank > Betweenness/Closeness:因为 PageRank 与 srw 访问频率天然对齐,LLM 用度分布就能近似;最短路类指标对游走难以推断。
  • Token 压缩巨大:对 wiki-Talk 类百万节点图,edgelist 编码需上千万 token,statistics prompt 只需几百,缩减 ≥ 500×。

亮点与洞察

  • 「估计任务」是大图 + LLM 评测的正确切入口:精确算法执行在小图上有意义,到大图必然崩;估计任务自带"近似 OK"的容忍度,刚好匹配 LLM 的近似推理能力,把 LLM benchmark 从 50 节点跃到 2M 节点。
  • Prompt = 任务专用统计量:作者用图论先验把 prompt 设计成"统计 summary + 任务提示"的范式,prompt 长度与图规模解耦,对所有需要把大数据塞进 LLM 的场景(log 分析、流式监控、海量表)都有借鉴价值。
  • 真实可用性约束 explicit 标注 (†):把"哪些 baseline 在真实 API 设置下可用、哪些不可用"做成表格标注,是评测设计上的好范例——它让 LLM 与不公平的"全图可用"baseline 不直接比,得出更可信的"LLM 在真实部署里到底有多好"。
  • LLM 在大图上有"隐式正则化"效应:当数据噪声大时,LLM 凭世界知识给出的估计反而比无监督估计器更稳——这一点在 wiki-Talk、email-EuAll 上 LLM 误差比 MH 低数倍上得到验证。
  • 可迁移启发:把"游走 + 统计 + LLM 推理"换成"采样 + 直方图 + LLM"可以做表格/日志/SQL 大表的近似查询;把图论先验换成医学/金融领域先验也可类似构造 partial-access benchmark。

局限与展望

  • 任务覆盖仍窄:仅 4 类估计任务,没覆盖路径 / 流量 / 链路预测 / 异常检测;属于大图的常见任务集合的子集。
  • 超参未充分消融:游走步数、burn-in、起点数等没有完整网格 ablation,由于 reasoning LLM API 贵;难以判断不同 budget 下 LLM 与 baseline 的真实差距。
  • LLM 输出方差大:mean/median 差距常常 2–10 倍,意味着单次估计不可靠,必须靠多次取中位数;尚无 confidence interval 输出。
  • 对 BA 图偏弱:度分布极度长尾的 BA 图上 LLM 整体不如 MH;说明 LLM 对极端 skew 分布的统计推理仍有欠缺。
  • 影响节点估计 Betweenness < 35%:因为最短路类信息无法从随机游走里直接推得;需更精细的中介性近似算法 + LLM 协同。
  • 未在文本属性图测试:现实图除了拓扑还有节点文本(如 paper、user profile),LLM 本应在这种 multi-modal 图上更有优势,但本文未评估。
  • 未给训练数据:评测纯靠 prompt + reasoning,没探索 fine-tune 一个 graph-stat-LLM 是否能更进一步。

相关工作与启发

  • vs NLGraph / GraphQA / GraphArena:它们假设全图可见、≤50 节点、问算法执行;EstGraph 假设 partial access、最多 2.39M 节点、问估计——把 LLM 图评测从"小图算法"扩到"大图统计"。
  • vs GraphPattern (Dai et al. 2025):GraphPattern 测 motif 识别仍是局部+小图;EstGraph 测全局属性+大图,互补。
  • vs Talk like a Graph (Fatemi et al. 2024):Fatemi 系统比较了 edgelist / adjacency / 自然语言等图编码方式对小图任务的影响;本文直接放弃"编码整张图"路线,转向"编码采样统计",给大图编码提供新范式。
  • vs 经典 capture-recapture / MH / max-degree 估计:本文把这些方法的输出(节点交集大小、度均值等)作为 LLM 的输入特征,让 LLM 在此基础上推理。两者不是替代而是嵌套关系。
  • vs Walk&Retrieve (Böckling et al. 2025):Walk&Retrieve 用知识图谱游走做 RAG 检索;EstGraph 用游走做"图属性估计",思路同源但任务正交。
  • 可迁移启发:「采样 → 任务专用统计 → LLM 推理」是把任何大规模结构化数据接入 LLM 的通用配方;MH/srw 双协议对比也启发其他 sampling-based ML 系统报告"理想 vs 现实"两套指标。

评分

  • 新颖性: ⭐⭐⭐⭐ 第一次将 LLM 图评测从「全图可见小图」扩到「partial access 百万节点」,并把"采样统计 + LLM 推理"做成 systematic benchmark,开拓性强;技术单点(capture-recapture、MH walk)都是已有算法。
  • 实验充分度: ⭐⭐⭐ 4 任务 × 4 LLM × 3 合成 + 5 真实数据集,覆盖较广;但超参 ablation 缺失、且部分任务 baseline 偏少(如 community 只 3 个)。
  • 写作质量: ⭐⭐⭐⭐ 问题 motivation 与对比表格 (Table 1, Fig 4) 简洁有力;prompt design 细节略缺,需查附录。
  • 价值: ⭐⭐⭐⭐ 提供新数据集 + 真实可用的 prompt 模式 + 实践建议(6 条),对所有想在大图上用 LLM 的从业者都有直接指导意义。