When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets (CAIA)¶

会议: ICML 2026
arXiv: 2510.00332
代码: https://github.com/SurfAI/CAIA (有，含 Leaderboard 与 HuggingFace 数据集)
领域: 幻觉检测
关键词: 对抗性评测、加密货币、tool selection、Pass@k 陷阱、时间锚定基准

一句话总结¶

CAIA 用 17 个前沿大模型在 178 个时间锚定的加密货币真实任务上构建首个"对抗性高风险"agent 基准，发现：无工具时所有模型只有 12–28% 准确率（接近随机猜测），有工具时最强 GPT-5 也只到 67.4% vs. 人类入门分析师 80%；更致命的是模型 55.5% 的工具调用偏向"不可靠的网页搜索"而绕过权威链上数据，导致 Pass@k 指标系统性掩盖了"靠试错碰运气"的危险行为。

研究背景与动机¶

领域现状：过去一年大模型在 ICPC、IMO 等高难度封闭式 benchmark 上接连刷新纪录，让"自主部署 AI agent"显得万事俱备。但现有 benchmark（SWE-Bench、AppWorld、TheAgentCompany 等）几乎都假设"工具可用、信息可信、其他 agent 合作"，测量的是 competence（能力上限）而不是 resilience（在敌对环境下的生存能力）。

现有痛点：金融、治理、关键基础设施这些 agent 真正要去的领域满是主动欺骗、虚假信息、不可逆操作；一个能在 IMO 拿金牌的 agent 仍可能轻信钓鱼链接、买入被攻陷的资产。已有评测从来没有专门为"在被攻击者包围的环境里活下来"设计过；同时 Pass@k 这类成熟指标默认"多试几次就行"，但在高风险场景中第一次错就可能造成数百万美元不可逆损失。

核心矛盾：(1) 训练数据来自整齐的 Web2，部署环境却是充满恶意诱导的 Web3/真实金融市场；(2) benchmark 越来越难，但难度增加不等于鲁棒性增加；(3) Pass@5 等指标在受控任务里看是"探索胜利"，在不可逆决策里却是"瞎试碰对"。

本文目标：构造一个能直接量化 agent 在对抗+高风险+多源数据混杂条件下表现的 benchmark；并刻画当前 SOTA 模型的具体失败模式（特别是 tool selection 行为），把"对抗鲁棒性"提升为可衡量的、必须 pass 的部署前提。

切入角度：作者敏锐地把加密货币选作"天然实验室"——它同时具备(i) 攻击者活跃（蜜罐合约、闪贷、coordinated 社交工程）、(ii) 高风险（2024 全年 $30B 损失，链上交易不可逆）、(iii) 可验证地面真相（区块链全透明且不可篡改）三个性质，是其他金融场景做不到的对抗评测的"三合一"。

核心 idea：用"对抗优先 + 真实金融损失 + 时间锚定 + 细粒度失败诊断"四位一体的设计，把 agent benchmark 从"能否完成"升级到"能否在主动敌对下安全完成"。

方法详解¶

整体框架¶

CAIA 想把 agent 评测从"能否完成任务"升级到"能否在主动敌对环境下安全完成"，为此它把加密货币选作天然对抗实验室，构造了 178 道时间锚定的真实分析任务。整条 pipeline 是：先从 3000+ 真实从业者的 10000+ 真实查询里，经 5 阶段流水线萃取出既真实、可验证、又抗训练数据污染的高质量题目；再让每个模型在"无工具（闭卷）"和"有工具（开卷，23 个专业工具 + 统一 ReAct 框架）"两种条件下各跑一遍，每题独立采样 5 次取多数投票，并同时报告 Pass@1/Pass@5、token 消耗与美元成本；最后把准确率拆成 6 个分析类目 + 工具调用分布 + cost/score，做部署级的细粒度失败诊断。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    Q["3000+ 从业者的<br/>10000+ 真实查询"] --> PIPE
    subgraph PIPE["对抗优先 + 时间锚定数据流水线"]
        direction TB
        S1["Stage 1 LLM 初筛<br/>留 top 15% ≈ 1000 条"] --> S2["Stage 2 92 专家评审<br/>≥4 评去极值 → 186 条"]
        S2 --> S3["Stage 3 格式统一<br/>锚定 block / timestamp"]
        S3 --> S4["Stage 4 构造可复现<br/>ground-truth toolchain → 178 条"]
        S4 --> S5["Stage 5 划 6 类目"]
    end
    PIPE --> T["178 道时间锚定任务"]
    subgraph EVAL["双条件评测 + 23 工具统一 ReAct 框架"]
        direction TB
        NC["无工具（闭卷）<br/>仅 parametric memory"]
        WC["有工具（开卷）<br/>23 工具 + ReAct"]
    end
    T --> EVAL
    subgraph SCORE["6 类细粒度失败诊断 + cost-aware 评测"]
        direction TB
        RUN["每题采样 5 次多数投票<br/>记 Pass@1 / Pass@5 / 成本"] --> DIAG["6 类目准确率 + 工具调用分布<br/>+ cost/score"]
    end
    EVAL --> SCORE

关键设计¶

1. 5 阶段对抗优先 + 时间锚定数据流水线：让 ground truth 客观、可复现且抗污染

传统静态 benchmark 的两个老毛病是容易被训练数据污染（contamination）、以及评测时出现"看着对但其实跑不出来"的题，CAIA 用一条 5 阶段流水线把这两点一起解决。Stage 1 用 LLM-as-judge 按主题相关性、答案是否存在、是否可锚定温度做初筛，从 1 万条查询里保留 top 15%（约 1000 条）；Stage 2 把这些题分配给 92 名领域专家，每题至少 4 评、去掉最高最低后取平均，挑出 top 200，去重后剩 186 条 prototype；Stage 3 统一改写格式，强制把每道题锚定到具体 block number 或 timestamp，使答案完全可复现；Stage 4 为每题构造"可复现 ground-truth toolchain"——不仅给标准答案，还给出到达该答案的工具调用链，凡是无法复现的整道剔除，最终落到 178 条；Stage 5 把题目划进 On-Chain Analysis (43.3%)、Project Discovery (27.5%)、Tokenomics (12.9%)、Overlap (7.9%)、Trend Analysis (4.5%)、General Knowledge (3.9%) 6 个类目，方便后面做分领域诊断。这套设计之所以有效，是因为区块链的不可篡改性让 ground truth 真正客观，而 block height/timestamp 锚定让答案唯一且可复现，从而绕开了传统金融 benchmark 必须在"专有数据"和"合成模拟"之间二选一的两难。

2. 双条件评测 + 23 工具统一 ReAct 框架：把"模型知识"和"工具编排"解耦

以前的 agent 评测常把工具能力、模型推理、prompt 工程混在一起，看不出真正的瓶颈在哪，CAIA 用两种条件把这两个能力维度拆开。无工具条件相当于闭卷考，强迫模型只用 parametric memory 答题，测的是基础理解；有工具条件相当于开卷考，提供 23 个工具（Etherscan / CoinGecko / DefiLlama 等链上分析平台、市场数据 API、web search、Python interpreter 等）。关键的工程约束是：作者特意保证"正确答案总能通过某个合适工具拿到"，于是挑战被完全定位到 tool selection + synthesis——失败不再可能归咎于"信息找不到"，只能归因到"没选对工具源"。所有有工具实验都跑在统一的 ReAct-style 框架里（标准 dispatch、result parsing、iterative reasoning），消除不同实现带来的差异，让模型之间真正可比。

3. 6 类细粒度失败诊断 + cost-aware 评测：把单一准确率拆开，揭穿"试错碰运气"

单一 accuracy 是一份"宽度为 0"的报告，既看不到"为什么错"也看不到"错的代价"，CAIA 因此把评测做成多维诊断。主指标用 5 轮多数投票，缓解大模型的采样方差；同时报告 Pass@1 和 Pass@5，并明确指出 Pass@k 在高风险场景里是"危险指标"——有工具版 DeepSeek R1 的 Pass@1 只有 26.4% 但 Pass@5 暴涨到 54.5%，说明它本质上是靠多次随机尝试碰对，而在不可逆决策里第一次错就 game over。每题还记录 token 消耗与美元成本，算出 cost/score，结果显示成本与准确率并不正相关（GPT-OSS 120B 性能逼近前沿，成本却比某些闭源模型低约 100 倍）。失败模式分析进一步发现：55.5% 的工具调用偏向不可靠的 web search，即便专门的链上 API 能直接给出真值，模型仍倾向被 SEO 优化的虚假信息和社交平台 manipulation 误导。把行为分布（工具选择偏好）、稳定性（多数投票 vs 单跑）、经济性（cost/score）合并起来看，才能给出 high-stakes 场景真正需要的部署级判断。

损失函数 / 训练策略¶

CAIA 是 benchmark 不是训练方法，不涉及损失函数。评测协议为：每题独立运行 5 次取 majority vote；human baseline 由 16 名来自大学区块链俱乐部和早期创业公司的初级分析师在分层 10% 子集上完成，平均准确率 80%。

实验关键数据¶

主实验¶

17 个模型（GPT-4.1/4o/5/o3/OSS-120B、Claude Sonnet/Opus 4/4.1、Gemini 2.5 Flash/Pro、Grok 4/Fast、DeepSeek R1/V3.1、Kimi K2、Llama 4 Maverick、Qwen 3 235B）双条件评测：

模型	无工具多数投票	有工具多数投票	有工具 Pass@5	有工具成本 ($)
GPT-5	0.275	0.674	81.5 (≈)	0.021
Claude Opus 4	0.135	0.573	71.9	1.114
Claude Opus 4.1	0.135	0.563	69.0	0.936
Claude Sonnet 4	0.118	0.567	66.9	0.229
DeepSeek V3.1	0.157	0.492	71.2	0.022
GPT-4.1	0.197	0.466	60.7	0.091
Gemini 2.5 Pro	0.225	0.449	61.2	0.041
GPT-4o	0.169	0.303	55.6	0.091
DeepSeek R1	0.208	0.174	54.5	0.012
GPT-OSS 120B	0.146	(Pareto)	–	0.0003
人类入门分析师	–	0.80	–	–

最大的反差：DeepSeek R1 有工具时 Pass@1=26.4% 但 Pass@5 暴涨到 54.5%，说明它实际上是在"瞎试"；GPT-OSS 120B 以 $0.0003/query 接近前沿性能，是 cost-accuracy Pareto 前沿。

消融实验¶

维度	关键观察	说明
工具可用性	无工具 12–28% → 有工具最高 67.4%	工具有用，但不是天花板的解释
Tool 选择行为	55.5% 调用是 web search	即使专业链上工具直接给答案，模型仍偏好不可靠源
Pass@1 vs Pass@5	多模型 Pass@5 ≫ Pass@1	揭示 trial-and-error，高风险场景中等同于"赌博"
类目分布	On-Chain 43.3% / Project Disc. 27.5% / Tokenomics 12.9%	链上交易分析占主体，最考工具调用
人类 baseline	80% 对 GPT-5 67.4%	即使最强模型 + 完整工具仍差 12.6pp

关键发现¶

Tool selection catastrophe：模型系统性偏好 web search（55.5%），即使专业链上工具直接给出真值仍如此；这意味着失败的根因不是"信息不够"而是"agent 无法把握信息源的可靠性梯度"，是架构级缺陷而非知识缺口。
Pass@k 在高风险场景下是误导指标：Pass@5 与 Pass@1 的巨大鸿沟揭示了"看着多试就对"的伪能力——在金融、医疗、安全场景里第 1 次错就 game over，传统指标完全失真。
闭源 ≠ 必然更强：GPT-OSS 120B 用 $0.0003/query 跑出与多个闭源模型相当甚至更好的成绩，cost/score 比 Claude Opus 4 低近 1000 倍，对实际部署经济学冲击巨大。
Web2 训练背景的根本限制：模型在 crypto 这类 Web3 场景下的失败是"训练分布外"导致的——他们没见过链上数据的结构、没经历过 SEO 攻击场景，这预示在 cybersecurity、content moderation 等其他对抗领域也会出现类似 collapse。
频率上的"幻觉"具有具体经济代价：题目锚定到真实区块高度和金额，错误答案直接映射到具体可量化的资金损失，让 hallucination 从"看起来不对"变成"会赔多少钱"。

亮点与洞察¶

加密货币作为对抗性 testbed 的论证非常扎实：作者把"为什么是 crypto"明确分解成 adversarial + irreversible + verifiable 三性质，论证一气呵成，是这篇 benchmark 论文最强的"motivation 写作模板"。
5 阶段流水线 + 92 专家审稿 + 3000+ 真实查询作种：数据 curation 工作量大、专业性强，是 benchmark 真正有公信力的关键，远比"造合成题"更难复制。
明确把 tool selection 量化为可观察行为：把"调用 23 个工具的频率分布"作为评测维度而不只是看准确率，是这篇论文给 agent 评测领域贡献的最深刻方法论。
Pass@k 批判：明确指出 Pass@k 在高风险/不可逆决策场景中误导性强，呼吁用 majority vote + cost-aware 评测，是对整个 agent benchmark 社区的方法论纠偏。

局限与展望¶

178 道题相对小：虽然每道都经过专家审，但与 SWE-Bench (2294)、AppWorld (750) 等比规模仍偏小，统计噪声不可忽略；作者承诺持续更新缓解此问题。
仅限加密货币：虽然作者论证"crypto 是 adversarial 极端情形"，但其他领域的攻击模式（医学误诊、政治内容操纵）和 crypto 的链上欺骗不同构，迁移结论需要验证。
评测的对抗性目前主要体现在"信息环境本身敌对"上，没有针对模型 prompt-injection、jailbreak、tool poisoning 这些更主动的攻击；后续可扩展。
ReAct 框架虽然统一了实现，但本身可能限制某些模型的发挥（如有些模型在 plan-then-execute 框架下更强）；不同 agentic scaffolding 的影响未隔离评估。
Human baseline 仅 16 人 × 10% 子集 = 18 题/人，方差较大；80% 这个数字应被理解成 ballpark 而非精确门槛。
缺乏"对手随时间演化"的动态评测——adversary 会迭代手法，benchmark 需要 continuous update 才能保持锋利，作者承诺但未具体说明频率与机制。

评分¶

新颖性: ⭐⭐⭐⭐ Benchmark 主体新但"对抗+真实+时间锚定"每个元素单独都见过，关键是组合 + crypto 这个 testbed 的选择有深度。
实验充分度: ⭐⭐⭐⭐⭐ 17 个模型 × 双条件 × 5 次采样 × 6 类目 × 成本 + 人类 baseline，覆盖维度极广。
写作质量: ⭐⭐⭐⭐⭐ "Why crypto" 论证、"Tool selection catastrophe" 命名、"Pass@k 批判" 都很有传播力，几乎可以当政策白皮书用。
价值: ⭐⭐⭐⭐⭐ 直接给 LLM agent 部署到金融等高风险场景敲了警钟，对模型公司、监管、用户三方都有指导意义。