When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets (CAIA)¶
会议: ICML 2026
arXiv: 2510.00332
代码: https://github.com/SurfAI/CAIA (有,含 Leaderboard 与 HuggingFace 数据集)
领域: Agent评测 / 安全鲁棒性 / 金融AI
关键词: 对抗性评测、加密货币、tool selection、Pass@k 陷阱、时间锚定基准
一句话总结¶
CAIA 用 17 个前沿大模型在 178 个时间锚定的加密货币真实任务上构建首个"对抗性高风险"agent 基准,发现:无工具时所有模型只有 12–28% 准确率(接近随机猜测),有工具时最强 GPT-5 也只到 67.4% vs. 人类入门分析师 80%;更致命的是模型 55.5% 的工具调用偏向"不可靠的网页搜索"而绕过权威链上数据,导致 Pass@k 指标系统性掩盖了"靠试错碰运气"的危险行为。
研究背景与动机¶
领域现状:过去一年大模型在 ICPC、IMO 等高难度封闭式 benchmark 上接连刷新纪录,让"自主部署 AI agent"显得万事俱备。但现有 benchmark(SWE-Bench、AppWorld、TheAgentCompany 等)几乎都假设"工具可用、信息可信、其他 agent 合作",测量的是 competence(能力上限)而不是 resilience(在敌对环境下的生存能力)。
现有痛点:金融、治理、关键基础设施这些 agent 真正要去的领域满是主动欺骗、虚假信息、不可逆操作;一个能在 IMO 拿金牌的 agent 仍可能轻信钓鱼链接、买入被攻陷的资产。已有评测从来没有专门为"在被攻击者包围的环境里活下来"设计过;同时 Pass@k 这类成熟指标默认"多试几次就行",但在高风险场景中第一次错就可能造成数百万美元不可逆损失。
核心矛盾:(1) 训练数据来自整齐的 Web2,部署环境却是充满恶意诱导的 Web3/真实金融市场;(2) benchmark 越来越难,但难度增加不等于鲁棒性增加;(3) Pass@5 等指标在受控任务里看是"探索胜利",在不可逆决策里却是"瞎试碰对"。
本文目标:构造一个能直接量化 agent 在对抗+高风险+多源数据混杂条件下表现的 benchmark;并刻画当前 SOTA 模型的具体失败模式(特别是 tool selection 行为),把"对抗鲁棒性"提升为可衡量的、必须 pass 的部署前提。
切入角度:作者敏锐地把加密货币选作"天然实验室"——它同时具备(i) 攻击者活跃(蜜罐合约、闪贷、coordinated 社交工程)、(ii) 高风险(2024 全年 $30B 损失,链上交易不可逆)、(iii) 可验证地面真相(区块链全透明且不可篡改)三个性质,是其他金融场景做不到的对抗评测的"三合一"。
核心 idea:用"对抗优先 + 真实金融损失 + 时间锚定 + 细粒度失败诊断"四位一体的设计,把 agent benchmark 从"能否完成"升级到"能否在主动敌对下安全完成"。
方法详解¶
整体框架¶
CAIA 由 178 道时间锚定的真实加密货币分析任务组成,覆盖 6 个细分类目;评测时每个模型分"无工具"和"有工具(23 个专业工具 + ReAct 框架)"两种条件运行,每题独立跑 5 次取多数投票并报告 Pass@1/Pass@5;同时记录 token 消耗与美元成本,给出 cost-per-accuracy。所有数据从 3000+ 真实从业者的 10000+ 真实查询中通过 5 阶段流水线萃取。基准设计上明确把 contamination 控制(block height/timestamp 锚定)和 liveness(持续退役旧题/加新题)写进规范。
关键设计¶
-
5 阶段对抗优先 + 时间锚定数据流水线:
- 功能:从 1 万条真实查询里筛出 178 条既真实、可验证、又能抵抗训练数据污染的高质量任务。
- 核心思路:(Stage 1) LLM-as-judge 做主题相关性、答案存在性、温度锚定的初筛,保留 top 15% 约 1000 条;(Stage 2) 92 名领域专家分配审阅,每题至少 4 评、去掉最高最低后取平均,进入 top 200,去重后剩 186 条 prototype;(Stage 3) 统一改写格式,强制把每道题锚定到具体 block number 或 timestamp,让答案完全可复现;(Stage 4) 为每题构造"可复现 ground-truth toolchain"——不仅给标准答案,还给出到达答案的工具调用链,不能复现的整道剔除,最终保留 178 条;(Stage 5) 划分到 On-Chain Analysis (43.3%)、Project Discovery (27.5%)、Tokenomics (12.9%)、Overlap (7.9%)、Trend Analysis (4.5%)、General Knowledge (3.9%) 6 个类目以便做细粒度诊断。
- 设计动机:传统静态 benchmark 易被训练数据污染(contamination)且评测时容易出现"看起来对但其实跑不出来"的情况;时间锚定 + 可复现工具链同时解决这两个问题。区块链的不可篡改性让 ground truth 真正客观,避免传统金融 benchmark 必须在"专有数据"和"合成模拟"之间二选一的两难。
-
双条件评测 + 23 工具 ReAct 框架:
- 功能:把"模型本身知识"与"工具编排能力"解耦,分别量化两侧短板。
- 核心思路:无工具条件 = 闭卷考,强迫模型只用 parametric memory 答题,测量基础理解;有工具条件 = 开卷考,给 23 个工具(Etherscan/CoinGecko/DefiLlama 等链上分析平台、市场数据 API、web search、Python interpreter 等),且作者特意保证"正确答案总能通过合适工具拿到",从而把挑战完全定位到 tool selection + synthesis,而不是"信息找不到"。所有有工具实验统一在 ReAct-style 框架内运行(标准 dispatch、result parsing、iterative reasoning),消除实现差异。
- 设计动机:以前 agent 评测把工具能力、模型推理、prompt 工程混在一起,看不出真正瓶颈;CAIA 通过"答案永远可通过工具拿到"这个工程约束把"知识 vs 编排"两个能力 dim 独立化,于是观察到的失败可以明确归因到 tool selection。
-
6 类细粒度失败诊断 + cost-aware 评测:
- 功能:把单一准确率拆成 6 个分析类目 + 工具调用分布 + 成本效率 + Pass@k vs 多数投票对比,揭示传统指标隐藏的"试错碰运气"风险。
- 核心思路:(a) 主指标用 5 轮多数投票,缓解大模型采样方差;(b) 同时报告 Pass@1 和 Pass@5,明确指出 Pass@k 在高风险场景下是"危险指标"——某些模型 Pass@1=26.4% 但 Pass@5=54.5%(DeepSeek R1 有工具版),说明它本质上是靠多次随机尝试碰对;(c) 记录每题 token 消耗与美元成本,算出 cost/score,揭示成本与准确率不一定正相关(GPT-OSS 120B 比某些闭源模型还高、cost 低 100 倍);(d) 失败模式分析显示 55.5% 的工具调用偏向不可靠 web search,模型即使能直接调专门的链上 API 拿真值,仍倾向被 SEO 优化的虚假信息和社交平台 manipulation 误导。
- 设计动机:单一 accuracy 是"宽度 0"的报告,掩盖了"为什么错"和"错的代价";把行为分布(tool 选择偏好)、稳定性(多数投票 vs 单跑)、经济性(cost/score)合并看,才能给出部署级判断——这正是 high-stakes 场景必须的诊断深度。
损失函数 / 训练策略¶
CAIA 是 benchmark 不是训练方法,不涉及损失函数。评测协议:每题独立运行 5 次取 majority vote;human baseline 由 16 名大学区块链俱乐部 + 早期创业公司初级分析师在分层 10% 子集上完成,平均 80% 准确率。
实验关键数据¶
主实验¶
17 个模型(GPT-4.1/4o/5/o3/OSS-120B、Claude Sonnet/Opus 4/4.1、Gemini 2.5 Flash/Pro、Grok 4/Fast、DeepSeek R1/V3.1、Kimi K2、Llama 4 Maverick、Qwen 3 235B)双条件评测:
| 模型 | 无工具 多数投票 | 有工具 多数投票 | 有工具 Pass@5 | 有工具 成本 ($) |
|---|---|---|---|---|
| GPT-5 | 0.275 | 0.674 | 81.5 (≈) | 0.021 |
| Claude Opus 4 | 0.135 | 0.573 | 71.9 | 1.114 |
| Claude Opus 4.1 | 0.135 | 0.563 | 69.0 | 0.936 |
| Claude Sonnet 4 | 0.118 | 0.567 | 66.9 | 0.229 |
| DeepSeek V3.1 | 0.157 | 0.492 | 71.2 | 0.022 |
| GPT-4.1 | 0.197 | 0.466 | 60.7 | 0.091 |
| Gemini 2.5 Pro | 0.225 | 0.449 | 61.2 | 0.041 |
| GPT-4o | 0.169 | 0.303 | 55.6 | 0.091 |
| DeepSeek R1 | 0.208 | 0.174 | 54.5 | 0.012 |
| GPT-OSS 120B | 0.146 | (Pareto) | – | 0.0003 |
| 人类入门分析师 | – | 0.80 | – | – |
最大的反差:DeepSeek R1 有工具时 Pass@1=26.4% 但 Pass@5 暴涨到 54.5%,说明它实际上是在"瞎试";GPT-OSS 120B 以 $0.0003/query 接近前沿性能,是 cost-accuracy Pareto 前沿。
消融实验¶
| 维度 | 关键观察 | 说明 |
|---|---|---|
| 工具可用性 | 无工具 12–28% → 有工具最高 67.4% | 工具有用,但不是天花板的解释 |
| Tool 选择行为 | 55.5% 调用是 web search | 即使专业链上工具直接给答案,模型仍偏好不可靠源 |
| Pass@1 vs Pass@5 | 多模型 Pass@5 ≫ Pass@1 | 揭示 trial-and-error,高风险场景中等同于"赌博" |
| 类目分布 | On-Chain 43.3% / Project Disc. 27.5% / Tokenomics 12.9% | 链上交易分析占主体,最考工具调用 |
| 人类 baseline | 80% 对 GPT-5 67.4% | 即使最强模型 + 完整工具仍差 12.6pp |
关键发现¶
- Tool selection catastrophe:模型系统性偏好 web search(55.5%),即使专业链上工具直接给出真值仍如此;这意味着失败的根因不是"信息不够"而是"agent 无法把握信息源的可靠性梯度",是架构级缺陷而非知识缺口。
- Pass@k 在高风险场景下是误导指标:Pass@5 与 Pass@1 的巨大鸿沟揭示了"看着多试就对"的伪能力——在金融、医疗、安全场景里第 1 次错就 game over,传统指标完全失真。
- 闭源 ≠ 必然更强:GPT-OSS 120B 用 $0.0003/query 跑出与多个闭源模型相当甚至更好的成绩,cost/score 比 Claude Opus 4 低近 1000 倍,对实际部署经济学冲击巨大。
- Web2 训练背景的根本限制:模型在 crypto 这类 Web3 场景下的失败是"训练分布外"导致的——他们没见过链上数据的结构、没经历过 SEO 攻击场景,这预示在 cybersecurity、content moderation 等其他对抗领域也会出现类似 collapse。
- 频率上的"幻觉"具有具体经济代价:题目锚定到真实区块高度和金额,错误答案直接映射到具体可量化的资金损失,让 hallucination 从"看起来不对"变成"会赔多少钱"。
亮点与洞察¶
- 加密货币作为对抗性 testbed 的论证非常扎实:作者把"为什么是 crypto"明确分解成 adversarial + irreversible + verifiable 三性质,论证一气呵成,是这篇 benchmark 论文最强的"motivation 写作模板"。
- 5 阶段流水线 + 92 专家审稿 + 3000+ 真实查询作种:数据 curation 工作量大、专业性强,是 benchmark 真正有公信力的关键,远比"造合成题"更难复制。
- 明确把 tool selection 量化为可观察行为:把"调用 23 个工具的频率分布"作为评测维度而不只是看准确率,是这篇论文给 agent 评测领域贡献的最深刻方法论。
- Pass@k 批判:明确指出 Pass@k 在高风险/不可逆决策场景中误导性强,呼吁用 majority vote + cost-aware 评测,是对整个 agent benchmark 社区的方法论纠偏。
局限与展望¶
- 178 道题相对小:虽然每道都经过专家审,但与 SWE-Bench (2294)、AppWorld (750) 等比规模仍偏小,统计噪声不可忽略;作者承诺持续更新缓解此问题。
- 仅限加密货币:虽然作者论证"crypto 是 adversarial 极端情形",但其他领域的攻击模式(医学误诊、政治内容操纵)和 crypto 的链上欺骗不同构,迁移结论需要验证。
- 评测的对抗性目前主要体现在"信息环境本身敌对"上,没有针对模型 prompt-injection、jailbreak、tool poisoning 这些更主动的攻击;后续可扩展。
- ReAct 框架虽然统一了实现,但本身可能限制某些模型的发挥(如有些模型在 plan-then-execute 框架下更强);不同 agentic scaffolding 的影响未隔离评估。
- Human baseline 仅 16 人 × 10% 子集 = 18 题/人,方差较大;80% 这个数字应被理解成 ballpark 而非精确门槛。
- 缺乏"对手随时间演化"的动态评测——adversary 会迭代手法,benchmark 需要 continuous update 才能保持锋利,作者承诺但未具体说明频率与机制。
相关工作与启发¶
- vs SWE-Bench / AppWorld / TheAgentCompany:这些 benchmark 测量受控环境下任务完成度,CAIA 第一次把"对抗性 + 高风险 + 不可逆"列为核心评测维度。
- vs FinanceBench / FinQA:传统金融 benchmark 大多用专有数据或合成模拟,CAIA 用区块链的透明+不可篡改特性彻底绕开了"专有 vs 合成"的两难。
- vs τ-Bench / WebArena:那些 benchmark 关注 tool-use 工程指标,CAIA 引入 tool selection 偏好分布作为新的行为度量。
- 启发:(1) "答案可拿到但需要选对工具"这种设计可以推广到其他工具丰富的领域评测,强制把 evaluation 聚焦到 orchestration 能力;(2) Pass@k 应被 cost-aware + 首试准确率 + 行为分布三联指标替代,尤其在面向部署的评测中;(3) 把领域真实从业者查询作为 benchmark 种子,比合成数据更能反映实际能力。
评分¶
- 新颖性: ⭐⭐⭐⭐ Benchmark 主体新但"对抗+真实+时间锚定"每个元素单独都见过,关键是组合 + crypto 这个 testbed 的选择有深度。
- 实验充分度: ⭐⭐⭐⭐⭐ 17 个模型 × 双条件 × 5 次采样 × 6 类目 × 成本 + 人类 baseline,覆盖维度极广。
- 写作质量: ⭐⭐⭐⭐⭐ "Why crypto" 论证、"Tool selection catastrophe" 命名、"Pass@k 批判" 都很有传播力,几乎可以当政策白皮书用。
- 价值: ⭐⭐⭐⭐⭐ 直接给 LLM agent 部署到金融等高风险场景敲了警钟,对模型公司、监管、用户三方都有指导意义。