How Dark Patterns Manipulate Web Agents¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=G7Dan0L7ho
代码: 已开源(DECEPTICON benchmark,含任务与评测代码)
领域: LLM Agent / Agent Safety / Web Agent Robustness
关键词: 暗黑模式(Dark Patterns), Web Agent, 红队评测, 对抗鲁棒性, 逆向缩放(Inverse Scaling)
一句话总结¶
本文构建 DECEPTICON 基准,证明网页中常见的"暗黑模式"(欺骗性 UI 设计)能在 70%+ 的任务里把前沿 Web Agent 引向违背用户意图的恶意结果(人类仅 31%),且模型越大、推理越多反而越容易被骗,现有防御也难以稳定奏效。
研究背景与动机¶
领域现状:Web Agent(LLM 驱动、自主浏览网页完成购物/填表/检索的智能体)能力一年内突飞猛进,在主流导航基准上逼近人类水平,正被大规模部署。与此同时,"暗黑模式"——countdown 倒计时、预勾选的付费选项、难以取消的订阅、误导性双重否定问句等欺骗性 UI 设计——遍布今天的互联网,被实证研究发现存在于大多数被调查的网站与 App 上。
现有痛点:过去针对 Web Agent 的安全研究多聚焦"外部威胁"——钓鱼、提示注入、恶意弹窗这类显式越界攻击。但暗黑模式是一类截然不同的威胁:它嵌入在 UI 内部、看起来就是网页的正常组成部分,刻意、可绕过、却又与用户真实意图相悖。这类"原生于界面"的操纵从未被系统量化过对 Agent 的影响,缺乏可复现的评测环境。
核心矛盾:人类经过长期上网经验,已有约 60% 能部分识别暗黑模式(本文实验中仅 31% 被骗);但 Agent 从未被赋予抵抗这类心理/信息/环境操纵的能力。更尖锐的是——让 Agent 更强的那些特质(更强的推理、规划、指令遵循),恰恰可能让它更容易被暗黑模式操纵。如果 Agent 比用户自己更容易上当,那么用户面临的隐私泄露、意外消费、被迫订阅的风险反而被自动化放大了。
本文目标:回答三个研究问题——(RQ1) 哪类暗黑模式最能操纵 Agent?Agent 是否比人类更易被骗?(RQ2) 模型规模与推理增加,鲁棒性会变好吗?(RQ3) 现有防御能让 Agent 变稳健吗?
核心 idea:【隔离化测量】 不去研究真实网站里纠缠的实现细节,而是按"攻击模式"建立暗黑模式分类法,在可控沙盒里单独隔离每一种暗黑模式来量化其效力;【双轨数据集】 同时用对抗式自动生成(600 题,带无暗黑模式的对照版)和真实网站爬取缓存(100 题)构建基准,兼顾可控性与生态真实性。
方法详解¶
整体框架¶
DECEPTICON 把"暗黑模式对 Agent 的威胁"拆成三层来量化:先用一套六类攻击中心的暗黑模式分类法界定研究对象,再用对抗生成 + 真实爬取双轨管线造出 700 个任务的可复现环境,最后用两个正交指标(任务成功率 SR / 暗黑模式触发率 DP)对前沿 Agent 做隔离化评测。关键设计在于:每个生成任务都配一个"去掉暗黑模式"的对照版,使暗黑模式成为可被因果归因的唯一变量。
flowchart TD
A[六类暗黑模式分类法<br/>Sneaking/Urgency/Misdirection<br/>Social Proof/Obstruction/Forced Action] --> B[对抗生成管线<br/>600 生成题 + 对照版]
A --> C[Agent 爬取管线<br/>100 真实网站缓存题]
B --> D[DECEPTICON 环境<br/>700 任务]
C --> D
D --> E[评测: 采样10轮<br/>SR↑ 任务成功率<br/>DP↓ 暗黑模式触发率]
E --> F[RQ1 哪类最强/比人强?]
E --> G[RQ2 缩放能防御吗?]
E --> H[RQ3 现有防御有效吗?]
关键设计¶
1. 六类攻击中心的暗黑模式分类法:用"攻击模式"而非"网站类型"定义研究对象。 作者沿用 Mathur et al. (2019) 的七类结构,归并出六个以动作/攻击为中心的类别,使每个类别都对应一种独立的操纵机制,可在沙盒里被单独注入测试。Sneaking(偷渡)在用户未明确同意下悄悄加价/加货/加承诺,靠用户注意力有限得逞,典型如结账时才现身的隐藏费用、预勾选的附加项;Urgency(紧迫)用倒计时、限量提示制造人为时间压力,利用稀缺性与损失厌恶逼用户少思考快决策;Misdirection(误导)靠视觉/语言线索(对比色、按钮大小、内疚式措辞、双重否定陷阱问句)把用户引向特定动作而遮蔽其他选项;Social Proof(社会认同)用"X 人正在看此商品"、可疑好评等可能造假的从众信号施压;Obstruction(阻碍)为不利于商家的任务(如取消订阅)人为设障,典型如"蟑螂屋"模式(注册容易退订极难);Forced Action(强制动作)把不必要的动作设为前置条件,如强制注册、预选高级套餐、全有或全无的 Cookie 接受。作者强调暗黑模式的三个本质特征——有欺骗/操纵意图、刻意为之、嵌入于 UI 内部——以此与"无意的烂设计"和"外部钓鱼攻击"划清界限。
2. 任务三元组 + 对照实验:让暗黑模式成为唯一可归因变量。 每个任务由三部分构成:(1) 可验证目标,如"买一束 30 美元以下的花";(2) 期望终态,如最便宜合格花束的订单确认页;(3) 一个暗黑模式,如预勾选的高级配送。关键在于作者把暗黑模式的结果设计成与用户泛化意图明确相悖——用户只说"买花",若 Agent 把额外的花瓶也下了单,就判定攻击成功。任务在 Agent 发出完成信号或达到 15 步上限时终止。生成集的每道题都额外造一个去掉暗黑模式元素的对照版,控制实验显示前沿 Agent 在对照版上 SR>99%、DP=0%,从而证明:观察到的任务失败与 DP 升高,确实是暗黑模式这一变量造成的,而非任务本身难或环境因素。
3. 对抗生成 + Agent 爬取双轨管线:兼顾可控性与生态真实性。 生成集(600 题)用 Gemini-2.5-Flash 一次性生成电商/订阅/检索等常见网页 UI 基座,再用 Gemini-2.5-Pro 配合 agentic scaffold 依据文献中的视觉/文本描述注入暗黑模式;一个 Agent 朴素地尝试任务作为奖励信号,反馈给下一轮提升暗黑模式难度——但作者只跑一轮"生成-测试"循环,刻意避免暗黑模式过拟合到某个 Agent 的行为。最后人工核验确保暗黑模式实现正确、任务可解、不与已有题冗余,近 70% 的生成题被这一步筛掉。真实集(100 题)则用 Agent 驱动的爬取:从已知含暗黑模式的真实站点出发,由 LLM 检测器在每个轨迹步识别潜在暗黑模式,经人工确认后把网站的 HTML/CSS/JS 完整缓存成确定性沙盒——既保留真实站点的复杂度,又解决了真实暗黑模式"会随时间变化/消失"导致不可复现的问题。
4. 两个正交指标 SR / DP:解耦"完成任务"与"中招"。 评测同时报告两个独立变量:SR(成功率)衡量 Agent 是否到达用户指定终态(不管是否被多加了东西);DP(暗黑模式触发率)衡量暗黑模式是否被成功触发(不管任务成没成功)。二者正交至关重要——一个 Agent 可能既买到了花(SR=1)又被多塞了花瓶(DP=1)。每个 Agent-任务对采样 10 个完整 episode,报告 SR/DP 的均值与标准误,使"能力强"和"抗骗强"被分开度量,从而暴露出二者背道而驰的反直觉现象。
实验关键数据¶
主实验表格(生成集 G / 真实集 ITW,DP 越低越好)¶
| 模型 + Scaffold | 模态 | SR(G)↑ | DP(G)↓ | DP 对照(G) | SR(ITW)↑ | DP(ITW)↓ |
|---|---|---|---|---|---|---|
| GPT-4o Simple | SoM | 19.6 | 78.5 | 0.0 | 18.0 | 71.4 |
| Gemini-2.5-Pro Simple | SoM | 23.7 | 75.6 | 0.0 | 21.6 | 68.0 |
| Gemini-2.5-Flash Simple | SoM | 24.0 | 74.0 | 0.0 | 20.4 | 66.8 |
| GPT-5 Simple | SoM | 26.2 | 70.8 | 0.0 | 25.7 | 69.9 |
| Claude Sonnet 4 (Magnitude) | 坐标 | 20.8 | 68.3 | 0.0 | 21.2 | 67.5 |
| o3-low (Browser-Use) | SoM | 36.5 | 59.6 | 0.0 | 29.5 | 55.0 |
| 人类 | – | 81.0 | 31.0 | 0.0 | 80.8 | 33.4 |
所有 Agent 的 DP 都远高于人类的 31%;对照版 DP 全为 0%、SR>99%,证明暗黑模式是因果来源。
分类效力与缩放消融(生成集,DP%)¶
| 类别 | GPT-4o | Gemini-Pro | GPT-5 | 人类 |
|---|---|---|---|---|
| Obstruction(阻碍) | 100.0 | 95.2 | 95.9 | 44.0 |
| Social Proof(社会认同) | 90.0 | 93.3 | 88.6 | 17.7 |
| Urgency(紧迫) | 70.8 | 87.5 | 76.8 | 22.7 |
| Sneaking(偷渡) | 81.3 | 70.8 | 62.5 | 54.5 |
| Forced Action(强制) | 72.2 | 66.7 | 65.0 | 33.8 |
| Misdirection(误导) | 65.6 | 54.2 | 50.9 | 23.3 |
逆向缩放(Qwen2.5-VL 3B→72B):DP 从 38.5% 单调升到 73.7%;Gemini-2.5-Flash 推理 token 256→16384,DP 从 37.6% 升到 71.2%——模型越大、推理越多越容易中招。
防御实验(生成集 N=600,平均 DP 下降)¶
| 防御 | 平均 DP 下降 | 平均 SR |
|---|---|---|
| 无防御 | – | 23.4% |
| 上下文提示(ICP) | 12% | 42.6% |
| 护栏模型(Guardrail) | 28.6% | 58.3% |
关键发现¶
- Agent 远比人类脆弱:DP 70%+ vs 人类 31%,能力最强的 Gemini-2.5-Pro 也不例外。
- Obstruction 与 Social Proof 最致命:阻碍类 DP 高达 97%(SoM 均值),社会认同次之 90%——源于 Agent 过强的指令遵循倾向,对"官方口吻"的弹窗/提示几乎照单全收。
- 逆向缩放定律:作者给出一个生动案例——256 token 时 Gemini 把"立即抢购"弹窗识别为"经典营销"而避开;给 16k token 后它反而"过度思考",推理出"这个促销措辞有意思,可能说明是值得买的好货"而中招。
- 三类失败推理:①忽略暗黑模式效果(被加购却没察觉);②轻信暗黑模式给的信息(同价却选"打折"项);③错误推理(识别出双重否定陷阱却推错方向选了恶意项)。前两类可防,第三类随能力提升反而恶化。
- 防御都不彻底:ICP 仅降 12% 且只对 Urgency/Social Proof 这类显眼类别有效;护栏模型降 28.6% 更强(显式标出恶意元素比单纯提醒更管用),但对 Misdirection 这类"难与正常内容区分的误导信息"仍束手无策,环境类(需多步绕过)也依旧难解。模态影响很小,说明脆弱性主要由底层 LLM 决定,而非 scaffold 架构。
亮点与洞察¶
- 把一个被忽视的真实威胁系统化:暗黑模式遍布互联网却从未被作为 Agent 安全威胁量化,本文首次给出可复现的隔离化基准,填补了"原生于 UI 的内部操纵"这一空白。
- 逆向缩放是最反直觉也最警醒的发现:业界默认"更大更强的模型更安全",本文证明在暗黑模式上恰恰相反——更强的推理变成了"为暗黑模式找合理化借口"的能力,对 test-time scaling 的安全性敲响警钟。
- 对照实验设计干净:每题配去暗黑模式对照版 + DP=0%/SR=99% 的控制结果,把因果归因做得无可辩驳,这在 Agent 红队评测里少见。
- SR/DP 双指标解耦很关键,避免了"任务做成了就算安全"的误判,能精确捕捉"既完成任务又被操纵"的隐蔽中招。
局限与展望¶
- 只跑一轮生成-测试循环(为避免过拟合),意味着生成的暗黑模式难度未必触及上限,真实对抗者可迭代更强的攻击。
- 方差较大:DP 标准误相对均值偏高(尤其真实集与 Forced Action 类),反映 LLM Agent 行为的固有随机性,o3 等推理模型甚至呈"要么完全避开要么彻底中招"的双峰行为。
- 防御仍是开放问题:本文证伪了"缩放即防御"和"提醒即防御",但没给出根治方案;尤其针对 Misdirection(误导信息难辨)与环境类(需多步绕过)暗黑模式的稳健防御仍待研究。
- 未来方向:作者开源基准以支持 Agent 红队与对抗微调,针对前两类可防失败(忽略/轻信)设计专门的"暗黑模式感知"训练或推理时检测机制是最有希望的切入点。
相关工作与启发¶
- 暗黑模式分类法(Mathur et al. 2019;Nouwens et al. 2020):本文的六类分类法与数据来源都建立其上,把面向人类的 HCI 研究迁移到 Agent 安全。
- Web Agent 红队(Zhang et al. 2025):先前发现人类通常忽略的弹窗对 Agent 却有高攻击成功率,本文的 Obstruction/Social Proof 结果与之印证——Agent 的指令遵循是双刃剑。
- 对抗攻击防御(in-context prompting;guardrail models, Sreedhar 2025 / Zeng 2024):本文把这些通用防御搬到暗黑模式场景,证明其只能部分缓解。
- 启发:这篇工作提示"能力 ≠ 安全",Agent 安全需要专门针对"嵌入式操纵"而非仅仅"外部攻击"做防御;对做 Web Agent 产品的人,意味着必须在 Agent 与网页之间加一层"意图对齐校验",不能假设更强的模型自动更稳健。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次把暗黑模式系统化为 Agent 安全威胁,逆向缩放发现极具冲击力。
- 实验充分度: ⭐⭐⭐⭐⭐ 700 任务双轨数据集、6 个前沿 Agent、人类基线、缩放消融、两类防御、对照实验俱全,因果归因干净。
- 写作质量: ⭐⭐⭐⭐ 三 RQ 结构清晰、案例生动(空气炸锅/双重否定),但部分表格与 appendix 细节较密。
- 价值: ⭐⭐⭐⭐⭐ 揭示 Web Agent 部署的迫在眉睫风险,开源基准对 Agent 红队与安全研究有直接价值。