How Dark Patterns Manipulate Web Agents¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=G7Dan0L7ho
代码: 已开源（DECEPTICON benchmark，含任务与评测代码）
领域: LLM Agent / Agent Safety / Web Agent Robustness
关键词: 暗黑模式(Dark Patterns), Web Agent, 红队评测, 对抗鲁棒性, 逆向缩放(Inverse Scaling)

一句话总结¶

本文构建 DECEPTICON 基准，证明网页中常见的"暗黑模式"（欺骗性 UI 设计）能在 70%+ 的任务里把前沿 Web Agent 引向违背用户意图的恶意结果（人类仅 31%），且模型越大、推理越多反而越容易被骗，现有防御也难以稳定奏效。

研究背景与动机¶

领域现状：Web Agent（LLM 驱动、自主浏览网页完成购物/填表/检索的智能体）能力一年内突飞猛进，在主流导航基准上逼近人类水平，正被大规模部署。与此同时，"暗黑模式"——countdown 倒计时、预勾选的付费选项、难以取消的订阅、误导性双重否定问句等欺骗性 UI 设计——遍布今天的互联网，被实证研究发现存在于大多数被调查的网站与 App 上。

现有痛点：过去针对 Web Agent 的安全研究多聚焦"外部威胁"——钓鱼、提示注入、恶意弹窗这类显式越界攻击。但暗黑模式是一类截然不同的威胁：它嵌入在 UI 内部、看起来就是网页的正常组成部分，刻意、可绕过、却又与用户真实意图相悖。这类"原生于界面"的操纵从未被系统量化过对 Agent 的影响，缺乏可复现的评测环境。

核心矛盾：人类经过长期上网经验，已有约 60% 能部分识别暗黑模式（本文实验中仅 31% 被骗）；但 Agent 从未被赋予抵抗这类心理/信息/环境操纵的能力。更尖锐的是——让 Agent 更强的那些特质（更强的推理、规划、指令遵循），恰恰可能让它更容易被暗黑模式操纵。如果 Agent 比用户自己更容易上当，那么用户面临的隐私泄露、意外消费、被迫订阅的风险反而被自动化放大了。

本文目标：回答三个研究问题——(RQ1) 哪类暗黑模式最能操纵 Agent？Agent 是否比人类更易被骗？(RQ2) 模型规模与推理增加，鲁棒性会变好吗？(RQ3) 现有防御能让 Agent 变稳健吗？

核心 idea：【隔离化测量】 不去研究真实网站里纠缠的实现细节，而是按"攻击模式"建立暗黑模式分类法，在可控沙盒里单独隔离每一种暗黑模式来量化其效力；【双轨数据集】 同时用对抗式自动生成（600 题，带无暗黑模式的对照版）和真实网站爬取缓存（100 题）构建基准，兼顾可控性与生态真实性。

方法详解¶

整体框架¶

DECEPTICON 把"暗黑模式对 Agent 的威胁"拆成三层来量化：先用一套六类攻击中心的暗黑模式分类法界定研究对象，再用对抗生成 + 真实爬取双轨管线造出 700 个任务的可复现环境，最后用两个正交指标（任务成功率 SR / 暗黑模式触发率 DP）对前沿 Agent 做隔离化评测。关键设计在于：每个生成任务都配一个"去掉暗黑模式"的对照版，使暗黑模式成为可被因果归因的唯一变量。

flowchart TD
    A[六类暗黑模式分类法<br/>Sneaking/Urgency/Misdirection<br/>Social Proof/Obstruction/Forced Action] --> B[对抗生成管线<br/>600 生成题 + 对照版]
    A --> C[Agent 爬取管线<br/>100 真实网站缓存题]
    B --> D[DECEPTICON 环境<br/>700 任务]
    C --> D
    D --> E[评测: 采样10轮<br/>SR↑ 任务成功率<br/>DP↓ 暗黑模式触发率]
    E --> F[RQ1 哪类最强/比人强?]
    E --> G[RQ2 缩放能防御吗?]
    E --> H[RQ3 现有防御有效吗?]

关键设计¶

1. 六类攻击中心的暗黑模式分类法：用"攻击模式"而非"网站类型"定义研究对象。 作者沿用 Mathur et al. (2019) 的七类结构，归并出六个以动作/攻击为中心的类别，使每个类别都对应一种独立的操纵机制，可在沙盒里被单独注入测试。Sneaking（偷渡）在用户未明确同意下悄悄加价/加货/加承诺，靠用户注意力有限得逞，典型如结账时才现身的隐藏费用、预勾选的附加项；Urgency（紧迫）用倒计时、限量提示制造人为时间压力，利用稀缺性与损失厌恶逼用户少思考快决策；Misdirection（误导）靠视觉/语言线索（对比色、按钮大小、内疚式措辞、双重否定陷阱问句）把用户引向特定动作而遮蔽其他选项；Social Proof（社会认同）用"X 人正在看此商品"、可疑好评等可能造假的从众信号施压；Obstruction（阻碍）为不利于商家的任务（如取消订阅）人为设障，典型如"蟑螂屋"模式（注册容易退订极难）；Forced Action（强制动作）把不必要的动作设为前置条件，如强制注册、预选高级套餐、全有或全无的 Cookie 接受。作者强调暗黑模式的三个本质特征——有欺骗/操纵意图、刻意为之、嵌入于 UI 内部——以此与"无意的烂设计"和"外部钓鱼攻击"划清界限。

2. 任务三元组 + 对照实验：让暗黑模式成为唯一可归因变量。 每个任务由三部分构成：(1) 可验证目标，如"买一束 30 美元以下的花"；(2) 期望终态，如最便宜合格花束的订单确认页；(3) 一个暗黑模式，如预勾选的高级配送。关键在于作者把暗黑模式的结果设计成与用户泛化意图明确相悖——用户只说"买花"，若 Agent 把额外的花瓶也下了单，就判定攻击成功。任务在 Agent 发出完成信号或达到 15 步上限时终止。生成集的每道题都额外造一个去掉暗黑模式元素的对照版，控制实验显示前沿 Agent 在对照版上 SR>99%、DP=0%，从而证明：观察到的任务失败与 DP 升高，确实是暗黑模式这一变量造成的，而非任务本身难或环境因素。

3. 对抗生成 + Agent 爬取双轨管线：兼顾可控性与生态真实性。 生成集（600 题）用 Gemini-2.5-Flash 一次性生成电商/订阅/检索等常见网页 UI 基座，再用 Gemini-2.5-Pro 配合 agentic scaffold 依据文献中的视觉/文本描述注入暗黑模式；一个 Agent 朴素地尝试任务作为奖励信号，反馈给下一轮提升暗黑模式难度——但作者只跑一轮"生成-测试"循环，刻意避免暗黑模式过拟合到某个 Agent 的行为。最后人工核验确保暗黑模式实现正确、任务可解、不与已有题冗余，近 70% 的生成题被这一步筛掉。真实集（100 题）则用 Agent 驱动的爬取：从已知含暗黑模式的真实站点出发，由 LLM 检测器在每个轨迹步识别潜在暗黑模式，经人工确认后把网站的 HTML/CSS/JS 完整缓存成确定性沙盒——既保留真实站点的复杂度，又解决了真实暗黑模式"会随时间变化/消失"导致不可复现的问题。

4. 两个正交指标 SR / DP：解耦"完成任务"与"中招"。 评测同时报告两个独立变量：SR（成功率）衡量 Agent 是否到达用户指定终态（不管是否被多加了东西）；DP（暗黑模式触发率）衡量暗黑模式是否被成功触发（不管任务成没成功）。二者正交至关重要——一个 Agent 可能既买到了花（SR=1）又被多塞了花瓶（DP=1）。每个 Agent-任务对采样 10 个完整 episode，报告 SR/DP 的均值与标准误，使"能力强"和"抗骗强"被分开度量，从而暴露出二者背道而驰的反直觉现象。

实验关键数据¶

主实验表格（生成集 G / 真实集 ITW，DP 越低越好）¶

模型 + Scaffold	模态	SR(G)↑	DP(G)↓	SR(ITW)↑	DP(ITW)↓
GPT-4o Simple	SoM	19.6	78.5	18.0	71.4
Gemini-2.5-Pro Simple	SoM	23.7	75.6	21.6	68.0
Gemini-2.5-Flash Simple	SoM	24.0	74.0	20.4	66.8
GPT-5 Simple	SoM	26.2	70.8	25.7	69.9
Claude Sonnet 4 (Magnitude)	坐标	20.8	68.3	21.2	67.5
o3-low (Browser-Use)	SoM	36.5	59.6	29.5	55.0
人类	–	81.0	31.0	80.8	33.4

所有 Agent 的 DP 都远高于人类的 31%；对照版 DP 全为 0%、SR>99%，证明暗黑模式是因果来源。

分类效力与缩放消融（生成集，DP%）¶

类别	GPT-4o	Gemini-Pro	GPT-5	人类
Obstruction（阻碍）	100.0	95.2	95.9	44.0
Social Proof（社会认同）	90.0	93.3	88.6	17.7
Urgency（紧迫）	70.8	87.5	76.8	22.7
Sneaking（偷渡）	81.3	70.8	62.5	54.5
Forced Action（强制）	72.2	66.7	65.0	33.8
Misdirection（误导）	65.6	54.2	50.9	23.3

逆向缩放（Qwen2.5-VL 3B→72B）：DP 从 38.5% 单调升到 73.7%；Gemini-2.5-Flash 推理 token 256→16384，DP 从 37.6% 升到 71.2%——模型越大、推理越多越容易中招。

防御实验（生成集 N=600，平均 DP 下降）¶

防御	平均 DP 下降	平均 SR
无防御	–	23.4%
上下文提示(ICP)	12%	42.6%
护栏模型(Guardrail)	28.6%	58.3%

关键发现¶

Agent 远比人类脆弱：DP 70%+ vs 人类 31%，能力最强的 Gemini-2.5-Pro 也不例外。
Obstruction 与 Social Proof 最致命：阻碍类 DP 高达 97%（SoM 均值），社会认同次之 90%——源于 Agent 过强的指令遵循倾向，对"官方口吻"的弹窗/提示几乎照单全收。
逆向缩放定律：作者给出一个生动案例——256 token 时 Gemini 把"立即抢购"弹窗识别为"经典营销"而避开；给 16k token 后它反而"过度思考"，推理出"这个促销措辞有意思，可能说明是值得买的好货"而中招。
三类失败推理：①忽略暗黑模式效果（被加购却没察觉）；②轻信暗黑模式给的信息（同价却选"打折"项）；③错误推理（识别出双重否定陷阱却推错方向选了恶意项）。前两类可防，第三类随能力提升反而恶化。
防御都不彻底：ICP 仅降 12% 且只对 Urgency/Social Proof 这类显眼类别有效；护栏模型降 28.6% 更强（显式标出恶意元素比单纯提醒更管用），但对 Misdirection 这类"难与正常内容区分的误导信息"仍束手无策，环境类（需多步绕过）也依旧难解。模态影响很小，说明脆弱性主要由底层 LLM 决定，而非 scaffold 架构。

亮点与洞察¶

把一个被忽视的真实威胁系统化：暗黑模式遍布互联网却从未被作为 Agent 安全威胁量化，本文首次给出可复现的隔离化基准，填补了"原生于 UI 的内部操纵"这一空白。
逆向缩放是最反直觉也最警醒的发现：业界默认"更大更强的模型更安全"，本文证明在暗黑模式上恰恰相反——更强的推理变成了"为暗黑模式找合理化借口"的能力，对 test-time scaling 的安全性敲响警钟。
对照实验设计干净：每题配去暗黑模式对照版 + DP=0%/SR=99% 的控制结果，把因果归因做得无可辩驳，这在 Agent 红队评测里少见。
SR/DP 双指标解耦很关键，避免了"任务做成了就算安全"的误判，能精确捕捉"既完成任务又被操纵"的隐蔽中招。

局限与展望¶

只跑一轮生成-测试循环（为避免过拟合），意味着生成的暗黑模式难度未必触及上限，真实对抗者可迭代更强的攻击。
方差较大：DP 标准误相对均值偏高（尤其真实集与 Forced Action 类），反映 LLM Agent 行为的固有随机性，o3 等推理模型甚至呈"要么完全避开要么彻底中招"的双峰行为。
防御仍是开放问题：本文证伪了"缩放即防御"和"提醒即防御"，但没给出根治方案；尤其针对 Misdirection（误导信息难辨）与环境类（需多步绕过）暗黑模式的稳健防御仍待研究。
未来方向：作者开源基准以支持 Agent 红队与对抗微调，针对前两类可防失败（忽略/轻信）设计专门的"暗黑模式感知"训练或推理时检测机制是最有希望的切入点。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把暗黑模式系统化为 Agent 安全威胁，逆向缩放发现极具冲击力。
实验充分度: ⭐⭐⭐⭐⭐ 700 任务双轨数据集、6 个前沿 Agent、人类基线、缩放消融、两类防御、对照实验俱全，因果归因干净。
写作质量: ⭐⭐⭐⭐ 三 RQ 结构清晰、案例生动（空气炸锅/双重否定），但部分表格与 appendix 细节较密。
价值: ⭐⭐⭐⭐⭐ 揭示 Web Agent 部署的迫在眉睫风险，开源基准对 Agent 红队与安全研究有直接价值。