IWR-Bench: Can LVLMs Reconstruct Interactive Webpage from a User Interaction Video?¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=1zOp2WPMdZ
代码: 待开源（论文承诺公开 benchmark 与评测代码）
领域: 多模态 / 视觉-语言模型评测（Video-to-Code）
关键词: LVLM 评测, 网页重建, 视频理解, 交互式代码生成, Agent-as-a-Judge

一句话总结¶

提出 IWR-Bench——首个让大型视觉-语言模型（LVLM）从「用户交互视频 + 完整静态资源」重建出可交互网页的基准，用 agent-as-a-judge 协议同时考核功能正确性与视觉保真度，28 个模型的实验揭示最强模型也只有 36.35 分、功能分（IFS 24.39%）远落后于视觉分（VFS 64.25%）。

研究背景与动机¶

领域现状：把网页截图翻译成 HTML 代码（screenshot-to-code）已是 LVLM 的成熟能力，Design2Code、WebSight 等基准在静态重建上让模型表现得相当不错；少数工作（如 Interaction2Code）开始触碰交互，但只用「前后两张图」建模单步、无状态的事件。

现有痛点：真实网页应用的本质是连续、有状态的工作流——点开搜索结果、输入评论、点星打分、玩 2048 这类带游戏逻辑的页面。现有基准存在三重缺陷：(1) 只评静态布局，回避了时序动态；(2) 为简化任务故意删掉静态资源（图片、图标、视频），与真实开发情境脱节；(3) 评测靠像素相似度，根本无法衡量「点了按钮有没有正确响应」这类功能正确性。

核心矛盾：模型「能处理视频/多图」的输入能力，和「交互式网页生成」的基准之间存在断层——没人系统问过：LVLM 能否仅凭观看一段用户操作视频，就还原出网页的动态交互功能？

本文目标：把这个问题形式化为 Interactive Webpage Reconstruction（IWR）任务，并造一个覆盖多样交互、提供真实完整资源、评测协议能真正执行交互的基准。

核心 idea：用「交互视频 + 全量原始资源」当输入，用「能在浏览器里真跑动作序列的 agent」当裁判——既逼模型从时序视觉证据里推断交互逻辑，又用程序化执行而非像素比对来判定功能对不对。

方法详解¶

整体框架¶

IWR-Bench 把一个任务拆成四件套：一段记录完整有状态操作流的交互视频 $V=\{f_1,...,f_n\}$、一组（文件名匿名化的）静态资源 $A=\{a_1,...,a_m\}$、一条结构化的动作轨迹 $T=\{(a_i,p_i,d_i,v_i,l_i)\}$、以及每个关键动作后的稳态检查点截图 $S$。模型要从 $V$ 和 $A$ 生成一份自包含的 HTML（含 CSS/JS）$C$；随后一个基于 browser-use 的确定性执行器扮演裁判，逐步重放轨迹 $T$，用 IFS 量功能、VFS 量视觉，加权成最终分。

flowchart LR
    A[交互视频 V] --> M[LVLM]
    B[匿名静态资源 A] --> M
    M --> C[生成 HTML/CSS/JS]
    C --> E[Agent-as-a-Judge<br/>browser-use 执行器]
    T[Ground-truth 动作轨迹 T] --> E
    E --> IFS[功能分 IFS<br/>动作成功率]
    E --> VFS[视觉分 VFS<br/>检查点保真度]
    IFS --> F[Final = α·IFS + 1-α·VFS]
    VFS --> F

关键设计¶

1. 用「真实视频 + 完整资源 + 匿名文件名」逼出真推理而非套路。 113 个任务全部源自 100 个真实网站（从 200 候选经去重、按领域/视觉复杂度/交互逻辑三轴平衡，再交叉核验筛到 113），每个任务都配齐爬下来的图片、图标、嵌入视频等全量静态资源——这正是以往基准为省事而删掉的部分。关键的一招是把资源文件名全部匿名化（logo.png → asset_001.png），切断模型靠语义文件名作弊的捷径，强迫它做真正的「视觉元素↔静态资源」匹配。同时三轴 taxonomy 把交互逻辑从 L1 静态展示、L2 简单状态、L3 复杂工作流到 L4 算法/游戏逻辑分层，使难度可解释。

2. Agent-as-a-Judge 的程序化执行协议，把「功能对不对」从像素比对里解放出来。 裁判不是看图打分，而是用 browser-use 在渲染出的页面上逐个真实执行 ground-truth 动作 $a_i$。一个动作被判失败有两种情形：操作上不可行（目标元素找不到），或它附带的逻辑断言 $l_i$ 不满足（如「应出现『评分更新成功：9/10』」）。断言由 Gemini-2.5-Pro 作为 MLLM 裁判对比动作前后截图来判定。这种设计把评测隔离在「代码执行」层面、剥离了高层任务规划的干扰，保证可复现。动作成功后才抓新截图、才进入视觉评估，避免在过渡态上误判。

3. IFS / VFS 双指标 + 加权 Final，刻意让功能权重压过视觉。 功能分直接是成功动作占比 $\text{IFS}=N_{succ}/N_{total}$。视觉分只在「成功到达且需视觉评估（$v_i=\text{true}$）」的检查点上算，每个检查点融合低层视觉分 $S_{LVS}$（OCR 的 Levenshtein 相似度 + DINO 余弦相似度的均值）与高层视觉分 $S_{HVS}$（MLLM 整体评估），权重 $w=0.5$： $$\text{VFS}=\frac{1}{|I_{v,succ}|}\sum_{i\in I_{v,succ}}\big(w\cdot S_{LVS,i}+(1-w)\cdot S_{HVS,i}\big)$$ 最终分把两者按 $\alpha=0.7$ 加权： $$\text{Final Score}=\alpha\cdot\text{IFS}+(1-\alpha)\cdot\text{VFS}$$ 作者特意给 IFS 大权重，让「到不了的状态」对总分的惩罚被恰当反映——因为执行不了的步骤根本没图算视觉分。$w$ 和 $\alpha$ 都经过人类对齐研究确定。

实验关键数据¶

主实验表格（28 个 LVLM，节选代表）¶

模型	LVS	HVS	VFS	IFS	Final
GPT-5	68.29	60.21	64.25	24.39	36.35
Claude-Sonnet-4 (thinking)	64.90	55.51	60.20	23.65	34.62
Claude-Opus-4 (thinking)	63.53	53.80	58.67	23.61	34.13
Doubao-seed-1.6	65.95	55.62	60.79	22.55	34.02
Claude-Sonnet-4	65.75	56.92	61.34	22.29	34.00
GPT-4o (latest)	63.39	51.71	57.55	17.55	29.55
Qwen3-VL (thinking)（最强开源）	58.55	46.13	52.34	22.07	31.15
Qwen2.5-VL-72B	47.83	28.25	38.04	17.42	23.61
VideoLLaMA3-7B（视频专用）	31.29	11.86	21.58	10.29	13.67
InternVideo-2.5-Chat-8B（视频专用）	17.27	3.33	10.30	9.97	10.07

明显的性能分层：闭源 MLLM > 顶尖开源（Qwen3-VL）> 中低端开源 > 视频专用模型。说明通用多模态推理 + 代码生成能力比专门的视频处理架构更关键。
最强模型 Final 仅 36.35，所有模型 IFS 都不超过 25——交互式网页重建基本是个未解问题。

消融 / 验证（评测协议有效性）¶

验证项	设置	结论
权重 $w,\alpha$	人类对齐研究	$w=0.5$、$\alpha=0.7$ 最贴合人判；按成功步比例加权的替代方案区分度差
Agent 裁判可靠性	3 名博士生在 100 个生成页面上关闭 headless 人工核对	仅 3 例评测失败，均因元素描述歧义（同名按钮），修正定位符后解决
断言验证	Gemini-2.5-Pro 对比动作前后截图	自动核验逻辑断言准确性

关键发现¶

功能是主要瓶颈，不是视觉：VFS 普遍远高于 IFS（GPT-5：64.25 vs 24.39）。模型能复刻静态布局，但合成事件驱动逻辑的能力严重欠缺。
静态→交互断崖：从 L1 静态展示到 L2–L4 交互任务性能急剧下滑；高度结构化布局也让模型吃力。
推理增强收益稳定但有限：thinking 变体普遍小幅提升（Claude-Sonnet-4：34.62 vs 34.00），但基座能力才决定性能天花板。
数据规模：113 视频、平均 35.4 秒、共 1001 个动作（620 需视觉评估、403 含断言）、平均每视频 8.9 个动作、10.62% 针对移动端。

亮点与洞察¶

把「无状态单步」升级为「有状态全轨迹」：抓住了真实网页交互的本质——连续、带状态转移的工作流，而非孤立事件，这是相对 Interaction2Code 等前作最实质的进步。
反作弊设计很到位：匿名化资源文件名这一细节，直接堵死了模型靠语义先验「猜」的捷径，使基准真正考验视觉-资源 grounding。
可执行的评测协议：用 browser-use 真跑动作 + 逻辑断言，让「功能正确性」第一次成为可量化、可复现的指标，而非靠像素相似度的代理量。
诊断价值清晰：VFS↔IFS 的巨大落差给社区指了明路——下一步不在视觉理解，而在时序推理、动态资源绑定、事件逻辑合成。

局限与展望¶

规模偏小：113 个任务对一个 benchmark 而言数量有限，子维度（如 L4 游戏类仅 10.62%）样本更稀疏，统计结论的稳健性受限。
重度依赖 Gemini-2.5-Pro 当裁判：逻辑断言和高层视觉分都由它判定，裁判模型本身的偏差/能力上限会传导到所有被测模型的分数上，存在「裁判即天花板」的隐忧。
视频采样妥协：为兼容无原生视频能力的模型，视频按 1fps 采样、上限 64 帧，长视频被下采样，可能丢失关键的快速交互瞬间。
未来方向：作者点名时序推理、动态资源绑定、鲁棒代码合成三条路；可进一步扩大规模、引入更细粒度的过程奖励或交互式 agent 范式来缩小 IFS 差距。

评分¶

新颖性: ⭐⭐⭐⭐ — 首个 video-to-interactive-code 基准，「全轨迹有状态 + 完整真实资源 + 匿名反作弊 + agent 真执行」的组合是实打实的空白填补。
实验充分度: ⭐⭐⭐⭐ — 28 个跨闭源/开源/视频专用的模型横评，配人类对齐与裁判可靠性验证，分析维度全面；扣分在任务规模偏小、部分子类样本稀疏。
写作质量: ⭐⭐⭐⭐ — 问题动机层层递进，任务定义/指标公式清晰，图表组织得当，易读。
价值: ⭐⭐⭐⭐ — 精准定位了「视觉会、逻辑不会」这一当前 LVLM 的真实短板，为前端自动化与多模态代码生成提供了高区分度的硬骨头基准，社区价值高。

验证项	设置	结论
权重 \(w,\alpha\)	人类对齐研究	\(w=0.5\)、\(\alpha=0.7\) 最贴合人判；按成功步比例加权的替代方案区分度差
Agent 裁判可靠性	3 名博士生在 100 个生成页面上关闭 headless 人工核对	仅 3 例评测失败，均因元素描述歧义（同名按钮），修正定位符后解决
断言验证	Gemini-2.5-Pro 对比动作前后截图	自动核验逻辑断言准确性