InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem¶

会议: ICML 2026
arXiv: 2602.14367
代码: https://github.com/zjunlp/InnoEval （项目页 innoeval.zjukg.cn）
领域: LLM 评估 / 科研 Agent / 研究想法评估
关键词: 想法评估、异构知识检索、多视角评审、人格化 reviewer、元评审

一句话总结¶

InnoEval 把"评一个研究 idea"重新定义成一个知识接地 + 多视角推理的问题：先用一个异构深度搜索引擎从论文/网页/代码里在线捞活知识并细粒度对齐到 idea 的每个部件，再用一个由不同学术人格组成的"创新评审委员会"在五个维度上各自打分、汇总成带决策的元评审，在点评、配对、分组三类任务上全面超过现有 baseline 且与人类专家高度一致。

研究背景与动机¶

领域现状：LLM 把科研 idea 的"生产"加速到了前所未有的规模——自动出假设、自动写方法的 agent 层出不穷。但"生产爆炸"之后，评估这一环没有跟上：判断一个 idea 好不好仍然高度依赖稀缺、昂贵、主观的人类专家。

现有痛点：作者把现有自动评估工具的不足归纳成三条。一是知识视野太窄——多数方法只查静态学术论文，忽略了 idea 所处的"活知识生态"（网上的讨论、开源代码、最新进展），评估容易脱离现实。二是忽视评审共识——主流做法直接用单个 LLM-as-a-Judge，等于把这个模型自身的偏见固化成评判标准，无法模拟多个专家之间的审议。三是评估维度被压扁——把 novelty、feasibility、impact 等本该相互独立甚至彼此张力的属性，硬塞进一两个分数里，既丢信息也给不出有用反馈。

核心矛盾：科学评估的本质是一个整体的认知验证过程，作者用三条原则刻画它——知识接地（idea 是知识密集实体，要对照整个理论与实践生态）、集体审议（好评价来自多元视角的融合，而非单一权威）、多准则决策（idea 的复杂性要靠多个属性的并集来尊重）。现有工具恰好在这三点上全线失守。

本文目标：造一个自动化、系统化、却能逼近人类专家水平的 idea 评估框架，同时支持单 idea 打分、两两比较、一组排序三种实际场景。

切入角度：与其把评估当成一次"静态生成"，不如把它建模成知识接地的多视角推理——先把证据找全、对齐准，再让一群背景各异的"评审"独立判断后汇聚共识。

核心 idea：用"异构深度搜索 + 细粒度接地 + 人格化评审委员会 + 维度解耦评估"这条流水线，逐条堵住知识窄、无共识、维度扁三个漏洞。

方法详解¶

整体框架¶

给定一段原始文本形式的 idea（成熟度不限，从一句假设到一篇完整论文都行），InnoEval 先把它抽成一个结构化六元组 $\mathcal{I}=(\text{TLDR}, \text{Motis}, \text{ResQues}, \text{Meths}, \text{ExpSets}, \text{ExpRes})$，并附一个时间戳 $t$ 标明"站在哪个时间点评"。随后流水线分四步走：① 异构深度知识搜索，从在线论文/网页/代码里迭代地捞取并过滤高质量背景知识；② 知识接地，把检索到的证据细粒度地对齐到 idea 的每个部件，挑出真正支持或反驳它的片段；③ 多维多视角评估，由一组维度专属的评估 agent 和一个人格化评审委员会在五个维度上分别打分；④ 报告生成，把所有评审意见汇成带引用证据、结构化分析、最终决策和修改建议的元评审。输出可以是单 idea 报告 $P_\text{point}$，也可以是一组 idea 的排序报告 $P_\text{group}$。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原始文本 idea<br/>抽成六元组 + 时间戳"] --> B["异构深度知识搜索<br/>论文/网页/代码 在线捞活知识"]
    B -->|快搜→排序过滤→慢读<br/>迭代 N 轮精修 query| B
    B --> C["知识接地<br/>证据对齐到 idea 每个部件"]
    C --> D["创新评审委员会<br/>多人格 + 按熟悉度遮蔽知识"]
    C --> E["多维解耦评估<br/>五维各派专属评估 agent"]
    D --> F["报告生成<br/>元评审 + 决策 + 修改建议"]
    E --> F
    F -->|单 idea / 一组 idea| G["点评 / 配对 / 分组报告"]

关键设计¶

1. 异构深度知识搜索引擎：用"快搜—过滤—慢读—精修"的迭代循环捞活知识，堵住知识视野窄

针对"只查静态论文"的痛点，作者让一个搜索 agent $\mathcal{M}_s$ 把触角伸到三类在线异构源——学术文献（arXiv、Semantic Scholar、Google Scholar）、网页内容（Google Search）、开源代码（GitHub、Kaggle），并把检索结果分成 literature / web / code 三类知识。关键是一个快慢混合的迭代策略：对 idea 的每个部件 $p$ 和每个工具 $u$，agent 先生成一组定制 query 并做同义词扩展（不同社区对等概念措辞往往不同），再用 API 快搜拿到简略结果 $\widetilde{\mathcal{K}}_{p,u}=u(\mathcal{Q}_{p,u}, t)$；时间戳 $t$ 把知识切成 pre / post 两半——前者用于评估、后者用于给修改建议。

过滤用的是一个混合打分函数：先用嵌入模型算 idea 与每条知识的语义相似度、每类留 top-$3m$，再过一遍 reranker 得到 $\mathcal{S}^\text{sem}$；同时把 $\mathcal{M}_s$ 当 judge，结合引用数、发表 venue、网站热度、repo star 等给出 $\mathcal{S}^\text{llm}$；二者按系数 $\alpha$ 加权后取每类 top-$m$：

\[\mathcal{S}_j = \alpha\,\mathcal{S}^\text{sem}_j + (1-\alpha)\,\mathcal{S}^\text{llm}_j,\quad \widetilde{\mathcal{K}}^*_j = \text{Top}_m(\widetilde{\mathcal{K}}_j, \mathcal{S}_j)\]

这样既缓解纯语义相似的脆弱，又压住纯 model-as-judge 的偏见与幻觉。过滤后再做慢搜充实内容：文献抓全文 PDF 转结构化文本，网页抓 URL 转摘要报告，代码则爬仓库的文件级/函数级调用图、分析核心代码片段并结合 README 汇成报告。最后是迭代精修：$\mathcal{M}_s$ 根据已充实的知识沿三个轴改写 query——重写相关性不足的、泛化结果过于具体的、具体化结果过于宽泛的，再把新一轮简略知识与上一轮保留的并集重新排序过滤，整个过程迭代 $N$ 次（实验取 $N=3$，$m=10$，$\alpha=0.2$）。

2. 知识接地：把证据对齐到 idea 的每个部件，去噪并标出"支持还是反驳"

光检索回来一堆知识还不够——它们与 idea 的具体关联是模糊的。接地 agent $\mathcal{M}_g$ 做的事是细粒度对齐：对 idea 的每个部件 $p$，收集所有据它检索到的知识 $\mathcal{K}_p$，再对每条 $k_p$ 蒸馏出真正支持或反驳 $p$ 的证据 $e_p$ 并给一段相关性分析 $s_p$：$e_p, s_p = \mathcal{M}_g(p, k_p)$。最终接地结果 $\mathcal{G}=\{(p, \mathcal{G}_p)\}_{p\in\mathcal{I}}$ 喂给后续评估模块。消融显示去掉接地（-Grounding）会在多任务上不同程度掉点，说明它确实在过滤检索报告里的噪声、让评估聚焦相关信息。

3. 创新评审委员会：用多元学术人格 + 按熟悉度遮蔽知识，把单一 judge 的偏见换成多视角共识

针对"单 LLM-as-Judge 固化偏见"的痛点，作者精心构建了一个评审委员会 $\mathcal{P}$，其中每个人格 $\rho$ 包含学术画像、一个对 literature/web/code 三类知识的熟悉度向量、以及评审习惯。评估时按该人格在各类源上的熟悉度随机遮蔽一定比例的知识，以此模拟真实人类"不是所有背景都精通"的认知局限。这一步把"假装多样意见的单个 reviewer"换成了"背景真不同、从不同视角看后才收敛"的真共识。分析里有个有趣证据：在分组排序任务上，只用 1 个人格反而不如不用人格——因为从 0 到 1 只是把 LLM 的固有偏见平移到那个特定人格上，没解决根本问题；而随着人格数增加，人格化 test-time scaling 持续涨、普通 TTS 很快见顶（主实验随机选 5 个人格是效率与效果的折中，并非性能上限）。

4. 多维解耦评估与报告生成：五个维度各派专属 agent 独立评，再汇成带决策的元评审

针对"维度被压扁"的痛点，InnoEval 初始给出五个相互解耦的维度——Clarity、Novelty、Feasibility、Validity、Significance（用户可自由注册新维度）。对评审委员会随机选出的子集 $\mathcal{P}'$（每个 idea 派 5 个不同人格）中的每个人格 $\rho$ 和每个维度 $\psi$，由专属评估 agent $\mathcal{M}_\psi$ 结合接地证据 $\mathcal{G}$ 在 $[0,10]$ 区间打分并给出推理叙述 $\varphi_{\rho,\psi}=\mathcal{M}_\psi(\rho, \mathcal{I}, \mathcal{G})$。报告 agent $\mathcal{M}_r$ 再把所有 $\{\varphi_{\rho,\psi}\}$ 汇成元评审 $\varphi_\text{meta}$（含总分 $s_\text{point}$ 和决策 $d_\text{point}\in\{$Reject, Poster, Spotlight, Oral$\}$），并基于 idea 之后发表的"未来知识" $\mathcal{G}_\text{future}$ 给出修改建议 $\mathcal{V}$。分组场景先为每个 idea 合成点评报告，再让报告 agent 沿五维两两比较、产出完整排序 $\varphi^\text{group}_\text{meta}$。

损失函数 / 训练策略¶

InnoEval 是纯推理流水线、无需训练：检索用现成的 bge-base-en-v1.5 做 retriever、bge-reranker-base 做 reranker，主干 LLM 用 DeepSeek-V3.2（鲁棒性测试换 o4-mini）。超参 $m=10$、$\alpha=0.2$、$N=3$，评一条样本平均成本约 $0.42。

实验关键数据¶

数据集与任务¶

作者从权威同行评审论文里抽 idea 构数据集：爬 NeurIPS25 / ICLR25 的 OpenReview 投稿，按最终决定分 Reject / Poster / Spotlight / Oral 四层做分层采样，经抽取 agent + 人工校正得 217 条点评样本（$\mathcal{D}_\text{point}$）。再用每条 idea 检索相似论文构组得 172 条分组样本，并从中采样配对、按标签差距分 easy（如 Reject vs. Highlight）/ hard（相邻标签）共 372 条配对样本（172 easy + 200 hard）。

主实验¶

任务	指标	最强 baseline (ScholarEval)	InnoEval	提升
点评·三分类	F1₃	58.38	74.56	+16.18
点评·三分类	Acc₃	61.75	73.73	+11.98
点评·二分类	Acc₂	65.44	75.58	+10.14
配对·easy	Acc	74.42	80.81	+6.39
配对·hard	Acc	60.00	63.00	+3.00
分组·best 选择	Acc	49.42	65.12	+15.70
分组·排序	Acc	14.53	22.09	+7.56

一个值得注意的现象：多数 baseline 在点评任务上出现标签塌缩（预测只集中在一两个标签，表现为 F1 远低于 Acc）；InnoEval 靠充分证据与多维多视角评估把预测分散开，F1 才能追上甚至反超 Acc。

质量对比（o4-mini 当 judge 的胜率，节选 Overall Quality）¶

InnoEval vs.	Rationality 胜%	Depth 胜%	Constructiveness 胜%	Overall 胜%
CoT	88.48	93.09	89.77	90.70
RAG	87.10	92.63	87.10	90.32
ResearchAgent	86.18	90.32	88.94	89.86
InternAgent	83.41	91.24	82.03	85.71
ScholarEval	67.28	70.51	84.79	71.89

InnoEval 在 Overall Quality 上对所有 baseline 胜率均 >70%，Depth 维度对多数方法 >90%。ScholarEval 是强 baseline（在 rationality/supportiveness/depth 上能赢过 25% 样本），但它评估维度有限、缺基于证据的改进建议，constructiveness 拉胯。

消融与分析¶

配置	效果	说明
Full InnoEval	最优	完整流水线
-Grounding	多任务不同程度掉点	去接地后噪声混入，评估失焦
-Personalized	显著掉点（点评/分组尤甚）	退回单 LLM-as-Judge，偏见回潮
-Web&Code	明显掉点（配对/分组尤甚）	只留文献检索，背景知识不足
o4-mini 主干	略降但仍超最强 baseline	跨模型鲁棒

关键发现¶

人格化是共识的关键：普通 test-time scaling 很快见顶，而人格化 TTS 持续涨；分组排序里"只用 1 个人格反不如 0 个人格"，因为单人格只是把 LLM 偏见平移到该人格、没解决根本问题。
比较任务最吃背景知识：-Web&Code 对配对/分组的伤害大于对点评，说明比较多个 idea 尤其需要丰富的活知识。
人机一致性高：随机抽 60 条与人类专家、真实 peer-review 评论对比，五维相关系数均 ≥ 0.5；Clarity 相关最高（只看逻辑与结构连贯，好判断），Significance 最低（本身复杂，是未来工作方向）。
评审能反哺生成：把 InnoEval 的修改建议接进 ResearchAgent 的 idea 迭代流水线，在问题定义、方法、实验设计上都显著提升生成质量；而 ScholarEval 只盯 contribution/soundness 两维，反而带偏优化、退化生成质量。

亮点与洞察¶

把"评估"从生成任务重定义成知识接地的多视角推理：三条原则（知识接地 / 集体审议 / 多准则）→ 三个漏洞（窄 / 无共识 / 扁）→ 三个模块，论证链条干净，是这篇最"啊哈"的地方。
按人格熟悉度随机遮蔽知识是个巧设计：它把"模拟人类认知局限"落到了可执行的机制上，而不是空喊"多样性"，也正是人格化 TTS 持续 scaling 的来源。
快慢混合 + 混合打分的检索范式可迁移：先快搜广撒网、语义相似 + LLM-judge 双分过滤、再慢读充实、迭代精修 query，这套对任何"需要在线找活证据"的 agent 任务都通用。
用未来论文做修改建议：靠时间戳把知识切成 pre/post，post 知识专门用于给 actionable 反馈，让评估不止"判死刑"还能"开药方"。

局限与展望¶

成本与延迟：每条样本约 $0.42，且强依赖多个在线搜索 API；人格数虽能 scaling 但更大的池会让推理时间急剧上升，主实验只能折中选 5 个。
Significance 维度评不准：与人类相关最低，反映"影响力"这种长期、主观属性本身难以即时判断。
标签来自会议决定：用 NeurIPS/ICLR 的接收档位当 ground truth，会把评审本身的噪声与运气也当成信号；"被拒"未必等于"idea 差"。
依赖在线源的时效与可得性：链接失效、检索 API 变动都会影响活知识的覆盖；中文或小语种社区知识可能覆盖不足。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 idea 评估重构成知识接地的多视角推理，三原则—三漏洞—三模块的设计逻辑自洽且新。
实验充分度: ⭐⭐⭐⭐⭐ 点评/配对/分组三类任务 + 质量胜率 + 人机一致性 + 消融 + scaling 分析，证据链完整。
写作质量: ⭐⭐⭐⭐ 形式化定义清晰、动机层层递进；公式记号偏密，附录依赖较重。
价值: ⭐⭐⭐⭐⭐ 自动 idea 评估是科研 Agent 流水线的关键瓶颈，且证明评审能反哺生成，落地意义强。