InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem¶
会议: ICML 2026
arXiv: 2602.14367
代码: https://github.com/zjunlp/InnoEval (项目页 innoeval.zjukg.cn)
领域: LLM 评估 / 科研 Agent / 研究想法评估
关键词: 想法评估、异构知识检索、多视角评审、人格化 reviewer、元评审
一句话总结¶
InnoEval 把"评一个研究 idea"重新定义成一个知识接地 + 多视角推理的问题:先用一个异构深度搜索引擎从论文/网页/代码里在线捞活知识并细粒度对齐到 idea 的每个部件,再用一个由不同学术人格组成的"创新评审委员会"在五个维度上各自打分、汇总成带决策的元评审,在点评、配对、分组三类任务上全面超过现有 baseline 且与人类专家高度一致。
研究背景与动机¶
领域现状:LLM 把科研 idea 的"生产"加速到了前所未有的规模——自动出假设、自动写方法的 agent 层出不穷。但"生产爆炸"之后,评估这一环没有跟上:判断一个 idea 好不好仍然高度依赖稀缺、昂贵、主观的人类专家。
现有痛点:作者把现有自动评估工具的不足归纳成三条。一是知识视野太窄——多数方法只查静态学术论文,忽略了 idea 所处的"活知识生态"(网上的讨论、开源代码、最新进展),评估容易脱离现实。二是忽视评审共识——主流做法直接用单个 LLM-as-a-Judge,等于把这个模型自身的偏见固化成评判标准,无法模拟多个专家之间的审议。三是评估维度被压扁——把 novelty、feasibility、impact 等本该相互独立甚至彼此张力的属性,硬塞进一两个分数里,既丢信息也给不出有用反馈。
核心矛盾:科学评估的本质是一个整体的认知验证过程,作者用三条原则刻画它——知识接地(idea 是知识密集实体,要对照整个理论与实践生态)、集体审议(好评价来自多元视角的融合,而非单一权威)、多准则决策(idea 的复杂性要靠多个属性的并集来尊重)。现有工具恰好在这三点上全线失守。
本文目标:造一个自动化、系统化、却能逼近人类专家水平的 idea 评估框架,同时支持单 idea 打分、两两比较、一组排序三种实际场景。
切入角度:与其把评估当成一次"静态生成",不如把它建模成知识接地的多视角推理——先把证据找全、对齐准,再让一群背景各异的"评审"独立判断后汇聚共识。
核心 idea:用"异构深度搜索 + 细粒度接地 + 人格化评审委员会 + 维度解耦评估"这条流水线,逐条堵住知识窄、无共识、维度扁三个漏洞。
方法详解¶
整体框架¶
给定一段原始文本形式的 idea(成熟度不限,从一句假设到一篇完整论文都行),InnoEval 先把它抽成一个结构化六元组 \(\mathcal{I}=(\text{TLDR}, \text{Motis}, \text{ResQues}, \text{Meths}, \text{ExpSets}, \text{ExpRes})\),并附一个时间戳 \(t\) 标明"站在哪个时间点评"。随后流水线分四步走:① 异构深度知识搜索,从在线论文/网页/代码里迭代地捞取并过滤高质量背景知识;② 知识接地,把检索到的证据细粒度地对齐到 idea 的每个部件,挑出真正支持或反驳它的片段;③ 多维多视角评估,由一组维度专属的评估 agent 和一个人格化评审委员会在五个维度上分别打分;④ 报告生成,把所有评审意见汇成带引用证据、结构化分析、最终决策和修改建议的元评审。输出可以是单 idea 报告 \(P_\text{point}\),也可以是一组 idea 的排序报告 \(P_\text{group}\)。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["原始文本 idea<br/>抽成六元组 + 时间戳"] --> B["异构深度知识搜索<br/>论文/网页/代码 在线捞活知识"]
B -->|快搜→排序过滤→慢读<br/>迭代 N 轮精修 query| B
B --> C["知识接地<br/>证据对齐到 idea 每个部件"]
C --> D["创新评审委员会<br/>多人格 + 按熟悉度遮蔽知识"]
C --> E["多维解耦评估<br/>五维各派专属评估 agent"]
D --> F["报告生成<br/>元评审 + 决策 + 修改建议"]
E --> F
F -->|单 idea / 一组 idea| G["点评 / 配对 / 分组报告"]
关键设计¶
1. 异构深度知识搜索引擎:用"快搜—过滤—慢读—精修"的迭代循环捞活知识,堵住知识视野窄
针对"只查静态论文"的痛点,作者让一个搜索 agent \(\mathcal{M}_s\) 把触角伸到三类在线异构源——学术文献(arXiv、Semantic Scholar、Google Scholar)、网页内容(Google Search)、开源代码(GitHub、Kaggle),并把检索结果分成 literature / web / code 三类知识。关键是一个快慢混合的迭代策略:对 idea 的每个部件 \(p\) 和每个工具 \(u\),agent 先生成一组定制 query 并做同义词扩展(不同社区对等概念措辞往往不同),再用 API 快搜拿到简略结果 \(\widetilde{\mathcal{K}}_{p,u}=u(\mathcal{Q}_{p,u}, t)\);时间戳 \(t\) 把知识切成 pre / post 两半——前者用于评估、后者用于给修改建议。
过滤用的是一个混合打分函数:先用嵌入模型算 idea 与每条知识的语义相似度、每类留 top-\(3m\),再过一遍 reranker 得到 \(\mathcal{S}^\text{sem}\);同时把 \(\mathcal{M}_s\) 当 judge,结合引用数、发表 venue、网站热度、repo star 等给出 \(\mathcal{S}^\text{llm}\);二者按系数 \(\alpha\) 加权后取每类 top-\(m\):
这样既缓解纯语义相似的脆弱,又压住纯 model-as-judge 的偏见与幻觉。过滤后再做慢搜充实内容:文献抓全文 PDF 转结构化文本,网页抓 URL 转摘要报告,代码则爬仓库的文件级/函数级调用图、分析核心代码片段并结合 README 汇成报告。最后是迭代精修:\(\mathcal{M}_s\) 根据已充实的知识沿三个轴改写 query——重写相关性不足的、泛化结果过于具体的、具体化结果过于宽泛的,再把新一轮简略知识与上一轮保留的并集重新排序过滤,整个过程迭代 \(N\) 次(实验取 \(N=3\),\(m=10\),\(\alpha=0.2\))。
2. 知识接地:把证据对齐到 idea 的每个部件,去噪并标出"支持还是反驳"
光检索回来一堆知识还不够——它们与 idea 的具体关联是模糊的。接地 agent \(\mathcal{M}_g\) 做的事是细粒度对齐:对 idea 的每个部件 \(p\),收集所有据它检索到的知识 \(\mathcal{K}_p\),再对每条 \(k_p\) 蒸馏出真正支持或反驳 \(p\) 的证据 \(e_p\) 并给一段相关性分析 \(s_p\):\(e_p, s_p = \mathcal{M}_g(p, k_p)\)。最终接地结果 \(\mathcal{G}=\{(p, \mathcal{G}_p)\}_{p\in\mathcal{I}}\) 喂给后续评估模块。消融显示去掉接地(-Grounding)会在多任务上不同程度掉点,说明它确实在过滤检索报告里的噪声、让评估聚焦相关信息。
3. 创新评审委员会:用多元学术人格 + 按熟悉度遮蔽知识,把单一 judge 的偏见换成多视角共识
针对"单 LLM-as-Judge 固化偏见"的痛点,作者精心构建了一个评审委员会 \(\mathcal{P}\),其中每个人格 \(\rho\) 包含学术画像、一个对 literature/web/code 三类知识的熟悉度向量、以及评审习惯。评估时按该人格在各类源上的熟悉度随机遮蔽一定比例的知识,以此模拟真实人类"不是所有背景都精通"的认知局限。这一步把"假装多样意见的单个 reviewer"换成了"背景真不同、从不同视角看后才收敛"的真共识。分析里有个有趣证据:在分组排序任务上,只用 1 个人格反而不如不用人格——因为从 0 到 1 只是把 LLM 的固有偏见平移到那个特定人格上,没解决根本问题;而随着人格数增加,人格化 test-time scaling 持续涨、普通 TTS 很快见顶(主实验随机选 5 个人格是效率与效果的折中,并非性能上限)。
4. 多维解耦评估与报告生成:五个维度各派专属 agent 独立评,再汇成带决策的元评审
针对"维度被压扁"的痛点,InnoEval 初始给出五个相互解耦的维度——Clarity、Novelty、Feasibility、Validity、Significance(用户可自由注册新维度)。对评审委员会随机选出的子集 \(\mathcal{P}'\)(每个 idea 派 5 个不同人格)中的每个人格 \(\rho\) 和每个维度 \(\psi\),由专属评估 agent \(\mathcal{M}_\psi\) 结合接地证据 \(\mathcal{G}\) 在 \([0,10]\) 区间打分并给出推理叙述 \(\varphi_{\rho,\psi}=\mathcal{M}_\psi(\rho, \mathcal{I}, \mathcal{G})\)。报告 agent \(\mathcal{M}_r\) 再把所有 \(\{\varphi_{\rho,\psi}\}\) 汇成元评审 \(\varphi_\text{meta}\)(含总分 \(s_\text{point}\) 和决策 \(d_\text{point}\in\{\)Reject, Poster, Spotlight, Oral\(\}\)),并基于 idea 之后发表的"未来知识" \(\mathcal{G}_\text{future}\) 给出修改建议 \(\mathcal{V}\)。分组场景先为每个 idea 合成点评报告,再让报告 agent 沿五维两两比较、产出完整排序 \(\varphi^\text{group}_\text{meta}\)。
损失函数 / 训练策略¶
InnoEval 是纯推理流水线、无需训练:检索用现成的 bge-base-en-v1.5 做 retriever、bge-reranker-base 做 reranker,主干 LLM 用 DeepSeek-V3.2(鲁棒性测试换 o4-mini)。超参 \(m=10\)、\(\alpha=0.2\)、\(N=3\),评一条样本平均成本约 $0.42。
实验关键数据¶
数据集与任务¶
作者从权威同行评审论文里抽 idea 构数据集:爬 NeurIPS25 / ICLR25 的 OpenReview 投稿,按最终决定分 Reject / Poster / Spotlight / Oral 四层做分层采样,经抽取 agent + 人工校正得 217 条点评样本(\(\mathcal{D}_\text{point}\))。再用每条 idea 检索相似论文构组得 172 条分组样本,并从中采样配对、按标签差距分 easy(如 Reject vs. Highlight)/ hard(相邻标签)共 372 条配对样本(172 easy + 200 hard)。
主实验¶
| 任务 | 指标 | 最强 baseline (ScholarEval) | InnoEval | 提升 |
|---|---|---|---|---|
| 点评·三分类 | F1₃ | 58.38 | 74.56 | +16.18 |
| 点评·三分类 | Acc₃ | 61.75 | 73.73 | +11.98 |
| 点评·二分类 | Acc₂ | 65.44 | 75.58 | +10.14 |
| 配对·easy | Acc | 74.42 | 80.81 | +6.39 |
| 配对·hard | Acc | 60.00 | 63.00 | +3.00 |
| 分组·best 选择 | Acc | 49.42 | 65.12 | +15.70 |
| 分组·排序 | Acc | 14.53 | 22.09 | +7.56 |
一个值得注意的现象:多数 baseline 在点评任务上出现标签塌缩(预测只集中在一两个标签,表现为 F1 远低于 Acc);InnoEval 靠充分证据与多维多视角评估把预测分散开,F1 才能追上甚至反超 Acc。
质量对比(o4-mini 当 judge 的胜率,节选 Overall Quality)¶
| InnoEval vs. | Rationality 胜% | Depth 胜% | Constructiveness 胜% | Overall 胜% |
|---|---|---|---|---|
| CoT | 88.48 | 93.09 | 89.77 | 90.70 |
| RAG | 87.10 | 92.63 | 87.10 | 90.32 |
| ResearchAgent | 86.18 | 90.32 | 88.94 | 89.86 |
| InternAgent | 83.41 | 91.24 | 82.03 | 85.71 |
| ScholarEval | 67.28 | 70.51 | 84.79 | 71.89 |
InnoEval 在 Overall Quality 上对所有 baseline 胜率均 >70%,Depth 维度对多数方法 >90%。ScholarEval 是强 baseline(在 rationality/supportiveness/depth 上能赢过 25% 样本),但它评估维度有限、缺基于证据的改进建议,constructiveness 拉胯。
消融与分析¶
| 配置 | 效果 | 说明 |
|---|---|---|
| Full InnoEval | 最优 | 完整流水线 |
| -Grounding | 多任务不同程度掉点 | 去接地后噪声混入,评估失焦 |
| -Personalized | 显著掉点(点评/分组尤甚) | 退回单 LLM-as-Judge,偏见回潮 |
| -Web&Code | 明显掉点(配对/分组尤甚) | 只留文献检索,背景知识不足 |
| o4-mini 主干 | 略降但仍超最强 baseline | 跨模型鲁棒 |
关键发现¶
- 人格化是共识的关键:普通 test-time scaling 很快见顶,而人格化 TTS 持续涨;分组排序里"只用 1 个人格反不如 0 个人格",因为单人格只是把 LLM 偏见平移到该人格、没解决根本问题。
- 比较任务最吃背景知识:-Web&Code 对配对/分组的伤害大于对点评,说明比较多个 idea 尤其需要丰富的活知识。
- 人机一致性高:随机抽 60 条与人类专家、真实 peer-review 评论对比,五维相关系数均 ≥ 0.5;Clarity 相关最高(只看逻辑与结构连贯,好判断),Significance 最低(本身复杂,是未来工作方向)。
- 评审能反哺生成:把 InnoEval 的修改建议接进 ResearchAgent 的 idea 迭代流水线,在问题定义、方法、实验设计上都显著提升生成质量;而 ScholarEval 只盯 contribution/soundness 两维,反而带偏优化、退化生成质量。
亮点与洞察¶
- 把"评估"从生成任务重定义成知识接地的多视角推理:三条原则(知识接地 / 集体审议 / 多准则)→ 三个漏洞(窄 / 无共识 / 扁)→ 三个模块,论证链条干净,是这篇最"啊哈"的地方。
- 按人格熟悉度随机遮蔽知识是个巧设计:它把"模拟人类认知局限"落到了可执行的机制上,而不是空喊"多样性",也正是人格化 TTS 持续 scaling 的来源。
- 快慢混合 + 混合打分的检索范式可迁移:先快搜广撒网、语义相似 + LLM-judge 双分过滤、再慢读充实、迭代精修 query,这套对任何"需要在线找活证据"的 agent 任务都通用。
- 用未来论文做修改建议:靠时间戳把知识切成 pre/post,post 知识专门用于给 actionable 反馈,让评估不止"判死刑"还能"开药方"。
局限与展望¶
- 成本与延迟:每条样本约 $0.42,且强依赖多个在线搜索 API;人格数虽能 scaling 但更大的池会让推理时间急剧上升,主实验只能折中选 5 个。
- Significance 维度评不准:与人类相关最低,反映"影响力"这种长期、主观属性本身难以即时判断。
- 标签来自会议决定:用 NeurIPS/ICLR 的接收档位当 ground truth,会把评审本身的噪声与运气也当成信号;"被拒"未必等于"idea 差"。
- 依赖在线源的时效与可得性:链接失效、检索 API 变动都会影响活知识的覆盖;中文或小语种社区知识可能覆盖不足。
相关工作与启发¶
- vs LLM-as-a-Judge(CoT / RAG):直接让单个 LLM 打分会把模型偏见固化成标准、且标签塌缩严重;InnoEval 用人格化委员会 + 维度解耦把偏见摊开成共识,F1 大幅领先。
- vs ScholarEval(专门的 idea 评估方法):ScholarEval 检索强但结果收敛、牺牲多样性,且只盯 contribution/soundness 两维、缺证据化改进建议;InnoEval 的异构搜索同时保住相关性/覆盖/多样性,constructiveness 因而碾压。
- vs GraphEval:它只为单 idea 标签预测训练,配对/分组任务几乎失效,暴露了评估系统需要的灵活性。
- vs ResearchAgent / InternAgent:前者依赖预建文献库、对新 idea 评不准,后者搜索流水线复杂但评估维度单一、难对齐人类标签;InnoEval 把"在线活知识 + 多维评估"补齐了这两块短板。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把 idea 评估重构成知识接地的多视角推理,三原则—三漏洞—三模块的设计逻辑自洽且新。
- 实验充分度: ⭐⭐⭐⭐⭐ 点评/配对/分组三类任务 + 质量胜率 + 人机一致性 + 消融 + scaling 分析,证据链完整。
- 写作质量: ⭐⭐⭐⭐ 形式化定义清晰、动机层层递进;公式记号偏密,附录依赖较重。
- 价值: ⭐⭐⭐⭐⭐ 自动 idea 评估是科研 Agent 流水线的关键瓶颈,且证明评审能反哺生成,落地意义强。