RedSage: A Cybersecurity Generalist LLM¶
会议: ICLR 2026
arXiv: 2601.22159
代码: GitHub (开源数据+模型+代码)
领域: AI安全 / 网络安全
关键词: 网络安全LLM, 持续预训练, 智能体数据增强, 安全评测基准
一句话总结¶
提出RedSage——首个全栈开源的网络安全通才LLM,通过11.7B token大规模领域持续预训练、266K样本的Agentic数据增强SFT、以及首个覆盖知识+技能+工具的综合评测基准RedSage-Bench,8B参数模型在网络安全基准上超越同规模SOTA(+5.4pp)并接近Qwen3-32B,通用能力不降反升(+8.4pp vs Qwen3-8B)。
研究背景与动机¶
领域现状:网络安全威胁日益复杂,APT攻击、漏洞管理、事件响应等任务需要高度专业知识和工具操作能力。全球网络安全人才缺口达数百万(ISC²报告),推动了用LLM辅助安全分析师的需求。近年出现了多个网络安全LLM(Foundation-Sec、PRIMUS、DeepHat等),但均存在明显不足。
现有痛点:现有网络安全LLM在三个维度上存在短板。(1)训练流程不完整:PRIMUS(Trend Micro)有2.57B token预训练但SFT仅835样本,Foundation-Sec-8B(Cisco)有预训练但数据闭源,DeepHat仅做SFT无预训练。(2)SFT数据质量有限:大多使用静态Q&A对或少量人工标注,未模拟真实安全工作流的多轮交互模式。(3)评测基准覆盖不全:SecEval/CyberMetric等仅评知识MCQ,CyberSecEval仅评技能,没有基准同时覆盖工具使用能力评测和开放问答质量评估。
核心矛盾:构建实用的网络安全LLM需要同时解决数据规模、训练流程完整性和评测全面性三个问题,但现有工作最多只覆盖其中一两个。更严重的是,大部分工作不开源数据和代码(Foundation-Sec闭源数据,SecGemini闭源模型),限制了可复现性和社区发展。
本文目标:构建一个全栈开源的网络安全LLM系统,覆盖从数据过滤、持续预训练、智能体增强SFT、偏好对齐到综合评测的完整pipeline,并全部公开。
切入角度:以"数据为中心"(data-centric)的理念贯穿全流程——用分类器从FineWeb中过滤领域语料进行大规模预训练,策展高质量种子数据覆盖知识/技能/工具三个维度,用Agentic pipeline将静态文档自动转化为多轮对话,构建分层验证的评测基准。
核心 idea:大规模领域预训练+智能体增强SFT+三维评测基准三管齐下,构建首个全栈开源的网络安全通才LLM。
方法详解¶
整体框架¶
RedSage基于Qwen3-8B-Base构建,训练分为三个阶段。阶段一(持续预训练CPT):先用CyberFineWeb(11.7B tokens网络安全过滤语料+30%通用replay)做持续预训练得到RedSage-CFW,再用高质量策展数据RedSage-Seed(28,637样本,150M tokens)和非分类dumps(459K文档,700M tokens)继续训练得到RedSage-Base。阶段二(监督微调SFT):使用Agentic Augmentation从种子数据生成的266K多轮对话(RedSage-Conv,353M tokens)加上SmolLM3的通用指令数据做SFT,得到RedSage-Ins。阶段三(偏好对齐DPO):使用Tulu 3 8B开源偏好数据做DPO对齐,得到最终的RedSage-DPO。同时构建RedSage-Bench评测基准(30K MCQ + 240开放问答),在知识、技能和工具三个维度上评估模型能力。三个核心贡献分别落在这条链路的三个位置:预训练阶段的数据怎么来(CyberFineWeb)、SFT阶段的对话数据怎么来(Agentic 数据增强)、以及拿什么评(RedSage-Bench);DPO 阶段直接复用开源偏好数据,不是本文的创新点。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["Qwen3-8B-Base"] --> B["CyberFineWeb 持续预训练<br/>11.7B token 领域语料<br/>+30% 通用 replay 防遗忘"]
B --> C["RedSage-Base<br/>(+ Seed 策展数据)"]
C --> D["Agentic 数据增强 SFT<br/>Planner→Augmenter 双 agent<br/>静态文档→266K 多轮对话"]
D --> E["RedSage-Ins"]
E -->|"Tulu 3 偏好数据 DPO"| F["RedSage-DPO(最终模型)"]
F --> G["RedSage-Bench 三维评测<br/>知识 / 技能 / 工具<br/>30K MCQ + 240 开放问答"]
关键设计¶
1. CyberFineWeb 领域语料构建与防遗忘机制:用一个轻量分类器从全网语料里淘出网络安全文本,同时不把通用能力训丢
预训练要喂大量领域文本,但 Common Crawl 这种全网语料里安全相关内容只占很小一部分。作者用 ModernBERT-base 微调出一个二分类器去过滤 FineWeb(Common Crawl 2013–2024,约 15T tokens),筛出约 125M 文档(89.8B tokens)的候选池,再用 MinHash-LSH 做全局近重复去除,收缩到约 52M 文档(46.8B tokens)。直接全量训这 89.8B tokens 成本过高,于是把语料按时间切成 20 个 chunk 顺序训练,在第 5 个 chunk 之后 early stopping——在有限算力下优先吃掉最有价值的那部分数据,最终实际用了 13M 文档(11.7B tokens)。关键的一步是混入 30% 的 FineWeb-Edu 通用教育文本做 replay,专门用来对冲灾难性遗忘:纯领域训练很容易把模型原有的通用能力训退化,replay 让它一边学安全一边复习通用知识。这个比例被实验证明有效——最终的 RedSage-DPO 在 Open LLM Leaderboard 上以 74.33% 均值反超 Qwen3-32B(73.17%),通用能力不降反升。
2. Agentic 数据增强 Pipeline:让两个 agent 把静态安全文档自动改写成多轮对话,省掉人工标 SFT 数据的高成本
手工构建网络安全 SFT 数据成本极高,又很难覆盖知识/技能/工具所有维度,而现成的静态 Q&A 对又不像安全分析师真实工作时那样多轮交互。作者用两阶段智能体框架来自动生成对话数据。Planner Agent 先分析每个种子数据 chunk,动态推导出候选技能集(如漏洞分析、工具命令生成、渗透测试流程)和对应的增强策略(这段内容该怎么转成对话、解释要补到多细)——它不套固定模板,而是按内容现场决定策略,以此保证多样性,这正是它和 AgentInstruct 那类固定技能模板的区别。Augmenter Agent 再把每个计划实例化成基于角色的多轮对话(expert-assistant 形式),模拟真实安全工作流,输出还要过格式有效性、一致性、主题相关性三重过滤。种子数据本身分三类策展:Knowledge(MITRE ATT&CK / CWE / OWASP 等框架,6,924+3,715 样本)、Skills(HackTricks / 渗透测试 writeups,4,032 样本)、Tools(CLI cheatsheets / Kali 文档,12,943+1,023 样本)。整条 pipeline 把 28,637 个种子放大成 266K 对话(样本量 9.2×、token 量 2.3×),其中知识 67K、技能 39K、工具 120K。
3. RedSage-Bench 三维评测基准:第一个把知识、技能、工具使用三块一起评的网络安全基准,且同时管对错和回答质量
现有基准各管一摊——SecEval 这类只评知识、CyberSecEval 只评技能,没有一个评工具使用;而 MCQ 这种形式只能判对错,评不出回答到底有没有用、够不够深。RedSage-Bench 用两种题型补齐这两个缺口。MCQ 由 70B 指令模型(Llama-3.3-70B / Qwen2.5-72B)从种子数据生成四选一题目,经两阶段验证:Stage 1 查结构有效性(格式 / 正确性 / 干扰项质量,pass/fail),Stage 2 给质量评分(>8/10 才保留),再配额采样保证各分类平衡,最终留下 30K MCQ。开放问答则通过 Evaluation-Planner 和 Q&A Generator 两阶段生成,用 LLM-as-Judge 同时打两个分——事实正确性(T/F)和回答质量(0–10 分,覆盖帮助性 / 相关性 / 深度),经人工验证保留 240 条,正是这条质量分让基准能区分"答对了"和"答得好"。为防止训练泄露,还做了去污染:与训练样本语义相似度 >0.9 的题目被移除(占 2.96%)。
损失函数 / 训练策略¶
基于Qwen3-8B-Base做持续预训练,使用32×A100-64GB GPU,DeepSpeed ZeRO Stage 3分布式训练,AdamW优化器,固定学习率2.5×10⁻⁶配合linear warmup,单epoch训练(全局batch size 1024)。SFT阶段2个epoch,cosine学习率调度。DPO使用Tulu 3 8B Preference Mixture数据集及其原始超参数。整个pipeline使用Axolotl框架,通过配置文件即可复现。
实验关键数据¶
主实验¶
RedSage-Bench MCQ评测(0-shot,准确率%):
| 模型 | 宏平均 | 通用知识 | 框架 | 攻防技能 | CLI工具 | Kali工具 |
|---|---|---|---|---|---|---|
| Lily-Cybersecurity-7B | 71.19 | 68.78 | 67.44 | 76.61 | 71.44 | 66.26 |
| Foundation-Sec-8B-Ins | 76.12 | 74.50 | 77.10 | 80.91 | 74.98 | 68.30 |
| DeepHat-V1-7B | 80.18 | 77.26 | 76.90 | 85.07 | 81.94 | 74.82 |
| Qwen3-8B | 81.85 | 80.46 | 78.82 | 86.16 | 83.92 | 75.56 |
| RedSage-8B-Ins | 85.73 | 84.20 | 84.98 | 89.06 | 86.80 | 80.30 |
| RedSage-8B-DPO | 84.83 | 82.48 | 83.80 | 88.54 | 86.30 | 79.30 |
| Qwen3-32B | 85.40 | 84.08 | 82.32 | 89.00 | 87.60 | 80.40 |
外部网络安全基准评测(准确率%):
| 模型 | 均值 | CTI-MCQ | CTI-RCM | CyMtc-500 | MMLU-CSec | SecBench-En |
|---|---|---|---|---|---|---|
| Qwen3-8B-Base | 80.81 | 68.80 | 63.50 | 92.00 | 83.00 | 82.84 |
| Foundation-Sec-8B | 76.90 | 62.40 | 75.40 | 86.60 | 80.00 | 69.86 |
| RedSage-8B-Base | 84.56 | 71.04 | 78.40 | 92.60 | 87.00 | 81.76 |
| Qwen3-8B (instruct) | 75.71 | 62.76 | 54.00 | 88.60 | 76.00 | 73.26 |
| RedSage-8B-DPO | 81.10 | 70.84 | 70.60 | 90.00 | 79.00 | 80.06 |
消融实验¶
各训练阶段的贡献(base模型,RedSage-Bench宏平均准确率%):
| 训练配置 | Bench宏平均 | 外部基准均值 | 关键变化 |
|---|---|---|---|
| Qwen3-8B-Base(基线) | 84.24 | 80.81 | — |
| + CyberFineWeb(CFW) | 84.86 (+0.62) | 82.66 (+1.85) | 框架+3.00, SecBench+0.78 |
| + Seed only | 85.21 (+0.97) | 84.45 (+3.64) | CTI-RCM+15.1, Kali+1.04 |
| + CFW + Seed(Base) | 85.05 (+0.81) | 84.56 (+3.75) | 最优综合 |
| + SFT(Ins) | 85.73 (+1.49) | 81.30 | instruct模型最优 |
| + DPO | 84.83 (+0.59) | 81.10 | 开放问答质量最优 |
通用能力保持(Open LLM Leaderboard instruct模型均值%):
| 模型 | 均值 | MMLU | ARC-C | GSM8K | IFEval |
|---|---|---|---|---|---|
| Qwen3-8B | 65.92 | 73.59 | 62.54 | 75.66 | 85.21 |
| Foundation-Sec-8B-Ins | 69.28 | 64.11 | 63.91 | 77.79 | 76.17 |
| RedSage-8B-DPO | 74.33 | 77.07 | 71.76 | 82.71 | 83.44 |
| Qwen3-32B | 73.17 | 82.11 | 69.28 | 87.49 | 88.26 |
关键发现¶
- RedSage-8B-Ins(85.73)在自建基准上超越4倍参数的Qwen3-32B(85.40),证明领域针对性训练可弥补参数量差距
- 开放问答中RedSage-DPO比第二名Qwen3-8B高+7%绝对正确率和+0.07质量分,DPO对回答质量提升显著
- CyberFineWeb和Seed提供互补增益:CFW在SecBench/CyMtc上提升最大,Seed在需要深度知识的CTI-RCM(+15.1pp)上提升最大
- 通用能力不降反升:RedSage-DPO(74.33%)在Open LLM Leaderboard上超越Qwen3-32B(73.17%),30% replay有效防遗忘
- 工具使用是当前LLM最薄弱维度:开放问答中工具类题目中位数最低、分布尾部最长
亮点与洞察¶
- 全栈开源是核心差异化:数据(11.7B预训练+266K SFT)、模型、代码、评测基准全部公开,区别于Foundation-Sec(闭源数据)和SecGemini(闭源模型),对社区有巨大推动作用
- Agentic Augmentation的Planner→Augmenter两阶段框架具有方法论通用性,可迁移到医疗、法律等领域的专业LLM构建
- RedSage-Bench的MCQ+开放问答+LLM-judge质量评分设计,首次实现网络安全领域知识+技能+工具的三维评测
- 在Qwen3-32B上用QLoRA微调部分数据也能提升,证明数据pipeline对更大模型同样有效
局限与展望¶
- 8B参数限制了复杂推理,与GPT-5(86.29 vs 81.10均值)仍有~5pp差距
- 工具评测限于CLI命令和文档理解,未覆盖CTF等需要环境交互的场景
- LLM生成的训练数据可能传播偏见或不准确信息,尽管有过滤和验证
- 网络安全知识更新快,模型时效性维护是持续挑战
- 开源攻防知识存在双用(dual-use)风险,需要负责任使用
相关工作与启发¶
- Foundation-Sec-8B(Cisco, 5.1B token预训练+28K SFT)vs PRIMUS(Trend Micro, 2.57B预训练+835 SFT):RedSage在数据规模(11.7B+266K)、方法(agentic augmentation)和开放性上全面领先
- Agentic augmentation继承AgentInstruct思路但创新在于Planner动态生成技能集而非固定模板
- 30%通用replay是continual learning经典策略,但RedSage的创新在于直接嵌入静态语料而非动态调整比例
评分¶
- 新颖性: ⭐⭐⭐⭐ 系统性工程贡献大于单点算法创新,Agentic augmentation和三维评测设计有新意
- 实验充分度: ⭐⭐⭐⭐⭐ 三类基准(自建+外部网络安全+通用)、多阶段消融、开放问答质量评估、大模型扩展验证
- 写作质量: ⭐⭐⭐⭐ 结构清晰,表格和图表丰富,pipeline描述完整
- 价值: ⭐⭐⭐⭐⭐ 全栈开源对网络安全AI社区推动巨大,数据pipeline方法论可迁移至其他专业领域