RedSage: A Cybersecurity Generalist LLM¶

会议: ICLR 2026
arXiv: 2601.22159
代码: GitHub (开源数据+模型+代码)
领域: AI安全 / 网络安全
关键词: 网络安全LLM, 持续预训练, 智能体数据增强, 安全评测基准

一句话总结¶

提出RedSage——首个全栈开源的网络安全通才LLM，通过11.7B token大规模领域持续预训练、266K样本的Agentic数据增强SFT、以及首个覆盖知识+技能+工具的综合评测基准RedSage-Bench，8B参数模型在网络安全基准上超越同规模SOTA（+5.4pp）并接近Qwen3-32B，通用能力不降反升（+8.4pp vs Qwen3-8B）。

研究背景与动机¶

领域现状：网络安全威胁日益复杂，APT攻击、漏洞管理、事件响应等任务需要高度专业知识和工具操作能力。全球网络安全人才缺口达数百万（ISC²报告），推动了用LLM辅助安全分析师的需求。近年出现了多个网络安全LLM（Foundation-Sec、PRIMUS、DeepHat等），但均存在明显不足。

现有痛点：现有网络安全LLM在三个维度上存在短板。（1）训练流程不完整：PRIMUS（Trend Micro）有2.57B token预训练但SFT仅835样本，Foundation-Sec-8B（Cisco）有预训练但数据闭源，DeepHat仅做SFT无预训练。（2）SFT数据质量有限：大多使用静态Q&A对或少量人工标注，未模拟真实安全工作流的多轮交互模式。（3）评测基准覆盖不全：SecEval/CyberMetric等仅评知识MCQ，CyberSecEval仅评技能，没有基准同时覆盖工具使用能力评测和开放问答质量评估。

核心矛盾：构建实用的网络安全LLM需要同时解决数据规模、训练流程完整性和评测全面性三个问题，但现有工作最多只覆盖其中一两个。更严重的是，大部分工作不开源数据和代码（Foundation-Sec闭源数据，SecGemini闭源模型），限制了可复现性和社区发展。

本文目标：构建一个全栈开源的网络安全LLM系统，覆盖从数据过滤、持续预训练、智能体增强SFT、偏好对齐到综合评测的完整pipeline，并全部公开。

切入角度：以"数据为中心"（data-centric）的理念贯穿全流程——用分类器从FineWeb中过滤领域语料进行大规模预训练，策展高质量种子数据覆盖知识/技能/工具三个维度，用Agentic pipeline将静态文档自动转化为多轮对话，构建分层验证的评测基准。

核心 idea：大规模领域预训练+智能体增强SFT+三维评测基准三管齐下，构建首个全栈开源的网络安全通才LLM。

方法详解¶

整体框架¶

RedSage基于Qwen3-8B-Base构建，训练分为三个阶段。阶段一（持续预训练CPT）：先用CyberFineWeb（11.7B tokens网络安全过滤语料+30%通用replay）做持续预训练得到RedSage-CFW，再用高质量策展数据RedSage-Seed（28,637样本，150M tokens）和非分类dumps（459K文档，700M tokens）继续训练得到RedSage-Base。阶段二（监督微调SFT）：使用Agentic Augmentation从种子数据生成的266K多轮对话（RedSage-Conv，353M tokens）加上SmolLM3的通用指令数据做SFT，得到RedSage-Ins。阶段三（偏好对齐DPO）：使用Tulu 3 8B开源偏好数据做DPO对齐，得到最终的RedSage-DPO。同时构建RedSage-Bench评测基准（30K MCQ + 240开放问答），在知识、技能和工具三个维度上评估模型能力。

关键设计¶

CyberFineWeb领域语料构建与防遗忘机制
- 功能：从大规模web语料中高效过滤网络安全文本，同时通过replay机制保持通用能力
- 核心思路：用ModernBERT-base微调二分类器过滤FineWeb（Common Crawl 2013-2024, ~15T tokens），得到~125M文档（89.8B tokens）的候选池。关键设计是混合30%的FineWeb-Edu通用教育文本做replay防止灾难性遗忘。应用MinHash-LSH全局近重复去除后得到~52M文档（46.8B tokens）。按时间分为20个chunk顺序训练并在第5个chunk后early stopping平衡成本，最终使用13M文档（11.7B tokens）
- 设计动机：89.8B tokens全量训练成本过高，chronological chunking + early stopping在有限计算预算下捕获最有价值的数据。实验证实30% replay ratio有效——RedSage-DPO在Open LLM Leaderboard上以74.33%均值超越Qwen3-32B（73.17%），通用能力不降反升
Agentic数据增强Pipeline
- 功能：将策展的静态网络安全资源自动转化为高质量多轮对话，用于SFT训练
- 核心思路：采用两阶段智能体框架。Planner Agent分析每个种子数据chunk，动态推导候选技能集（如漏洞分析、工具命令生成、渗透测试流程）和增强策略（如何转化为对话、如何丰富解释），不使用固定模板。Augmenter Agent将每个计划实例化为基于角色的多轮对话（expert-assistant形式），模拟真实网络安全工作流。输出经格式有效性、一致性和主题相关性三重过滤。种子数据分三类策展——Knowledge（MITRE ATT&CK/CWE/OWASP等框架，6,924+3,715样本）、Skills（HackTricks/渗透测试writeups，4,032样本）、Tools（CLI cheatsheets/Kali文档，12,943+1,023样本）。Pipeline将28,637个种子扩展为266K对话（9.2×样本量、2.3×token量），涵盖知识67K、技能39K、工具120K
- 设计动机：手工构建网络安全SFT数据成本极高且难以覆盖所有维度。与AgentInstruct等固定技能模板不同，Planner根据内容动态生成策略确保多样性。对话格式比静态文档更接近真实使用场景——安全分析师通过多轮交互完成任务
RedSage-Bench三维评测基准
- 功能：首个同时覆盖知识、技能和工具使用的网络安全LLM评测基准，支持MCQ和开放问答两种评测形式
- 核心思路：MCQ生成——用70B指令模型（Llama-3.3-70B/Qwen2.5-72B）从种子数据生成四选一题目，经两阶段验证：Stage 1结构有效性（格式/正确性/干扰项质量，pass/fail），Stage 2质量评分（>8/10才保留），配额采样保证分类平衡，最终30K MCQ。开放问答——通过Evaluation-Planner和Q&A Generator两阶段生成，LLM-as-Judge评估事实正确性（T/F）和回答质量（0-10分，覆盖帮助性/相关性/深度），经人工验证保留240条。去污染——语义相似度>0.9的训练样本被移除（2.96%），防止训练泄露
- 设计动机：现有基准要么只评知识（SecEval等）要么只评技能（CyberSecEval），没有评工具使用的。MCQ只能评对错，开放问答+质量评分才能评估回答的帮助性和深度

损失函数 / 训练策略¶

基于Qwen3-8B-Base做持续预训练，使用32×A100-64GB GPU，DeepSpeed ZeRO Stage 3分布式训练，AdamW优化器，固定学习率2.5×10⁻⁶配合linear warmup，单epoch训练（全局batch size 1024）。SFT阶段2个epoch，cosine学习率调度。DPO使用Tulu 3 8B Preference Mixture数据集及其原始超参数。整个pipeline使用Axolotl框架，通过配置文件即可复现。

实验关键数据¶

主实验¶

RedSage-Bench MCQ评测（0-shot，准确率%）：

模型	宏平均	通用知识	框架	攻防技能	CLI工具	Kali工具
Lily-Cybersecurity-7B	71.19	68.78	67.44	76.61	71.44	66.26
Foundation-Sec-8B-Ins	76.12	74.50	77.10	80.91	74.98	68.30
DeepHat-V1-7B	80.18	77.26	76.90	85.07	81.94	74.82
Qwen3-8B	81.85	80.46	78.82	86.16	83.92	75.56
RedSage-8B-Ins	85.73	84.20	84.98	89.06	86.80	80.30
RedSage-8B-DPO	84.83	82.48	83.80	88.54	86.30	79.30
Qwen3-32B	85.40	84.08	82.32	89.00	87.60	80.40

外部网络安全基准评测（准确率%）：

模型	均值	CTI-MCQ	CTI-RCM	CyMtc-500	MMLU-CSec	SecBench-En
Qwen3-8B-Base	80.81	68.80	63.50	92.00	83.00	82.84
Foundation-Sec-8B	76.90	62.40	75.40	86.60	80.00	69.86
RedSage-8B-Base	84.56	71.04	78.40	92.60	87.00	81.76
Qwen3-8B (instruct)	75.71	62.76	54.00	88.60	76.00	73.26
RedSage-8B-DPO	81.10	70.84	70.60	90.00	79.00	80.06

消融实验¶

各训练阶段的贡献（base模型，RedSage-Bench宏平均准确率%）：

训练配置	Bench宏平均	外部基准均值	关键变化
Qwen3-8B-Base（基线）	84.24	80.81	—
+ CyberFineWeb（CFW）	84.86 (+0.62)	82.66 (+1.85)	框架+3.00, SecBench+0.78
+ Seed only	85.21 (+0.97)	84.45 (+3.64)	CTI-RCM+15.1, Kali+1.04
+ CFW + Seed（Base）	85.05 (+0.81)	84.56 (+3.75)	最优综合
+ SFT（Ins）	85.73 (+1.49)	81.30	instruct模型最优
+ DPO	84.83 (+0.59)	81.10	开放问答质量最优

通用能力保持（Open LLM Leaderboard instruct模型均值%）：

模型	均值	MMLU	ARC-C	GSM8K	IFEval
Qwen3-8B	65.92	73.59	62.54	75.66	85.21
Foundation-Sec-8B-Ins	69.28	64.11	63.91	77.79	76.17
RedSage-8B-DPO	74.33	77.07	71.76	82.71	83.44
Qwen3-32B	73.17	82.11	69.28	87.49	88.26

关键发现¶

RedSage-8B-Ins（85.73）在自建基准上超越4倍参数的Qwen3-32B（85.40），证明领域针对性训练可弥补参数量差距
开放问答中RedSage-DPO比第二名Qwen3-8B高+7%绝对正确率和+0.07质量分，DPO对回答质量提升显著
CyberFineWeb和Seed提供互补增益：CFW在SecBench/CyMtc上提升最大，Seed在需要深度知识的CTI-RCM（+15.1pp）上提升最大
通用能力不降反升：RedSage-DPO（74.33%）在Open LLM Leaderboard上超越Qwen3-32B（73.17%），30% replay有效防遗忘
工具使用是当前LLM最薄弱维度：开放问答中工具类题目中位数最低、分布尾部最长

亮点与洞察¶

全栈开源是核心差异化：数据（11.7B预训练+266K SFT）、模型、代码、评测基准全部公开，区别于Foundation-Sec（闭源数据）和SecGemini（闭源模型），对社区有巨大推动作用
Agentic Augmentation的Planner→Augmenter两阶段框架具有方法论通用性，可迁移到医疗、法律等领域的专业LLM构建
RedSage-Bench的MCQ+开放问答+LLM-judge质量评分设计，首次实现网络安全领域知识+技能+工具的三维评测
在Qwen3-32B上用QLoRA微调部分数据也能提升，证明数据pipeline对更大模型同样有效

局限与展望¶

8B参数限制了复杂推理，与GPT-5（86.29 vs 81.10均值）仍有~5pp差距
工具评测限于CLI命令和文档理解，未覆盖CTF等需要环境交互的场景
LLM生成的训练数据可能传播偏见或不准确信息，尽管有过滤和验证
网络安全知识更新快，模型时效性维护是持续挑战
开源攻防知识存在双用（dual-use）风险，需要负责任使用

评分¶

新颖性: ⭐⭐⭐⭐ 系统性工程贡献大于单点算法创新，Agentic augmentation和三维评测设计有新意
实验充分度: ⭐⭐⭐⭐⭐ 三类基准（自建+外部网络安全+通用）、多阶段消融、开放问答质量评估、大模型扩展验证
写作质量: ⭐⭐⭐⭐ 结构清晰，表格和图表丰富，pipeline描述完整
价值: ⭐⭐⭐⭐⭐ 全栈开源对网络安全AI社区推动巨大，数据pipeline方法论可迁移至其他专业领域