跳转至

RedSage: A Cybersecurity Generalist LLM

会议: ICLR 2026
arXiv: 2601.22159
代码: GitHub (开源数据+模型+代码)
领域: AI安全 / 网络安全
关键词: 网络安全LLM, 持续预训练, 智能体数据增强, 安全评测基准

一句话总结

提出RedSage——首个全栈开源的网络安全通才LLM,通过11.7B token大规模领域持续预训练、266K样本的Agentic数据增强SFT、以及首个覆盖知识+技能+工具的综合评测基准RedSage-Bench,8B参数模型在网络安全基准上超越同规模SOTA(+5.4pp)并接近Qwen3-32B,通用能力不降反升(+8.4pp vs Qwen3-8B)。

研究背景与动机

领域现状:网络安全威胁日益复杂,APT攻击、漏洞管理、事件响应等任务需要高度专业知识和工具操作能力。全球网络安全人才缺口达数百万(ISC²报告),推动了用LLM辅助安全分析师的需求。近年出现了多个网络安全LLM(Foundation-Sec、PRIMUS、DeepHat等),但均存在明显不足。

现有痛点:现有网络安全LLM在三个维度上存在短板。(1)训练流程不完整:PRIMUS(Trend Micro)有2.57B token预训练但SFT仅835样本,Foundation-Sec-8B(Cisco)有预训练但数据闭源,DeepHat仅做SFT无预训练。(2)SFT数据质量有限:大多使用静态Q&A对或少量人工标注,未模拟真实安全工作流的多轮交互模式。(3)评测基准覆盖不全:SecEval/CyberMetric等仅评知识MCQ,CyberSecEval仅评技能,没有基准同时覆盖工具使用能力评测和开放问答质量评估。

核心矛盾:构建实用的网络安全LLM需要同时解决数据规模、训练流程完整性和评测全面性三个问题,但现有工作最多只覆盖其中一两个。更严重的是,大部分工作不开源数据和代码(Foundation-Sec闭源数据,SecGemini闭源模型),限制了可复现性和社区发展。

本文目标:构建一个全栈开源的网络安全LLM系统,覆盖从数据过滤、持续预训练、智能体增强SFT、偏好对齐到综合评测的完整pipeline,并全部公开。

切入角度:以"数据为中心"(data-centric)的理念贯穿全流程——用分类器从FineWeb中过滤领域语料进行大规模预训练,策展高质量种子数据覆盖知识/技能/工具三个维度,用Agentic pipeline将静态文档自动转化为多轮对话,构建分层验证的评测基准。

核心 idea:大规模领域预训练+智能体增强SFT+三维评测基准三管齐下,构建首个全栈开源的网络安全通才LLM。

方法详解

整体框架

RedSage基于Qwen3-8B-Base构建,训练分为三个阶段。阶段一(持续预训练CPT):先用CyberFineWeb(11.7B tokens网络安全过滤语料+30%通用replay)做持续预训练得到RedSage-CFW,再用高质量策展数据RedSage-Seed(28,637样本,150M tokens)和非分类dumps(459K文档,700M tokens)继续训练得到RedSage-Base。阶段二(监督微调SFT):使用Agentic Augmentation从种子数据生成的266K多轮对话(RedSage-Conv,353M tokens)加上SmolLM3的通用指令数据做SFT,得到RedSage-Ins。阶段三(偏好对齐DPO):使用Tulu 3 8B开源偏好数据做DPO对齐,得到最终的RedSage-DPO。同时构建RedSage-Bench评测基准(30K MCQ + 240开放问答),在知识、技能和工具三个维度上评估模型能力。

关键设计

  1. CyberFineWeb领域语料构建与防遗忘机制

    • 功能:从大规模web语料中高效过滤网络安全文本,同时通过replay机制保持通用能力
    • 核心思路:用ModernBERT-base微调二分类器过滤FineWeb(Common Crawl 2013-2024, ~15T tokens),得到~125M文档(89.8B tokens)的候选池。关键设计是混合30%的FineWeb-Edu通用教育文本做replay防止灾难性遗忘。应用MinHash-LSH全局近重复去除后得到~52M文档(46.8B tokens)。按时间分为20个chunk顺序训练并在第5个chunk后early stopping平衡成本,最终使用13M文档(11.7B tokens)
    • 设计动机:89.8B tokens全量训练成本过高,chronological chunking + early stopping在有限计算预算下捕获最有价值的数据。实验证实30% replay ratio有效——RedSage-DPO在Open LLM Leaderboard上以74.33%均值超越Qwen3-32B(73.17%),通用能力不降反升
  2. Agentic数据增强Pipeline

    • 功能:将策展的静态网络安全资源自动转化为高质量多轮对话,用于SFT训练
    • 核心思路:采用两阶段智能体框架。Planner Agent分析每个种子数据chunk,动态推导候选技能集(如漏洞分析、工具命令生成、渗透测试流程)和增强策略(如何转化为对话、如何丰富解释),不使用固定模板。Augmenter Agent将每个计划实例化为基于角色的多轮对话(expert-assistant形式),模拟真实网络安全工作流。输出经格式有效性、一致性和主题相关性三重过滤。种子数据分三类策展——Knowledge(MITRE ATT&CK/CWE/OWASP等框架,6,924+3,715样本)、Skills(HackTricks/渗透测试writeups,4,032样本)、Tools(CLI cheatsheets/Kali文档,12,943+1,023样本)。Pipeline将28,637个种子扩展为266K对话(9.2×样本量、2.3×token量),涵盖知识67K、技能39K、工具120K
    • 设计动机:手工构建网络安全SFT数据成本极高且难以覆盖所有维度。与AgentInstruct等固定技能模板不同,Planner根据内容动态生成策略确保多样性。对话格式比静态文档更接近真实使用场景——安全分析师通过多轮交互完成任务
  3. RedSage-Bench三维评测基准

    • 功能:首个同时覆盖知识、技能和工具使用的网络安全LLM评测基准,支持MCQ和开放问答两种评测形式
    • 核心思路:MCQ生成——用70B指令模型(Llama-3.3-70B/Qwen2.5-72B)从种子数据生成四选一题目,经两阶段验证:Stage 1结构有效性(格式/正确性/干扰项质量,pass/fail),Stage 2质量评分(>8/10才保留),配额采样保证分类平衡,最终30K MCQ。开放问答——通过Evaluation-Planner和Q&A Generator两阶段生成,LLM-as-Judge评估事实正确性(T/F)和回答质量(0-10分,覆盖帮助性/相关性/深度),经人工验证保留240条。去污染——语义相似度>0.9的训练样本被移除(2.96%),防止训练泄露
    • 设计动机:现有基准要么只评知识(SecEval等)要么只评技能(CyberSecEval),没有评工具使用的。MCQ只能评对错,开放问答+质量评分才能评估回答的帮助性和深度

损失函数 / 训练策略

基于Qwen3-8B-Base做持续预训练,使用32×A100-64GB GPU,DeepSpeed ZeRO Stage 3分布式训练,AdamW优化器,固定学习率2.5×10⁻⁶配合linear warmup,单epoch训练(全局batch size 1024)。SFT阶段2个epoch,cosine学习率调度。DPO使用Tulu 3 8B Preference Mixture数据集及其原始超参数。整个pipeline使用Axolotl框架,通过配置文件即可复现。

实验关键数据

主实验

RedSage-Bench MCQ评测(0-shot,准确率%):

模型 宏平均 通用知识 框架 攻防技能 CLI工具 Kali工具
Lily-Cybersecurity-7B 71.19 68.78 67.44 76.61 71.44 66.26
Foundation-Sec-8B-Ins 76.12 74.50 77.10 80.91 74.98 68.30
DeepHat-V1-7B 80.18 77.26 76.90 85.07 81.94 74.82
Qwen3-8B 81.85 80.46 78.82 86.16 83.92 75.56
RedSage-8B-Ins 85.73 84.20 84.98 89.06 86.80 80.30
RedSage-8B-DPO 84.83 82.48 83.80 88.54 86.30 79.30
Qwen3-32B 85.40 84.08 82.32 89.00 87.60 80.40

外部网络安全基准评测(准确率%):

模型 均值 CTI-MCQ CTI-RCM CyMtc-500 MMLU-CSec SecBench-En
Qwen3-8B-Base 80.81 68.80 63.50 92.00 83.00 82.84
Foundation-Sec-8B 76.90 62.40 75.40 86.60 80.00 69.86
RedSage-8B-Base 84.56 71.04 78.40 92.60 87.00 81.76
Qwen3-8B (instruct) 75.71 62.76 54.00 88.60 76.00 73.26
RedSage-8B-DPO 81.10 70.84 70.60 90.00 79.00 80.06

消融实验

各训练阶段的贡献(base模型,RedSage-Bench宏平均准确率%):

训练配置 Bench宏平均 外部基准均值 关键变化
Qwen3-8B-Base(基线) 84.24 80.81
+ CyberFineWeb(CFW) 84.86 (+0.62) 82.66 (+1.85) 框架+3.00, SecBench+0.78
+ Seed only 85.21 (+0.97) 84.45 (+3.64) CTI-RCM+15.1, Kali+1.04
+ CFW + Seed(Base) 85.05 (+0.81) 84.56 (+3.75) 最优综合
+ SFT(Ins) 85.73 (+1.49) 81.30 instruct模型最优
+ DPO 84.83 (+0.59) 81.10 开放问答质量最优

通用能力保持(Open LLM Leaderboard instruct模型均值%):

模型 均值 MMLU ARC-C GSM8K IFEval
Qwen3-8B 65.92 73.59 62.54 75.66 85.21
Foundation-Sec-8B-Ins 69.28 64.11 63.91 77.79 76.17
RedSage-8B-DPO 74.33 77.07 71.76 82.71 83.44
Qwen3-32B 73.17 82.11 69.28 87.49 88.26

关键发现

  • RedSage-8B-Ins(85.73)在自建基准上超越4倍参数的Qwen3-32B(85.40),证明领域针对性训练可弥补参数量差距
  • 开放问答中RedSage-DPO比第二名Qwen3-8B高+7%绝对正确率和+0.07质量分,DPO对回答质量提升显著
  • CyberFineWeb和Seed提供互补增益:CFW在SecBench/CyMtc上提升最大,Seed在需要深度知识的CTI-RCM(+15.1pp)上提升最大
  • 通用能力不降反升:RedSage-DPO(74.33%)在Open LLM Leaderboard上超越Qwen3-32B(73.17%),30% replay有效防遗忘
  • 工具使用是当前LLM最薄弱维度:开放问答中工具类题目中位数最低、分布尾部最长

亮点与洞察

  • 全栈开源是核心差异化:数据(11.7B预训练+266K SFT)、模型、代码、评测基准全部公开,区别于Foundation-Sec(闭源数据)和SecGemini(闭源模型),对社区有巨大推动作用
  • Agentic Augmentation的Planner→Augmenter两阶段框架具有方法论通用性,可迁移到医疗、法律等领域的专业LLM构建
  • RedSage-Bench的MCQ+开放问答+LLM-judge质量评分设计,首次实现网络安全领域知识+技能+工具的三维评测
  • 在Qwen3-32B上用QLoRA微调部分数据也能提升,证明数据pipeline对更大模型同样有效

局限与展望

  • 8B参数限制了复杂推理,与GPT-5(86.29 vs 81.10均值)仍有~5pp差距
  • 工具评测限于CLI命令和文档理解,未覆盖CTF等需要环境交互的场景
  • LLM生成的训练数据可能传播偏见或不准确信息,尽管有过滤和验证
  • 网络安全知识更新快,模型时效性维护是持续挑战
  • 开源攻防知识存在双用(dual-use)风险,需要负责任使用

相关工作与启发

  • Foundation-Sec-8B(Cisco, 5.1B token预训练+28K SFT)vs PRIMUS(Trend Micro, 2.57B预训练+835 SFT):RedSage在数据规模(11.7B+266K)、方法(agentic augmentation)和开放性上全面领先
  • Agentic augmentation继承AgentInstruct思路但创新在于Planner动态生成技能集而非固定模板
  • 30%通用replay是continual learning经典策略,但RedSage的创新在于直接嵌入静态语料而非动态调整比例

评分

  • 新颖性: ⭐⭐⭐⭐ 系统性工程贡献大于单点算法创新,Agentic augmentation和三维评测设计有新意
  • 实验充分度: ⭐⭐⭐⭐⭐ 三类基准(自建+外部网络安全+通用)、多阶段消融、开放问答质量评估、大模型扩展验证
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,表格和图表丰富,pipeline描述完整
  • 价值: ⭐⭐⭐⭐⭐ 全栈开源对网络安全AI社区推动巨大,数据pipeline方法论可迁移至其他专业领域