Memory-Augmented LLM-based Multi-Agent System for Automated Feature Generation on Tabular Data¶
会议: ACL 2026
arXiv: 2604.20261
代码: GitHub
领域: LLM/NLP
关键词: 自动特征工程, 多智能体系统, 记忆增强, 表格数据, AutoML
一句话总结¶
提出 MALMAS,一个记忆增强的 LLM 多智能体系统用于表格数据自动特征生成,通过六个专职 Agent 分工探索不同特征空间维度 + 三级记忆机制(过程/反馈/概念)实现跨轮迭代优化,在 16 个分类和 7 个回归数据集上超越现有基线。
研究背景与动机¶
领域现状:自动特征生成是 AutoML 的关键环节,目标是从原始表格数据中自动构造高质量特征。传统方法(如 DFS、OpenFE)依赖预定义算子库进行组合搜索,而近期 LLM 方法(如 CAAFE)引入语义信息来指导特征变换,但仍有局限。
现有痛点:(1) 传统方法受限于固定算子集,无法利用任务语义,搜索空间狭窄;(2) LLM 方法虽然引入了语义信号,但依赖单一生成策略、思维模式固化,导致特征空间探索仍然受限;(3) 更关键的是,现有 LLM 方法缺乏来自下游学习目标的反馈机制——生成过程与模型性能脱钩,只能做低效的试错探索。
核心矛盾:特征空间的高维度和多样性与单一 Agent 的有限探索能力之间的矛盾,以及"生成→评估→优化"闭环的缺失。
本文目标:设计一个多 Agent 协作 + 记忆驱动的自动特征生成框架,能够 (1) 通过角色分工广泛探索特征空间,(2) 通过多级记忆实现跨轮的经验积累和策略调整。
切入角度:从特征工程实践中的"黄金特征"分类出发,沿三个正交维度(变换复杂度、数据范围、数据类型依赖性)设计专职 Agent,并引入过程记忆(做了什么)、反馈记忆(效果如何)、概念记忆(为什么有效)三级经验系统。
核心 idea:将特征生成分解为多个专职 Agent 的并行探索 + Router Agent 动态调度 + 三级记忆驱动的迭代优化。
方法详解¶
整体框架¶
每轮迭代:Router Agent 从 Agent 池中选择本轮激活的子集 → 每个活跃 Agent 根据元数据+记忆构建 prompt,与 LLM 多轮交互生成特征 → 评估生成特征在下游模型上的验证性能 → 更新三级记忆 → Summary Agent 汇总全局概念记忆 → 选取 TopN 特征加入数据集 → 进入下一轮。
关键设计¶
-
六专职 Agent + Router Agent 的并行架构:
- 功能:通过角色分工实现特征空间的广泛探索
- 核心思路:六个 Agent 分别负责一元变换(Unary)、交叉组合(Cross-Compositional)、时序特征(Temporal)、聚合构造(Aggregation-Construct)、局部变换(Local-Transform)、局部模式(Local-Pattern)。Router Agent 在每轮根据任务元数据和累积记忆动态选择激活哪些 Agent
- 设计动机:单个 Agent 容易产生同质化特征(feature homogenization),多 Agent 从变换复杂度、数据范围、数据类型三个正交维度探索互补区域
-
三级记忆机制(Procedural + Feedback + Conceptual):
- 功能:将每轮评估反馈转化为持久化的学习信号
- 核心思路:过程记忆(ProcMem)记录变换操作的完整 trace(基列、变换类型、特征名、描述、轮次),避免重复探索;反馈记忆(FeedMem)将每个特征与下游验证指标关联,实现显式信用分配;概念记忆(ConMem)由 LLM 从过程和反馈记忆中蒸馏出可复用的启发式规则
- 设计动机:没有记忆的 LLM 生成是无状态的。三级记忆从"做了什么"→"效果如何"→"为什么有效"逐层抽象,实现短期避错+中期导向+长期策略适应
-
全局概念记忆与跨 Agent 知识传递:
- 功能:促进 Agent 间的协调和知识共享
- 核心思路:每轮结束后 Summary Agent 汇总所有活跃 Agent 的概念记忆和反馈记忆,生成全局概念记忆 GlobalMem。下一轮的 Router 决策和各 Agent 的 prompt 构建都参考全局记忆
- 设计动机:局部记忆只服务单个 Agent,全局记忆将有效模式传播给其他 Agent,减少重叠探索
损失函数 / 训练策略¶
目标是最大化验证集上下游模型的性能指标(分类用 AUC,回归用 NRMSE)。使用 XGBoost 作为下游模型,每轮通过 TopN-Features 筛选保留最优特征。
实验关键数据¶
主实验(分类 AUC,16 数据集平均排名)¶
| 方法 | 类型 | Mean Rank |
|---|---|---|
| DFS | 传统 | 3.69 |
| OpenFE | 传统 | 3.12 |
| CAAFE | LLM | 3.57 |
| OCTree | LLM | 4.81 |
| LLMFE | LLM | 3.75 |
| MALMAS | 多Agent+记忆 | 1.12 |
消融实验(关键组件贡献)¶
| 配置 | 说明 |
|---|---|
| 单 Agent (无 Router) | 特征多样性下降,同质化严重 |
| 无记忆 | 每轮独立生成,大量重复探索 |
| 无全局记忆 | Agent 间无知识传递,冗余特征增多 |
| 无反馈记忆 | 无法从历史中学习哪些变换有效 |
| MALMAS (完整) | 最优表现,Mean Rank 1.12 |
关键发现¶
- MALMAS 在 16 个分类数据集中平均排名 1.12,远超第二名 OpenFE (3.12)
- 在难数据集上优势更明显:如 Titanic (0.872 vs 次优 0.849)、Credit_G (0.775 vs 次优 0.758)
- 记忆机制是关键:概念记忆将"为什么某变换有效"抽象为可复用规则,指导后续探索
- Router Agent 的动态调度避免了对所有数据集千篇一律地激活所有 Agent
亮点与洞察¶
- 三级记忆的层次设计很有启发性:从操作 trace 到信用分配到策略抽象,对应了认知心理学中的程序性记忆→工作记忆→元认知。可以迁移到任何需要迭代优化的多 Agent 系统
- Router Agent 的动态调度解决了"所有 Agent 都跑一遍"的计算浪费,实现了 task-dependent 的资源分配
- 从"黄金特征"分类出发设计 Agent 角色是一个好实践——将领域知识编码到 Agent 分工中
局限与展望¶
- Agent 角色划分是手工设计的,能否自动发现最优分工?
- 记忆管理没有遗忘机制,长轮次下可能导致上下文膨胀
- 下游模型固定为 XGBoost,在深度学习模型上的效果未验证
- 未与 AutoML 全流程方法(如 Auto-sklearn)做端到端对比
- 可以探索 Agent 间的对抗/辩论机制来提升特征质量
相关工作与启发¶
- vs CAAFE: CAAFE 用单个 LLM 生成特征,受限于单一生成策略。MALMAS 通过多 Agent 分工+记忆反馈大幅扩展了探索空间
- vs OpenFE: OpenFE 用树模型的算子搜索,高效但受限于预定义算子。MALMAS 利用 LLM 的语义理解生成更多样的变换
- vs Generative Agents: 后者在社会模拟中使用多 Agent+记忆,MALMAS 将类似范式引入特征工程,是该思路的新应用方向
评分¶
- 新颖性: ⭐⭐⭐⭐ 多 Agent + 三级记忆用于特征生成是新的组合,但各组件单独看并不新
- 实验充分度: ⭐⭐⭐⭐ 23 个数据集覆盖广,但消融细节不够详细
- 写作质量: ⭐⭐⭐⭐ 框架图清晰,但符号略显冗余
- 价值: ⭐⭐⭐⭐ 对 AutoML 社区有实际贡献,三级记忆的设计思路有广泛迁移价值