跳转至

🔒 LLM 安全

🧠 NeurIPS2025 · 81 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (12) · 🔬 ICLR2026 (184) · 💬 ACL2026 (115) · 🤖 AAAI2026 (41) · 📹 ICCV2025 (10) · 🧪 ICML2025 (41)

🔥 高频主题: LLM ×19 · 对抗鲁棒 ×17 · 对齐/RLHF ×6 · 推理 ×6 · 联邦学习 ×5

A Cramér–von Mises Approach to Incentivizing Truthful Data Sharing

提出一种基于 Cramér-von Mises 两样本检验统计量的激励机制,在贝叶斯和无先验两种设定下均能证明"如实提交数据"构成(近似)Nash 均衡,同时鼓励参与者提交更多真实数据,且不依赖对数据分布的强假设(如高斯、伯努利)。

A Reliable Cryptographic Framework for Empirical Machine Unlearning Evaluation

将机器遗忘的评估问题建模为密码学博弈(unlearning sample inference game),通过定义adversary的"advantage"来衡量遗忘质量,克服了传统MIA准确率作为评估指标的多种缺陷(不以retrain为零基准、对数据划分敏感、对MIA选择敏感),并提出SWAP test作为高效的实用近似方案。

A Systematic Evaluation of Preference Aggregation in Federated RLHF for Pluralistic Alignment of LLMs

提出一种自适应 Alpha 聚合策略,在联邦 RLHF 框架中根据各用户群体的历史对齐表现动态调整奖励权重,从而在多元偏好对齐中同时实现高公平性和强对齐性能。

Adaptive LoRA Experts Allocation and Selection for Federated Fine-Tuning

提出 FedLEASE——解决联邦 LoRA 微调中两个关键问题:(1) 用 LoRA B 矩阵相似度聚类自动确定最优专家数量和分配,(2) 用扩展路由空间(\(2M-1\) 维)实现自适应 top-M 专家选择(每个客户端自动决定用几个专家),在 GLUE 上比最强基线平均提升 5.53%。

Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text

提出 Adversarial Paraphrasing——一种无需训练的通用攻击框架,在逐 token 改写时利用 AI 文本检测器的反馈信号选择"最像人写"的 token,使改写后的 AI 文本在 8 种检测器上平均 T@1%F 下降 87.88%,且具有跨检测器的强迁移性。

AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents

提出 AgentDAM,首个在真实 Web 环境中端到端评估 AI Agent 数据最小化能力的基准,包含 246 个跨 Reddit/GitLab/Shopping 的任务,发现 GPT-4o 等主流模型在无缓解措施时隐私泄露率高达 36-46%,而 CoT 隐私提示可将泄露率降至 6-8%。

AgentStealth: Reinforcing Large Language Model for Anonymizing User-generated Text

提出 AgentStealth 框架,通过对抗式匿名化工作流、监督微调(SFT)和在线强化学习三阶段训练小型语言模型(SLM),实现在保持文本效用的同时有效匿名化用户生成内容,匿名化效果提升12.3%、效用提升6.8%。

ALMGuard: Safety Shortcuts and Where to Find Them as Guardrails for Audio-Language Models

首个针对音频语言模型(ALM)越狱攻击的防御框架——发现对齐过的 ALM 存在可被激活的潜在安全快捷路径(safety shortcuts),通过 Mel 梯度稀疏掩码(M-GSM)定位关键频率段,施加快捷路径激活扰动(SAP),将平均攻击成功率从 41.6% 降至 4.6%,同时几乎不影响正常任务性能。

Approximate Domain Unlearning for Vision-Language Models

提出 Approximate Domain Unlearning (ADU) 新任务,通过 Domain Disentangling Loss (DDL) 和 Instance-wise Prompt Generator (InstaPG) 两个模块,让预训练 VLM 选择性遗忘指定域(如插画、素描)的识别能力,同时保持其他域(如真实照片)的分类精度,在四个多域数据集上大幅超越所有基线。

Attention! Your Vision Language Model Could Be Maliciously Manipulated

本文提出 Vision-language Model Manipulation Attack (VMA),一种结合一阶和二阶动量优化及可微变换机制的图像对抗攻击方法,能够精确操控VLM的每个输出token,可用于实施多种攻击(越狱、劫持、隐私泄露、DoS、海绵样本)同时也可用于版权保护水印注入。

Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools

AMA(Attractive Metadata Attack)证明仅通过精心设计恶意工具的元数据(名称、描述、参数模式),不需要提示注入或模型内部访问,就能诱导 LLM Agent 以 81-95% 的成功率调用攻击者工具并泄露隐私,同时几乎不影响原始任务完成(98%+),且现有防御(审计器、提示重写)效果有限。

Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment

作者构建了一个由 1,343 张真实新闻图片–开放式问题对组成的基准,给每张图标注了年龄/性别/种族/职业/运动等社会属性,再用 GPT-4o 作为裁判从「准确率/偏见/忠实度」三个维度给 15 个主流 VLM 打分,发现视觉社会线索会系统性地改变模型回答、性别与职业偏见最严重,而且忠实度更高并不意味着偏见更低。

Bits Leaked per Query: Information-Theoretic Bounds on Adversarial Attacks Against LLMs

将 LLM 对抗攻击建模为信息通道问题——定义每次查询的"泄漏比特数" \(I(Z;T)\) 为攻击目标属性 \(T\) 与可观测信号 \(Z\) 的互信息,证明攻击达到误差 \(\varepsilon\) 所需最少查询数为 \(\log(1/\varepsilon)/I(Z;T)\),在 7 个 LLM 上验证:暴露 answer tokens 需 ~1000 次查询,加 logits 降到 ~100 次,加思维链降到 ~几十次,为透明性-安全性权衡提供首个原则性标尺。

Buffer Layers for Test-Time Adaptation

提出 Buffer 层作为测试时自适应 (TTA) 的新范式,替代传统的归一化层更新,从根本上保留预训练骨干网络的完整性,有效缓解灾难性遗忘并在多种架构和 TTA 框架中实现一致的性能提升。

Collective Narrative Grounding: Community-Coordinated Data Contributions to Improve Local AI Systems

提出 Collective Narrative Grounding 协议,通过参与式工坊收集社区叙事并结构化为"叙事单元",用 RAG 管道将本地知识注入 LLM 问答系统,在 LocalBench 上发现 76.7% 的错误可由本地叙事直接修复,GPT-5 在参与式 QA 集上仅 21% 正确率凸显了本地知识鸿沟。

Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

提出 CI-RL 框架,通过 Chain-of-Thought 推理提示 + GRPO 强化学习,用仅约 700 个合成样本训练 LLM 理解"上下文完整性"(contextual integrity),在 PrivacyLens 基准上将隐私泄露率降低最高 40%,且小模型训练后可超越更大基线模型。

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

提出 CoreGuard,通过行置换(row permutation)锁定 Transformer 线性层权重 + 列置换传播协议(propagation protocol)将 TEE 授权次数降至 1 次,以极低计算和通信开销保护边缘部署 LLM 的基础能力不被模型窃取攻击利用。

CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming

针对竞赛编程中重复/相似题目泛滥导致比赛不公平及 LLM 评测分数虚高的问题,构建了包含四种检索任务的大规模基准 CPRet,并提出 Group-InfoNCE 损失训练的专用检索模型 CPRetriever,在所有任务上超越 20+ 现有嵌入模型,同时揭示了题目相似性对 LiveCodeBench 评测的系统性偏差。

CryptoMoE: Privacy-Preserving and Scalable Mixture of Experts Inference via Balanced Expert Routing

首个支持 MoE 架构 LLM 隐私推理的框架 CryptoMoE,通过平衡专家路由隐藏路由信息、置信度感知调度协议和批量密文矩阵乘法协议,相比 dense baseline 实现 2.8~3.5× 延迟降低和 2.9~4.3× 通信量降低,准确率损失仅 0.8%。

DeepPersona: A Generative Engine for Scaling Deep Synthetic Personas

提出 DeepPersona——一个两阶段分类引导的合成人格生成引擎:先从真实用户-ChatGPT 对话中挖掘构建 8000+ 节点的人类属性分类树,再通过渐进式属性采样生成平均 200+ 结构化属性的叙事完整人格,在个性化 QA 准确率上提升 11.6%,社会调查模拟偏差缩小 31.7%。

Demystifying Language Model Forgetting with Low-Rank Example Associations

发现 LLM 微调后上游样本遗忘与新学任务之间的关联矩阵具有低秩结构(rank-3 即 \(R^2 > 0.69\)),利用矩阵补全预测未见任务导致的遗忘,指导选择性回放以减轻遗忘。

Differentially Private Federated Low Rank Adaptation Beyond Fixed-Matrix

提出FedASK框架,通过双阶段sketching流水线(randomized SVD启发),首次在差分隐私下实现联邦LoRA中两个低秩矩阵A和B的同步有效更新,在Llama-2 7B/13B上MMLU提升最高11.5%,GSM8K提升46%。

Distillation Robustifies Unlearning

揭示了"蒸馏能使遗忘变得鲁棒"的核心发现——将遗忘后的模型蒸馏到随机初始化的学生网络中能有效丢弃潜在能力,并基于此提出UNDO方法(Unlearn-Noise-Distill-on-Outputs),通过对遗忘模型权重加噪再蒸馏,建立了计算量与鲁棒性之间的可调权衡,在合成任务和WMDP基准上接近从头重训的黄金标准。

Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values

本文系统评估多个 SOTA LLM(GPT-4o、Claude-3.5S、Llama3-70b、Gemini-1.5P)在非策略性资源分配任务中的分配公平性偏好,发现 LLM 与人类存在显著偏差:LLM 偏好效率和无嫉妒性 (EF) 而忽视人类更看重的公平性/平等性 (EQ),但在选择题模式下 GPT-4o 和 Claude 能正确识别公平方案。

DNA-DetectLLM: Unveiling AI-Generated Text via a DNA-Inspired Mutation-Repair Paradigm

本文提出 DNA-DetectLLM,一种受 DNA 突变修复机制启发的零样本 AI 文本检测方法,通过构造理想 AI 序列并量化将输入文本修复到该序列的累积难度作为检测信号,在多个基准数据集上取得 AUROC 相对提升 5.55%、F1 提升 2.08% 的 SOTA 效果。

DRAGON: Guard LLM Unlearning in Context via Negative Detection and Reasoning

DRAGON 提出无需微调基座模型的系统性 LLM 遗忘框架:通过双层检测模块识别需遗忘的 prompt,再由专门微调的 guard 模型生成 CoT 推理指令实现上下文干预,在保持模型通用能力的同时有效删除隐私/有害知识。

DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents

提出 DRIFT 系统级 Agent 安全框架,通过 Secure Planner(预规划函数轨迹+参数检查表)、Dynamic Validator(基于 Read/Write/Execute 权限的动态策略更新)和 Injection Isolator(从 memory stream 中检测并屏蔽注入指令)三层防御,在 AgentDojo 上将 ASR 从 30.7% 降至 1.3%,同时比 CaMeL 提升 20.1% utility。

Enhancing CLIP Robustness via Cross-Modality Alignment

提出COLA——一个training-free的框架,通过将对抗扰动后的图像特征投影到文本特征张成的子空间来消除非语义噪声,再用最优传输(OT)在分布层面细粒度对齐图文特征,在14个零样本分类基准上平均提升6.7%的对抗鲁棒准确率,同时维持干净样本性能。

Enhancing Sample Selection Against Label Noise by Cutting Mislabeled Easy Examples

发现并定义了误标注易学样本(Mislabeled Easy Examples, MEEs)——被模型早期训练即正确预测为错误标签的样本对泛化伤害最大,并提出 Early Cutting 方法利用模型后期状态重新校准早期置信子集来过滤MEEs。

Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions

在约 10,000 个真实招聘候选人-职位配对上系统评测了 GPT-4o/4.1、Claude 3.5、Gemini 2.5、Llama 3.1/4、DeepSeek R1 等主流 LLM 的招聘匹配表现,发现专用领域模型 Match Score 在准确性(AUC 0.85 vs 0.77)和公平性(种族 IR 0.957 vs ≤0.809)上全面优于通用 LLM。

Evaluation of Vision-LLMs in Surveillance Video

提出一个无训练的两阶段框架,利用小型 Vision-LLM 生成视频文本描述 + NLI 分类器零样本评分,系统评估了提示策略和隐私保护滤镜对监控视频异常行为识别的影响。

Exploring the Limits of Strong Membership Inference Attacks on Large Language Models

首次将强成员推断攻击(LiRA)扩展到10M~1B参数的GPT-2规模LLM,训练超过4000个参考模型,揭示四个关键发现:强MIA可以在LLM上成功但效果有限(AUC<0.7),且大量个体样本决策在训练随机性下与抛硬币无法区分

FALCON: Fine-grained Activation Manipulation by Contrastive Orthogonal Unalignment for Large Language Model

提出 FALCON——基于表示引导的 LLM 遗忘框架,利用互信息进行参数选择、对比机制实现精细知识分离、梯度正交投影解决遗忘-保留冲突,在有害知识/版权/实体遗忘任务上全面超越现有方法。

FedRW: Efficient Privacy-Preserving Data Reweighting for Enhancing Federated Learning of Language Models

FedRW 提出首个无需可信第三方的联邦学习隐私保护软去重框架,通过安全多方计算获取全局样本频率并进行频率感知的样本加权,在预处理上实现最高 28.78× 加速,在模型性能上实现约 11.42% 的 perplexity 改善。

FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA

FedSVD 提出通过 SVD 对 LoRA 矩阵进行全局重参数化,在每轮通信后用聚合的 BA 乘积的右奇异向量更新 A 矩阵,避免 DP-SGD 下的二次噪声放大同时保持 A 的自适应能力,在多个 NLU 基准上一致超越固定 A 的基线。

Finding Structure in Continual Learning

提出基于Douglas-Rachford Splitting (DRS)的持续学习优化框架,将稳定性与可塑性解耦为两个独立的近端子问题,并结合Rényi散度替代KL散度实现更鲁棒的先验对齐,从而在无需回放缓冲区或额外模块的条件下有效缓解灾难性遗忘。

Geo-Sign: Hyperbolic Contrastive Regularisation for Geometrically Aware Sign Language Translation

Geo-Sign 提出将骨架特征投影到 Poincaré 球模型的双曲空间中,通过双曲对比损失正则化 mT5 语言模型,使其感知手语运动的层次结构,仅用骨架数据就在 CSL-Daily 上超越了基于 RGB 的 SOTA 方法(BLEU-4 +1.81, ROUGE-L +3.03)。

HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning

提出 HoloLLM,首次将 LiDAR、红外、毫米波雷达、WiFi 等稀有传感模态接入多模态大语言模型(MLLM),通过 Universal Modality-Injection Projector(UMIP)在数据稀缺条件下实现传感模态与文本的高效对齐,在人体动作问答和描述任务上较现有 MLLM 提升约 30%。

ImageSentinel: Protecting Visual Datasets from Unauthorized Retrieval-Augmented Image Generation

提出 ImageSentinel 框架,通过合成与私有数据集视觉一致的哨兵图像(sentinel images)并绑定随机字符检索键,实现对检索增强图像生成(RAIG)系统未授权使用私有数据集的可靠检测——仅需 3–10 次查询即可达到接近 100% 的 AUC。

InvisibleInk: High-Utility and Low-Cost Text Generation with Differential Privacy

提出 InvisibleInk 框架,通过差分裁剪(DClip)隔离敏感信息和 Top-\(k^+\) 截断采样两项创新,将差分隐私长文本生成的计算成本降低 8 倍以上,首次实现不到非隐私生成 4-8 倍开销的高质量隐私文本生成。

Learning to Watermark: A Selective Watermarking Framework for Large Language Models via Multi-Objective Optimization

提出LTW(Learning to Watermark)框架,使用一个轻量级选择器网络基于句子嵌入、token熵和当前水印比例来自适应决定何时施加水印,通过多目标优化(MGDA)在可检测性和文本质量之间达到Pareto最优,在不降低检测性能的前提下显著提升水印文本质量。

LLM Strategic Reasoning: Agentic Study through Behavioral Game Theory

本文提出基于行为博弈论的LLM战略推理评估框架,使用截断量子响应均衡(TQRE)量化推理深度τ,在13个矩阵博弈上评估22个SOTA模型,揭示推理风格差异和人口统计persona引发的偏差问题。

MaskSQL: Safeguarding Privacy for LLM-Based Text-to-SQL via Abstraction

提出 MaskSQL 框架,通过提示抽象(abstraction)将敏感的表名、列名和数据值替换为抽象符号后发送给远程 LLM,结合本地 SLM 做 schema linking 和 SQL 重建,在保护隐私同时超越 SLM-only 方案的 SQL 生成精度。

MixAT: Combining Continuous and Discrete Adversarial Training for LLMs

提出MixAT方法,将离散对抗攻击(PAP改写)与连续嵌入空间扰动相结合进行LLM对抗训练,在保持高效用的同时实现对多种攻击的鲁棒性(ALO-ASR从50%+降至20%以下),且训练成本仅与纯连续方法相当。

ModHiFi: Identifying High Fidelity Predictive Components for Model Modification

提出 Subset Fidelity 度量和 ModHiFi 框架,通过理论证明 Lipschitz 连续网络的局部重构误差线性上界全局误差,无需训练数据、损失函数或梯度,仅用合成数据即可识别模型中的高保真 (HiFi) 组件,统一实现结构化剪枝和类别遗忘两大任务。

MPCache: MPC-Friendly KV Cache Eviction for Efficient Private LLM Inference

本文提出MPCache,一个面向安全多方计算(MPC)的KV缓存淘汰框架,结合一次性静态淘汰和查询感知的动态选择,配合层次化聚类、线性化相似度近似和跨层索引共享等优化,在不牺牲LLM性能的前提下实现最高2.01倍延迟降低和8.37倍通信量削减。

Music Arena: Live Evaluation for Text-to-Music

Music Arena是首个面向文本到音乐(TTM)生成的在线实时评估平台,通过LLM驱动的审核与路由系统解决TTM系统异构签名问题,收集包含细粒度聆听行为和自然语言反馈的多层次偏好数据,并通过月度滚动数据发布为社区提供可持续的开放偏好数据源。

On Optimal Steering to Achieve Exact Fairness

本文定义了"理想分布"——使任意代价敏感风险下的 Bayes 最优分类器都满足精确公平性的数据分布,并提出通过 KL 散度最小化寻找最近理想分布的优化框架,为公平预处理和 LLM 表示引导提供了可证明的公平性保证。

On the Empirical Power of Goodness-of-Fit Tests in Watermark Detection

系统性地评估了八种经典拟合优度(GoF)检验在 LLM 文本水印检测中的效果,发现 GoF 检验在检测功效和鲁棒性上均显著优于现有基线方法。

On the Robustness of Verbal Confidence of LLMs in Adversarial Attacks

首次系统研究 LLM 语言化置信度(verbal confidence)在对抗攻击下的鲁棒性,提出基于扰动和越狱的攻击框架,揭示攻击可导致置信度下降最高 30%、答案翻转率高达 100%,且现有防御策略基本无效。

On the Sample Complexity of Differentially Private Policy Optimization

首次系统性研究差分隐私(DP)约束下策略优化的样本复杂度,提出统一的元算法框架,分析DP-PG、DP-NPG和DP-REBEL三种隐私策略优化算法,证明隐私代价通常仅作为样本复杂度的低阶项出现。

One Token Embedding Is Enough to Deadlock Your Large Reasoning Model

本文提出 Deadlock Attack,通过优化单个对抗性 token embedding 并以后门方式植入 LRM,使模型在推理时陷入永久思考循环(无限生成 "Wait"、"But" 等过渡词),在 4 个 LRM 和 3 个数学推理 benchmark 上实现 100% 攻击成功率,且对正常输入几乎无性能影响。

ORBIT -- Open Recommendation Benchmark for Reproducible Research with Hidden Tests

提出ORBIT统一推荐系统基准,包含5个标准化公开数据集评估和基于真实浏览历史构建的隐私安全ClueWeb-Reco隐藏测试集,系统评估了12个推荐模型并引入LLM-QueryGen基线,揭示了现有方法在大规模真实推荐场景中的局限性。

Poly-Guard: Massive Multi-Domain Safety Policy-Grounded Guardrail Dataset

提出首个大规模、多领域、策略驱动的安全护栏基准 Poly-Guard,从 150+ 真实行业安全策略中提取 400+ 风险类别和 1000+ 安全规则,生成 100K+ 实例覆盖 8 大安全关键领域,并系统评测 19 个护栏模型,揭示了领域特化、模型演进遗忘、模型缩放停滞、对抗脆弱性等 8 项关键发现。

Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma

本文将 RLHF 中反复出现的安全-公平-效率冲突形式化为「对齐三难困境」:证明了没有任何 RLHF 系统能同时满足 \(\varepsilon\)-代表性(忠实反映多元价值)、多项式可处理性(计算可行)和 \(\delta\)-鲁棒性(抵御对抗攻击),从而为当前 RLHF 系统中偏好坍缩、谄媚等病理现象提供了统一的复杂度理论解释。

Probabilistic Reasoning with LLMs for K-Anonymity Estimation

本文提出Branch框架,利用大语言模型将用户文本中的个人信息建模为贝叶斯网络的联合概率分布,分别估计各属性的条件概率后组合计算k-匿名值(全球匹配该信息的人数),在隐私风险估计任务上达到73%准确率,比o3-mini链式思维提升13%。

Procurement Auctions with Predictions: Improved Frugality for Facility Location

研究策略性无容量限制设施选址问题中的采购拍卖设计,证明了经典VCG拍卖的节俭比恰好为3(改进了此前已知的上界4),并设计了利用预测信息的学习增强拍卖机制,在预测准确时实现接近最优的节俭比,同时在预测任意不准确时仍保持常数级鲁棒性。

PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning

本文提出 PULSE 评估协议,从预训练知识遗忘和多次顺序遗忘的可持续性两个实际维度出发,揭示了现有遗忘方法在 LMM 上的严重不足——遗忘预训练知识会导致 90% 以上通用能力丧失,连续遗忘 5 次后模型泛化能力几乎完全崩溃。

Reinforcement Learning with Backtracking Feedback

提出带回溯反馈的强化学习框架 RLBF,当 agent 陷入死胡同时允许回溯到之前的状态重新探索,通过回溯信号改善信用分配,在稀疏奖励环境中显著提升探索效率。

ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

ReliabilityRAG 提出了一种利用文档可靠性信号(如搜索排名)进行对抗防御的 RAG 框架,通过在矛盾图上寻找最大独立集(MIS)来识别一致的文档子集并优先选择高可靠性文档,提供可证明的鲁棒性保证,同时在良性场景和长文本生成任务上保持高准确率。

Reverse Engineering Human Preferences with Reinforcement Learning

使用强化学习训练前导文本生成器来提升下游 LLM 的评分成绩,揭示了 LLM-as-a-Judge 评估框架的脆弱性,且该攻击方式几乎不可检测并具有跨模型迁移能力。

Robust or Suggestible? Exploring Non-Clinical Induction in LLM Drug-Safety Decisions

通过基于Persona的评估框架发现,ChatGPT-4o和Bio-Medical-Llama-3-8B在药物不良事件预测中会受到临床无关的社会人口属性(教育、保险、住房等)系统性影响,展现出显式和隐式两种偏差模式。

SAEMark: Steering Personalized Multilingual LLM Watermarks with Sparse Autoencoders

提出SAEMark框架,利用稀疏自编码器(SAE)提取文本的语义特征浓度评分,通过推理阶段的特征引导拒绝采样实现多比特水印嵌入,无需修改模型权重或logits,天然支持黑盒API、多语言和代码等场景,在英文/中文/代码上均达到领先的水印精度与文本质量。

Securing the Language of Life: Inheritable Watermarks from DNA Language Models to Proteins

提出 DNAMark 和 CentralMark 两种水印方案,针对 DNA 语言模型生成的序列嵌入鲁棒水印:前者利用同义密码子替换实现功能不变水印,后者实现从 DNA 到蛋白质的可遗传水印。

Self-Refining Language Model Anonymizers via Adversarial Distillation

提出 SEAL 框架,通过对抗蒸馏将 GPT-4 级 LLM 的文本匿名化能力蒸馏到 8B 小模型中,结合 SFT + DPO 训练和自我精炼机制,使小模型在隐私-效用权衡上达到甚至超越 GPT-4 匿名化器的水平,且可完全本地部署。

Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

发现 NPO(负偏好优化)中的参考模型偏差导致遗忘数据的优化功率分配不均和早期梯度权重平滑失效,提出 SimNPO 通过去除参考模型依赖并采用长度归一化奖励,在 TOFU 上将 FQ 从 0.79 提升至 0.99,在所有基准上一致优于 NPO。

SIMU: Selective Influence Machine Unlearning

提出 SIMU 两阶段框架:先通过梯度聚合识别编码遗忘集信息的关键 MLP 神经元,再仅对这些神经元进行二阶(Sophia)优化遗忘,在保持遗忘效果的同时大幅提升模型原有能力的保留。

Steering When Necessary: Flexible Steering Large Language Models with Backtracking

提出 FASB(Flexible Activation Steering with Backtracking)框架,通过跟踪 LLM 生成过程中的内部状态动态判断干预必要性和强度,并引入回溯机制纠正已偏离的 token,在 TruthfulQA 上 True*Info 达 80.56%、6 个多选任务平均准确率 78.8%,显著优于所有基线。

Stop DDoS Attacking the Research Community with AI-Generated Survey Papers

这篇立场论文将AI生成综述论文的泛滥类比为对学术社区的"DDoS攻击",通过对arXiv 2020-2024年10,063篇CS综述论文的系统定量分析,揭示了ChatGPT发布后综述论文数量、AI生成分数和异常作者数的同步激增现象,深入剖析了AI综述的四大质量缺陷(结构混乱、分类缺乏原创、引用不准确、内容高度冗余)及其对研究者-审稿人-编辑三方的文化冲击,提出了涵盖透明度要求、严格审查标准、冗余限制、AI检测辅助和"动态活综述"平台在内的全面应对框架。

SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

提出 BIRD-CRITIC 基准(首个 SQL 问题调试基准)和 Six-Gym 训练环境,并开发 Bird-Fixer 智能体,通过 f-Plan Boosting 策略将 14B 开源模型的 SQL 调试能力提升至超越 Claude-3.7-Sonnet 和 GPT-4.1 的水平,在保护数据隐私的同时实现高效的 SQL 问题修复。

ToxicTextCLIP: Text-Based Poisoning and Backdoor Attacks on CLIP Pre-training

提出 ToxicTextCLIP 框架,通过背景感知选择和背景驱动增强两个模块,在 CLIP 预训练阶段生成高质量对抗文本,实现高达 95.83% 投毒成功率和 98.68% 后门 Hit@1,且能突破 RoCLIP、CleanCLIP、SafeCLIP 三种防御。

Trans-EnV: A Framework for Evaluating the Linguistic Robustness of LLMs Against English Varieties

提出Trans-EnV框架,结合语言学专家知识和LLM变换能力,将标准美式英语(SAE)数据集自动转换为38种英语变体(18种方言+20种ESL英语),揭示LLM在非标准英语上最高46.3%的性能下降,凸显了语言公平性问题。

TRAP: Targeted Redirecting of Agentic Preferences

TRAP 提出了一种基于扩散模型的语义注入对抗框架,通过在 CLIP 嵌入空间中优化图像语义,在黑盒条件下以视觉自然的方式系统性地误导多个主流 VLM 智能体的决策偏好,在 LLaVA-34B、GPT-4o 等六个模型上实现了高达 100% 的攻击成功率。

TRUST -- Transformer-Driven U-Net for Sparse Target Recovery

提出 TRUST 架构,将 Transformer 的注意力机制与 U-Net 解码器结合,在感知矩阵未知的条件下同时学习感知算子和重建稀疏信号,在 SSIM 和 PSNR 上显著超越传统方法。

Unlearned but Not Forgotten: Data Extraction after Exact Unlearning in LLM

揭示了即使精确遗忘(从头重训练去除数据影响)也存在隐私泄露风险:攻击者利用遗忘前后两个模型检查点的差异,通过逆向模型引导和 token 过滤策略,可显著提升已删除数据的提取成功率,在某些场景下提取率翻倍。

Unlearning as Ablation: Toward a Falsifiable Benchmark for Generative Scientific Discovery

本文提出将机器遗忘重新定义为认识论探针工具("遗忘即消融"),通过系统性移除目标知识及其遗忘闭包后测试模型能否从公理出发重新推导,从而提供可证伪的测试来区分 LLM 是"真正生成新知识"还是"仅仅检索记忆片段"。

Virus Infection Attack on LLMs: Your Poisoning Can Spread "VIA" Synthetic Data

本文首次系统研究了合成数据在LLM训练中的安全风险,发现现有投毒/后门攻击难以通过合成数据传播,进而提出Virus Infection Attack (VIA)框架,通过劫持点搜索和外壳构造将投毒内容嵌入正常训练样本中,使恶意内容即使在干净查询下也能被模型生成并传播到下游模型。

VMDT: Decoding the Trustworthiness of Video Foundation Models

提出 VMDT(Video-Modal DecodingTrust),首个统一评估 T2V 和 V2T 视频基础模型在安全、幻觉、公平、隐私和对抗鲁棒性五个维度上可信度的基准平台,涵盖 7 个 T2V 和 19 个 V2T 模型的大规模评测,揭示了模型规模与可信度之间的复杂关系。

Watermarking Autoregressive Image Generation

首次将 LLM 水印技术(KGW green/red scheme)适配到自回归图像生成模型的 token 层,识别并解决了关键挑战——反向循环一致性(RCC)不足,通过 tokenizer-detokenizer 微调和水印同步层实现了鲁棒的、具有理论保证的图像水印检测。

When AI Democratizes Exploitation: LLM-Assisted Strategic Manipulation of Fair Division Algorithms

本文通过在 Spliddit 公平分租平台上设计四种不同的协调操纵场景(排斥性合谋、防御性反击、善意合谋、成本最小化联盟),实证地证明 LLM 可以将原本需要深厚机制设计专业知识才能进行的算法操纵行为,降低为任何用户仅需一次自然语言对话即可完成的简单操作,从根本上颠覆了"算法复杂性即安全屏障"的传统假设。

Zero-Shot Robustness of Vision Language Models Via Confidence-Aware Weighting

提出 CAW(Confidence-Aware Weighting),一种针对CLIP模型的对抗微调损失函数,通过置信度感知加权重点关注困难对抗样本,结合特征对齐正则化保留预训练语义知识,在AutoAttack下实现零样本鲁棒性SOTA,且内存占用更低。