跳转至

🛡️ AI 安全

💬 ACL2026 · 5 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (145) · 🔬 ICLR2026 (139) · 🧪 ICML2026 (114) · 🤖 AAAI2026 (45) · 🧠 NeurIPS2025 (73) · 📹 ICCV2025 (24)

OmniCompliance-100K: A Multi-Domain Rule-Grounded Real-World Safety Compliance Dataset

本文构建了首个大规模、多领域、基于真实案例的 LLM 安全合规数据集 OmniCompliance-100K,包含 12,985 条人工整理的法规/政策规则和 106,009 条通过 Web 搜索智能体采集的真实合规案例,覆盖 AI 安全、数据隐私、金融、医疗等 9 个领域,并通过广泛的基准实验揭示了当前 LLM 在安全合规能力上的系统性短板。

On the (In-)Security of the Shuffling Defense in the Transformer Secure Inference

这篇论文指出 Transformer 安全推理中常用的“洗牌后公开中间激活”防御并不安全,并提出一种先把不同随机置换下的激活对齐、再解线性方程抽取权重的攻击,在 Pythia-70m 和 GPT-2 上能以约 1 美元查询成本恢复近似可用的模型权重。

Reverse Constitutional AI: A Framework for Controllable Toxic Data Generation via Probability-Clamped RLAIF

提出 Reverse Constitutional AI (R-CAI),通过反转 Constitutional AI 的原则为"毒性宪法",结合批评-修正循环和概率截断的 RLAIF 机制,实现自动化、可控的多维度对抗毒性数据合成,同时通过概率截断解决奖励黑客导致的语义退化问题(语义连贯性提升15%)。

Signals Are Not States: Neuro-Symbolic Safeguards for Culturally Aware Classroom AI

论文主张课堂 AI 不该把"沉默、回避眼神、语码转换"这类文化情境化的信号直接读成"低参与、不专心、能力差"的教育判断,提出神经符号框架 NSCR:先把多模态信号落成带不确定性、来源和文化作用域的类型化事实,再通过可执行推理与治理策略组合出有据声明,证据不足或有刻板印象风险时主动弃答(DEFER)

UniVid: 统一视频审核的视觉语言模型

UniVid 通过用统一的策略感知字幕 VLM 替代 1000+ 个黑盒分类器,将视频审核系统从不可维护的"碎片化"架构演进为可解释、可复用的"端到端"审核系统,在 ByteDance 平台生产部署中相比传统方案违规泄漏率下降 42.7%。