⚖️ 对齐 / RLHF¶
📷 CVPR2025 · 5 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (12) · 🔬 ICLR2026 (102) · 💬 ACL2026 (38) · 🧪 ICML2026 (37) · 🤖 AAAI2026 (17) · 🧠 NeurIPS2025 (36)
🔥 高频主题: 对齐/RLHF ×2
- Bases of Steerable Kernels for Equivariant CNNs: From 2D Rotations to the Lorentz Group
-
提出一种求解可转向等变 CNN 核约束方程的替代方法,通过在不动点处求解更简单的不变性条件再"转向"到任意点,绕过了计算 Clebsch-Gordan 系数的需要,为 SO(2)、O(2)、SO(3)、O(3) 及 Lorentz 群给出了显式的核基底公式。
- CAD-Llama: Leveraging Large Language Models for Computer-Aided Design Parametric 3D Model Generation
-
本文提出 CAD-Llama 框架,通过层次化标注管线将 3D CAD 模型转化为富含语义描述的 Python 风格代码(SPCC),再用自适应预训练和指令微调将 LLaMA3-8B 转化为参数化 CAD 模型生成器,在 text-to-CAD 任务上精度超出先前方法约 14%,并支持补全、添加、删除等多种 CAD 编辑任务。
- Continual SFT Matches Multimodal RLHF with Negative Supervision
-
通过梯度分析发现多模态 RLHF 相比持续 SFT 的核心优势在于 rejected response 中的负监督信号,据此提出 nSFT 方法,用 LLM 从拒绝回复中提取错误信息并构造纠正性对话数据,仅用 SFT loss 就能匹配甚至超越 DPO/PPO 等 RLHF 方法,且只需 1 个模型,显存效率大幅提升。
- Do We Really Need Curated Malicious Data for Safety Alignment in Multi-Modal LLMs?
-
探讨多模态大语言模型安全对齐是否真正需要精心策划的恶意数据,发现利用现有良性数据并结合简单的安全微调策略即可实现有效的安全对齐,大幅降低了安全对齐的数据成本。
- Jailbreaking the Non-Transferable Barrier via Test-Time Data Disguising
-
提出 JailNTL,首个针对 Non-Transferable Learning (NTL) 模型的黑盒攻击方法,通过测试时数据伪装将未授权域的数据"变装"为授权域的数据,仅用 1% 授权样本即可将未授权域准确率提升最高 55.7%,无需修改模型。