⚖️ 对齐 / RLHF¶
📹 ICCV2025 · 2 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (11) · 📷 CVPR2026 (12) · 🔬 ICLR2026 (42) · 🤖 AAAI2026 (20) · 🧠 NeurIPS2025 (53) · 🧪 ICML2025 (27)
- Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models
-
本文提出 HIMRD,一种黑盒多模态越狱攻击方法,通过将恶意语义分散到多个模态来绕过单模态防护,并用启发式搜索策略寻找理解增强提示和诱导提示,在开源和闭源多模态大模型上分别达到约 90% 和 68% 的平均攻击成功率。
- MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization
-
提出 MagicID 框架,通过构建身份偏好和动态偏好的混合视频对数据,并设计两阶段混合偏好优化(HPO)训练策略,首次将 DPO 应用于身份定制化视频生成,同时解决传统自重建训练导致的身份退化和动态减弱问题。