👥 社会计算¶

🧪 ICML2026 · 9 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (3) · 🔬 ICLR2026 (17) · 💬 ACL2026 (44) · 🤖 AAAI2026 (10) · 🧠 NeurIPS2025 (20) · 📹 ICCV2025 (4)

🔥 高频主题： 对齐/RLHF ×2 · 多模态 ×2 · LLM ×2

Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases: 这篇论文提出 alignment tampering：当待对齐模型生成“高质量但带偏见”和“低质量但无偏见”的响应时，RLHF 的成对偏好标签会把质量与偏见混在一起，导致奖励模型、PPO/DPO 和 Best-of-N 采样进一步放大原本不想要的偏见。
FLIPS: Instance-Fingerprinting for LLMs via Pseudo-Random Sequences: FLIPS 通过设计伪随机种子序列（仅模型所有者知晓种子）来生成模型独特"指纹响应"——攻击者即便微调或剪枝模型也无法消除指纹，黑盒查询场景下检测率 > 99%、误报率 < 1%。
IDO: Incongruity-Aware Distribution Optimization for Multimodal Fake News Detection: IDO 通过显式建模模态间不一致性作为可学习的分布优化目标——同时拉近真新闻的多模态嵌入并扩大假新闻的不一致，在 Weibo / Twitter / Fakeddit 上 F1 较 SOTA 提升 3-7%、对未见过的假新闻泛化能力显著提升。
MIND: Multi-Rationale Integrated Discriminative Reasoning Framework for Multi-Modal Fake News: MIND 通过多视角理由生成 + 跨理由判别推理为假新闻检测提供可解释 + 鲁棒的判别框架——同时利用 LLM 生成的事实核查、模态一致性、语义合理性 3 类理由，在 Weibo / Twitter / Fakeddit 上 F1 较 SOTA 提升 4-8%。
ObjEmbed: Towards Universal Multimodal Object Embeddings: ObjEmbed 训练一个通用的对象嵌入模型——通过结合检测、分割、检索、描述、分类等任务对齐多模态对象表示，在 OVD / OVS / Text2Image-Object / Open-Caption-Eval 等 11 项任务上单一嵌入超越或匹配任务特定 SOTA。
SCOPE: Selective Conformal Optimized Pairwise LLM Judging: SCOPE 通过双向偏好熵（BPE）消除 LLM 评判中的位置偏差，结合保形风险控制实现有限样本 FDR 控制——在保持高覆盖率的前提下提供统计有效的风险界保证（覆盖率 0.583 时 FDR 仅 0.099 vs Vanilla 1.000 但 FDR 0.198）。
Self-Debias: Self-correcting for Debiasing Large Language Models: Self-Debias 把 LLM 的去偏问题重塑为「在自回归推理链上对概率质量做公平资源分配」：用轨迹级后缀边际作为资源单位，套 Jain 公平指数防止资源在易样本上塌缩，再配 cold-start SFT 与基于一致性过滤的在线自训练，仅用 20k 标注种子就让 Qwen3-8B 在 8 个 fairness/utility 基准上的平均分从 77.5 拉到 81.7，并把基础模型「自我纠错越纠越歪」的塌缩翻转成稳定 +0.4。
The Geometric Mechanics of Contrastive Representation Learning: Alignment Potentials, Entropic Dispersion, and Cross-modal Divergence: 本文用测度论框架把 InfoNCE 损失提升到表示分布上的确定性"种群能量"，证明 unimodal 情形是凸的且收敛到唯一 Gibbs 平衡，而对称多模态情形会出现持续的负对称 KL 耦合，从几何上必然产生 modality gap。
Three Years of r/ChatGPT: Societal Impact Evaluations from Social Media Data: 把 r/ChatGPT 子版三年（2022-12 至 2025-11）共 13.7 万帖子用稀疏自编码器（SAE）拆成可解释特征，再用分段线性变点拟合追踪每个特征的时间轨迹，发现"情感性使用"（心理治疗、情感依恋）在 GPT-4o 发布后骤增；并提出在线监测算法 PuLSE，证明它本可在 2024 年 10 月就报警——比 OpenAI 公开承认这一影响早了半年。