👥 社会计算¶

💬 ACL2026 · 44 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (3) · 🔬 ICLR2026 (17) · 🧪 ICML2026 (9) · 🤖 AAAI2026 (10) · 🧠 NeurIPS2025 (20) · 📹 ICCV2025 (4)

🔥 高频主题： LLM ×14 · 语音 ×3 · Agent ×2 · 多模态 ×2

Among Us: Language of Conspiracy Theorists on Mainstream Reddit: 分析5亿条Reddit评论的10年纵向数据，发现活跃于阴谋论社区的用户在主流社区中也展现出可检测的独特语言模式（平均87%分类准确率），但这些模式高度依赖社区上下文，社区特定模型比全局模型高出最多17个百分点。
Bayesian Social Deduction with Graph-Informed Language Models: 提出 GRAIL（Graph Reasoning Agent Informed through Language），一个混合推理框架，将概率推理外化到因子图模型、用 LLM 处理语言理解和交互，在社交推理游戏 Avalon 中首次击败人类玩家（67% 胜率），且资源消耗远低于大规模推理模型。
Beyond the Crowd: LLM-Augmented Community Notes for Governing Health Misinformation: 作者用 30.8K 条 X 平台健康类 Community Notes 的实证分析揭示出"首条 helpful verdict 中位延迟 17.6 小时、87.9% 笔记永远无评级"的系统性慢响应问题，提出 CrowdNotes+ 框架——以 (1) 证据增强和 (2) 效用引导自动化 两种模式让 LLM 写 note，并配以"相关性→正确性→帮助性"三级评估；15 个 LLM 在新 benchmark HealthNotes 上全面超过人工 note 的 73.19% helpfulness（最高 o3 模型达 81.15%）。
BITS Pilani at SemEval-2026 Task 9: Structured Supervised Fine-Tuning with DPO Refinement for Polarization Detection: 本文为 SemEval-2026 POLAR 极化检测任务（英文子集）提出「结构化 slot-filling SFT + DPO 偏好优化」两阶段流水线，赛中提交 Qwen2.5-7B 系统取得 0.7664 Macro-F1，赛后换 Mistral-Nemo-12B + LLM-judge 过滤的偏好对，Macro-F1 提升至 0.8162，超过 organiser baseline (0.7802)。
Building Arabic NLP from the Ground Up: Twenty Years of Lessons, Failures, and Open Problems: 这是一篇完整缓存的反思型论文而非实验论文，作者回顾二十年阿拉伯语 NLP 建设，指出低资源语言最难的问题往往不是语言学或模型技术，而是社区、制度、部署治理和知识生产方式。
ClaimDB: A Fact Verification Benchmark over Large Structured Data: ClaimDB 是首个把事实核查 evidence 放大到 80 个真实数据库、平均每 claim 含 11 张表 / 460 万行 / 1.1 亿 token 的基准，强制方法必须用可执行程序（SQL）做组合推理；对 30 个 SOTA LLM 的工具调用 agent 评测显示，过半模型 accuracy 不到 55%，且封闭模型几乎不会"弃权"、开源模型又过度弃权——NEI 处理是最大短板。
Confident, Calibrated, or Complicit: Safety Alignment and Ideological Bias in LLM Hate Speech Detection: 作者在 Latent Hatred 基准上让 5 个 LLM（强对齐 vs 弱对齐）戴着 4 种政治 persona 跑零样本仇恨言论分类，发现强对齐模型严格准确率 69.0% 反而高于弱对齐的 64.1%、且对 persona 几乎免疫，但所有模型在反讽、目标群体公平性、置信度校准三方面都出现系统性失败。
Content Fuzzing for Escaping Information Cocoons on Social Media: 提出 ContentFuzz，一个从内容创作者视角出发的置信度引导模糊测试框架，通过 LLM 改写帖子使其在保持人类解读含义不变的前提下改变机器推断的立场标签，从而突破社交媒体信息茧房。
Decide less, communicate more: On the construct validity of end-to-end fact-checking in medicine: 作者用 5 位临床专家在 RedHOT（Reddit 健康讨论）社交媒体真实声明上做了一项 1,000 实例的标注研究，发现端到端医学事实核查（end-to-end fact-checking）在 construct validity 层面就站不住脚 —— 证据连接难、声明欠规约、严重程度判定主观，三大障碍即便专家也无法消除，因此提出应把医学 fact-checking 重构为「交互式医患沟通模型」而非「分类→裁决」管线。
DIA-HARM: Dialectal Disparities in Harmful Content Detection Across 50 English Dialects: 本文构建 DIA-HARM，首个跨 50 种英语方言评估虚假信息检测鲁棒性的基准，揭示人类撰写的方言内容导致检测性能下降 1.4-3.6% F1，微调 Transformer 大幅优于零样本 LLM（96.6% vs 78.3%），且部分模型在混合内容上出现超过 33% 的灾难性退化。
Dynamics of Cognitive Heterogeneity: Investigating Behavioral Biases in Multi-Stage Supply Chains with LLM-Based Simulation: 使用LLM智能体（DeepSeek/GPT系列）在经典啤酒分销博弈中模拟多阶段供应链，系统研究认知异质性（推理能力差异）对系统行为的影响，发现LLM智能体能复现人类的牛鞭效应和短视行为，且信息共享能有效缓解这些不良效应。
Estimating the Black-box LLM Uncertainty with Distribution-Aligned Adversarial Distillation: 提出 DisAAD：用一个仅占目标模型 1% 体积的小代理模型，通过 "分布对齐 + 对抗蒸馏" 学到 "黑盒 LLM 知不知道这道题"，再借证据深度学习把代理模型 logits 拆成认知 / 偶然不确定性，单次响应即可估计 GPT-4/Claude 这类闭源模型的实时不确定性，平均 AUROC 比黑盒 baseline 高 18.2%、AUPR 高 22.9%。
Explain the Flag: Contextualizing Hate Speech Beyond Censorship: 本文提出一种混合方法，结合 LLM 和三种语言（英/法/希腊语）的人工策展词汇表来检测和解释仇恨言论——术语管道通过词汇匹配+LLM 语义消歧检测固有贬损用语，无术语管道用 LLM 检测群体针对性内容，两者融合生成有据可查的解释。
FigSIM: A Dataset for Fine-grained Suicide Severity and Figurative Language in Suicide Memes: FigSIM 构建了首个面向自杀相关 meme 的细粒度多模态数据集，标注 figurative phenomenon、自杀严重度和自杀相关内容，并用 16 类模型验证了当前模型在隐喻、讽刺和高严重度风险识别上仍会系统性低估。
GKnow: Measuring the Entanglement of Gender Bias and Factual Gender: 本文提出 GKnow 基准与一套电路-神经元两级机制分析，证明 LLM 中"性别偏见 (stereotypical gender)"与"事实性别 (factual gender)"在电路层 IoU/cross-task faithfulness 高度重叠、在神经元层共享同一组高 IG 神经元，因此简单的"消融性别偏见神经元"会同时削弱事实性别能力，但在仅评测偏见的 benchmark 上看起来像"成功去偏"，警告这种 debiasing 不可靠。
Imperfectly Cooperative Human-AI Interactions: Comparing the Impacts of Human and AI Attributes in Simulated and User Studies: 通过 2000 次 LLM 模拟和 290 人用户研究的双框架实验，比较了人类个性特质和 AI 设计属性在不完全合作场景（招聘谈判、部分诚实交易）中的影响，发现模拟中个性特质主导而真人实验中 AI 透明度才是关键驱动因素。
Inertia in Moral and Value Judgments of Large Language Models: 本文用"大规模随机 persona × 道德 / 价值问卷"的范式系统地测出 7 个主流 LLM 在 Harm / Fairness 维度上有高度稳定的"价值惯性"——任何 persona 都很难推动它们的回答方向，并提出 Inertia Index 和 Steerability 两个可量化指标揭示这种偏好其实分布不均、与对齐目标对齐。
Investigating Counterfactual Unfairness in LLMs towards Identities through Humor: 本文通过幽默场景系统调查 LLM 的反事实不公平性——交换说话者/听众身份后观察模型行为变化，发现特权群体说的笑话被拒绝率高达 67.5%，被判定为恶意的概率高 64.7%，且社会危害评分高达 1.5 分（5分制），揭示了模型内化了固定的社会特权层级而非进行真正的社会推理。
Is this chart lying to me? Automating the detection of misleading visualizations: 提出 Misviz（2604张真实世界误导性可视化）和 Misviz-synth（57665张合成可视化）基准，覆盖12种误导类型，系统评估MLLM、规则检查器和图像分类器在检测误导性图表上的表现，揭示该任务仍极具挑战性。
Justice in Judgment: Unveiling (Hidden) Bias in LLM-assisted Peer Reviews: 作者用"只改作者元数据、不改论文内容"的反事实评测在 9 个 LLM 上系统性地审计了 LLM 同行评议偏见，发现所有模型都对名校（RS）有显著好感、对资深 PI 与高产作者更宽容，且关键是：当模型在 hard rating 上看似中立时，soft rating（基于 token 概率的期望评分）暴露出更强的隐藏偏见，揭示了"对齐只是把偏好藏起来而没消除"的对齐失败模式。
LiveFact: A Dynamic, Time-Aware Benchmark for LLM-Driven Fake News Detection: LiveFact 把"假新闻检测"从静态二分类升级成一个按月更新、按时间切片证据的动态推理基准，用 Classification + Inference 双模式同时考察 LLM 的事实判断和"该说不知道就说不知道"的认知谦逊，并用 SSA 实体替换显式监控基准污染。
mdok-style at SemEval-2026 Task 9: Finetuning LLMs for Multilingual Polarization Detection: 将原本用于多语言机器生成文本检测的 mdok 系统（QLoRA 微调 Qwen3-32B / Gemma-3-27B）迁移到 SemEval-2026 Task 9 多语言极化检测，并叠加匿名化、大小写、同形字四种数据增强，在 22 种语言上跑出比官方 baseline 平均高 3–4% Macro-F1 的结果。
MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection: 作者把多模态立场检测重构成一个 4 阶段 multi-agent pipeline——CLIP 检索相似样本提供 few-shot CoT、文本/图像/跨模态冲突 3 个专家 agent 各自分析、3 个立场（支持/反对/中立）的 debater agent 互相辩论、最后一个 adjudicator agent 做 self-reflection 出最终标签，5 个数据集上 in-target 和 zero-shot 都超过包括 GPT-4V、TMPT、MV-Debate 在内的强 baseline。
Persona-E2: A Human-Grounded Dataset for Personality-Shaped Emotional Responses to Textual Events: 构建了首个将人格特质（MBTI + Big Five）与读者情感反应关联的大规模数据集 Persona-E2，包含 3111 个事件 × 36 名标注者共 11.2 万条标注，揭示 LLM 在模拟人格化情感反应时存在"人格幻觉"问题，且 Big Five 特征比 MBTI 更有效地缓解该问题。
Phase Transitions in Affective Meaning Divergence: The Hidden Drift Before the Break: 这篇论文把对话破裂前的“同词不同情感理解”形式化为 Affective Meaning Divergence，并用熵正则博弈证明修复概率会发生鞍结分岔，再在 Conversations Gone Awry 上观察到方差上升等 critical slowing down 早期预警信号。
Point of Order: Action-Aware LLM Persona Modeling for Realistic Civic Simulation: 这篇论文把公开 Zoom 会议视频转成跨视频说话人可追踪、带行动标签和 persona 元数据的政府协商语料，并用 QLoRA 微调 LLM 生成特定参与者发言，使困惑度最多降低 67%，人类在图灵式测试中也很难区分模拟对话和真实会议片段。
Probing Multimodal Large Language Models on Cognitive Biases in Chinese Short-Video Misinformation: 这篇论文构建了一个 200 条中文健康短视频的高质量谣言评测集，用证据链、错误类型和社交线索系统评估 8 个前沿 MLLM，发现 Gemini-2.5-Pro 最稳，但多数模型在多模态谣言判断中仍受标签偏置、权威账号和流量指标影响。
Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning: 本文提出 Prompt-Level Distillation，把教师模型在训练样本上的推理规律抽取、聚类并消解冲突后写入学生模型的 system prompt，在不更新参数的情况下显著提升小模型的推理分类能力。
PSK@EEUCA 2026: Fine-Tuning Large Language Models with Synthetic Data Augmentation for Multi-Class Toxicity Detection in Gaming Chat: 这篇系统论文面向 EEUCA 2026 游戏聊天毒性识别任务，用 Llama 3.1 8B + LoRA + 经过严格过滤的 5% 少数类合成改写数据，在六分类 macro-F1 上达到 0.6234，并揭示了验证集高分但测试集迁移差的“验证陷阱”。
Reheat Nachos for Dinner? Evaluating AI Support for Cross-Cultural Communication of Neologisms: 本文通过 234 名非母语者和 144 名母语评价者的人类实验比较四类 AI/非 AI 支持，发现带语境解释的 AI Explanation 最能提升非母语者使用英语网络新词时的母语者评分，但学习者的自信和真实交际能力之间仍存在明显错位。
RV-HATE: Reinforced Multi-Module Voting for Implicit Hate Speech Detection: RV-HATE 把隐式仇恨言论检测拆成四个面向不同数据特性的 BERT 对比学习模块，再用 PPO 学习数据集特定的软投票权重，在五个 benchmark 上把平均 macro-F1 提升到 84.47%，比 SharedCon 平均高 1.8 个百分点。
SMARTER: A Data-efficient Framework to Improve Toxicity Detection with Explanation via Self-augmenting Large Language Models: SMARTER 用少量标注样本让 LLM 为正确和错误标签分别生成解释，再用偏好优化和跨模型训练提升可解释毒性检测，在 3 个数据集上以 6%-57% 的训练数据达到全量训练 86%-100% 的性能。
SPAGBias: Uncovering and Tracing Structured Spatial Gender Bias in Large Language Models: 本文提出 SPAGBias 框架，首次系统评估 LLM 在城市微观空间语境中的性别偏见，通过显式偏见、概率偏见和建构偏见三个诊断层揭示了 LLM 中结构化的空间-性别关联模式，并追溯偏见在模型开发全流程中的嵌入与放大。
Splits! Flexible Sociocultural Linguistic Investigation at Scale: 提出构建社会语言学"沙盒"的方法，从 Reddit 构建了按人口统计群体和讨论话题双重切分的 970 万帖子数据集 Splits!，并设计了基于 lift 和 triviality 的两阶段过滤流程，从 2.3 万条 LLM 生成的候选假设中高效筛选出值得深入研究的社会文化语言现象。
Synthia: Scalable Grounded Persona Generation from Social Media Data: 提出 Synthia 框架，基于真实社交媒体帖子（Bluesky）生成有根据的 LLM 人格叙事，在社会调查对齐度上比 SOTA 提升最高 11.6%，同时使用更小的模型，并保留社交网络拓扑结构支持网络感知分析。
The Proxy Presumption: From Semantic Embeddings to Valid Social Measures: 这篇论文指出 NLP 中把 embedding 几何距离直接命名为“创造力、偏见、创新性”等社会构念是一种 Proxy Presumption，并提出 Construct Validity Protocol 与 Counterfactual Neutralization 来把启发式 proxy 变成可验证的测量工具。
To Lie or Not to Lie? Investigating The Biased Spread of Global Lies by LLMs: 本文提出 GlobalLies——一个包含 440 个虚假信息生成模板和 6,867 个实体的多语言平行数据集（8 种语言、195 个国家），揭示了 LLM 在传播虚假信息时存在系统性的国家和语言偏差：对低 HDI 国家的虚假信息生成率显著更高（统计相关 \(\rho=-0.355\), \(p=5\times10^{-7}\)），低资源语言的合规率高出英语 30% 以上，且现有安全分类器和 RAG 防护措施提供不均匀的保护。
ToxiTrace: Gradient-Aligned Training for Explainable Chinese Toxicity Detection: ToxiTrace 提出了一种面向 BERT 类编码器的可解释中文毒性检测方法，通过 CuSA（LLM 引导的弱标注）、GCLoss（梯度约束损失）和 ARCL（对抗推理对比学习）三个组件，在保持高效编码器推理的同时实现了句级分类准确率和连续有毒片段提取的双重提升。
Understanding the Sociocultural Dimensions of Mental Health Discourse in Arabic-Language X Communities: 本文用 GPT-4.1 自披露识别管线，从三个阿拉伯语 X（原 Twitter）心理健康社区筛出 8,147 条"亲历者"推文，再用加权对数几率、NMF 主题建模和六域文化关键词框架，刻画出边缘型人格障碍（BPD）、双相障碍、ADHD 三类社区在宗教、医学、关系、身份等维度上的话语差异，并明确把所有结论定位为"生成假设"而非"确认结论"。
VeriTaS: The First Dynamic Benchmark for Multimodal Automated Fact-Checking: VeriTaS 用一个季度更新的七阶段自动化流水线，把专业事实核查机构的真实多语种图文视频声明转成标准化、可解释、可评测的多模态事实核查基准，并显示当前最强多模态模型离可靠 AFC 仍有明显距离。
When Bigger Isn't Better: A Comprehensive Fairness Evaluation of Political Bias in Multi-News Summarisation: 本文构建了首个带政治倾向标签的多文档新闻摘要数据集 FairNews，并通过五维公平性评估框架对 13 个 LLM 进行评估，发现中等规模模型在公平性和效率上优于大模型，且实体情感相似性是最难通过提示去偏的维度。
Who Gets Which Message? Auditing Demographic Bias in LLM-Generated Targeted Text: 本文首次系统分析 LLM 在人口统计条件下生成定向消息时的偏见行为，提出 Persuasion Bias Index (PBI) 指标，发现 GPT-4o/Llama/Mistral 在气候传播中对男性和年轻人使用更强势的说服策略，且上下文提示会系统性地放大这些差异。
Why Are We Moral? An LLM-based Agent Simulation Approach to Study Moral Evolution: 这篇论文用 LLM agent 构建史前狩猎采集社会仿真平台，把道德类型、记忆、判断、协作和繁衍都纳入演化实验，发现合作和互助通常提升生存稳定性，而判断他人道德类型的认知成本会改变哪类道德策略胜出。
YEZE at SemEval-2026 Task 9: Detecting Multilingual, Multicultural and Multievent Online Polarization via Heterogeneous Ensembling: YEZE 系统把 SemEval-2026 Task 9 的 22 语言在线极化识别拆成独立子任务，用 XLM-RoBERTa-large 与 mDeBERTa-v3-base 分别微调，再通过加权概率平均和 weighted BCE 缓解多标签稀疏问题，在细粒度极化类型与表现形式预测上取得稳定的官方 Top-10 排名。