📂 其他¶
💬 ACL2026 · 5 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (54) · 🔬 ICLR2026 (76) · 🤖 AAAI2026 (126) · 🧠 NeurIPS2025 (154) · 📹 ICCV2025 (48) · 🧪 ICML2025 (93)
🔥 高频主题: LLM ×2
- Agree, Disagree, Explain: Decomposing Human Label Variation in NLI through the Lens of Explanations
-
将LiTEx推理分类法从"标签一致下的解释变异"扩展到"标签不一致"场景,发现标注者可能标签不同但推理类似,推理类别的一致性比标签一致性更好地反映解释的语义相似度。
- Are Large Language Models Economically Viable for Industry Deployment?
-
提出Edge-Eval框架,通过5个部署指标(经济盈亏平衡、智能功耗比、系统密度、冷启动税、量化保真度)在传统T4 GPU上全生命周期评估LLM,揭示<2B小模型在经济和生态维度全面优于7B模型,并发现QLoRA虽降低内存但能耗增加最高7倍的反常现象。
- Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning
-
提出 PTE(Prefill Token Equivalents),一个基于硬件感知的工具集成推理效率度量指标,统一了内部推理和外部工具使用的成本,并通过大规模实验揭示了四种 TIR 低效模式:确认性工具使用、工具混合、缺乏工具先验和工具格式崩溃。
- Dynamics of Cognitive Heterogeneity: Investigating Behavioral Biases in Multi-Stage Supply Chains with LLM-Based Simulation
-
使用LLM智能体(DeepSeek/GPT系列)在经典啤酒分销博弈中模拟多阶段供应链,系统研究认知异质性(推理能力差异)对系统行为的影响,发现LLM智能体能复现人类的牛鞭效应和短视行为,且信息共享能有效缓解这些不良效应。
- Reliable Evaluation Protocol for Low-Precision Retrieval
-
揭示低精度(如二值化/量化嵌入)检索系统在评估时因分数粒度降低产生大量虚假并列(spurious ties),导致评估结果高度不稳定,提出 HPS(高精度打分)和 TRM(并列感知指标)两种互补策略,使低精度检索的评估更可靠一致。