💬 LLM 其他¶
🤖 AAAI2026 · 29 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (3) · 🔬 ICLR2026 (55) · 💬 ACL2026 (61) · 🧪 ICML2026 (39) · 🧠 NeurIPS2025 (54) · 📹 ICCV2025 (6)
🔥 高频主题: LLM ×14 · 推理 ×2 · 对齐/RLHF ×2
- A Content-Preserving Secure Linguistic Steganography
-
提出首个内容保持型语言隐写术范式CLstega,通过微调掩码语言模型(MLM)来可控地变换预测分布,将秘密信息嵌入到不做任何修改的原始文本中,实现了100%提取成功率和近乎完美的安全性(隐写分析检测准确率接近随机猜测的0.5)。
- An Invariant Latent Space Perspective on Language Model Inversion
-
提出不变潜空间假说(ILSH),将LLM反演问题重新建模为复用LLM自身潜空间,设计Inv²A框架通过轻量级逆编码器将输出映射到去噪伪表示,再由冻结的LLM解码恢复隐藏prompt,在9个数据集上BLEU平均提升4.77%且仅需20%数据量即可达到可比性能。
- Blue Teaming Function-Calling Agents
-
系统评估了四个开源function-calling LLM在三种攻击下的鲁棒性,并测试了八种防御方案的效果,揭示了当前模型默认不安全、防御方案在实际场景中仍难以部署的现状。
- CoEvo: Continual Evolution of Symbolic Solutions Using Large Language Models
-
提出CoEvo框架,结合LLM与进化搜索方法论,通过动态知识库和多表示空间(自然语言/数学公式/代码)实现符号解的持续开放式进化,在AI Feynman基准上大幅超越现有符号回归方法。
- Collaborative LLM Numerical Reasoning with Local Data Protection
-
提出一种大小模型协作框架,通过对本地查询进行"主题迁移+数值替换"的两阶段匿名化来保护敏感数据,同时让远端 GPT-4 以可执行 Python 代码(即插即用工具)形式返回推理方案,本地仅需做数值回代即可获得答案,在 FinQA 和 MultiHiertt 上准确率提升 16-44% 且数据泄露降低 2-45%。
- Control Illusion: The Failure of Instruction Hierarchies in Large Language Models
-
系统性揭示了当前 LLM 中 system/user 提示分离机制无法有效建立指令优先级,并发现预训练习得的社会层级先验(权威、专业、共识)比显式的 system/user 角色对模型行为有更强的控制力。
- Guess or Recall? Training CNNs to Classify and Localize Memorization in LLMs
-
在 LLM 注意力权重上训练 CNN 来评估记忆化分类法与实际注意力机制的对齐程度,提出新的三类分类法(Guess/Recall/Non-Memorized),最小 F1 从 64.7% 提升至 89.0%,并定位了不同记忆类型分别依赖低层(Guess)和高层(Recall)注意力。
- ICL-Router: In-Context Learned Model Representations for LLM Routing
-
提出 ICL-Router,通过两阶段训练(查询重建 + ICL模型路由)将 LLM 的能力画像编码为 in-context 向量,实现可扩展的动态模型路由——新增模型无需重训路由器,在分布内和分布外任务上均达到 SOTA。
- Identifying and Analyzing Performance-Critical Tokens in Large Language Models
-
通过representation-level和token-level两种消融实验,发现LLM在ICL中直接依赖的"性能关键token"是模板和停用词token(如"Answer:"),而非人类会关注的内容token(如实际文本),并揭示了LLM通过将内容信息聚合到这些关键token的表示中来间接利用内容。
- IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization
-
提出 IROTE,一种基于信息瓶颈理论的上下文自我反思优化方法,通过迭代生成并优化紧凑且富有唤起力的文本"自我反思"(self-reflection),无需微调即可稳定地激发 LLM 在多种下游任务中表现出目标人类特质(价值观、道德、人格),一致性超越现有基线。
- Learning Spatial Decay for Vision Transformers
-
提出 Spatial Decay Transformer(SDT),首次将数据依赖的空间衰减机制从 1D 序列建模适配到 2D 视觉 Transformer,通过 Context-Aware Gating(CAG)生成动态的、内容相关的 patch 交互衰减强度,在 ImageNet-1K 分类和生成任务上一致超越 RMT 等强基线。
- LILAD: Learning In-context Lyapunov-stable Adaptive Dynamics Models
-
提出 LILAD 框架,利用 GPT-2 的 in-context learning 能力同时学习动力学模型和 Lyapunov 函数,在保证全局指数稳定性的同时实现对非平稳参数化动力系统的自适应辨识,在多个基准系统上超越 ICL、MAML 等基线。
- LoKI: Low-damage Knowledge Implanting of Large Language Models
-
提出LoKI,一种基于Transformer知识存储机制理解的参数高效微调方法,通过知识向量归因(KVA)评估FFN中各知识向量的贡献度,选择低贡献向量进行层均衡的知识植入,在获得强任务性能的同时显著缓解灾难性遗忘。
- LoopLLM: Transferable Energy-Latency Attacks in LLMs via Repetitive Generation
-
提出LoopLLM,一种通过诱导LLM进入重复生成模式来发起能耗延迟攻击的框架,利用重复诱导提示优化和token对齐的集成优化,在12个开源和2个商业LLM上实现超过90%最大输出长度的攻击效果,跨模型迁移性提升约40%。
- ParetoHqD: Fast Offline Multiobjective Alignment of Large Language Models Using Pareto High-Quality Data
-
提出 ParetoHqD,将人类偏好表示为目标空间中的偏好方向(而非线性标量化),通过选取靠近 Pareto 前沿的高质量数据做两阶段 SFT,用仅 42% 的 GPU 时间实现优于 5 个基线的多目标 LLM 对齐效果。
- PERSIST: Persistent Instability in LLM's Personality Measurements
-
PERSIST 框架系统评估 29 个 LLM(1B-685B)在 200 万+响应上的人格测量稳定性,揭示了 CoT 推理增加变异性却降低困惑度的"推理悖论",以及会话历史对大小模型产生相反影响的规模依赖效应,表明当前 LLM 缺乏行为一致性的架构基础。
- Position on LLM-Assisted Peer Review: Addressing Reviewer Gap through Mentoring and Feedback
-
本文作为立场论文,提出将LLM在同行评审中的角色从"自动生成审稿意见"转向"增强人类审稿能力"——通过LLM驱动的导师系统(三阶段培训+认证)和反馈系统(违规检测+证据反馈+可靠性测试)来缩小审稿质量差距。
- ProFuser: Progressive Fusion of Large Language Models
-
提出ProFuser,通过双模式优势评估(训练模式Min-CE + 推理模式Reward Model投票)全面识别各源模型在不同维度的优势,再用渐进式融合策略(先推理模式→后训练模式的easy-to-hard课程)将异构LLM的互补能力整合到单个目标模型中,在知识/推理/安全6个基准上平均提升1.65%。
- Quantifying Conversational Reliability of Large Language Models under Multi-Turn Interaction
-
通过三个可确定性评估的代表性任务(指令遵循、工具选择、实体抽取),系统量化 LLM 在多轮对话中的可靠性退化程度,揭示模型在扩展对话中出现指令漂移、意图混淆和上下文覆写等失败模式。
- Rectification Reimagined: A Unified Mamba Model for Image Correction and Rectangling with Prompts
-
从统一畸变矫正视角出发,提出 UniRect 框架,通过 Residual Progressive TPS 处理几何形变 + Residual Mamba Blocks 补偿退化,统一处理肖像校正、广角矩形化、拼接矩形化、旋转校正四种任务,并通过 Sparse MoE 实现 four-in-one 多任务学习,拼接矩形化 PSNR 提升 3.82 dB,旋转校正提升 0.87 dB。
- Scaling Equitable Reflection Assessment in Education via Large Language Models and Role-Based Feedback Agents
-
提出一个由5个角色化GPT-4o Agent组成的零样本多Agent流水线,对学习者反思文本进行公平的量表评分并生成偏差感知的对话式反馈,在336篇反思上实现MAE=0.467、QWK=0.459的评分一致性和Q(g)=3.967的反馈质量。
- Soft Filtering: Guiding Zero-Shot Composed Image Retrieval with Prescriptive and Proscriptive Prompts
-
提出 SoFT,一个无需训练的即插即用重排序模块,利用多模态 LLM 从参考图像和修改文本中提取"必须包含"(prescriptive)和"必须避免"(proscriptive)双重文本约束,对零样本组合图像检索的候选结果进行软过滤重排序,同时构建了多目标三元组数据集流水线以改善评估。
- STEM: Efficient Relative Capability Evaluation of LLMs through Structured Transitive Evaluation Model
-
提出 STEM 框架,通过识别同架构不同规模模型间的"显著转换样本"(STS)构建轻量级评估子集,实现对未知 LLM 能力的高效相对定位,在 100 样本下达到 100% 定位准确率,远超随机采样和贝叶斯方法。
- TEMPLE: Incentivizing Temporal Understanding of Video LLMs via Progressive Pre-SFT Alignment
-
提出 TEMPLE,通过自动化的视频时间偏好数据生成管线(视频筛选→时间扰动→对比响应)和创新的 Progressive Pre-SFT Alignment 策略(课程学习 + DPO 先于 SFT),用少量自生成 DPO 数据显著提升 Video LLM 的时间推理能力,在 VideoMME、MLVU、Vinoground 等多个基准上一致改进。
- TransMamba: A Sequence-Level Hybrid Transformer-Mamba Language Model
-
提出 TransMamba,一种序列级别的 Transformer-Mamba 混合架构,通过共享 QKV/CBx 参数和 Memory Converter 在不同 token 长度时动态切换 Attention 和 SSM,兼顾长短序列的效率。
- Uncertainty Under the Curve: A Sequence-Level Entropy Area Metric for Reasoning LLMs
-
提出 Entropy Area Score (EAS)——通过单次前向传播积分 token 级预测熵来量化推理 LLM 的不确定性。EAS 无需外部模型或重复采样,与答案熵强相关(Pearson r=0.82),用于训练数据选择时比 Pass Rate 过滤多提升 1.2-2.3% Pass@1,是高效可解释的 LLM 不确定性工具。
- Vision Transformers are Circulant Attention Learners
-
发现 ViT 的自注意力内禁学习了 BCCB 模式,据此提出 Circulant Attention,通过 2D FFT 实现 \(O(N\log N)\) 复杂度,在 ImageNet 分类、COCO 检测、ADE20K 分割上一致提升。
- VSPO: Validating Semantic Pitfalls in Ontology via LLM-Based CQ Generation
-
提出 VSPO 框架,通过构造"定义-公理"错位数据集并微调 LLaMA-3.1-8B-Instruct,生成能够验证本体语义陷阱(如 allValuesFrom 误用)的能力问题(CQ),精度和召回率分别超过 GPT-4.1 达 26% 和 28.2%。
- Whispering Agents: An Event-Driven Covert Communication Protocol for the Internet of Agents
-
首次形式化定义了智能体互联网(IoA)中的"隐蔽事件通道"(Covert Event Channel),并设计了 ΠCCAP 协议,通过在智能体对话的存储、时序和行为维度中嵌入秘密数据,实现了高容量、高鲁棒性且对 LLM 审查员不可感知的隐蔽通信。