跳转至

📦 模型压缩

🔬 ICLR2026 · 92 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (42) · 📷 CVPR2026 (57) · 🤖 AAAI2026 (54) · 🧠 NeurIPS2025 (137) · 📹 ICCV2025 (48) · 🧪 ICML2025 (71)

🔥 高频主题: LLM ×19 · 模型压缩 ×16 · 推理 ×11 · 压缩/编码 ×8 · 持续学习 ×5

A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA

用信息论推导出 LLM 单次推理在多跳 QA 中的 Fano 式准确率上界,揭示当任务信息需求超过模型输出容量时准确率会"悬崖式"骤降的现象,并据此设计多轮推理框架 InfoQA,通过容量感知分解、依赖显式工作流和迭代查询压缩来突破单次推理瓶颈。

A Recovery Guarantee for Sparse Neural Networks

证明了 ReLU 神经网络的首个稀疏恢复保证:对两层标量输出网络,当训练数据为高斯随机采样时,基于凸重构的迭代硬阈值 (IHT) 算法可精确恢复稀疏网络权重,且内存需求仅与非零权重数线性增长。

A State-Transition Framework for Efficient LLM Reasoning

提出将 LLM 推理过程建模为状态转移过程的高效推理框架,用 Linear Attention 将历史推理步骤的信息压缩为状态矩阵,使注意力复杂度从 \(O(C^2)\) 降为 \(O(C)\)、KV cache 从 \(O(C)\) 降为 \(O(1)\),同时不缩短 CoT 序列,保持推理能力。额外的动量 momentum 策略缓解了噪声推理步导致的 overthinking 问题。

A universal compression theory for lottery ticket hypothesis and neural scaling laws

本文证明了一个通用压缩定理:任意置换不变函数可以被渐近压缩至 polylog(d) 规模且误差趋近于零(这是最优压缩率),由此直接推导出动态彩票假说的证明——任何网络可被压缩至多对数宽度同时保持学习动力学不变,以及数据集可被压缩至多对数大小同时保持损失景观不变,并且幂律缩放定律可被加速至任意快的衰减率。

ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models

提出 ABBA 适配器,将权重更新参数化为两个独立可学习的低秩矩阵的 Hadamard 积 \(\Delta W = s(B_1A_1) \odot (B_2A_2)\),在相同参数预算下实现远高于 LoRA 的有效秩(\(r_1 \cdot r_2\) vs \(r\)),并通过 Khatri-Rao 重构实现与 LoRA 相当的内存效率,在算术和常识推理任务上显著超越现有 PEFT 方法。

ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning

构建 ACPBench Hard——基于 PDDL 形式化系统的 8 类开放式生成规划推理 benchmark(13 域 × 8 任务 = 1040 题),配备具有严格正确性保证的符号验证器,系统测评 15 个 LLM 后发现:即使最强推理模型 o1-preview 在半数任务上准确率 ≤66%,所有模型在最基本的"列举可执行动作"任务上几乎完全失败,暴露了当前 LLM 在规划推理方面的根本不足。

Adaptive Width Neural Networks

提出AWN框架,通过变分推断在训练过程中自动学习每层的无上界宽度(神经元数量),利用单调递减的重要性函数对神经元施加软排序,实现宽度自适应于任务难度,并支持零成本的训练后截断压缩。

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in LVLMs

通过 erank(有效秩)和注意力熵的系统性实证分析,揭示了视觉 token 剪枝中注意力方法和多样性方法的互补特性——注意力方法抑制幻觉但覆盖有限,多样性方法覆盖全面但易引入幻觉——并据此提出基于图像复杂度自适应切换剪枝策略的 AgilePruner,在 9 个 benchmark 上表现稳健。

AMiD: Knowledge Distillation for LLMs with α-mixture Assistant Distribution

提出α-mixture assistant distribution及统一蒸馏框架AMiD,通过引入新设计变量α(控制教师-学生分布插值路径的几何形状)泛化了现有辅助分布方法(m-mixture和e-mixture为α=±1的特例),并证明了在任意散度和α下的最优性保证,在多个LLM蒸馏基准上取得SOTA性能。

AnyBCQ: Hardware Efficient Flexible Binary-Coded Quantization for Multi-Precision LLMs

提出AnyBCQ,基于二进制编码量化(BCQ)的多精度LLM量化框架,通过渐进式精度扩展(冻结已有bit-plane+添加残差bit-plane)支持单个模型在2-4bit之间动态切换,专设CUDA内核直接在bit-plane级别计算避免查表/转置开销,在2-bit下准确率大幅超越Any-Precision LLM(MMLU 35.3% vs 24.7%),吞吐量最高达到FP16的3.0x。

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

提出BeyondBench评估框架,通过算法化动态生成数学问题(44个任务/117个变体/3个难度级别),确保每次测试不被训练数据污染,评估了101个语言模型(0.5B-141B参数),发现即使最强模型在Hard Suite上也仅达56%准确率,且不使用工具时性能大幅下降。

Boomerang Distillation Enables Zero-Shot Model Size Interpolation

提出"回旋蒸馏"范式——只训练一个小 student 模型,通过将 teacher 的 transformer 层块逐步贴回 student,零训练代价地构建出一整族中间尺寸模型,性能在 student 与 teacher 之间平滑插值,匹配甚至超越逐个蒸馏的同等规模模型。

Boosting Entropy with Bell Box Quantization

提出 Bell Box Quantization (BBQ),首个同时满足"信息论最优"(ITO) 和"计算高效"(compute-efficient) 的量化方法,核心洞察是学习的域无关性——量化器输出域不必与输入域相同,由此在输入域做 ITO 量化以最大化熵,在输出域映射到硬件可加速的数据类型,在 1-4 bit QAPT 场景下全面超越 QuEST 和 LSQ。

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

从柯尔莫哥洛夫复杂度理论出发,提出了"渐近最优描述长度目标"的理论框架,证明了 Transformer 存在这样的目标函数(基于其计算通用性的新证明),并通过构造基于自适应高斯混合先验的可微变分目标进行了实证验证,揭示了重要的优化挑战。

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

提出 COMI,一种基于边际信息增益(MIG = 查询相关性 - 语义冗余度)的粗到细自适应上下文压缩框架,在 32x 压缩率下 NaturalQuestions EM 比次优方法提高约 25 分,核心在于同时优化保留信息的相关性和多样性。

Compute-Optimal Quantization-Aware Training

本文通过 757 组 QAT 实验(86M-2.2B 参数,1-6 bit)发现:QAT 的最优训练比例随总计算量增长而增大(与先前认为固定 10% 的结论相反),并提出 tokens-per-parameter-byte 统计量和新的 loss scaling law 来精确预测最优 QAT 分配策略和最终损失。

ConFu: Contemplate the Future for Better Speculative Sampling

提出 ConFu,在推测解码的 draft model 中引入 contemplate tokens 让其预见 target model 的未来生成方向,结合 MoE 动态机制和锚点采样训练,在 EAGLE-3 基础上提升 8-11% 的接受率和生成速度。

Cross-Domain Lossy Compression via Rate- and Classification-Constrained Optimal Transport

将跨域有损压缩(编码器观测退化源、解码器重建不同目标分布)形式化为带压缩率和分类损失双重约束的最优传输问题,推导Bernoulli源(Hamming失真)和Gaussian源(MSE)的闭式DRC/RDC及DRPC权衡函数,通过深度端到端压缩模型在超分/去噪/修复任务上验证理论预测与实验行为一致。

Cut Less, Fold More: Model Compression through the Lens of Projection Geometry

将结构化剪枝和模型折叠(model folding)统一为正交投影框架——剪枝是坐标轴对齐投影,折叠是聚类子空间投影——并证明在秩差为1的条件下折叠的参数重建误差严格更小,在1000+个 checkpoint 上验证折叠在中-高压缩率下通常优于剪枝。

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

提出 Dataset Color Quantization(DCQ)框架,通过色度感知聚类、注意力引导调色板分配和纹理保持优化三个机制,在数据集层面减少颜色冗余实现存储压缩,同时保持训练效果。

Dataset Distillation as Pushforward Optimal Quantization

将解耦式数据集蒸馏重新形式化为最优量化问题,证明通过扩散先验的潜空间聚类+权重可收敛逼近真实数据分布,提出 DDOQ 算法在 ImageNet-1K 上以极低额外计算量超越 D4M 等基线。

DiffVax: Optimization-Free Image Immunization Against Diffusion-Based Editing

DiffVax 训练一个前馈免疫器(UNet++),对任意图像仅需一次前向传播(~70ms)即可生成不可感知的对抗扰动,使基于扩散模型的恶意编辑失败,相比先前逐图优化方法实现 250,000× 加速,并首次将免疫扩展到视频内容。

Distillation of Large Language Models via Concrete Score Matching

提出 Concrete Score Distillation (CSD),一种基于离散 score matching 的 LLM 知识蒸馏损失,通过匹配 student 和 teacher 在所有词表对之间的相对 logit 差异,同时克服了 softmax 平滑和直接 logit 蒸馏的解空间限制问题。

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

提出CAZI-MBN框架,通过融合领域特定LLM序列嵌入、拓扑感知图分词器、上下文感知跨层注意力和教师-学生蒸馏,实现多重生物网络中未见实体的零样本交互预测,在5个基准数据集上AUROC较最优baseline提升3.1-20.4%。

Draft-based Approximate Inference for LLMs

提出 Draft-based Approximate Inference 框架,利用小型 draft 模型的前瞻(lookahead)预测来更准确地估计 token/KV pair 重要性,包含 SpecKV(KV cache dropping)、SpecPC(prompt 压缩)和 SpecKV-PC(级联压缩)三种方法,在长上下文 benchmark 上一致优于现有基线。

Efficient Reasoning with Balanced Thinking

提出 ReBalance,一个无需训练的框架,通过基于置信度的动态隐状态导向(steering vector),同时缓解大推理模型(LRM)的过度思考和欠思考问题,实现推理效率与准确率的双重提升。

Embedding Compression via Spherical Coordinates

提出一种基于球坐标变换的嵌入向量压缩方法,利用高维单位向量的球坐标角度集中在 \(\pi/2\) 附近的数学性质,使 IEEE 754 浮点数的指数位和高阶尾数位熵大幅降低,实现 1.5× 压缩率,比最优无损方法提升 25%,重建误差低于 float32 机器精度。

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

针对扩散大语言模型(dLLM)推理中大量 token 计算冗余的问题,提出无需训练的 Early-Skipping 加速框架 ES-dLLM,通过估计 token 重要性并在早期层跳过低重要性位置,在 LLaDA-8B 和 Dream-7B 上实现 5.6×–16.8× 加速且不损失生成质量。

Evolution and compression in LLMs: On the emergence of human-aligned categorization

通过 Information Bottleneck (IB) 框架和迭代上下文语言学习 (IICLL) 范式,证明 LLM 能够在未经 IB 目标训练的情况下,自发涌现出与人类语义分类系统高度对齐的、近最优压缩效率的类别结构。

FASA: Frequency-aware Sparse Attention

发现 RoPE 注意力在频率块(FC)级别存在功能稀疏性——仅不到 1% 的"主导 FC"就能近似完整注意力头的 token 选择行为。据此设计无需训练的 FASA 框架,通过两阶段策略(主导 FC 预测 token 重要性 → 仅对重要 token 做完整注意力)实现 8× 内存压缩和 2.6× 推理加速且几乎无质量损失。

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization

提出QZO方法,通过对量化缩放因子(而非离散权重)做零阶扰动来估计梯度,配合方向导数裁剪稳定训练,实现4-bit/2-bit LLM的极致内存高效微调,总内存降低18倍以上。

FlyPrompt: Brain-Inspired Random-Expanded Routing with Temporal-Ensemble Experts for General Continual Learning

受果蝇蘑菇体稀疏扩展和模块化集成的神经生物学启发,提出 FlyPrompt 框架用于通用持续学习(GCL),通过随机扩展解析路由器(REAR)实现非迭代的专家选择,结合多时间尺度 EMA 输出头的时序集成(TE²)提升专家能力,在 CIFAR-100/ImageNet-R/CUB-200 上分别取得最高 11.23%/12.43%/7.62% 的增益。

FlyPrompt: Brain-Inspired Random-Expanded Routing with Temporal-Ensemble Experts for General Continual Learning

受果蝇蘑菇体神经系统启发,提出 FlyPrompt 框架将通用持续学习(GCL)分解为专家路由和专家能力提升两个子问题,通过随机扩展解析路由器(REAR)和时序集成专家(TE2)分别解决,在 CIFAR-100/ImageNet-R/CUB-200 上分别提升 11.23%/12.43%/7.62%。

FreqKV: Key-Value Compression in Frequency Domain for Context Window Extension

提出 FreqKV,一种无参数、架构无关的 KV 缓存压缩方法,通过在频域中迭代压缩 KV 状态(保留低频丢弃高频),仅需 8K 长度的少量微调即可将 LLaMA-2-7B 的上下文窗口扩展至 256K,同时保持稳定的困惑度。

Grounding and Enhancing Informativeness and Utility in Dataset Distillation

提出InfoUtil框架,用博弈论Shapley Value最大化样本信息量(找到最重要的patch),用梯度范数最大化样本效用(选择对训练最有价值的样本),在ImageNet-1K上比前SOTA提升6.1%。

HiFo-Prompt: Prompting with Hindsight and Foresight for LLM-based Automatic Heuristic Design

提出 HiFo-Prompt 框架,通过 Hindsight(回顾式知识池)和 Foresight(前瞻式进化导航器)两个协同模块提升 LLM 驱动的自动启发式设计(AHD),在 TSP 和 FSSP 等任务上显著超越现有方法。

Highly Efficient and Effective LLMs with Multi-Boolean Architectures

提出一种用多核布尔参数(multi-kernel Boolean parameters)表示 LLM 权重的新框架,首次实现在布尔域中直接微调大语言模型,无需全精度潜在权重,在表征能力和计算效率上同时超越现有超低比特量化和二值化方法。

IDER: IDempotent Experience Replay for Reliable Continual Learning

将幂等性(idempotence)引入持续学习,通过标准幂等模块和幂等蒸馏模块两个组件强制模型在学习新任务时保持输出自一致性,在提升预测可靠性(降低校准误差)的同时显著减少灾难性遗忘。

Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning

提出 TIR-Judge,一个端到端的 RL 框架,训练 LLM 评判模型在评估过程中交替使用推理和代码执行工具,在7个公开基准上以 8B 参数超越 32B 推理奖励模型,且无需蒸馏的 TIR-Judge-Zero 可自举提升。

InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models

提出 InftyThink,一种将整体式长推理转化为迭代式短推理+中间摘要的新范式,在不修改模型架构的前提下实现理论上无界的推理深度、显著降低计算成本,Qwen2.5-Math-7B 在 AIME24 上提升11%。

Is Finer Better? The Limits of Microscaling Formats in Large Language Models

发现并解释了微缩放(microscaling)量化中"更细粒度反而更差"的反直觉异常——当block size减小到阈值以下时,FP8 UE4M3 scale的有限动态范围导致窄分布张量的量化误差反而增大,并提出 FP8 UE5M3 scale格式作为硬件友好的解决方案。

KBVQ-MoE: KLT-guided SVD with Bias-Corrected Vector Quantization for MoE Large Language Models

提出 KBVQ-MoE,首个专为MoE架构设计的向量量化框架,通过KLT引导的SVD消除专家间冗余共享(IDRE),以及偏差校正的输出稳定化(BCOS),在2-bit量化下比现有方法提升10%+准确率。

Knowledge Fusion of Large Language Models Via Modular Skillpacks

提出GraftLLM——将异构源模型的能力提取为紧凑可迁移的"SkillPack"(模块化技能包),通过模块感知自适应压缩策略存储参数增量,支持知识迁移、异构模型融合和无遗忘持续学习,在多个场景下显著优于现有PEFT和参数融合方法。

Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

提出 Landscape of Thoughts (LoT),首个将LLM推理轨迹可视化为二维地形图的工具,通过困惑度特征和t-SNE投影揭示推理行为模式,并可适配为轻量验证器提升推理准确率和测试时扩展效果。

LD-MoLE: Learnable Dynamic Routing for Mixture of LoRA Experts

提出 LD-MoLE,用 Sparsegen 闭合形式投影替代传统 TopK 路由,实现可微分、动态、token自适应的 LoRA 专家分配,配合轻量 MLP 预测稀疏因子和解析稀疏损失,在多个基准上超越固定路由和 ReLU 路由基线。

LightMem: Lightweight and Efficient Memory-Augmented Generation

提出 LightMem,一个受人类 Atkinson-Shiffrin 记忆模型启发的三阶段轻量记忆系统,通过认知感觉记忆预压缩、主题感知短期记忆整合、睡眠时离线更新三个模块,在 LongMemEval 上准确率提升最高7.7%,同时 token 消耗降低高达38倍。

LLM DNA: Tracing Model Evolution via Functional Representations

从生物学 DNA 类比出发,将 LLM DNA 数学定义为模型功能行为的低维双 Lipschitz 表示,证明其满足遗传和基因决定性属性,并设计了无需训练的 RepTrace 管道在 305 个 LLM 上提取 DNA、构建进化树。

LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations

本文证明 LLM 在生成前的内部激活中编码了模型特有的成功概率信息,训练线性探针可以提取该信号用于高效的模型路由,在 MATH 等基准上实现匹配最强模型精度的同时降低 70% 推理成本。

LoFT: Low-Rank Adaptation That Behaves Like Full Fine-Tuning

提出 LoFT,一种通过对齐优化器内部动态(动量和二阶矩)与全参微调行为一致的低秩适配方法,由六个构建模块组成,在全秩极限下可精确恢复 AdamW,在多项基准上显著缩小 LoRA 与全参微调的性能差距。

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

提出 LookaheadKV,通过可学习的前瞻token和选择性激活的LoRA模块预测真实响应的注意力重要性分数,实现无需生成草稿的快速精确KV缓存淘汰,在多个长上下文基准上超越现有方法,驱逐开销降低最高14.5倍。

Memba: Membrane-driven Parameter-Efficient Fine-Tuning for Mamba

提出 Memba,一种受生物神经元膜电位启发的参数高效微调方法,通过在 Mamba 门控分支引入泄漏积分膜(LIM)神经元实现时序自适应,结合 LoRA 放置优化和跨层膜传递,以极少参数在语言和视觉任务上超越现有 Mamba PEFT 方法。

MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes

通过精心的数据筛选和自适应混合策略,仅用4.2T token(Qwen3的11.7%)预训练出亿级参数的推理模型 MobileLLM-R1-950M,在AIME等推理基准上匹配或超越 Qwen3-0.6B,同时完全开源数据源和训练配方。

Modality-free Graph In-context Alignment

提出 MF-GIA,首个同时满足无后训练、跨域对齐和模态无关三个条件的图上下文学习框架,通过梯度指纹捕获域特征、FiLM条件化变换对齐特征和标签,在多个图域的few-shot任务上实现SOTA性能。

MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE

提出 MoNE(Mixture-of-Novices-and-Experts),通过联合评估专家的访问频率和输出方差来识别冗余专家,并用其输出均值("新手"常量向量)替换之,在5种MoE模型上实现比现有剪枝方法更有效且更鲁棒的压缩,25%剪枝率下平均准确率下降仅0.14。

Multi-View Encoders for Performance Prediction in LLM-Based Agentic Workflows

提出 Agentic Predictor,一种多视图工作流编码框架,通过联合建模图结构、代码语义和提示信息来预测 LLM Agent 工作流的性能,显著减少昂贵的试错评估。

Null-Space Filtering for Data-Free Continual Model Merging: Preserving Stability, Promoting Plasticity

提出 NUFILT 框架,利用"任务向量与表示子空间近似对齐"的几何性质,通过零空间滤波压制对旧任务的干扰、投影感知 LoRA 恢复新任务可塑性,在完全不访问数据的条件下实现持续模型合并,在视觉/NLP/多模态基准上比 OPCM 提升 4-8%,逼近独立微调的上界。

Parallel Token Prediction for Language Models

提出 Parallel Token Prediction (PTP),通过将采样随机性从后处理移至模型输入(辅助变量),使未来 token 成为确定性函数,从而在单次前向传播中联合预测多个 token。

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

提出 ParoQuant,通过硬件高效且可优化的独立 Givens 旋转与通道缩放相结合来消除权重异常值,在推理 LLM 上实现高精度低开销的 4-bit 权重量化。

PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery

提出PASER,一种针对剪枝LLM恢复的后训练数据选择方法,通过流形学习+谱聚类识别能力相关指令集,按能力退化程度自适应分配数据预算,仅用4%-20%原始数据即可显著超越全量数据恢复效果。

Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation

提出 IOA(Identifier-Organizer-Adapter)框架,借鉴 Bloom 掌握学习原则和 Vygotsky 最近发展区理论,通过诊断知识缺陷、设计渐进课程、适配认知水平三个阶段,实现教育学驱动的 LLM 知识蒸馏。

π-Flow: Policy-Based Few-Step Generation via Imitation Distillation

提出 π-Flow,通过修改学生流模型的输出层使其预测一个"策略"(policy),该策略在单个网络评估内通过多个子步生成动态流速度进行精确 ODE 积分,并采用模仿蒸馏(imitation distillation)方法在学生自己的轨迹上匹配教师速度,从而实现稳定可扩展的少步生成并避免质量-多样性权衡。

PTQ4ARVG: Post-Training Quantization for AutoRegressive Visual Generation Models

提出 PTQ4ARVG,首个针对自回归视觉生成(ARVG)模型的系统化 PTQ 框架,通过增益投影缩放(GPS)、静态 Token 级量化(STWQ)和分布引导校准(DGC)解决 ARVG 特有的三大量化挑战。

QKV Projections Require a Fraction of Their Memory

提出 PAMM(Point-Approximate Matrix Multiplication),一种激活压缩技术,通过随机选取少量代表性 token 来近似 QKV 投影层激活,实现高达 512× 压缩率且不影响模型性能。

Rectified Decoupled Dataset Distillation: A Closer Look for Fair and Comprehensive Evaluation

提出 RD3(Rectified Decoupled Dataset Distillation),系统揭示现有解耦数据集蒸馏方法的性能差异主要源于不一致的后评估设置而非蒸馏质量差异,建立了统一公平的评估框架,将报告的 27.3% 性能差距校正为 6.7%。

Reference-Guided Machine Unlearning

提出 ReGUn(Reference-Guided Unlearning),利用独立留出数据集作为"未见行为"的参考标准,通过类别条件蒸馏将遗忘数据上的模型行为对齐到真正未见数据的行为,实现更优的遗忘-效用权衡。

Rethinking Continual Learning with Progressive Neural Collapse

提出 ProNC 框架,通过渐进式扩展等角紧框架(ETF)目标替代固定预定义 ETF,在持续学习中实现最大类间分离与最小遗忘的平衡。

Revisiting Weight Regularization for Low-Rank Continual Learning

在低秩持续学习中重新引入弹性权重巩固(EWC),通过在全维空间估计 Fisher 信息矩阵来正则化共享 LoRA 模块,实现恒定存储开销下的有效遗忘缓解。

S2R-HDR: A Large-Scale Rendered Dataset for HDR Fusion

提出 S2R-HDR,首个大规模高质量合成 HDR 融合数据集(24,000 样本),并设计 S2R-Adapter 域适应方法弥合合成-真实域差距,在真实数据集上达到 SOTA HDR 融合性能。

Scaling Reasoning Hop Exposes Weaknesses: Demystifying and Improving Hop Generalization in Large Language Models

系统性揭示了 LLM 在推理跳步泛化(reasoning hop generalization)中失败的内部机制——正确与错误推理轨迹间的注意力头竞争,并提出 TCR(Test-time Correction of Reasoning),通过动态识别和停用错误处理头(ep heads)在测试时纠正推理错误,平均提升 5-7% 准确率。

SeeDNorm: Self-Rescaled Dynamic Normalization

提出 SeeDNorm,一种自适应动态归一化层,通过将输入自身作为条件来动态调整缩放系数,从而在前向传播中保留输入范数信息,同时在反向传播中保持类似 RMSNorm 的自适应梯度调整能力,以极少额外参数在语言建模和视觉任务上全面超越 RMSNorm、LayerNorm 和 DyT。

SERE: Similarity-based Expert Re-routing for Efficient Batch Decoding in MoE Models

提出 SERE 方法,通过预计算专家相似度矩阵,在批量解码时将次要专家动态重路由到最相似的主要专家,实现最高 2.0 倍加速且质量损失极小,并提供即插即用的 vLLM CUDA 内核。

SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs

本文系统性地重新审视了领域特定SFT对LLM通用能力的影响,发现使用较小学习率即可大幅缓解通用能力退化,并提出Token-Adaptive Loss Reweighting (TALR)方法通过自适应下调低概率token的损失权重进一步优化领域适配与通用能力之间的权衡。

Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

本文从线性表示假说(LRH)出发,提出"泛化后特化"(specialization after generalization)理论框架,首次在 in-distribution 场景下系统解释了 TTT 为何有效——基础模型因全局欠参数化导致概念叠加干扰,TTT 通过临时遗忘无关概念来释放模型容量、局部特化到测试任务相关的少量概念上,理论保证即使特征空间指数级小于概念空间也能泛化。

STAR: Similarity-guided Teacher-Assisted Refinement for Super-Tiny Function Calling Models

提出 STAR 框架,通过约束知识蒸馏(CKD)和相似度引导的强化学习(Sim-RL)协同工作,将大模型的 function calling 能力有效迁移到 0.6B 级别的超小模型,在 BFCL 和 ACEBench 上大幅超越基线。

Steering MoE LLMs via Expert (De)Activation

提出 SteerMoE,通过对比配对输入检测行为关联专家,在推理时通过激活/去激活特定专家来引导 MoE LLM 的行为(安全性提升 +20%,忠实性提升 +27%),同时揭示 MoE 模型的安全对齐脆弱性(安全下降 -100%)。

Stress-Testing Alignment Audits with Prompt-Level Strategic Deception

构建自动 prompt 级红队流水线(Claude Opus 4.5 驱动)增强现有微调模型有机体的情境感知与策略推理,对四种黑盒+白盒对齐审计方法进行压力测试,在 6 个实验设置中均成功诱导审计方法产生高置信错误猜测,首次记录了不修改权重的 prompt 级激活欺骗现象。

SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning

提出 SwiReasoning,一种免训练的 LLM 推理框架,通过基于熵趋势的块级置信度估计,动态切换显式(chain-of-thought)和隐式(latent space)推理模式,在 Pareto 意义上同时改善准确率(+1.8%~3.1%)和 Token 效率(+57%~79%)。

Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation

揭示动量 EMA 更新等价于在线线性回归的梯度下降,基于此提出 LoRA-Pre,通过低秩分解压缩优化器动量,实现显存高效的 LLM 预训练和微调,在所有模型尺度上达到最优性能且仅需基线方法 1/8 的秩。

Textual Equilibrium Propagation for Deep Compound AI Systems

提出文本平衡传播(TEP),一种基于局部学习原理的复合AI系统优化方法,通过自由阶段和微扰阶段的两阶段设计,避免全局文本反向传播中的梯度爆炸/消失问题,在深层工作流上显著优于 TextGrad。

The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

首次证明 GPTQ(从后向前执行时)在数学上等价于经典格理论中的 Babai 最近平面算法,由此获得几何解释和层级误差上界,并基于此设计了无裁剪的改进量化方法。

The Lattice Geometry of Neural Network Quantization -- A Short Equivalence Proof of GPTQ and Babai's Algorithm

独立于 Chen et al. (2026),以更简洁优雅的方式证明 GPTQ 等价于 Babai 最近平面算法,并阐明格基约减可能改进神经网络量化的前景。

The Unseen Frontier: Pushing the Limits of LLM Sparsity with Surrogate-Free ADMM

提出 Elsa 方法,通过无代理目标的 ADMM 约束优化直接求解稀疏性约束问题,突破 LLM 剪枝 50-60% 的"稀疏墙"瓶颈,在 90% 稀疏度下仍保持高模型保真度。

TiTok: Transfer Token-level Knowledge via Contrastive Excess to Transplant LoRA

提出 TiTok 框架,通过 token 级对比超额分数(contrastive excess)实现 LoRA 适配器跨模型高效迁移,无需额外判别器模型,在推理和个性化任务上一致超越 TransLoRA 和知识蒸馏基线。

Token Distillation: Attention-Aware Input Embeddings for New Tokens

提出 Token Distillation 方法,通过蒸馏 Transformer 各层编码的多子词交互信息到单一 token 嵌入中,实现高质量的新 token 嵌入初始化,无需预训练超网络且优于现有方法。

Topology and Geometry of the Learning Space of ReLU Networks: Connectivity and Size

从代数几何和代数拓扑的视角,系统研究了基于一般 DAG 架构的前馈 ReLU 网络参数空间的连通性和奇异性,揭示了瓶颈节点和平衡条件在决定参数空间拓扑结构中的关键作用,并建立了奇异性与可微剪枝的理论联系。

Towards Efficient Constraint Handling in Neural Solvers for Routing Problems

提出 Construct-and-Refine (CaR) 框架,通过联合训练构造模块和轻量改进模块实现高效的可行性修复,首次为硬约束路径问题提供通用、高效的神经约束处理方案,在 TSPTW 和 CVRPBLTW 上大幅超越经典和神经 SOTA 求解器。

TurboBoA: Faster and Exact Attention-aware Quantization without Backpropagation

TurboBoA 提出了一种无需反向传播的 LLM 后训练量化方法,通过多 out-channel 联合量化、前层误差补偿和自适应网格选择三大创新,在保留 BoA 精度优势的同时实现了 3 倍以上加速。

Understanding Dataset Distillation via Spectral Filtering

本文提出 UniDD 谱滤波框架,将多种数据集蒸馏方法统一为在特征-特征相关矩阵(FFC)上应用不同滤波函数来匹配特征-标签相关矩阵(FLC)的频率信息,并基于此洞见提出了课程频率匹配(CFM)方法。

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

提出通用统一 tokenizer UniFlow,通过层级自适应自蒸馏保留语义理解能力 + 轻量 patch-wise 像素流解码器实现高保真重建,在 13 个基准上实现理解与生成的双赢,7B UniFlow-XL 用 40% 更少数据超越 14B TokenFlow-XL 6.05%。

Unveiling Super Experts in Mixture-of-Experts Large Language Models

本文首次发现并系统研究了 MoE LLM 中的"超级专家"(Super Experts)——数量极少但对模型推理至关重要的专家子集,它们通过 down_proj 中的极端激活异常值驱动 massive activations 和 attention sinks 机制。

What Layers When: Learning to Skip Compute in LLMs with Residual Gates

提出 GateSkip——在 decoder-only Transformer 每个 Attention/MLP 分支输出处插入一个 sigmoid-linear 门控,微调时联合学习门控稀疏性与语言建模目标,推理时按门控值用分位数阈值确定性跳过低重要性 token,实现 token 级逐层自适应深度;在 Llama 8B 上节省 15% 计算保持 >90% 精度,指令微调模型全计算反而提升精度、约 50% 节省仍匹配基线,且与 INT4 量化/结构化剪枝/自推测解码正交可组合。

Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

本文提出 TAPPA 框架,从时间连续性视角统一解释了 LLM 中多种注意力模式(attention sink、对角线、周期性等)的形成机制,并通过 query 自相似性(q-similarity)指标指导 KV cache 压缩和模型剪枝任务。