跳转至

💬 LLM 其他

📷 CVPR2026 · 3 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (55) · 💬 ACL2026 (61) · 🧪 ICML2026 (39) · 🤖 AAAI2026 (29) · 🧠 NeurIPS2025 (54) · 📹 ICCV2025 (6)

🔥 高频主题: 布局/合成 ×2 · LLM ×2

LLM-Guided Probabilistic Fusion for Label-Efficient Document Layout Analysis

本文把文本预训练 LLM 当作"结构先验生成器"塞进半监督版面检测的伪标签精化环节——用 OCR+LLM 推断文档层级区域,再和教师检测器输出做逆方差概率融合(含可学习的实例自适应门控),仅用 5% 标注就在 PubLayNet 上达到 88.2 AP(轻量骨干)/89.7 AP(LayoutLMv3),并对标题/页眉等稀有版面元素提升最大。

OmniDocLayout: Towards Diverse Document Layout Generation via Coarse-to-Fine LLM Learning

针对现有文档版面生成数据「只有学术论文、样式单一」的痛点,作者先造了首个百万级、覆盖六类文档的多样化版面数据集 OmniDocLayout-1M,再用一个 0.5B 的小 LLM 通过「先在多域粗标签上学版面通则、再用少量细标签适配具体领域」的由粗到精范式,在 M6Doc 上同时超过专用版面生成模型和 GPT-4o/Gemini/Claude 等通用大模型。

Single-step Diffusion-based Video Coding with Semantic-Temporal Guidance

S2VC 把一个单步扩散生成器塞进条件视频编码框架,用从解码特征缓冲里抽取的「上下文语义引导(CSG)」替代文本 prompt、再用插进 U-Net 的「时序一致性引导(TCG)」做跨帧对齐,在 0.02 bpp 以下的极低码率下拿到 SOTA 感知质量,相比上一代感知编解码器平均省 51.62% 码率(DISTS BD-Rate)。