🎨 图像生成¶
💬 ACL2026 · 5 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (490) · 🔬 ICLR2026 (352) · 🧪 ICML2026 (141) · 🤖 AAAI2026 (79) · 🧠 NeurIPS2025 (221) · 📹 ICCV2025 (213)
🔥 高频主题: LLM ×3 · 多模态 ×2
- ANCHOR: LLM-driven Subject Conditioning for Text-to-Image Synthesis
-
这篇论文提出 ANCHOR 数据集,用 70K+ 来自 5 家新闻媒体的抽象 caption 暴露 T2I 模型在多主体、上下文推理和细粒度 grounding 上的失败,并提出 SAFE 用 LLM 抽取关键主体、在 embedding 层强化主体表示来提升图文一致性。
- From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons
-
本文提出 FLUID,用严格因果注意力和熵感知 Elastic Horizon 把预训练自回归 LLM 高效适配为扩散式并行生成模型,在只用 2.7B 适配 tokens 的情况下取得接近强 AR 模型、优于现有扩散基线的推理和代码生成表现。
- MENTOR: Efficient Autoregressive Image Generation with Balanced Multimodal Control
-
MENTOR 用统一自回归 decoder 和两阶段多模态训练,把参考图像与文本指令对齐到同一生成前缀中,在仅 3M 训练数据和 8 张 A100 约 1.5 天训练预算下,取得了较好的概念保持与 prompt following 平衡。
- Multimodal Large Language Models for Multi-Subject In-Context Image Generation
-
这篇论文提出 MUSIC,把多模态大语言模型的视觉推理能力引入多主体 in-context 图像生成,通过自动合成训练数据、视觉 CoT 和语义驱动空间布局规划,显著缓解多个参考主体同时生成时的主体遗漏、身份混淆和语义漂移问题。
- Think Bright, Diffuse Nice: Enhancing T2I-ICL via Inductive-Bias Hint Instruction and Query Contrastive Decoding
-
这篇论文提出训练无关的 TBDN 框架,用 Hint Instruction 让 LVLM 更关注最终 query,用 Query Contrastive Decoding 抑制先验幻觉,再把更准确的文本描述交给扩散模型,在 CoBSAT 和 T2I Fast Mini-ImageNet 上显著提升文本到图像上下文学习性能。