MLLM2026· arXiv本周新增

Image Generators are Generalist Vision Learners

Valentin Gabeur, Shangbang Long, Songyou Peng et al.

这篇论文提出图像生成模型通过生成式预训练可以习得强大的通用视觉表征，通过轻量级指令微调将视觉任务统一转换为图像生成问题，Vision Banana 在分割、深度估计等任务上达到或超越 SAM3、Depth Anything 等专门模型，揭示了生成式预训练可能成为构建视觉基础模型的新范式。

arXiv:2604.20329

#generative-vision#foundation-models#vision-language#image-generation#zero-shot#segmentation#depth-estimation#multimodal-learning#transfer-learning

核心贡献

01首次系统验证了图像生成预训练与 LLM 预训练在习得通用能力上的相似性，图像生成模型可以同时具备强大的视觉理解能力
02提出 Vision Banana 模型，通过轻量级指令微调让图像生成模型 Nano Banana Pro 在 2D/3D 视觉任务上达到 SOTA
03创新性地将所有视觉任务（分割、深度估计等）重新参数化为 RGB 图像生成，实现统一的任务接口
04在分割任务上超越 Segment Anything Model 3，在度量深度估计上媲美 Depth Anything 系列
05证明轻量级指令微调可以在不牺牲生成能力的前提下获得强大的视觉理解能力
06提出生成式视觉预训练可能成为构建视觉基础模型的通用范式，类似于 text generation 在 NLP 中的地位

问题动机

长期以来，研究者猜测「能生成视觉内容就意味着能理解它」，这与大型语言模型（LLM）通过生成式预训练涌现语言理解和推理能力的现象类似。然而，缺乏充分的实验证据表明生成式视觉模型已经发展出强大的理解能力。本文试图回答一个核心问题：图像生成训练是否能够像 LLM 预训练一样，让视觉模型学习到通用且强大的视觉表征？

方法核心

Vision Banana 架构

本文提出 Vision Banana 模型，核心思路是对预训练的图像生成模型 Nano Banana Pro (NBP) 进行轻量级指令微调（instruction-tuning）。关键创新在于将视觉任务的输出空间统一参数化为 RGB 图像。

传统的视觉任务采用异构的输出格式：

语义分割：输出类别掩码
深度估计：输出深度图（浮点数）
边缘检测：输出边缘图

Vision Banana 的做法是将这些异构输出全部转换为 RGB 图像格式。例如：

分割掩码可以编码为带有特定颜色标记的 RGB 图像
深度图可以通过伪彩色映射（pseudo-color mapping）转换为 RGB
检测框可以通过可视化方式渲染为图像

这样一来，所有视觉任务都被重新定义为图像生成任务，形成统一的任务接口。

训练策略

训练数据混合了原始生成数据与少量视觉任务数据： $\mathcal{D}_{mixed} = \alpha \cdot \mathcal{D}_{gen} + (1-\alpha) \cdot \mathcal{D}_{vision}$

其中 $\mathcal{D}_{gen}$ 是原始生成训练数据， $\mathcal{D}_{vision}$ 是视觉任务数据， $\alpha$ 控制两者的混合比例。实验表明，这种轻量级微调可以在保留生成能力的同时显著提升理解能力。

关键观察

涌现能力：类似 LLM 的涌现现象，模型在达到一定规模后开始展现出零样本视觉理解能力
任务迁移：在生成任务上学到的视觉表征可以有效迁移到理解任务
统一接口：图像生成作为统一接口，类似于 text generation 在 NLP 中的角色

实验结果

Vision Banana 在多种视觉任务上取得 SOTA 或具有竞争力的表现：

| 任务 | 竞品模型 | 相对表现 | |------|----------|----------| | 语义/实例分割 | SAM 3 | 超越 | | 度量深度估计 | Depth Anything | 媲美 | | 2D 理解 | 领域专门模型 | 匹敌或超越 | | 3D 理解 | 领域专门模型 | 匹敌 |

范式意义

本文最重要的观点是：生成式视觉预训练可能成为构建视觉基础模型的通用范式。这与 LLM 的发展路径类似——通过大规模生成式预训练习得通用能力，然后通过轻量微调适应具体任务。这标志着计算机视觉领域可能正在经历一次重大范式转变，从判别式预训练（如 ImageNet 分类预训练）转向生成式预训练。

面试视角

Q1: 为什么图像生成模型能够学习到视觉理解能力？这与 LLM 的类比如何理解？

要点：图像生成任务要求模型理解场景的语义结构、空间关系、物理规律等高层语义信息，这些理解会内化为模型的内部表征。当模型被要求生成逼真的图像时，它必须编码和解码丰富的视觉知识。这种「理解才能生成」的逻辑与 LLM 类似——生成文本需要对语言结构和语义的深刻理解。

Q2: 将视觉任务转换为图像生成任务的核心技术细节是什么？

要点：核心是输出空间的统一参数化。不同视觉任务的异构输出（掩码、深度值、边界等）通过特定编码方式映射到 RGB 空间。例如：

分割掩码 → 颜色编码的 RGB 掩码
深度图 → 伪彩色映射（jet/colormap）
检测结果 → 可视化边界框的 RGB 图像

关键设计是让模型学会「解码」这些 RGB 表示中编码的任务相关信息。

Q3: 如何保证微调后模型的生成能力不被破坏？

要点：采用混合训练策略，将原始生成数据与视觉任务数据按一定比例混合。同时使用轻量级微调（而非全参数训练），保持预训练表征的完整性。实验验证了微调后模型在生成质量上与原始模型相当。

Q4: 这种方法与传统判别式预训练（如 ImageNet 分类预训练）相比有何优势？

要点：

任务统一性：判别式方法需要为每个任务设计特定的输出头，生成式方法统一为图像生成
监督信号丰富：生成任务提供像素级监督，比分类的类别级监督更密集
涌现能力：生成式预训练更容易涌现零样本泛化能力
多模态一致性：与多模态 LLM 的训练范式更一致

Q5: 这种方法的局限性和未来方向是什么？

要点：

计算成本：图像生成模型的推理和训练成本通常高于判别式模型
输出分辨率：高分辨率输出会显著增加计算负担
任务覆盖：目前主要验证了分割、深度等任务，对更复杂的理解任务（如场景图生成、VQA）尚未充分探索
未来方向：更大规模的生成式预训练、更精细的任务编码方式、与语言模态的更深融合

Q6: Vision Banana 与现有的多模态大模型（如 `LLaVA`）有何本质区别？

要点：LLaVA 等多模态模型是在 LLM 基础上添加视觉编码器，以文本为输出接口；Vision Banana 则是在纯图像生成模型基础上进行微调，以图像为输出接口。前者的核心是视觉-语言对齐，后者的核心是视觉内部表征的发现和利用。Vision Banana 证明了纯视觉生成模型本身就能编码丰富的视觉理解能力。