LLM2023· CVPR 2023· CLASSIC

ImageBind: One Embedding Space To Bind Them All

Girdhar et al. (Meta)

只用 image-X 配对数据就能把 6 种模态对齐到同一 embedding space——跨模态检索无需 N×N 配对。

#multimodal#embedding#alignment

核心贡献

016 种模态：image、text、audio、depth、thermal、IMU
02只需 (image, X) 配对，X 之间通过 image 间接对齐
03Zero-shot 跨模态检索（audio→image、IMU→video）
04可直接接到生成模型做'音频到图像生成'等新任务

传统跨模态对齐需要 N(N-1)/2 种配对数据集——做 6 模态要 15 个数据集，不可能。ImageBind 观察到 image 是"通用枢纽"：网上有 image-text、image-audio、image-depth 等配对。只要每个新模态都和 image 对齐（contrastive loss），那它们自然在同一空间里互相对齐——传递性 emerges。

面试视角

为什么 image 能当 hub？ 视觉是最丰富的传感模态，几乎能描述其他模态对应的物理事件；网络上 (image, X) 配对天然多。emergent alignment 是真的吗？ 论文展示了 audio→image retrieval 有效，但精度不如直接 audio-text 对齐——只是 baseline 可用。vs LanguageBind？ LanguageBind 把枢纽换成 text，用 video-text 对齐其他模态；text 比 image 更容易扩到细粒度概念。生成应用？ 把 audio embedding 喂给 SD（替代 text embedding）→ 音频驱动图像生成。实际工业用吗？ 概念证明意义大于工业部署；很多统一多模态模型受其启发但用更直接的训练方式。