ImageBind: One Embedding Space To Bind Them All
Girdhar et al. (Meta)
只用 image-X 配对数据就能把 6 种模态对齐到同一 embedding space——跨模态检索无需 N×N 配对。
arXiv:2305.05665核心贡献
- 016 种模态:image、text、audio、depth、thermal、IMU
- 02只需 (image, X) 配对,X 之间通过 image 间接对齐
- 03Zero-shot 跨模态检索(audio→image、IMU→video)
- 04可直接接到生成模型做'音频到图像生成'等新任务
传统跨模态对齐需要 N(N-1)/2 种配对数据集——做 6 模态要 15 个数据集,不可能。ImageBind 观察到 image 是"通用枢纽":网上有 image-text、image-audio、image-depth 等配对。只要每个新模态都和 image 对齐(contrastive loss),那它们自然在同一空间里互相对齐——传递性 emerges。
为什么 image 能当 hub? 视觉是最丰富的传感模态,几乎能描述其他模态对应的物理事件;网络上 (image, X) 配对天然多。emergent alignment 是真的吗? 论文展示了 audio→image retrieval 有效,但精度不如直接 audio-text 对齐——只是 baseline 可用。vs LanguageBind? LanguageBind 把枢纽换成 text,用 video-text 对齐其他模态;text 比 image 更容易扩到细粒度概念。生成应用? 把 audio embedding 喂给 SD(替代 text embedding)→ 音频驱动图像生成。实际工业用吗? 概念证明意义大于工业部署;很多统一多模态模型受其启发但用更直接的训练方式。