§18.4.3
Multimodal evaluation 怎么做?MM-Vet / MMMU / SEED-Bench 各考察什么?
- §18.4VideoMAE 是什么?高 mask ratio(90%+)为什么对视频有效?→
- §18.4ImageBind 是什么?为什么 "一个 embedding 空间绑住 6 种模态" 是巧妙的?→
- §18.4Tri-modal alignment(audio + video + text)的核心挑战和解法?→
- §18.1Mel-spectrogram 是什么?为什么所有 audio AI 模型几乎都用它而不是原始 waveform?→
- §18.1Spatial Audio / 3D 音频是什么?binaural / object-based / Ambisonics 三种渲染各适用什么场景?→
- §18.2wav2vec 2.0 的训练目标和架构是什么?为什么是 audio SSL 的里程碑?→