§18.2.1
wav2vec 2.0 的训练目标和架构是什么?为什么是 audio SSL 的里程碑?
- §18.2AudioLM 是什么?为什么把 audio 当成 "language" 来生成?→
- §18.2MusicLM 是怎么做 text-to-music 的?跟 Stable Audio / Suno V3 有什么差异?→
- §18.1Mel-spectrogram 是什么?为什么所有 audio AI 模型几乎都用它而不是原始 waveform?→
- §18.1Spatial Audio / 3D 音频是什么?binaural / object-based / Ambisonics 三种渲染各适用什么场景?→
- §18.3Conv-TasNet 是什么?为什么直接在 waveform 上做 separation 比 STFT 域更好?→
- §18.4VideoMAE 是什么?高 mask ratio(90%+)为什么对视频有效?→