§18.1.4
Waveform 端到端建模:为什么慢、怎么做、什么时候比 spectrogram 强
LLM 大模型 · 付费章节
每个框架的第 1 节免费。要读后续章节,可单独解锁本框架,或一次解锁 4 个框架。
或 Pro 订阅 ¥49/月 · 报名冲刺营 都包含解锁
- §18.1Mel-spectrogram 是什么?为什么所有 audio AI 模型几乎都用它而不是原始 waveform?→
- §18.1Spatial Audio / 3D 音频是什么?binaural / object-based / Ambisonics 三种渲染各适用什么场景?→
- §18.1音频表示全谱:waveform / STFT / mel-spectrogram / codec token 横向对比 + 何时用哪个→
- §18.1STFT 短时傅里叶变换:公式推导、window 选择、为什么是 audio AI 的基础工具→
- §18.2wav2vec 2.0 的训练目标和架构是什么?为什么是 audio SSL 的里程碑?→
- §18.2AudioLM 是什么?为什么把 audio 当成 "language" 来生成?→