Attention 机制深度解析
Self-Attention、Cross-Attention、Multi-Query、Group-Query、Sparse Attention——Attention 家族完整解析。
#Attention 面试#Self-Attention#MQA#GQA#Sparse Attention
§3.1
核心组件
§3.2
位置编码
§3.3
架构变体
§3.4
Attention 优化
- 3.4.1MHA/MQA/GQA/MLA 的差异与权衡?∫</>
- 3.4.2GQA 分组数如何选?∫</>
- 3.4.3MLA 的低秩 KV 压缩如何减少显存?∫</>
- 3.4.4Flash Attention v1 的 tiling + 重计算思想?∫</>
- 3.4.5Flash Attention v2 相比 v1 改进了什么?∫</>
- 3.4.6Flash Attention v3 针对 Hopper 的优化?∫</>
- 3.4.7Paged Attention 的分页管理?∫</>
- 3.4.8Sliding Window Attention(Mistral)实现?∫</>
- 3.4.9Longformer/BigBird 的稀疏模式?∫</>
本主题 32 道题,第 1 章免费阅读