Transformer 架构面试全攻略
从 Self-Attention 推导到 RoPE 旋转位置编码,从 Multi-Query Attention 到 FlashAttention——Transformer 架构是所有 LLM 面试的底层考点。
#Transformer 面试#Self-Attention 推导#RoPE 位置编码#FlashAttention#Multi-Head Attention
§3.1
核心组件
§3.2
位置编码
§3.3
架构变体
§3.4
Attention 优化
- 3.4.1MHA/MQA/GQA/MLA 的差异与权衡?∫</>
- 3.4.2GQA 分组数如何选?∫</>
- 3.4.3MLA 的低秩 KV 压缩如何减少显存?∫</>
- 3.4.4Flash Attention v1 的 tiling + 重计算思想?∫</>
- 3.4.5Flash Attention v2 相比 v1 改进了什么?∫</>
- 3.4.6Flash Attention v3 针对 Hopper 的优化?∫</>
- 3.4.7Paged Attention 的分页管理?∫</>
- 3.4.8Sliding Window Attention(Mistral)实现?∫</>
- 3.4.9Longformer/BigBird 的稀疏模式?∫</>
本主题 32 道题,第 1 章免费阅读