§3.1.1

Self-Attention Q/K/V 的含义与公式推导?

手写练习
  • 用 torch 从零实现 scaled dot-product attention
  • 加 causal mask 实现单头 decoder attention

付费内容

本题属于完整基础库。每个框架的第 1 章免费,其他章节购买任意套餐即可全部解锁。

全场 5 折优惠中
相关题目