本页内容受版权保护 · 已添加水印 · 禁止任何形式转载
§3.1.1

Self-Attention Q/K/V 的含义与公式推导?

手写练习
  • 用 torch 从零实现 scaled dot-product attention
  • 加 causal mask 实现单头 decoder attention

LLM 大模型 · 付费章节

每个框架的第 1 节免费。要读后续章节,可单独解锁本框架,或一次解锁 4 个框架。

Pro 订阅 ¥49/ · 报名冲刺营 都包含解锁
相关题目