§
960
系统严谨的基础。
持续更新的内容。
从数学基础到最新论文——认真写作、数学渲染、像一本不断修订的学术手册。我们不只给答案,更讲清原理。
351
336
273
46
158
预览模式 · 第 1 章免费开放,其他章节需购买套餐
整体目录可随意浏览。阅读第 2 章及之后的内容,购买任意套餐即可解锁全部。
大语言模型
01
免费
数学与机器学习基础
§1.1数学基础
- 1.1.1向量的内积、外积、范数(L1/L2/∞)定义与几何意义?∫</>→
- 1.1.2矩阵的秩、行列式、迹的含义及相互关系?∫</>→
- 1.1.3特征值分解与 SVD 的推导和应用场景?∫</>→
- 1.1.4矩阵求导的分子/分母布局约定?链式法则在反向传播中的体现?∫</>→
- 1.1.5条件概率、联合概率、边缘概率与贝叶斯定理?∫</>→
- 1.1.6伯努利/二项/高斯/多项/Beta/Dirichlet 分布的密度函数与典型应用?∫</>→
- 1.1.7KL、JS、交叉熵、Wasserstein 的定义与差异?∫</>→
- 1.1.8熵、条件熵、互信息、Perplexity 的公式与直觉?∫</>→
- 1.1.9梯度、方向导数、Jacobian、Hessian 的关系?∫</>→
- 1.1.10凸函数判定与凸优化?深度学习为什么是非凸?∫</>→
- 1.1.11拉格朗日乘子法与 KKT 条件?∫</>→
- 1.1.12大数定律与中心极限定理的直观解释?∫</>→
§1.2机器学习基础
- 1.2.1监督/无监督/自监督/强化/半监督的区别与代表任务?∫→
- 1.2.2Bias-Variance 权衡的数学推导?∫</>→
- 1.2.3过拟合的成因、检测与缓解手段?∫</>→
- 1.2.4L1/L2 正则化的几何意义?为什么 L1 产生稀疏?∫</>→
- 1.2.5Dropout 为什么有效?训练/推理阶段的缩放差异?∫</>→
- 1.2.6Accuracy/Precision/Recall/F1/AUC/PR 的适用场景?∫</>→
- 1.2.7BLEU/ROUGE/METEOR/CIDEr/BERTScore 的计算与缺陷?∫</>→
- 1.2.8数据不平衡的处理(过采样、欠采样、Focal Loss、类权重)?∫</>→
- 1.2.9K-Fold、Stratified、LOO、GroupKFold 的差异?∫</>→
§1.3深度学习基础
- 1.3.1前向/反向传播的矩阵化推导?∫</>→
- 1.3.2Sigmoid/Tanh/ReLU/LeakyReLU/GELU/SiLU/SwiGLU/Softmax 的公式、导数、适用场景?∫</>→
- 1.3.3为什么现代 LLM 偏好 SwiGLU/GeGLU?∫</>→
- 1.3.4交叉熵 vs MSE,分类为何用 CE?∫</>→
- 1.3.5SGD/Momentum/Nesterov/Adagrad/RMSProp/Adam/AdamW/Lion/Adafactor 的更新公式?∫</>→
- 1.3.6AdamW 与 Adam 的 weight decay 差异?∫</>→
- 1.3.7Warmup + Cosine/Linear/InverseSqrt 学习率调度?∫</>→
- 1.3.8BatchNorm/LayerNorm/RMSNorm/GroupNorm/DeepNorm 的公式与差异?∫</>→
- 1.3.9Transformer 为什么用 LayerNorm 而不用 BatchNorm?∫</>→
- 1.3.10Pre-Norm vs Post-Norm 的训练稳定性?∫</>→
- 1.3.11Xavier/Kaiming/Truncated-Normal 初始化与激活的匹配?∫</>→
- 1.3.12梯度消失/爆炸成因与解决?∫</>→
- 1.3.13残差连接为什么有效(梯度视角、恒等映射视角)?∫</>→
02
付费
NLP 与语言模型基础
§2.1文本表示
§2.2序列建模
§2.3Tokenization
03
付费
Transformer 架构
§3.1核心组件
§3.2位置编码
§3.3架构变体
- 3.3.1Encoder-only/Decoder-only/Encoder-Decoder 的适用任务?∫</>→
- 3.3.2为什么现代 LLM 主流是 Decoder-only?∫</>→
- 3.3.3Causal Mask 的实现方式?∫</>→
- 3.3.4MoE 基本结构与 Top-K 路由?∫</>→
- 3.3.5MoE 负载均衡损失的设计?∫</>→
- 3.3.6Switch/GShard/Mixtral/DeepSeekMoE 的差异?∫</>→
- 3.3.7Mamba / SSM 的选择性状态空间原理?∫</>→
- 3.3.8Linear Attention / RWKV / RetNet 的核心思想?∫</>→
§3.4Attention 优化
- 3.4.1MHA/MQA/GQA/MLA 的差异与权衡?∫</>→
- 3.4.2GQA 分组数如何选?∫</>→
- 3.4.3MLA 的低秩 KV 压缩如何减少显存?∫</>→
- 3.4.4Flash Attention v1 的 tiling + 重计算思想?∫</>→
- 3.4.5Flash Attention v2 相比 v1 改进了什么?∫</>→
- 3.4.6Flash Attention v3 针对 Hopper 的优化?∫</>→
- 3.4.7Paged Attention 的分页管理?∫</>→
- 3.4.8Sliding Window Attention(Mistral)实现?∫</>→
- 3.4.9Longformer/BigBird 的稀疏模式?∫</>→
04
付费
预训练
§4.1预训练任务
§4.2预训练数据
§4.3训练范式
05
付费
监督微调 (SFT)
§5.1SFT 基础
§5.2PEFT
§5.4训练工程技巧
- 5.4.1梯度累积的等效 batch 计算?∫</>→
- 5.4.2Gradient Checkpointing 的显存-算力权衡?∫</>→
- 5.4.3FP16/BF16/FP8 的数值范围差异?∫</>→
- 5.4.4为什么 BF16 比 FP16 稳定?∫</>→
- 5.4.5ZeRO-1/2/3 分别分片了什么?∫</>→
- 5.4.6DeepSpeed vs FSDP 的差异?∫</>→
- 5.4.7Data/Tensor/Pipeline/Sequence/Expert Parallel 的区别?∫</>→
- 5.4.83D 并行的切分策略?∫</>→
- 5.4.9Megatron-LM 张量并行的列/行切分实现?∫</>→
06
付费
对齐与偏好优化
§6.1RLHF
§6.2RLHF 替代方案
§6.3对齐目标与安全
07
付费
推理与解码
§7.1解码策略
- 7.1.1Greedy Search 的问题?∫</>→
- 7.1.2Beam Search 原理与退化(length bias)?∫</>→
- 7.1.3Top-K / Top-P / Temperature 的作用与组合?∫</>→
- 7.1.4Min-P / Typical Sampling 的改进?∫</>→
- 7.1.5Contrastive Decoding 原理?∫</>→
- 7.1.6Speculative Decoding 的接受-拒绝概率?∫</>→
- 7.1.7Medusa / EAGLE / Lookahead Decoding 对比?∫</>→
- 7.1.8约束解码(Outlines / Guidance)的 FSM 实现?∫</>→
§7.2推理加速
§7.3模型压缩
08
付费
Prompt Engineering
§8.1基础技巧
§8.2高级模式
09
付费
RAG(检索增强生成)
§9.1基础架构
§9.2Embedding
§9.3Chunking
§9.4检索优化
§9.5高级 RAG
§9.6向量数据库
10
付费
Agent 与工具使用
§10.1Agent 基础
§10.2规划与记忆
§10.3多 Agent
11
付费
多模态
§11.1视觉语言模型
§11.2其他模态
12
付费
评估
§12.1基础能力评估
§12.2对话/对齐评估
§12.3RAG/Agent 评估
13
付费
工程与部署
§13.1训练工程
§13.2推理部署
§13.3性能指标
14
付费
前沿专题
§14.1长上下文
§14.2推理模型
§14.3合成数据
§14.4模型融合
15
付费
面试高频综合题
§15.1综合高频
- 15.1.1为什么 Transformer 要除以 √d_k?不除会发生什么?∫</>→
- 15.1.2Pre-Norm vs Post-Norm 的训练稳定性对比?∫</>→
- 15.1.3RoPE 相对 Sinusoidal、ALiBi 的优势?∫</>→
- 15.1.4MHA / MQA / GQA / MLA 如何选?∫</>→
- 15.1.5LoRA 为什么有效?秩如何决定?∫</>→
- 15.1.6推导 DPO 损失函数并说明与 PPO 的联系?∫</>→
- 15.1.7KV Cache 显存计算公式?给 LLaMA-7B @ 32k 算一遍。∫</>→
- 15.1.8INT4 量化为什么几乎无损?哪些层最敏感?∫</>→
- 15.1.9RAG 检索不准如何系统性优化(召回/排序/生成)?∫</>→
- 15.1.10幻觉根因与系统化缓解策略?∫</>→
- 15.1.11灾难性遗忘的成因与解法?∫</>→
- 15.1.12Scaling Law 对实际训练的指导意义?∫</>→
- 15.1.13MoE 负载均衡如何设计?∫</>→
- 15.1.14为什么现代 LLM 普遍是 Decoder-only?∫</>→
- 15.1.15从 0 设计一个企业级 RAG 系统(数据/索引/检索/生成/评估/监控)?∫</>→
- 15.1.16从 0 训练一个 7B 模型(数据/算力/并行/调参)?∫</>→
- 15.1.17Agent 落地的难点与工程化方案?∫</>→
- 15.1.18复现 o1 / R1 类 Reasoning 模型的完整路径?∫</>→
- 15.1.19高并发推理服务的 QPS / TTFT / 显存三角权衡?∫</>→
- 15.1.20如何评估一个新发布的开源模型(能力/安全/成本)?∫</>→