推理加速与部署面试
vLLM、SGLang、TensorRT-LLM、KV-Cache、PagedAttention、量化——LLM Infra 方向的核心考点。
#vLLM#推理加速#KV Cache#PagedAttention#LLM 量化#TensorRT-LLM
§7.1
解码策略
- 7.1.1Greedy Search 的问题?∫</>
- 7.1.2Beam Search 原理与退化(length bias)?∫</>
- 7.1.3Top-K / Top-P / Temperature 的作用与组合?∫</>
- 7.1.4Min-P / Typical Sampling 的改进?∫</>
- 7.1.5Contrastive Decoding 原理?∫</>
- 7.1.6Speculative Decoding 的接受-拒绝概率?∫</>
- 7.1.7Medusa / EAGLE / Lookahead Decoding 对比?∫</>
- 7.1.8约束解码(Outlines / Guidance)的 FSM 实现?∫</>
§7.2
推理加速
§7.3
模型压缩
本主题 27 道题,第 1 章免费阅读