§17.2.7
FlashAttention 在视觉模型(ViT / DiT)的收益?
- §17.2torch.compile / TensorRT-LLM / vLLM-DiT / SDPA backend 选择?→
- §17.2图像预处理瓶颈:Pillow vs cv2 vs DALI vs torchvision.transforms.v2?→
- §17.2多卡训练:DDP vs FSDP;视觉模型何时需要 ZeRO-3?→
- §17.1INT8 PTQ / QAT 在 CV 模型上的实现?per-tensor vs per-channel?→
- §17.1结构化剪枝(filter/channel)vs 非结构化剪枝?Network Slimming / Lottery Ticket?→
- §17.1知识蒸馏:logits / feature / relation / DKD / 自蒸馏?→