模型推理

从推理两阶段到 KV Cache，从 vLLM 到投机解码，全面掌握大语言模型推理优化技术。推理优化是将大模型部署到生产环境的关键环节，直接影响用户体验和系统成本。

文章索引

文章	内容
推理两阶段：Prefill 和 Decode	Prefill 与 Decode 阶段原理、计算复杂度分析、优化方法
KV Cache	KV 缓存原理、显存分析、MHA/MQA/GQA、压缩方法
vLLM	PagedAttention、Continuous Batching、部署配置指南
推理评估	推理时延分析、压测指标、性能瓶颈分析、EvalScope 工具
推理重要论文	DistServe、SARATHI、SGLang、Mooncake 等核心思想
投机解码	Speculative Decoding、Medusa、树注意力、验证机制
推理链压缩	CoT 压缩、动态推理、LightThinker、TokenSkip