后训练

从微调到强化学习，从模型压缩到分布式训练，全面掌握大语言模型的后训练技术栈。后训练阶段将预训练模型适配到具体任务，提升模型在特定场景下的表现。

文章索引

文章	内容
模型微调（SFT）	监督微调、LoRA、QLoRA、Adapter、Prefix Tuning、PEFT 技术
强化学习	RLHF、PPO、DPO、GRPO、策略梯度、奖励模型
模型压缩	量化（GPTQ/AWQ）、剪枝、知识蒸馏
分布式训练	数据并行、张量并行、流水线并行、DeepSpeed ZeRO、Megatron
调参技巧	学习率调度、Batch Size 选择、正则化、显存优化
Flash Attention	注意力机制优化、分块计算、IO 感知、Flash Attention 2/3
提示工程	提示词设计、Few-Shot/Zero-Shot/CoT 技术、系统提示词模板
延伸方法	MoE（混合专家）模型、正则化、推理优化