后训练
从微调到强化学习,从模型压缩到分布式训练,全面掌握大语言模型的后训练技术栈。后训练阶段将预训练模型适配到具体任务,提升模型在特定场景下的表现。
文章索引
| 文章 | 内容 |
|---|---|
| 模型微调(SFT) | 监督微调、LoRA、QLoRA、Adapter、Prefix Tuning、PEFT 技术 |
| 强化学习 | RLHF、PPO、DPO、GRPO、策略梯度、奖励模型 |
| 模型压缩 | 量化(GPTQ/AWQ)、剪枝、知识蒸馏 |
| 分布式训练 | 数据并行、张量并行、流水线并行、DeepSpeed ZeRO、Megatron |
| 调参技巧 | 学习率调度、Batch Size 选择、正则化、显存优化 |
| Flash Attention | 注意力机制优化、分块计算、IO 感知、Flash Attention 2/3 |
| 提示工程 | 提示词设计、Few-Shot/Zero-Shot/CoT 技术、系统提示词模板 |
| 延伸方法 | MoE(混合专家)模型、正则化、推理优化 |