Skip to content

后训练

从微调到强化学习,从模型压缩到分布式训练,全面掌握大语言模型的后训练技术栈。后训练阶段将预训练模型适配到具体任务,提升模型在特定场景下的表现。

文章索引

文章内容
模型微调(SFT)监督微调、LoRA、QLoRA、Adapter、Prefix Tuning、PEFT 技术
强化学习RLHF、PPO、DPO、GRPO、策略梯度、奖励模型
模型压缩量化(GPTQ/AWQ)、剪枝、知识蒸馏
分布式训练数据并行、张量并行、流水线并行、DeepSpeed ZeRO、Megatron
调参技巧学习率调度、Batch Size 选择、正则化、显存优化
Flash Attention注意力机制优化、分块计算、IO 感知、Flash Attention 2/3
提示工程提示词设计、Few-Shot/Zero-Shot/CoT 技术、系统提示词模板
延伸方法MoE(混合专家)模型、正则化、推理优化