「人工智能」不可错过的主流大语言模型的技术原理细节图文分享
「人工智能」不可错过的主流大语言模型的技术原理细节图文分享
2023-09-14 15:30·架构思考
大纲
一、大语言模型的细节
transformer 与 LLM
1.1 模型结构
1.2 训练目标
1.3 tokenizer
1.4 位置编码
1.5 层归一化
1.6 激活函数
1.7 Multi-query Attention 与 Grouped-query Attention
1.8 并行 transformer block
1.9 总结-训练稳定性
二、LLM 的分布式预训练
点对点通信与集体通信
2.1 数据并行
2.2 张量并行
2.3 流水线并行
2.4 3D 并行
2.5 混合精度训练
2.6 激活重计算
2.7 ZeRO,零冗余优化器
2.8 CPU-offload,ZeRO-offload
2.9 Flash Attention
2.10 vLLM: Paged Attention
三、LLM 的参数高效微调
为什么进行参数高效微调?
3.1 prompt tuning
3.2 prefix tuning
3.3 adapter
3.4 LLaMA adapter
3.5 LoRA
3.6 实验比较
评论
匿名评论
隐私政策
你无需删除空行,直接评论以获取最佳展示效果