互动

最近评论

图片相册无法显示

本地设置开启远程访问redis权限

允许远程访问，本地数据库开启权限

期待以后飞行车的普及

三大运营商什么时候提到真正的速度

标签

寻找感兴趣的领域

文章

AI人工智能技术文摘科技新闻

AI人工智能技术科技新闻

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

Administrator 字数: 48342 阅读耗时: 120 分钟 2023/09/17 博客独享热度: 1 评论: 0

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2023-09-14 15:30·架构思考

大纲

一、大语言模型的细节

transformer 与 LLM

1.1 模型结构

1.2 训练目标

1.3 tokenizer

1.4 位置编码

1.5 层归一化

1.6 激活函数

1.7 Multi-query Attention 与 Grouped-query Attention

1.8 并行 transformer block

1.9 总结-训练稳定性

二、LLM 的分布式预训练

点对点通信与集体通信

2.1 数据并行

2.2 张量并行

2.3 流水线并行

2.4 3D 并行

2.5 混合精度训练

2.6 激活重计算

2.7 ZeRO，零冗余优化器

2.8 CPU-offload，ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

三、LLM 的参数高效微调

为什么进行参数高效微调？

3.1 prompt tuning

3.2 prefix tuning

3.3 adapter

3.4 LLaMA adapter

3.5 LoRA

3.6 实验比较

AI人工智能 96 技术 88 科技新闻 200

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

阅读建议

纯C语言手搓GPT-2，前OpenAI、特斯拉高管新项目火了

全球首位AI工程师诞生，“码农”未来会消失？

新AI图像分割方法GenSAM：一个提示实现批量图片分割

强大人工智能编码助手code AI 自动分析代码结构并优化

蚂蚁集团开源DevOps领域大语言模型DevOps-Model

马斯克最新芯片：脑机专用，让失明人群“看见”

评论

匿名评论隐私政策

你无需删除空行，直接评论以获取最佳展示效果