AI Infra 学习资源
LLM 学习资源
LLM 全栈优质资源汇总
目录
- 一、LLM 算法与模型
- 二、LLM 训练
- 三、LLM 推理
- 四、LLM 数据工程
- 五、LLM 压缩与量化
- 六、LLM 测评
- 七、LLM 对齐(RLHF/DPO)
- 八、提示工程
- 九、AI 框架
- 十、AI 基础设施
- 十一、AI 编译器
- 十二、LLM 应用开发
- 十三、LLMOps
- 十四、LLM 实践项目
- 十五、书籍
- 十六、综合资料汇总
一、LLM 算法与模型
1.1 Transformer
原理:
- Transformer模型详解(图解最完整版)
- 十分钟读懂 Transformer
- Transformer的结构是什么样的?各个子模块各有什么作用?
- 大模型参数量、计算量、中间激活以及KV cache剖析
- Transformer 一起动手编码学原理
- 为什么transformer的多头注意力要对每一个head进行降维?
- Decoder-Only Transformers: The Workhorse of Generative LLMs
- 大模型时代的归一化技术:Pre-Norm与RMSNorm
源码实现:
- Tensorflow实现Transformer
- GPT transformer原理和代码详解
- Transformer源码详解(Pytorch版本)
- 搞懂Transformer结构,看这篇PyTorch实现就够了
1.2 GPT 系列
GPT2:
ChatGPT:
1.3 GLM
1.4 MOE 大模型
- Mixtral-8x7B MoE大模型微调实践
- 大模型分布式训练并行技术(八)-MOE并行
- MoE架构模型爆发或将带飞国产AI芯片
- 大模型的模型融合方法概述
- 混合专家模型 (MoE) 详解
- 群魔乱舞:MoE大模型详解
- 混合专家模型MoE(上-基础篇)
- 混合专家模型MoE(下-实现篇)
1.5 多模态大模型
1.6 NExT-GPT(多模态下一代模型)
二、LLM 训练
2.1 分布式训练
- 分布式训练 Playbook (HuggingFace)
- OPT-175B是如何炼成的
- 飞桨分布式训练4D混合并行可训千亿级AI模型
- Megatron-LM: Sequence Parallelism & Selective Checkpointing
- 大模型训练踩坑
2.2 训练技巧
2.3 LLM 微调
三、LLM 推理
3.1 推理框架与加速
- LLM七种推理服务框架总结
- LLM 的推理优化技术纵览
- 揭秘NVIDIA大模型推理框架:TensorRT-LLM
- TensorRT-LLM(3)–架构
- FlexFlow Inference
- DeepSeek-V3 / R1 推理系统概览
3.2 模型加载与部署
- 使用HuggingFace Accelerate库加载和运行超大模型
- 借助 PyTorch,Accelerate 如何运行超大模型
- 使用 DeepSpeed 和 Accelerate 进行超快 BLOOM 模型推理
3.3 解码策略
- 如何生成文本:通过 Transformers 用不同的解码方法生成文本 | 英文版
- LLM投机采样(Speculative Sampling)为何能加速模型推理
- 大模型推理妙招—投机采样(Speculative Decoding)
3.4 KV Cache 优化
3.5 vLLM
- vLLM(六)源码解读下 @HelloWorld
- 图解大模型计算加速系列:vLLM源码解析1,整体架构
- LLM推理2:vLLM源码学习 @akaihaoshuai
- 大模型推理框架 vLLM 源码解析(一):框架概览
四、LLM 数据工程
五、LLM 压缩与量化
- Awesome Model Quantization
- Efficient-LLMs-Survey
- Awesome LLM Compression
- 模型转换、模型压缩、模型加速工具汇总
- AI 框架部署方案之模型转换
- Pytorch 模型转 TensorRT (torch2trt 教程)
六、LLM 测评
- CLiB中文大模型能力评测榜单
- HuggingFace Open LLM Leaderboard
- HELM (Stanford) | GitHub
- lm-evaluation-harness (EleutherAI)
- CLEVA | GitHub
七、LLM 对齐(RLHF/DPO)
教程与解读:
- MOSS-RLHF
- 模型调优(RLHF/DPO/ORPO)- 终极指南
- DPO: Direct Preference Optimization 论文解读及代码实践
- 强化学习入门:基本思想和经典算法
- 人人都能看懂的PPO原理与源码解读
- 关于Instruct GPT复现的一些细节与想法
- RL 究竟是如何与 LLM 做结合的?
- 想训练ChatGPT?得先弄明白Reward Model怎么训(附源码)
- Reinforcement Learning from Human Feedback 全家桶(RL 侧)
论文:
八、提示工程
- 做数据关键步骤:怎么写好prompt?
- 10大提示工程方法助你成为提示词大师!
- 一文搞懂提示工程的原理及前世今生
- Effective Prompt: 编写高质量Prompt的14个有效方法
- 提示工程和提示构造技巧
- 一文带你了解提示攻击!
九、AI 框架
9.1 PyTorch
- PyTorch 源码解读系列 @OpenMMLab
- PyTorch 分布式源码解析 @罗西的思考
- PyTorch 分布式(18) — 使用 RPC 的分布式流水线并行
- model.train() 和 model.eval() 原理与用法
9.2 DeepSpeed
9.3 Megatron-LM
- Megatron-LM 近期的改动
- 深入理解 Megatron-LM(1)基础知识 @简枫
- 深入理解 Megatron-LM(2)原理介绍
- 模型并行分布式训练Megatron (1) — 论文 & 基础 @罗西的思考
- 模型并行分布式训练Megatron (2) — 整体架构
- Megatron论文和代码详细分析(1) @迷途小书僮
- Megatron论文和代码详细分析(2)
十、AI 基础设施
10.1 AI 芯片
- 业界AI加速芯片浅析(一)百度昆仑芯
- NVIDIA CUDA-X AI
- Intel,Nvidia,AMD三大巨头火拼GPU与CPU
- 处理器与AI芯片-Google-TPU
- 一文看懂国产AI芯片玩家
- 国产AI芯片,玩家几何
10.2 CUDA
十一、AI 编译器
十二、LLM 应用开发
12.1 应用开发教程
12.2 RAG(检索增强生成)
12.3 Agent
12.4 其他
十三、LLMOps
- MLOps Landscape in 2023: Top Tools and Platforms
- What Constitutes A Large Language Model Application?
- AI System @吃果冻不吐果冻皮
十四、LLM 实践项目
14.1 动手实现
- minGPT @karpathy
- llm.c @karpathy — LLM training in simple, raw C/CUDA
- LLM101n @karpathy
- llama2.c @karpathy — Inference Llama 2 in one file of pure C
- nanoGPT @karpathy
- Baby-Llama2-Chinese
- 从0到1构建一个MiniLLM
- gpt-fast | blog
14.2 课程
十五、书籍
- 大语言模型原理与工程 @杨青
- 大语言模型从理论到实践 @张奇 | 主页
- 动手学大模型
十六、综合资料汇总
16.1 综合文章
16.2 safetensors 模型格式
- bin和safetensors区别是什么?
- Safetensors:保存模型权重的新格式
- GitHub: safetensors
- HuggingFace: safetensors文档
- 手把手教你:LLama2原始权重转HF模型
16.3 Awesome 列表
- Awesome-Chinese-LLM
- Awesome-LLM-Survey
- Large Language Model Course
- Awesome-Quantization-Papers
- Awesome Transformer Attention
- 语言模型数据选择综述
- Awesome Knowledge Distillation of LLM Papers
- Awesome-Pruning @ghimiredhikura
- Awesome-Pruning @he-y
- Awesome-LLM-Inference