AI Infra 学习资源

发表于 2026-03-26 更新于 2026-05-18 分类于 AI Infra ，学习指南

LLM 学习资源

LLM 全栈优质资源汇总

一、LLM 算法与模型
二、LLM 训练
三、LLM 推理
四、LLM 数据工程
五、LLM 压缩与量化
六、LLM 测评
七、LLM 对齐（RLHF/DPO）
八、提示工程
九、AI 框架
十、AI 基础设施
十一、AI 编译器
十二、LLM 应用开发
十三、LLMOps
十四、LLM 实践项目
十五、书籍
十六、综合资料汇总

一、LLM 算法与模型

1.1 Transformer

原理：

源码实现：

1.2 GPT 系列

GPT2：

ChatGPT：

1.3 GLM

预训练语言模型：GLM

1.4 MOE 大模型

1.5 多模态大模型

1.6 NExT-GPT（多模态下一代模型）

二、LLM 训练

2.1 分布式训练

2.2 训练技巧

2.3 LLM 微调

Adapting P-Tuning to Solve Non-English Downstream Tasks

三、LLM 推理

3.1 推理框架与加速

3.2 模型加载与部署

3.3 解码策略

3.4 KV Cache 优化

3.5 vLLM

四、LLM 数据工程

An Initial Exploration of Theoretical Support for Language Model Data Engineering (Part 1: Pretraining) @符尧

五、LLM 压缩与量化

六、LLM 测评

七、LLM 对齐（RLHF/DPO）

教程与解读：

论文：

八、提示工程

九、AI 框架

9.1 PyTorch

9.2 DeepSpeed

9.3 Megatron-LM

十、AI 基础设施

10.1 AI 芯片

10.2 CUDA

十一、AI 编译器

十二、LLM 应用开发

12.1 应用开发教程

12.2 RAG（检索增强生成）

12.3 Agent

综述：全新大语言模型驱动的Agent（复旦NLP & 米哈游）

12.4 其他

大模型bad case修复方案思考

十三、LLMOps

十四、LLM 实践项目

14.1 动手实现

minGPT @karpathy
llm.c @karpathy — LLM training in simple, raw C/CUDA
LLM101n @karpathy
llama2.c @karpathy — Inference Llama 2 in one file of pure C
nanoGPT @karpathy
Baby-Llama2-Chinese
从0到1构建一个MiniLLM
gpt-fast | blog

14.2 课程

十五、书籍

大语言模型原理与工程 @杨青
大语言模型从理论到实践 @张奇 | 主页
动手学大模型

十六、综合资料汇总

16.1 综合文章

16.2 safetensors 模型格式

16.3 Awesome 列表

16.4 微信公众号文章集锦

16.5 其他资源

Hugging Face 博客

Thread Block Cluster 架构特性

发表于 2026-03-25 更新于 2026-05-18 分类于 AI Infra ， CUDA编程与算子优化， CUDA编程高阶

NVIDIA Hopper架构（从H100 GPU开始）引入了 Thread Block Cluster 这一重要特性，在传统的线程层次结构中新增了一层，为大规模Block间协作提供了硬件原生支持。本文介绍其核心机制、编程接口和典型应用场景。

阅读全文 »

高效CUDA编程速查

发表于 2026-03-25 更新于 2026-05-18 分类于 AI Infra ， CUDA编程与算子优化， CUDA编程进阶

高效的CUDA程序需要从硬件理解、算法设计、内核实现、存储优化到性能分析的全方位把控。本文提供一个系统化的优化速查逻辑，覆盖从硬件基准到实战调优的完整流程。

阅读全文 »

使用uv构建Python命令行工具：从代码到全局命令

发表于 2026-03-25 更新于 2026-05-18 分类于编程技能包， Python

在 Python 开发中，我们经常需要创建一些命令行工具来提高工作效率。本文将手把手教你如何使用现代 Python 打包工具 uv，将一个简单的 Python 模块构建成可以通过 nzs-tool myhello Alice 这种形式调用的全局命令行工具。

阅读全文 »

从零构建Claude多智能体协作系统

发表于 2026-03-11 更新于 2026-05-18 分类于路飞玩AI ， AI编程

本文基于 precision-alignment-agent 项目实践经验，详细介绍如何从零构建 opencode/claude 多智能体协作系统，涵盖核心概念、技术栈选择、项目结构设计、智能体定义、工作流设计等完整内容。

可以直接用这篇文章作为大模型的输入，让大模型参考这篇文章生成一个多智能体系统！

阅读全文 »

构建并发布Python包到PyPI完整指南

发表于 2026-03-11 更新于 2026-05-18 分类于编程技能包， Python

本文将详细介绍如何构建并发布一个 Python 包到 Python Package Index (PyPI，可以理解为 Python 的”应用商店”，所有人都可以上传和下载 Python 包)，涵盖从手动发布到 CI 自动化发布的完整流程。

阅读全文 »

如何创建自定义Agent Skills

发表于 2026-02-12 更新于 2026-05-18 分类于路飞玩AI ， AI编程

Custom Skills（自定义技能）让你可以通过特定于你的组织或个人工作方式的专业知识和工作流来增强 Claude。本文介绍了如何创建、构建和测试你自己的 Skills。

白话理解: 你可以把 Skill 想象成给 Claude 写的一份”岗位说明书”。就像你给新同事一份手册，告诉他”遇到什么场景该怎么做”，Skill 就是这样一份手册——Claude 读完之后，就知道在特定任务中该遵循哪些规则、使用哪些工具。

阅读全文 »

Next.js入门指南：从零构建现代Web应用

发表于 2026-02-10 更新于 2026-05-18 分类于编程技能包， Web开发

Next.js 是一个用于构建全栈 Web 应用程序的 React 框架。它提供了服务端渲染（SSR）、静态站点生成（SSG）、路由系统等开箱即用的特性，让开发者能够专注于业务逻辑的实现。

白话理解：如果说 React 是一套”乐高积木”，那 Next.js 就是一份”乐高说明书 + 预制底板”——它帮你规定好怎么组装、怎么优化，你只需要专心搭出自己想要的形状。

阅读全文 »

ClaudeCode使用指南

发表于 2026-02-09 更新于 2026-05-18 分类于路飞玩AI ， AI编程

Claude Code 是 Anthropic 推出的命令行 AI 编程助手——你可以把它理解成一个住在终端里的”AI 程序员搭档”，你用自然语言告诉它想做什么，它就能直接读代码、改代码、跑命令，帮你完成从写代码到调试的整个流程。

阅读全文 »

OpenCode入门使用指南

发表于 2026-02-09 更新于 2026-05-18 分类于路飞玩AI ， AI编程

OpenCode 是一个开源的 AI 编程智能体，提供基于终端的界面、桌面应用程序或 IDE 扩展。本文介绍 OpenCode 的安装、配置和使用方法。

阅读全文 »

LLM 学习资源

目录

一、LLM 算法与模型

1.1 Transformer

1.2 GPT 系列

1.3 GLM

1.4 MOE 大模型

1.5 多模态大模型

1.6 NExT-GPT（多模态下一代模型）

二、LLM 训练

2.1 分布式训练

2.2 训练技巧

2.3 LLM 微调

三、LLM 推理

3.1 推理框架与加速

3.2 模型加载与部署

3.3 解码策略

3.4 KV Cache 优化

3.5 vLLM

四、LLM 数据工程

五、LLM 压缩与量化

六、LLM 测评

七、LLM 对齐（RLHF/DPO）

八、提示工程

九、AI 框架

9.1 PyTorch

9.2 DeepSpeed

9.3 Megatron-LM

十、AI 基础设施

10.1 AI 芯片

10.2 CUDA

十一、AI 编译器

十二、LLM 应用开发

12.1 应用开发教程

12.2 RAG（检索增强生成）

12.3 Agent

12.4 其他

十三、LLMOps

十四、LLM 实践项目

14.1 动手实现

14.2 课程

十五、书籍

十六、综合资料汇总

16.1 综合文章

16.2 safetensors 模型格式

16.3 Awesome 列表

16.4 微信公众号文章集锦

16.5 其他资源