2.1 AI Infra工程师为什么必须懂Transformer
Transformer 是当今所有大语言模型的共同骨架,而 AI Infra 工程师的全部工作——从底层算子到分布式训练再到推理服务——都围绕这个骨架展开。本文将系统阐述 AI Infra 的定义与技术栈定位、Transformer 如何成为”通用底座”、以及两者之间的精确映射关系,帮助读者建立”我到底在优化什么”的全局认知。
Transformer 是当今所有大语言模型的共同骨架,而 AI Infra 工程师的全部工作——从底层算子到分布式训练再到推理服务——都围绕这个骨架展开。本文将系统阐述 AI Infra 的定义与技术栈定位、Transformer 如何成为”通用底座”、以及两者之间的精确映射关系,帮助读者建立”我到底在优化什么”的全局认知。
Transformer 是大模型时代的”通用底座”——CUDA 层优化它的算子,分布式层切分它的参数,推理层加速它的生成。本文从 AI Infra 工程师的视角出发,带你理解这个”后续所有优化的对象”到底长什么样,为什么长这样,以及每个模块将在后续的哪些优化中被反复提及。
AI Infra 的大厦建立在编程能力之上。本文不是通用编程教程,而是专门回答一个问题:想做 AI Infra,编程底子需要打到什么程度?从 Python、C/C++、Linux 到数学基础,为每个方向划定”够用”的边界,配上面向实际场景的代码示例。
单卡再强也有天花板,大模型训练和推理不可避免地需要多卡甚至多机协作。此时,GPU 之间”怎么说话、说话多快”就成了决定整体效率的关键因素。本文从单机内的 NVLink 讲到跨机的 InfiniBand,再到集合通信原语和 NCCL 通信库,系统梳理 AI 集群通信的完整知识链路。
在动手写 CUDA kernel 之前,先搞清楚 GPU 的”硬件说明书”是必修课——不了解工厂有多少工人、车间怎么布局、仓库带宽多大,写出来的程序大概率在”等数据”中浪费生命。本文从 GPU 内部的计算单元讲到存储层次,再到制约性能的 Memory Wall,最后横向对比主流数据中心 GPU 的关键参数,帮你建立一套从硬件视角思考性能问题的直觉。
Nsight Compute 是 NVIDIA 提供的 CUDA Kernel 级深度分析工具,能够采集单个 kernel 的 SM 利用率、内存带宽、指令吞吐、Occupancy 等细粒度硬件指标,并通过 Roofline 模型直观展示优化空间。本文详解 Nsight Compute 的命令行采集、GUI 分析、Roofline 解读、各类 kernel 调优策略,帮助你精准定位并优化 CUDA kernel 的性能瓶颈。
Nsight Systems 是 NVIDIA 提供的系统级性能分析工具,能够从全局视角展示 CPU、GPU、内存、网络的时序关系与交互瓶颈。本文详解 Nsight Systems 的安装配置、命令行采集、GUI 分析、典型场景诊断,帮助你快速定位 CUDA 程序和深度学习训练/推理中的系统级瓶颈。
训练只是万里长征第一步,如何让模型快速、低成本地服务用户才是工业界最关心的问题。本文从 LLM 推理的基本原理讲起,系统覆盖 KV Cache 管理、推理引擎(vLLM / SGLang / TensorRT-LLM)、量化技术、Speculative Decoding、Prefill/Decode 解耦等核心技术,并提供可量化的性能分析方法。
当模型参数量超越单卡显存极限时,分布式训练就是必经之路。本文从 Transformer 模型基础讲起,系统覆盖数据并行、模型并行(3D 并行)、ZeRO 显存优化、混合精度训练等核心技术,并提供 PyTorch DDP 和 DeepSpeed 的实战代码,帮助从业者建立分布式训练的完整知识体系。
CUDA 是连接 AI 算法与 GPU 硬件的桥梁,负责把高层的数学计算翻译成 GPU 能最高效执行的机器指令。本文从编程模型、内存模型讲起,到 Reduce/GEMM/Softmax 三大经典算子的实现与优化,再到 FlashAttention 系列 Attention 算子和 Triton 编译器,系统覆盖 AI Infra 从业者需要掌握的 CUDA 编程基础。