技术博客

2.1 AI Infra工程师为什么必须懂Transformer

发表于 2026-03-30 更新于 2026-04-07 分类于 AI Infra ，前置知识， Transformer

Transformer 是当今所有大语言模型的共同骨架，而 AI Infra 工程师的全部工作——从底层算子到分布式训练再到推理服务——都围绕这个骨架展开。本文将系统阐述 AI Infra 的定义与技术栈定位、Transformer 如何成为”通用底座”、以及两者之间的精确映射关系，帮助读者建立”我到底在优化什么”的全局认知。

阅读全文 »

2.0 Transformer架构-快速入门篇

发表于 2026-03-30 更新于 2026-04-07 分类于 AI Infra ，前置知识， Transformer

Transformer 是大模型时代的”通用底座”——CUDA 层优化它的算子，分布式层切分它的参数，推理层加速它的生成。本文从 AI Infra 工程师的视角出发，带你理解这个”后续所有优化的对象”到底长什么样，为什么长这样，以及每个模块将在后续的哪些优化中被反复提及。

阅读全文 »

1.0 编程语言入门

发表于 2026-03-30 更新于 2026-04-07 分类于 AI Infra ，前置知识，编程基础

AI Infra 的大厦建立在编程能力之上。本文不是通用编程教程，而是专门回答一个问题：想做 AI Infra，编程底子需要打到什么程度？从 Python、C/C++、Linux 到数学基础，为每个方向划定”够用”的边界，配上面向实际场景的代码示例。

阅读全文 »

1.2 集群通信网络与NCCL

发表于 2026-03-30 更新于 2026-04-07 分类于 AI Infra ，前置知识，编程基础

单卡再强也有天花板，大模型训练和推理不可避免地需要多卡甚至多机协作。此时，GPU 之间”怎么说话、说话多快”就成了决定整体效率的关键因素。本文从单机内的 NVLink 讲到跨机的 InfiniBand，再到集合通信原语和 NCCL 通信库，系统梳理 AI 集群通信的完整知识链路。

阅读全文 »

GPU架构与存储体系

发表于 2026-03-30 更新于 2026-04-07 分类于 AI Infra ， CUDA编程与算子优化

在动手写 CUDA kernel 之前，先搞清楚 GPU 的”硬件说明书”是必修课——不了解工厂有多少工人、车间怎么布局、仓库带宽多大，写出来的程序大概率在”等数据”中浪费生命。本文从 GPU 内部的计算单元讲到存储层次，再到制约性能的 Memory Wall，最后横向对比主流数据中心 GPU 的关键参数，帮你建立一套从硬件视角思考性能问题的直觉。

阅读全文 »

Nsight Compute性能分析实战指南

发表于 2026-03-26 更新于 2026-04-07 分类于 AI Infra ，性能分析

Nsight Compute 是 NVIDIA 提供的 CUDA Kernel 级深度分析工具，能够采集单个 kernel 的 SM 利用率、内存带宽、指令吞吐、Occupancy 等细粒度硬件指标，并通过 Roofline 模型直观展示优化空间。本文详解 Nsight Compute 的命令行采集、GUI 分析、Roofline 解读、各类 kernel 调优策略，帮助你精准定位并优化 CUDA kernel 的性能瓶颈。

阅读全文 »

Nsight Systems性能分析实战指南

发表于 2026-03-26 更新于 2026-04-07 分类于 AI Infra ，性能分析

Nsight Systems 是 NVIDIA 提供的系统级性能分析工具，能够从全局视角展示 CPU、GPU、内存、网络的时序关系与交互瓶颈。本文详解 Nsight Systems 的安装配置、命令行采集、GUI 分析、典型场景诊断，帮助你快速定位 CUDA 程序和深度学习训练/推理中的系统级瓶颈。

阅读全文 »

大模型推理与部署入门

发表于 2026-03-26 更新于 2026-04-07 分类于 AI Infra ，推理与部署

训练只是万里长征第一步，如何让模型快速、低成本地服务用户才是工业界最关心的问题。本文从 LLM 推理的基本原理讲起，系统覆盖 KV Cache 管理、推理引擎（vLLM / SGLang / TensorRT-LLM）、量化技术、Speculative Decoding、Prefill/Decode 解耦等核心技术，并提供可量化的性能分析方法。

阅读全文 »

分布式训练入门

发表于 2026-03-26 更新于 2026-04-07 分类于 AI Infra ，分布式训练

当模型参数量超越单卡显存极限时，分布式训练就是必经之路。本文从 Transformer 模型基础讲起，系统覆盖数据并行、模型并行（3D 并行）、ZeRO 显存优化、混合精度训练等核心技术，并提供 PyTorch DDP 和 DeepSpeed 的实战代码，帮助从业者建立分布式训练的完整知识体系。

阅读全文 »

CUDA编程入门指南

发表于 2026-03-26 更新于 2026-04-07 分类于 AI Infra ， CUDA编程与算子优化

CUDA 是连接 AI 算法与 GPU 硬件的桥梁，负责把高层的数学计算翻译成 GPU 能最高效执行的机器指令。本文从编程模型、内存模型讲起，到 Reduce/GEMM/Softmax 三大经典算子的实现与优化，再到 FlashAttention 系列 Attention 算子和 Triton 编译器，系统覆盖 AI Infra 从业者需要掌握的 CUDA 编程基础。

阅读全文 »