2.9 Tokenization与词嵌入
Transformer 处理的不是原始文字,而是向量。在一段文字变成模型输入之前,需要先经过两道关键变换:Tokenization(分词) 和 Embedding(词嵌入)。这两步看似简单,却决定了模型能”看到”什么、能”理解”什么——是整个 Transformer 流水线的起点,也是语言建模的基础认知。
探索技术,分享知识。这里记录了我在 AI Infra、高性能计算、深度学习框架、AI编程等领域的学习与实践。
Transformer 处理的不是原始文字,而是向量。在一段文字变成模型输入之前,需要先经过两道关键变换:Tokenization(分词) 和 Embedding(词嵌入)。这两步看似简单,却决定了模型能”看到”什么、能”理解”什么——是整个 Transformer 流水线的起点,也是语言建模的基础认知。
在拆解 Transformer 的各个零部件之前,先站远一点看清整台”机器”的全貌。本文从 2017 年原始论文的 Encoder-Decoder 架构讲起,完整剖析 Encoder、Decoder 的内部结构与数据流,随后追溯架构演化的三条路线(Encoder-only、Encoder-Decoder、Decoder-only),聚焦当前大模型的主流选择——Decoder-only,最后用 PyTorch 从零实现完整的 Encoder-Decoder Transformer,将理论与代码一一对应。
理解 Transformer 的内部结构只是第一步,真正让大语言模型”说话”的是自回归生成过程。本文深入剖析 LLM 推理的完整链路——从条件概率到 Token 采样,从 Prefill/Decode 两阶段特性到 KV Cache 管理,再到 PagedAttention、Speculative Decoding 等前沿优化技术,帮助 AI Infra 工程师建立推理优化的全局视野。
大语言模型的核心计算单元是 Transformer Decoder Block。无论你在做 CUDA 算子优化、分布式训练还是推理部署,最终操作的对象都是这个 Block 里面的矩阵乘法、归一化和注意力计算。本文将这个 Block 彻底拆开,从架构选型的历史原因讲起,逐步深入到因果掩码的实现、完整的 PyTorch 代码、参数量与计算量的手算方法,最后落地到显存规划的工程实践。目标是读完之后,你能拿着纸笔算清楚任意一个开源模型”能不能装进某张卡”。
在 Transformer 架构中,Self-Attention 和 FFN 负责”学什么”,而 LayerNorm 和残差连接决定了”能不能学会”。一个没有残差连接的 100 层网络几乎无法训练,一个没有归一化的深层网络则像一辆刹车失灵的卡车——要么冲出路面(梯度爆炸),要么熄火在半路(梯度消失)。本文从深度网络训练的根本困难出发,逐步拆解残差连接和归一化技术的原理、实现与工程优化,帮助你建立对这两个”幕后功臣”的系统认知。
位置编码是 Transformer 架构中一个看似不起眼却至关重要的组件。没有它,Transformer 无法区分”猫吃鱼”和”鱼吃猫”的区别。本文从”为什么需要位置信息”这个根本问题出发,系统讲解 Sinusoidal 编码、可学习编码、RoPE、ALiBi 等主流方案的原理与实现,并深入探讨长上下文扩展中的位置编码外推技术,最终关联到 AI Infra 工程实践中的 CUDA kernel 融合与 KV Cache 管理。
前馈网络(FFN)是 Transformer 中参数量最大的模块,占据单个 Block 约 2/3 的参数。它负责对每个 token 进行独立的非线性变换,是模型”记忆知识”和”深度推理”的核心载体。本文从 FFN 的结构设计出发,深入剖析激活函数演进、参数量计算、SwiGLU 门控机制,并延伸到张量并行切分、MoE 专家并行和 CUDA kernel 融合等 AI Infra 工程实践。
Self-Attention 是 Transformer 的心脏,也是当代大模型中计算量最集中、优化手段最丰富的模块。无论你是想理解 FlashAttention 背后的 IO 优化思想,还是想搞清楚 GQA、MLA 这些 Attention 变种为什么能减少推理开销,都绕不开对 Self-Attention 机制的深入理解。本文将从 Attention 的历史起源讲起,逐步拆解 Scaled Dot-Product Attention 的每一步数学原理,手写 PyTorch 实现,分析计算瓶颈,最后延伸到 FlashAttention 和各种 Attention 变种,力求让读者建立从直觉到公式再到工程实现的完整认知链条。
大模型训练离不开多卡协作,而多卡协作的效率很大程度上取决于卡与卡之间”搬数据”的速度。本文是一篇轻量级入门,帮你建立通信拓扑的基本概念和直觉,为后续深入分布式训练打下基础。
PyTorch 是当前大模型训练和推理的事实标准框架。本文聚焦于 AI Infra 工程师需要掌握的核心能力——从 Tensor 操作到完整训练循环,再到用 profiler 定位性能瓶颈,为后续的 CUDA 编程、分布式训练和推理优化打下基础。