Occupancy 衡量 SM 上实际活跃 Warp 数与理论最大值的比例,是调优 CUDA Kernel 的核心指标之一。本文讲解 Occupancy 的定义、计算方法、三大限制因素(寄存器/共享内存/Block 大小),以及为什么 Occupancy 并非越高越好——真正的目标是在延迟隐藏与资源利用之间找到平衡点。

阅读全文 »

Transformer 处理的不是原始文字,而是向量。在一段文字变成模型输入之前,需要先经过两道关键变换:Tokenization(分词)Embedding(词嵌入)。这两步看似简单,却决定了模型能”看到”什么、能”理解”什么——是整个 Transformer 流水线的起点,也是语言建模的基础认知。

阅读全文 »
0%