未命名
float4向量访存相比float1向量访存的优势是? 连续访存的情况下带宽利用率谁高?
全局内存和共享内存的访存粒度是怎样的?它们的访存模式分别是怎样的?
全局内存的合并访存是什么(连续访存)?共享内存讲究连续访存吗?
探索技术,分享知识。这里记录了我在 AI Infra、高性能计算、深度学习框架、AI编程等领域的学习与实践。
float4向量访存相比float1向量访存的优势是? 连续访存的情况下带宽利用率谁高?
全局内存和共享内存的访存粒度是怎样的?它们的访存模式分别是怎样的?
全局内存的合并访存是什么(连续访存)?共享内存讲究连续访存吗?
系统梳理 NVIDIA 五代 AI GPU 架构(Volta → Turing → Ampere → Hopper → Blackwell)的关键技术演进,理解每一代为 AI 训练和推理带来了什么
深入理解 FlashAttention V1/V2/V3 的原理与实现,以及 Decode 阶段的 Flash-Decoding 和 PagedAttention CUDA 实现
掌握 Triton Block-level 编程模型、torch.compile 编译模式,以及 TVM/XLA 的定位与差异
掌握 PyTorch Tensor 的创建、索引、变形操作,理解 CPU/GPU 设备管理,深入 autograd 计算图机制以及梯度累积与清零的工程实践
走通完整训练循环:DataLoader → forward → loss → backward → optimizer.step,掌握学习率调度和 Checkpoint 保存/加载
掌握 torch.cuda.memory_summary() 查看显存、torch.profiler 性能分析,排查 shape/device mismatch 和 OOM 错误
用 PyTorch 从零实现 GPT-2 级别小模型,在单卡上完成数据加载、训练、评估、保存的完整流程
系统理解 GPU 硬件架构、CUDA 编程模型、显存层次和计算单元,为深入学习 AI Infra打下坚实基础
从朴素矩阵乘法到 Shared Memory Tiling、寄存器 Tiling、Tensor Core,逐步逼近 cuBLAS 性能