第5章:经典算子实现—Softmax 与算子融合
实现数值稳定的 Softmax 和 Online Softmax,掌握算子融合的原理与实践
实现数值稳定的 Softmax 和 Online Softmax,掌握算子融合的原理与实践
掌握 Nsight Systems、Nsight Compute 和 PyTorch Profiler 三大性能分析工具,建立系统化的性能诊断能力
搭建 CUDA 开发环境,理解 Grid/Block/Thread 编程模型和内存模型,编写第一个实用 CUDA Kernel
掌握 Warp 执行模型、内存访问优化、Occupancy 调优和同步机制,建立 CUDA 性能优化的核心方法论
通过 Reduce 算子的 8 个优化版本(V0-V7),掌握 CUDA 算子逐步优化的方法论:从消除 Warp Divergence、Bank Conflict,到 Warp Shuffle 和向量化访存
PyTorch 2.0 是 PyTorch 历史上最重要的版本跳跃之一,核心卖点是”一行代码加速模型”——通过 torch.compile() 将 Eager 模式的灵活性与编译优化的高性能真正统一起来。本文从动机、核心机制到实战调优,系统讲解 PyTorch 2.0 的关键新特性。
NVIDIA 在 CUDA 13.1 中推出了 cuTile——一种全新的 Tile 编程模型,被称为自 CUDA 诞生以来最重大的编程范式革新。它让开发者用”数据块”而非”单个线程”来思考 GPU 编程,自动利用 Tensor Core 和 TMA 等硬件加速单元,大幅降低高性能 Kernel 的编写门槛。本文从概念到实战,全面拆解这一新编程模型。
正确的同步机制是编写无 Bug 并行程序的基础。本文详解 CUDA 中的块内同步 __syncthreads()、Warp 级同步、Memory Fence,以及原子操作的使用场景、性能代价与优化技巧,帮助你在保证正确性的前提下写出高性能的并行代码。