技术博客

第5章：经典算子实现—Softmax 与算子融合

发表于 2026-05-18 分类于 AI Infra ， CUDA编程与算子优化， CUDA编程进阶

实现数值稳定的 Softmax 和 Online Softmax，掌握算子融合的原理与实践

阅读全文 »

第8章：性能分析工具链

发表于 2026-05-18 分类于 AI Infra ， CUDA编程与算子优化， CUDA编程进阶

掌握 Nsight Systems、Nsight Compute 和 PyTorch Profiler 三大性能分析工具，建立系统化的性能诊断能力

阅读全文 »

第1章：CUDA 编程入门

发表于 2026-05-18 分类于 AI Infra ， CUDA编程与算子优化， CUDA编程基础

搭建 CUDA 开发环境，理解 Grid/Block/Thread 编程模型和内存模型，编写第一个实用 CUDA Kernel

阅读全文 »

第2章：CUDA 性能优化基础

发表于 2026-05-18 分类于 AI Infra ， CUDA编程与算子优化， CUDA编程基础

掌握 Warp 执行模型、内存访问优化、Occupancy 调优和同步机制，建立 CUDA 性能优化的核心方法论

阅读全文 »

第3章：经典算子实现—Reduce

发表于 2026-05-18 分类于 AI Infra ， CUDA编程与算子优化， CUDA编程进阶

通过 Reduce 算子的 8 个优化版本（V0-V7），掌握 CUDA 算子逐步优化的方法论：从消除 Warp Divergence、Bank Conflict，到 Warp Shuffle 和向量化访存

阅读全文 »

🎯 内容更新日志

发表于 2026-05-13 更新于 2026-05-18 分类于 AI Infra ， CUDA编程

本文记录《AI Infra CUDA编程》系列文章的更新内容，便于追踪知识库的演进。

阅读全文 »

🎯 内容更新日志

发表于 2026-05-13 更新于 2026-05-18 分类于 AI Infra ，前置知识

本文记录《AI Infra 前置知识》系列文章的更新内容，便于追踪知识库的演进。

阅读全文 »

PyTorch 2.0新特性

发表于 2026-05-12 更新于 2026-05-18 分类于 AI Infra ，前置知识， PyTorch

PyTorch 2.0 是 PyTorch 历史上最重要的版本跳跃之一，核心卖点是”一行代码加速模型”——通过 torch.compile() 将 Eager 模式的灵活性与编译优化的高性能真正统一起来。本文从动机、核心机制到实战调优，系统讲解 PyTorch 2.0 的关键新特性。

阅读全文 »

CUDA 13.1新特性：Tile编程模型

发表于 2026-05-11 更新于 2026-05-18 分类于 AI Infra ， CUDA编程与算子优化， CUDA编程高阶

NVIDIA 在 CUDA 13.1 中推出了 cuTile——一种全新的 Tile 编程模型，被称为自 CUDA 诞生以来最重大的编程范式革新。它让开发者用”数据块”而非”单个线程”来思考 GPU 编程，自动利用 Tensor Core 和 TMA 等硬件加速单元，大幅降低高性能 Kernel 的编写门槛。本文从概念到实战，全面拆解这一新编程模型。

阅读全文 »

2.4 同步与原子操作

发表于 2026-05-09 更新于 2026-05-18 分类于 AI Infra ， CUDA编程与算子优化， CUDA编程基础

正确的同步机制是编写无 Bug 并行程序的基础。本文详解 CUDA 中的块内同步 __syncthreads()、Warp 级同步、Memory Fence，以及原子操作的使用场景、性能代价与优化技巧，帮助你在保证正确性的前提下写出高性能的并行代码。

阅读全文 »

0%