技术博客

欢迎来到草帽路飞的技术博客

探索技术，分享知识。这里记录了我在 AI Infra、高性能计算、深度学习框架、AI编程等领域的学习与实践。

文章分类导航

AI Infra (52)

✈️ 学习指南 (2)

✈️ 前置知识 (24)

✈️ CUDA编程与算子优化 (21)

✈️ 分布式训练 (1)

🔥 分布式训练入门

✈️ 推理与部署 (1)

大模型推理与部署入门

✈️ 性能分析 (2)

✈️ CUDA编程 (1)

🎯 内容更新日志

求职面试 (182) 进入 →

路飞玩AI (5)

✈️ AI编程 (4)

✈️ Agent开发 (1)

Agent框架设计与实现

编程技能包 (4)

✈️ Python (2)

✈️ C++基础 (1)

C++入门教程

✈️ Web开发 (1)

Next.js入门指南：从零构建现代Web应用

共 245 篇文章

未命名

发表于 2026-05-18

float4向量访存相比float1向量访存的优势是？连续访存的情况下带宽利用率谁高？
全局内存和共享内存的访存粒度是怎样的？它们的访存模式分别是怎样的？
全局内存的合并访存是什么（连续访存）？共享内存讲究连续访存吗？

NVIDIA GPU 架构演进：从 Volta 到 Blackwell

发表于 2026-05-18 分类于 AI Infra ，前置知识， GPU硬件概述

系统梳理 NVIDIA 五代 AI GPU 架构（Volta → Turing → Ampere → Hopper → Blackwell）的关键技术演进，理解每一代为 AI 训练和推理带来了什么

阅读全文 »

第6章：Attention 算子

发表于 2026-05-18 分类于 AI Infra ， CUDA编程与算子优化， CUDA编程高阶

深入理解 FlashAttention V1/V2/V3 的原理与实现，以及 Decode 阶段的 Flash-Decoding 和 PagedAttention CUDA 实现

阅读全文 »

第7章：AI 编译器

发表于 2026-05-18 分类于 AI Infra ， CUDA编程与算子优化， CUDA编程高阶

掌握 Triton Block-level 编程模型、torch.compile 编译模式，以及 TVM/XLA 的定位与差异

阅读全文 »

4.1 Tensor 与自动微分

发表于 2026-05-18 分类于 AI Infra ，前置知识， PyTorch

掌握 PyTorch Tensor 的创建、索引、变形操作，理解 CPU/GPU 设备管理，深入 autograd 计算图机制以及梯度累积与清零的工程实践

阅读全文 »

4.2 Module 与训练流程

发表于 2026-05-18 分类于 AI Infra ，前置知识， PyTorch

走通完整训练循环：DataLoader → forward → loss → backward → optimizer.step，掌握学习率调度和 Checkpoint 保存/加载

阅读全文 »

4.3 调试与性能分析

发表于 2026-05-18 分类于 AI Infra ，前置知识， PyTorch

掌握 torch.cuda.memory_summary() 查看显存、torch.profiler 性能分析，排查 shape/device mismatch 和 OOM 错误

阅读全文 »

4.4 动手实验

发表于 2026-05-18 分类于 AI Infra ，前置知识， PyTorch

用 PyTorch 从零实现 GPT-2 级别小模型，在单卡上完成数据加载、训练、评估、保存的完整流程

阅读全文 »

🔥 GPU基础知识：从硬件架构到AI计算

发表于 2026-05-18 分类于 AI Infra ，前置知识， GPU硬件概述

系统理解 GPU 硬件架构、CUDA 编程模型、显存层次和计算单元，为深入学习 AI Infra打下坚实基础

阅读全文 »

第4章：经典算子实现—GEMM

发表于 2026-05-18 分类于 AI Infra ， CUDA编程与算子优化， CUDA编程进阶

从朴素矩阵乘法到 Shared Memory Tiling、寄存器 Tiling、Tensor Core，逐步逼近 cuBLAS 性能

阅读全文 »