壁仞科技 AI Infra 实习

发表于 2026-04-16 更新于 2026-05-18 分类于求职面试， AI 创业公司面经

GEMM 计算 C[M,N] = A[M,K] * B[K,N]，当 K >> M 或 K >> N 时：

1. 寄存器压力增大：

2. 数值精度问题：

3. 数据复用率分析：

4. 解决方案——Split-K GEMM：

GPU 程序调试的工具链（按场景分类）：

cuda-gdb：NVIDIA 的 GPU 调试器。支持在 kernel 中设置断点、单步执行、查看线程状态、检查 shared/global memory 值。使用 -G -g 编译开启调试信息。注意：调试模式下 kernel 性能大幅下降且 register 分配不同。
compute-sanitizer（替代旧版 cuda-memcheck）：
- --tool memcheck：检测全局/共享内存越界访问、未对齐访问
- --tool racecheck：检测 shared memory 上的数据竞争（race condition）
- --tool initcheck：检测未初始化的 GPU 内存读取
- 运行时检测，有 2-10x 性能开销
Nsight Compute：不是调试器而是性能分析器，但能帮助理解 kernel 行为。显示每条 warp 的执行统计。
printf 调试：kernel 内 printf 最简单直接。注意：printf 有缓冲区大小限制（默认 1MB），大量输出可能丢失；性能影响大；输出顺序不保证。
**assert()**：CUDA kernel 内可使用 assert(condition)，条件不满足时中止 kernel 执行并报告位置。编译时加 -DNDEBUG 可禁用。