AI Infra 校招 (1)

发表于 2026-04-16 更新于 2026-05-18 分类于求职面试，综合面经

CPU设计着重处理单个线程的复杂计算和控制流程，拥有强大的分支预测、乱序执行和大容量缓存。GPU设计用于高密度并行计算，更多晶体管投入数据处理而非缓存和流量控制，ALU数量远多于CPU。CPU适合延迟敏感的串行任务，GPU适合吞吐量导向的大规模并行任务。

SP（Streaming Processor）：流处理器，最基本的计算单元，执行单个线程的指令。
SM（Streaming Multiprocessor）：流多处理器，由多个SP加上共享内存、寄存器文件、Warp调度器等资源组成。SM是GPU调度和执行的基本单元，一个SM可同时管理多个线程块。

硬件执行时，Block被分配到SM上，线程以Warp（32线程）为单位调度执行。

Stream是主机发出的在设备中执行的CUDA操作序列（包括kernel执行和主机-设备数据传输）。同一stream中的操作按序执行，不同stream中的操作可以并发执行。利用多stream可以实现计算与数据传输的重叠（overlap），提高GPU利用率。

线程同步：在利用共享内存进行线程间协作前，必须调用__syncthreads()确保共享内存数据对Block内所有线程准备就绪。
避免Bank Conflict：共享内存分为32个bank，同一Warp内多个线程访问同一bank的不同地址时产生冲突，导致串行化。解决方法包括padding和调整访问模式。

默认Stream（同步）：stream 0，操作会与其他stream同步，具有隐式同步行为。
非默认Stream（异步）：显式创建的stream，操作异步执行，不与其他stream同步（除非显式同步）。可以实现kernel执行与内存传输的overlap。

（编程题）

（编程题）

（编程题）

（编程题）

（编程题）