AIInfra求职指南
🎯 面试宝典
以下内容基于 164 份 AI Infra 真实面经整理,覆盖 60+ 家公司,涵盖实习、校招、社招各阶段。
面试题高频考点
一、大模型架构与算法(出现频率最高)
| 主题 | 高频考点 |
|---|---|
| Attention 机制 | MHA、GQA、MLA、Sparse Attention、Flash Attention(v2、Flash Decoding) |
| 模型架构 | Transformer 细节、MoE(路由策略、专家负载均衡、Capacity Factor) |
| 归一化 | BN vs LN vs RMSNorm 区别与适用场景 |
| 位置编码 | RoPE 原理及变体 |
| 训练方法 | SFT vs RLHF、PPO/DPO/GRPO 目标函数、知识蒸馏 |
| 扩散模型 | 训练 vs 推理流程、DiT 推理框架设计 |
二、CUDA / GPU / 算子优化(~61% 面经涉及)
| 主题 | 高频考点 |
|---|---|
| CUDA 编程 | 手写 kernel(elementwise、矩阵乘、embedding pooling)、线程模型 |
| GPU 架构 | 显存层级、L1/L2 Cache、Shared Memory、TMA(Hopper) |
| 优化技巧 | 算子融合、访存优化、Roofline 分析、性能瓶颈定位 |
| 量化 | INT8/FP8 量化策略、混合精度 |
| 性能分析 | Nsight、profiling 工具使用 |
三、推理优化(~46% 面经涉及)
| 主题 | 高频考点 |
|---|---|
| 推理框架 | TensorRT 使用与原理、与 OpenVINO 对比 |
| KV-Cache | KV-Cache 优化、PagedAttention、PD 分离 |
| 模型压缩 | 剪枝、量化、蒸馏的部署选型 |
| 服务化 | Batch 策略、Continuous Batching、Sequence Length 权衡 |
四、分布式训练(~19% 面经涉及)
| 主题 | 高频考点 |
|---|---|
| 并行策略 | 数据并行、张量并行、流水线并行、3D 并行 |
| 显存优化 | 梯度检查点、混合精度训练、ZeRO(Stage 1/2/3) |
| 通信 | NCCL、All-Reduce、Ring-AllReduce、通信带宽分析 |
| 工具 | torchrun 参数、进程管理 |
五、C++ 基础(大厂和车企高频)
| 主题 | 高频考点 |
|---|---|
| 面向对象 | 多态、虚函数表(vtable)、虚析构 |
| 容器 | vector / map / unordered_map 底层实现 |
| 智能指针 | shared_ptr / unique_ptr / weak_ptr、RAII |
| 并发 | 原子操作、互斥锁、条件变量 |
| 内存 | 移动语义、右值引用、内存模型 |
六、操作系统 / Linux
| 主题 | 高频考点 |
|---|---|
| 进程与线程 | 区别、用户态 vs 内核态、上下文切换开销 |
| IPC | 共享内存、管道、Socket |
| 内存管理 | 页表、TLB、Cache Line 结构、多级缓存 |
| 系统调用 | 中断处理、系统调用流程 |
七、算法编程
| 类型 | 常见题目 |
|---|---|
| 经典数据结构 | LRU Cache、Trie、最小栈 |
| 图算法 | 拓扑排序、DFS/BFS、连通分量 |
| 链表 | 反转链表、找中点、环检测 |
| 领域编码 | 手写 MHA(PyTorch)、LoRA、NMS+IOU(C++)、CUDA kernel |
| 多线程 | 信号量有序打印、生产者消费者 |
各梯队面试侧重点
| 梯队 | 考察侧重 |
|---|---|
| T0 大厂(字节/阿里/腾讯/百度) | 结构化面试 2-3 轮,项目深挖 + 模型架构 + 推理/训练优化 + C++ 八股 + LeetCode Medium |
| T1 大厂/独角兽(快手/美团/蚂蚁等) | 与 T0 类似,推理优化问得多,部分公司重视系统设计 |
| T2 AI 独角兽(MiniMax/阶跃/智谱) | 偏研究导向,深挖 MoE 路由优化、RLHF 细节、前沿 paper,传统八股较少 |
| T3 芯片/硬件(英伟达/壁仞/寒武纪) | 重 GPU 架构、CUDA 编程、HPC 基础,手写 kernel 频率最高 |
| T4 车企/自动驾驶(蔚来/大疆/小鹏) | 重 C++ 功底、推理部署(TensorRT/TVM/量化)、边缘实时性能,LLM 问得少 |
| T5 其他(海康/科大讯飞等) | 难度适中,C++ 和推理部署为主 |
提示:英伟达面试风格偏西方,除技术面外还有 BQ(行为面试),需提前准备 STAR 法则。
面经数量 Top 10 公司
| 排名 | 公司 | 面经数 | 梯队 |
|---|---|---|---|
| 1 | 百度 | 17 | T0 大厂 |
| 2 | 阿里巴巴 | 16 | T0 大厂 |
| 3 | 字节跳动 | 13 | T0 大厂 |
| 4 | 快手 | 9 | T1 大厂 |
| 5 | 腾讯 | 7 | T0 大厂 |
| 6 | 蔚来 | 6 | T4 车企 |
| 7 | 小米 | 5 | T1 大厂 |
| 8 | 蚂蚁 | 4 | T1 大厂 |
| 8 | MiniMax | 4 | T2 AI 独角兽 |
| 8 | 美团 | 4 | T1 大厂 |
投递总览:
| 梯队 | 公司 | 主要 AI Infra 岗位 |
|---|---|---|
| T0 大厂 | 字节跳动、阿里巴巴、腾讯、百度 | AI Infra 工程师、高性能计算研发、推理优化工程师、分布式训练框架 |
| T1 大厂/独角兽 | 快手、拼多多、美团、蚂蚁、OPPO、华为、蔚来 | AI Infra、高性能计算、大模型推理优化、AI 平台开发 |
| T2 AI 独角兽 | MiniMax、阶跃星辰、智谱AI、面壁智能、月之暗面 | AI Infra、大模型算法 (偏 Infra)、推理系统开发、Agent Infra |
| T3 芯片/硬件厂商 | 英伟达、摩尔线程、海光、寒武纪、壁仞科技、飞腾 | 算子开发、CUDA 优化、GPU 软件工程师、AI 编译器、高性能计算 |
| T4 自动驾驶/车企 | 小鹏汽车、蔚来、理想、大疆车载、卓驭、小马智行、元戎启行 | AI Infra、高性能计算、大模型推理优化、AI 平台 |
| T5 其他 | 科大讯飞、网易、海康威视、联想、猿辅导、好未来等 | AI Infra、高性能计算、推理引擎开发、大模型算法 |
注:分布式训练相关的岗位特别少,一般只有搞大模型的大厂才有,所有大家在准备的求职的过程中,可以重点关注算子优化、推理优化、推理框架这类岗位,训练相关的技术点了解即可,不用深钻。
投递时间线:
| 时间段 | 投递策略 |
|---|---|
| 3-4月 | 暑期实习提前批(字节、阿里、腾讯、快手) |
| 5-6月 | 暑期实习正式批 + 日常实习(美团、拼多多、中小厂) |
| 7-8月 | 秋招提前批(字节 AML、百度、华为) |
| 9-10月 | 秋招正式批(全面投递) |
| 11-12月 | 秋招补录 + 春招准备 |
| 次年2-4月 | 春招(HC 较少,竞争激烈) |
按个人情况针对性投递:
| 背景 | 推荐投递 |
|---|---|
| CUDA/C++ 底层强 | 英伟达、摩尔线程、壁仞、百度昆仑芯、北京智源 |
| 系统/分布式强 | 字节 AML、阿里云 PAI、百度、快手、美团 |
| 算法+工程兼备 | MiniMax、阶跃星辰、智谱、拼多多 |
| 想做推理优化 | 快手(偏推理)、猿辅导、理想、好未来、阿里云 PAI |
| 想做训练框架 | 字节豆包、百度 PaddlePaddle、华为昇腾 |
| 偏自动驾驶 | 小鹏、蔚来、大疆车载、卓驭、小马智行 |
| 求稳 | 华为、荣耀、海康、中科曙光 |