海康威视 AI Infra 一面

发表于 2026-04-16 更新于 2026-05-18 分类于求职面试，知名科技公司面经

国产 AI 芯片（华为昇腾/寒武纪/壁仞/海光 DCU 等）与 NVIDIA GPU 平台的差异体现在多个层面：

1. 软件生态差距（最关键瓶颈）：

NVIDIA：CUDA 生态经过 15+ 年积累，cuBLAS/cuDNN/TensorRT/NCCL/Triton 等库高度成熟，开发者社区庞大
国产平台：各家自建编程模型（华为 CANN/AscendCL，寒武纪 BANG C，壁仞 BIRCC），算子库覆盖度有限，社区小，遇到问题难以搜索解决方案
影响：模型迁移需要重写或适配算子，新模型/新算子的支持滞后于 NVIDIA 数周到数月

2. 通信互联差距：

NVIDIA：NVLink（900 GB/s per GPU on H100）+ NVSwitch（全互联）+ InfiniBand（400 Gbps）形成高速通信网络
国产平台：芯片间互联带宽通常是 NVLink 的 1/5-1/3，缺乏成熟的全互联方案
影响：TP（张量并行）效率受限，通信-计算重叠的设计空间更小，大规模并行训练效率低

3. 编程模型与开发效率：

NVIDIA：统一的 CUDA 编程模型，丰富的调试/性能分析工具（Nsight Compute/Systems、cuda-gdb、compute-sanitizer）
国产平台：各厂商接口不统一，调试工具相对简陋，Profile 粒度和准确性有限
趋势：华为的 MindSpore/CANN 在逐步完善，但与 CUDA 生态差距仍然显著

4. 实际性能（MFU）差距：

5. 兼容性与迁移成本：

发展趋势：国产平台在追赶中，华为昇腾生态最为完善（已支持 Llama/ChatGLM 等主流模型训练推理）。信创需求推动适配加速，但短期内 CUDA 仍是 AI Infra 的主流选择。

大规模分布式训练的瓶颈随着规模增长在不同阶段呈现不同特征：

1. 通信瓶颈（最常见）：

AllReduce 开销：DDP 中每步梯度同步的通信量 = 2 * model_size * (N-1)/N。7B 模型 64 卡 Ring AllReduce 通信量 ~28GB/step
规模效应：随卡数增加，通信占比从 10% 可能上升到 30-50%
缓解方法：通信计算重叠（overlap backward 和 allreduce）、梯度压缩（FP16/INT8 通信）、增大 batch size 摊薄通信比例
TP 通信：每个 transformer 层需要 2 次 AllReduce（attention + FFN），延迟累积显著

2. Pipeline 气泡（PP 并行）：

1F1B 调度下，气泡率 = (p-1) / (p-1+m)，p=stage 数，m=micro-batch 数
4 stage 16 micro-batch：气泡率 = 3/19 ≈ 16%
缓解：增加 micro-batch 数、interleaved schedule（Megatron-LM 的虚拟 pipeline stage）、zero bubble PP

3. 显存限制：

4. 数据 IO 瓶颈：

5. 容错性与稳定性：

6. 负载不均衡：

量化导致精度下降（掉点）是常见问题，需要系统化排查定位根因并针对性解决：

Step 1: 逐层敏感度分析（定位问题层）：

Step 2: 检查分布异常（Outlier 问题）：

Step 3: 提升量化粒度：

Step 4: 检查校准数据：

Step 5: 混合精度策略：

Step 6: 升级量化算法：

实践经验：INT8 量化通常不需要特殊处理（PPL 上升 <0.1）；INT4 量化需要使用 GPTQ/AWQ + per-group 才能保证质量（PPL 上升 <0.5）；更激进的 INT2/INT3 通常需要 QAT。

（编程题）