卓驭 AI Infra 校招 二面


Q: 自动驾驶行业的HPC需求有哪些?比如时延/吞吐/功耗如何权衡?

自动驾驶HPC系统面临的核心挑战:在严格功耗预算下,满足实时性和多传感器数据处理的双重需求。

核心需求详解

1. 严格时延要求(安全关键)

模块 端到端延迟要求 关键路径 后果
紧急制动感知 <50ms Camera→Detection→Control 延迟=生死
常规感知 <100ms Camera/LiDAR→3D检测→跟踪 影响规划质量
规划决策 <50ms 感知结果→路径规划→控制指令 影响行为合理性
定位 <20ms IMU+GNSS+Vision融合 影响所有下游
地图构建 <500ms LiDAR SLAM 可异步

时延预算分解(100ms总端到端):

  • 数据采集+传输:10-15ms(摄像头曝光+ISP+PCIe传输)
  • 预处理:5-10ms(去畸变、BEV投影)
  • 模型推理:40-60ms(检测/分割/预测)
  • 后处理+规划:15-25ms(NMS、跟踪匹配、路径规划)

2. 吞吐量需求(多传感器并行)

典型L4级自动驾驶传感器配置:

  • 摄像头:6-12路,2MP-8MP,30fps → 总数据率~3-10GB/s(原始数据)
  • LiDAR:1-3颗,10-20fps,每帧~150K点 → ~100MB/s
  • Radar:5-6颗,20fps → ~10MB/s
  • 总计算需求:200-1000 TOPS(INT8等效)

所有传感器需在一个帧周期(33ms@30fps)内完成处理,否则积压导致延迟。

3. 功耗约束(车载硬件限制)

平台 算力 功耗 能效比 典型应用
NVIDIA Orin 275 TOPS 60W 4.6 TOPS/W L2+/L4
NVIDIA Thor 2000 TOPS 120W 16.7 TOPS/W L4/L5
Tesla FSD Chip 144 TOPS 72W 2.0 TOPS/W L2+/L3
地平线J5 128 TOPS 30W 4.3 TOPS/W L2/L3
Mobileye EyeQ6H 176 TOPS 22W 8.0 TOPS/W L2/L3

车载计算域总功耗通常<200-400W(含散热冗余),单SOC需在30-120W内完成所有AI计算。相比之下,数据中心A100单卡功耗300W+。

权衡策略

时延 vs 吞吐

  • 安全关键路径(紧急制动):最低延迟优先,单帧独占计算资源,即使其他任务排队。
  • 非安全路径(地图更新、场景理解):允许2-3帧延迟,通过batch化提高吞吐。
  • 实现:优先级调度器,高优任务可抢占低优任务的GPU/NPU资源。

精度 vs 功耗

  • 白天/高速场景:INT8推理足够,功耗最低。
  • 夜晚/复杂场景:FP16推理保证检测精度(长尾case),功耗增加。
  • 实现:DVFS(动态频率电压调节)+场景自适应精度切换。

冗余 vs 功耗

  • 安全需要计算冗余(如双通道感知比较一致性)。
  • 但冗余意味着功耗和硬件成本翻倍。
  • 折中:主路径+轻量级验证路径(如用小模型做cross-check)。

异构计算策略

1
2
3
4
GPU/NPU (高算力): BEV感知模型推理、Transformer
DSP (低功耗): 预处理、图像增强、简单的CV操作
CPU (灵活): 规划算法、地图匹配、系统调度
专用加速器: 特定算子(如NMS、点云处理)

多个异构单元流水线协作,各自运行在最优频率,比单一高功耗GPU更节能。

与数据中心推理的核心差异

维度 车载推理 数据中心推理
功耗 <200W(散热约束) >1000W(液冷)
延迟 硬实时(miss=安全风险) 软实时(miss=体验下降)
可靠性 汽车级ASIL-D 服务器SLA
更新 OTA但保守 随时热更新
精度 INT8为主,关键用FP16 FP16/FP8为主
Batch 固定小batch(1-4) 动态大batch