阿里巴巴云 AI Infra 二面

发表于 2026-04-16 更新于 2026-05-18 分类于求职面试，大厂面经

交叉熵H(p,q) = -Σ p(x)log(q(x))衡量真实分布p与预测分布q的差异。在分类中p为one-hot标签，退化为-log(q_y)。值越小表示预测越准确。信息论意义：用分布q编码分布p中采样的数据所需的平均比特数。

原理：线性模型的输出经sigmoid函数映射到(0,1)概率区间：P(y=1|x) = σ(w^Tx + b) = 1/(1+exp(-(w^Tx+b)))。

Loss：二元交叉熵（Binary Cross Entropy）：L = -[y*log(p) + (1-y)*log(1-p)]。等价于最大似然估计。梯度形式简洁：∂L/∂w = (p-y)*x。

特征工程：提取统计特征（均值/方差/趋势/周期性）、滑动窗口特征、频域特征（FFT）、差分特征。

特征选择：

基于规则建模：筛选出重要特征后，设定阈值/组合条件构建规则引擎，结合领域知识定义告警/决策逻辑。

MTP（Multi-Token Prediction）训练时使用，推理时可选择性使用。

训练过程：在标准next-token prediction基础上，增加额外的预测头（共享backbone特征），同时预测未来多个token（如2-4个）。多个头的loss加权求和作为训练目标。

推理中的应用：MTP训练的额外预测头可作为Speculative Decoding的draft head，以近零额外成本生成草稿token，主模型验证后加速生成。