阿里巴巴 云 AI Infra 二面
Q: 什么是交叉熵?
交叉熵H(p,q) = -Σ p(x)log(q(x))衡量真实分布p与预测分布q的差异。在分类中p为one-hot标签,退化为-log(q_y)。值越小表示预测越准确。信息论意义:用分布q编码分布p中采样的数据所需的平均比特数。
Q: vLLM有哪些优化技术?
- PagedAttention:KV Cache分页管理,消除内存碎片。
- Continuous Batching:请求完成立即退出,新请求随时加入。
- Prefix Caching:相同前缀的请求共享KV Cache。
- Chunked Prefill:长prompt分块处理避免阻塞decode。
- Speculative Decoding:投机解码加速生成。
- 量化支持:GPTQ/AWQ/FP8等多种量化格式。
- Tensor Parallelism:多卡推理支持。
- CUDA Graph:减少kernel launch开销。
Q: Logistic回归的模型原理和Loss?
原理:线性模型的输出经sigmoid函数映射到(0,1)概率区间:P(y=1|x) = σ(w^Tx + b) = 1/(1+exp(-(w^Tx+b)))。
Loss:二元交叉熵(Binary Cross Entropy):L = -[y*log(p) + (1-y)*log(1-p)]。等价于最大似然估计。梯度形式简洁:∂L/∂w = (p-y)*x。
Q: 给定时间序列,如何通过机器学习筛选重要特征并进行建模?
特征工程:提取统计特征(均值/方差/趋势/周期性)、滑动窗口特征、频域特征(FFT)、差分特征。
特征选择:
- 相关性分析(Pearson/Spearman)。
- 基于树模型的特征重要性(XGBoost/LightGBM feature importance)。
- L1正则化(Lasso)自动稀疏选择。
- 递归特征消除(RFE)。
基于规则建模:筛选出重要特征后,设定阈值/组合条件构建规则引擎,结合领域知识定义告警/决策逻辑。
Q: DeepSeek-MTP是用在训练阶段还是推理阶段?具体过程?
MTP(Multi-Token Prediction)训练时使用,推理时可选择性使用。
训练过程:在标准next-token prediction基础上,增加额外的预测头(共享backbone特征),同时预测未来多个token(如2-4个)。多个头的loss加权求和作为训练目标。
推理中的应用:MTP训练的额外预测头可作为Speculative Decoding的draft head,以近零额外成本生成草稿token,主模型验证后加速生成。
Q: 如何通过Agent方法训练一个金融领域的Coder模型?
- 数据收集:用Agent从金融开源项目、量化策略库、API文档中收集代码和文档。
- 数据生成:Agent自动生成金融编程任务(如”写一个动量策略”)及参考答案。
- SFT:用收集和生成的金融代码数据微调base模型。
- RLHF/RLAIF:Agent执行生成的代码验证正确性,以执行结果作为奖励信号进行RL训练。
- 迭代优化:Agent评估模型输出,发现薄弱领域,补充训练数据,循环改进。