后摩智能 AI Infra 实习

发表于 2026-04-16 更新于 2026-05-18 分类于求职面试，芯片/研究院面经

梯度下降是神经网络训练的核心优化算法：沿损失函数梯度的反方向更新参数，逐步逼近局部最小值。

更新规则：w = w - lr * dL/dw，其中 lr 是学习率，dL/dw 是损失 L 对参数 w 的偏导数。

链式法则（Chain Rule）：复合函数求导的基本工具。若 L = f(g(w))，则 dL/dw = dL/dg * dg/dw。多层网络中每层都是复合函数，梯度通过链式法则从输出层逐层传播回输入层。

反向传播（Backpropagation）就是链式法则的系统化应用：

PyTorch 的 Autograd：动态记录计算图（每个 tensor 操作形成一条 grad_fn 链），反向时自动遍历图执行链式法则。

ReLU 定义：f(x) = max(0, x) = { x, if x > 0; 0, if x <= 0 }

导数：

实践处理：定义 x=0 处导数为 0（或 1，或 0.5，不同框架可能不同，PyTorch 用 0）。这是次梯度（subgradient）的概念——对于凸函数在不可导点取次梯度集中的任一值即可。

为什么不影响训练：

ReLU 的问题：Dead ReLU——如果某些神经元输出始终 <0（梯度始终为 0），该神经元永远无法恢复。解决：LeakyReLU（x<0 时 f(x)=0.01x）、GELU/SiLU（平滑近似，无死区）。

标准公式：softmax(x_i) = exp(x_i) / sum_j(exp(x_j))

将任意实数向量映射为概率分布（所有元素 >0 且和为 1）。

溢出问题：

解决方案——Safe Softmax（减最大值）：

1 2	m = max(x) softmax(x_i) = exp(x_i - m) / sum_j(exp(x_j - m))

数学等价性证明：

1
2
3

exp(x_i - m) / sum(exp(x_j - m)) 
= exp(x_i) * exp(-m) / (sum(exp(x_j)) * exp(-m))
= exp(x_i) / sum(exp(x_j))

减去 max 后最大的指数变为 exp(0)=1，不会上溢；其他值变为负数的 exp，可能下溢为 0 但不影响结果（它们概率就应该接近 0）。

实现要点：需要两遍遍历（第一遍求 max，第二遍计算 exp 和 sum）。Online Softmax 优化为一遍同时维护 running max 和 running sum。