Posted 2025-11-26Updated 2026-02-21Programming3 minutes read (About 510 words)

Pytorch 8 ：Hyperparameter

导言

learning rate、clip_norm、梯度累计、micro bs 这些通用超参，应该如何调整。

每步有效更新率

卡数变多，调整超参，是为了保证每步更新稳定，且避免陷入局部极值。

Global Batch Size (GBS)=DP×micro_batch×grad_accum (训练动力学只看 GBS，而不是你是用多卡还是累计。)
更新步长 = 学习率乘以梯度（Δ𝜃=𝐿𝑅⋅𝑔）

变化：

卡数增加，想保持训练效果一致，GBS就不变，梯度累计变小；
GBS增大，梯度会更平滑，grad_norm会变小，clip_norm会更难触发。

for step in range(total_steps):

    optimizer.zero_grad()

    for i in range(grad_accum):
        x = get_batch(micro_batch)  # 每卡8个样本
        loss = model(x)
        loss = loss / grad_accum    # 防止梯度变大
        loss.backward()

    optimizer.step()

BS

理论基础：为什么 batch 大了 loss 更平滑？

梯度可以写成：

$$
g = \nabla L(\theta) + \epsilon
$$

其中 ε 是噪声。

小 batch → ε 大 → 曲线抖动
大 batch → ε 小 → 曲线平滑

但注意：

平滑 ≠ 收敛更快
平滑 ≠ 泛化更好

大 batch 实际上更“确定性”，但可能更容易陷入 sharp minima。

LR

怎么缩放？核心有两种 scaling rule

随GBS线性增大

Linear Scaling Rule（最常用）来自 Goyal et al., 2017 (ResNet-50 1h 训练)

如果：

$$
B_{new} = k \times B_{old}
$$

则：

$$
LR_{new} = k \times LR_{old}
$$

适用条件：

SGD / AdamW
有 warmup
batch 不极端大

随GBS开更号增大

有理论分析认为：

梯度方差 ~ 1/B

稳定学习率应满足：

$$
LR \propto \sqrt{B}
$$

即：

$$
LR_{new} = LR_{old} \times \sqrt{k}
$$

这个更稳，不容易炸。

建议

实践经验：

规模	推荐策略
≤ 8 卡	不调 LR
8 → 64 卡	线性 scaling
64 → 512 卡	先 √ scaling，再试线性

因为：

Transformer 对 LR 极度敏感
AdamW 的 effective step size 会被 β2 影响
超大 batch 会进入 sharp minima 区域

Pytorch 8 ：Hyperparameter

http://icarus.shaojiemike.top/2025/11/26/Work/Artificial Intelligence/SoftwareFramework/Pytorch/pytorch8Hyperparameter/

Author

Shaojie Tan

Posted on

2025-11-26

Updated on

2026-02-21

Licensed under

#ai Pytorch

Afdian.net Alipay

Buy me a coffee Patreon Wechat

Pytorch 8 ：Hyperparameter

每步有效更新率

BS

LR

随GBS线性增大

随GBS开更号增大

建议

Author

Posted on

Updated on

Licensed under

Like this article? Support the author with

Categories

Subscribe for updates

follow.it

Links

Recents

Archives

Tags