SHAOJIE'S BOOK

Posted 2026-07-03Updated 2026-07-03Artificial Intelligence28 minutes read (About 4172 words)

导言

Scaling Law 不只是“模型越大越好”的经验总结，而是一套算力预算分配语言：在固定训练预算下，参数量、训练数据、序列长度和训练时长互相竞争；在固定推理预算下，模型大小、生成 token、采样策略、工具调用和 agent rollout 也互相竞争。本文只记录论文中可追溯的公开披露；没有披露的数据明确标为“未披露”，不从参数规模反推训练成本。

Categories

Subscribe for updates

follow.it

Links

Recents

Archives

Tags