SHAOJIE'S BOOK

Posted 2028-01-03Updated 2026-07-23Artificial Intelligence23 minutes read (About 3458 words)

导言

模型训练建模不是先问“MFU 有多高”，而是先把模型结构、硬件账本、并行切分、调度路径和实测校准放到同一个估算器里。MFU 是其中最干净的计算口径：它把模型理论必需 FLOPs、设备峰值和实测步时连在一起；但显存能不能放下、通信会不会卡住、padding 是否浪费、EP/TP/SP 是否合适，必须另算。

Posted 2028-01-02Updated 2026-07-23Artificial Intelligence28 minutes read (About 4172 words)

Scaling Law

导言

Scaling Law 不只是“模型越大越好”的经验总结，而是一套算力预算分配语言：在固定训练预算下，参数量、训练数据、序列长度和训练时长互相竞争；在固定推理预算下，模型大小、生成 token、采样策略、工具调用和 agent rollout 也互相竞争。本文只记录论文中可追溯的公开披露；没有披露的数据明确标为“未披露”，不从参数规模反推训练成本。

Posted 2028-01-01Updated 2026-07-23Artificial Intelligence30 minutes read (About 4444 words)

Personal Advantage Workflow

导言

多局点、多任务、多角色同时推进时，真正稀缺的不是勤奋，而是 判断力、取舍能力和可复用记录。均匀响应所有任务只能保证不出明显纰漏，却很难形成个人优势；优势通常来自少数高风险、高杠杆、高不确定、强依赖的局点。

本文把工作链路整理成一个可执行系统：先识别重点风险局点，再拒绝低优先级任务；先快穿刺关键假设，再并行派活和紧跟踪；先用原理、显存、性能 MFU 和投产约束做建模，再用实践验证、详细记录和持续修正形成历史；最后把优势进展、后续风险和必要求助稳定汇报出去。

Posted 2027-12-31Updated 2026-07-23Artificial Intelligence19 minutes read (About 2832 words)

AI Documentation Workflow

导言

这篇文章记录我当前的 Work with AI 文档工作流：不是把一段 prompt 扔给模型、得到一篇孤立文章，而是把调研、来源管理、论文图表、正文插图、图片上传、Hugo 写作规范、可复用 skill 和 git 发布串成一个可验证的流水线。

这条流水线的关键变化来自 Karpathy 的 LLM Wiki 思路：把知识库视作一个由 LLM 维护的 Markdown 代码库。原始资料进入 raw 层，结构化理解进入 wiki 层，Hugo 文章只是最终发布层。这样每次写作都会沉淀可复用记忆，而不是从聊天记录里重新发明一次。

Posted 2027-03-15Updated 2026-07-23Overview14 minutes read (About 2036 words)

Building Large-Scale AI Systems on Ascend: Training, Inference, and Multimodal Optimization

导言

谭邵杰，中国科学技术大学本硕毕业，现任华为昇腾训练开发工程师，专注于 Ascend NPU 上的大模型训练推理框架优化、多模态模型迁移、分布式并行训练、RL 优化与量化推理加速。

AI 训练推理框架与异构加速优化工程师，长期聚焦 Ascend NPU 生态下的大模型训练、推理、多模态迁移、分布式并行、RL 训练与量化优化。

Posted 2026-07-23Updated 2026-07-23Artificial Intelligencean hour read (About 7295 words)

XTuner Memory Optimization

导言

“降低显存”不是一种动作。它可能是在减少对象大小、限制同时在途的对象数量、把对象搬到 CPU、缩短对象生命周期，也可能只是把 allocator 中未占用的缓存块归还给驱动。

本文固定到 XTuner 397b 分支 commit e949653，从一个第一次接触训练显存优化的读者视角，拆解原始清单中的 13 个技术点。每项都回答：大对象是什么、为什么形成峰值、执行时序怎样、数据流经过哪里、伪代码如何写、适用于什么条件，以及效果边界在哪里。

Posted 2026-07-23Updated 2026-07-23Artificial Intelligence10 minutes read (About 1473 words)

DeepSpeed Observability and Autotuning

导言

DeepSpeed 的五个观测工具不是重复功能：FLOPs Profiler 回答“理论计算在哪”，PyTorch Profiler 回答“时间实际花在哪”，Communication Logging 回答“哪类 collective 在拖慢”，Autotuning 回答“哪个配置在当前目标上更好”，Monitor 回答“实验长期发生了什么”。

Posted 2026-07-23Updated 2026-07-23Artificial Intelligence10 minutes read (About 1528 words)

DeepSpeed MoE and Model Compression

导言

MoE 和模型压缩看似方向相反：前者扩大总参数，后者缩小部署对象。它们实际都在重写“每个 token 访问哪些参数”。DeepSpeed-MoE/MoE Inference 管理稀疏路由和专家放置；Model Compression/MoQ 管理层、权重和精度的删减。

Posted 2026-07-23Updated 2026-07-23Artificial Intelligence12 minutes read (About 1812 words)

DeepSpeed I/O, Offload, and Asynchrony

导言

“异步”只说明调用可以提前返回，不说明后台工作一定能被隐藏。DeepNVMe、Ulysses-Offload、ZenFlow 和 DataStates 分别搬运参数/状态、Attention 工作集、优化器更新与 checkpoint；判断它们是否有效，必须同时检查前台关键路径和后台队列是否稳定。

Posted 2026-07-23Updated 2026-07-23Artificial Intelligence10 minutes read (About 1542 words)

DeepSpeed Communication Compression and Hiding

导言

通信优化只有两条基本路线：少传，或让传输不再暴露在关键路径。1-bit Adam/LAMB 与 0/1 Adam 属于前者，Domino 属于后者。前者改变数值算法，后者改变调度；两者的正确性风险和验收方式完全不同。

Categories

Subscribe for updates

follow.it

Links

Recents

Archives

Tags