Category: Artificial Intelligence - SHAOJIE'S BOOK

Posted 2025-12-05Updated 2026-02-26Artificial Intelligence33 minutes read (About 5012 words)

World Model/UFMs/Omni-Modal: AR vs DiT

导言

视觉领域的GPT moment要来了吗？[^4]

World Model: (e.g., Emu3.5)
Unified Foundation Models, UFMs，强调视觉能力的闭环。证明模型能像“看懂”图片一样“画出”图片。(e.g.,Bagel, Lumina, Emu3.5)
Omni 强调交互能力的闭环。证明模型能像真人一样，具备实时、全感官的反应。图片生成暂时不是必须的(e.g.,Qwen-3-Omni、longcat-omni), 但是也能支持(e.g., Ming-Omni)

当前多模态设计中AR和DiT的组合关系，单独学习一下

Posted 2025-12-02Updated 2026-02-26Artificial Intelligence35 minutes read (About 5259 words)

导言

VeRL 作为RL领域趋势最火的开源仓，值得学习。

Posted 2025-12-02Updated 2026-02-26Artificial Intelligence9 minutes read (About 1410 words)

Fast Debug: VeRL example

导言

VeRL 基于ray的多进程管理，并结合推理、训练等多个阶段。其E2E时间组成和如何加速都是待研究的课题。

Posted 2025-11-25Updated 2026-02-26Artificial Intelligence40 minutes read (About 6024 words)

Train Stages: Pretrain, Mid-Train(CT), SFT, RL

导言

模型训练，为什么需要这么多阶段，每个阶段的独特职责和意义是什么。

Posted 2025-11-25Updated 2026-02-26Artificial Intelligencean hour read (About 9743 words)

RL Algorithms: PPO-RLHF & GRPO-family

导言

RLHF 利用复杂的反馈回路，结合人工评估和奖励模型来指导人工智能的学习过程。(RLHF = 人类偏好数据 + Reward Model + RL（如 PPO）, 所以RLHF是RL的一种实践方式)
尽管DPO相对于PPO-RHLF更直接，但是(Reinforcement Learning from Verifiable Rewards (RLVR))往往效果更好；
而RLVR算法在 2025年的GRPO提出后，其变种和应用范围迎来了井喷爆发。
本文详细介绍 PPO、GRPO以及DAPO。

[^1]

必看好文[^2]

Posted 2025-11-19Updated 2026-02-26Artificial Intelligence9 minutes read (About 1352 words)

RL Next: Meta-Learning

导言

背景问题：传统RL的算法和奖励都要特殊设计，并且不同领域迁移性很差；
想法: 能不能系统自己迭代产生适合的RL算法
构建一个能够表征广泛强化学习规则的搜索空间，让系统通过多代智能体在复杂环境中的交互经验，元学习（Meta-Learning）出最优的强化学习更新规则。[^1]

Posted 2025-11-19Updated 2026-02-26Artificial Intelligence3 hours read (About 29509 words)

Bridging the Gap: Challenges and Trends in Multimodal RL.

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点：

说实话有点头大
多模态理解模型的主体就是LLM，LLM的RL基本半年后会迁移到多模态理解上，所以我要跟踪LLM RL的文章
多模态生成模型的RL偏向DPO为主的另一条路子；
多模态还涉及agent、具身智能，RL又有些不同；
文章多到看得头大。

Posted 2025-04-17Updated 2026-02-26Artificial Intelligence33 minutes read (About 4975 words)

Ideas around Vision-Language Models (VLMs) / Reasoning Models

导言

当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程，充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段，如先进行模态对齐的一阶段预训练，然后进行二阶段的参数微调。

排行榜:

Posted 2025-03-19Updated 2026-02-26Artificial Intelligence27 minutes read (About 4054 words)

导言

vllm 的ray后端属实奇诡，ray stop有残留，flush打印被吞（虽然输出能标记ip，折叠重复，在master输出），ray集群的环境变量固定不变导致DP无法实现多机。

为此考虑使用torchrun实现多机并行。

看这篇，LLM实践：分布式训练框架的编程基础

写得太好了，由浅入深。

Posted 2025-02-27Updated 2026-02-26Artificial Intelligence12 minutes read (About 1735 words)

Next of My Ascend Career

导言

作为卖NPU AI加速卡的软件员工，目标是将昇腾的底层算力与上层多模态应用需求精准对接，释放昇腾AI算力，让客户看到NPU的性能、性价比、易用性、客户自身业务的使用需求。