SGLang

导言

  • SGLang , 24年1月开源,这是一个由 LMSYS Org 团队开发的、面向大语言模型(LLM)和视觉语言模型(VLM)的高性能、开源通用服务引擎。
  • 性能更加惊艳。在运行 Llama 3.1 405B 时,它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM,甚至能达到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。
  • 业界 xAI 的 Grok2 目前已采用 SGLang 作为其 LLM 推理引擎, 显著提升了分析信息和输出响应速度。Microsoft Azure 使用 SGLang。
Read more

DiffSynth & ms-swift

导言

DiffSynth-Studio 是由魔搭社区(ModelScope, 阿里2022年11月开源的模型社区)算法工程师段忠杰主导开发的开源扩散模型引擎,致力于构建统一的 Diffusion 模型生态。该项目支持多种主流文生图/文生视频模型(如 Stable Diffusion、可图、CogVideoX),并兼容 ControlNet、LoRA、IP-Adapter 等生态模型,显著提升中文场景下的生成能力。[^1]

ms-swift[^3]是魔搭社区提供的大模型与多模态大模型微调部署框架,现已支持600+纯文本大模型与300+多模态大模型的训练(预训练、微调、人类对齐)、推理、评测、量化与部署。

  • 其中大模型包括:Qwen3、Qwen3-Next、InternLM3、GLM4.5、Mistral、DeepSeek-R1、Llama4等模型,
  • 多模态大模型包括:Qwen3-VL、Qwen3-Omni、Llava、InternVL3.5、MiniCPM-V-4、Ovis2.5、GLM4.5-V、DeepSeek-VL2等模型。

除此之外,ms-swift汇集了最新的训练技术,包括集成

  • Megatron并行技术,包括TP、PP、CP、EP等为训练提供加速,
  • 以及众多GRPO算法族强化学习的算法,包括:GRPO、DAPO、GSPO、SAPO、CISPO、RLOO、Reinforce++等提升模型智能。
  • DPO、KTO、RM、CPO、SimPO、ORPO等偏好学习算法,
  • 以及Embedding、Reranker、序列分类任务。

ms-swift提供了大模型训练全链路的支持,包括使用

  • vLLM、SGLang和LMDeploy对推理、评测、部署模块提供加速,
  • 以及使用GPTQ、AWQ、BNB、FP8技术对大模型进行量化。
Read more

VeOmni

导言

VeOmni 是字节跳动与火山引擎联合研发的 统一多模态训练框架,核心目标是解决多模态模型(如 DiT、LLM、VLM、视频生成模型)训练中的碎片化问题,实现 “统一多模态、统一并行策略、统一算力底座”。其经过千卡级真实训练任务验证,支持从百亿级语言模型到 720P 视频生成模型的全流程训练。[^1]

Read more

Pip Cache

导言

VeRL场景开发时,安装包特别多和复杂:

  1. CANN
  2. torch\torch_npu
  3. vllm\vllm_ascend
  4. MindSpeed\megatron
  5. transformer

开发时还要pip install -e . 还要修改代码。

传统的思路是docker镜像或者conda打大包,但是这种包一个就是20GB+,但是这是商发时的策略,开发时即使只是修改一行,但是还是要重新出一个20GB大包。

思路是借助并加速pip的原子化构建:

  • 在内网服务器上建立一个pip包缓存站,
  • 不仅能缓存官方包,
  • 自己修改的代码包也能提交。
  • 最终实现,除了CANN安装,其余pip包,一行pip intall -r requirements.txt就行。
Read more

Training Data Usage

导言

论文中提及的数据训练,分数上涨和饱和的描述总结

Read more

Omni-Modal: AR vs DiT

导言

全模态大模型(Omnimodal Large Models, OLMs),以下简称Omni模型,有时也称之为“端到端多模态大模型”。 它主要解决的文本、图片、语音多模态理解与实时交互的协同问题(图片修改),最新的研究也会涉及统一推理和图像生成。

当前多模态设计中AR和DiT的组合关系,单独学习一下

Read more

vllm-omni

导言

vllm专门为了多模态单独推出了推理框架vllm-omni,调研一下

Read more

RL Algorithms: PPO-RLHF & GRPO-family

导言

  • RLHF 利用复杂的反馈回路,结合人工评估和奖励模型来指导人工智能的学习过程。(RLHF = 人类偏好数据 + Reward Model + RL(如 PPO), 所以RLHF是RL的一种实践方式)
  • 尽管DPO相对于PPO-RHLF更直接,但是(Reinforcement Learning from Verifiable Rewards (RLVR))往往效果更好;
  • 而RLVR算法在 2025年的GRPO提出后,其变种和应用范围迎来了井喷爆发。
  • 本文详细介绍 PPO、GRPO以及DAPO。

[^1]

必看好文[^2]

Read more