SGLang

导言

  • SGLang , 24年1月开源,这是一个由 LMSYS Org 团队开发的、面向大语言模型(LLM)和视觉语言模型(VLM)的高性能、开源通用服务引擎。
  • 性能更加惊艳。在运行 Llama 3.1 405B 时,它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM,甚至能达到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。
  • 业界 xAI 的 Grok2 目前已采用 SGLang 作为其 LLM 推理引擎, 显著提升了分析信息和输出响应速度。Microsoft Azure 使用 SGLang。

LMSYS Org(Large Model Systems Organization)

简单来说,LMSYS Org 是一个由加州大学伯克利分校(UC Berkeley)、加州大学圣地亚哥分校(UCSD)和卡内基梅隆大学(CMU)合作创立的开放式研究组织。它的核心目标是让大型语言模型(LLM)变得对所有人都可访问,并致力于开发开放、可扩展的模型系统。

starts数

SGLang VS VLLM

  • vLLM 在模型支持和应用生态方面具有优势,而 SGLang 在推理性能优化表现相对出色(2x的推理速度)。[^1]
  • SGLang 性能相较 vllm 提升 10%~20% ^2

参考文献

[^1]: SGLang和vLLM 大模型推理引擎对比

Author

Shaojie Tan

Posted on

2025-12-11

Updated on

2025-12-13

Licensed under