导言
- SGLang , 24年1月开源,这是一个由 LMSYS Org 团队开发的、面向大语言模型(LLM)和视觉语言模型(VLM)的高性能、开源通用服务引擎。
- 性能更加惊艳。在运行 Llama 3.1 405B 时,它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM,甚至能达到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。
- 业界 xAI 的 Grok2 目前已采用 SGLang 作为其 LLM 推理引擎, 显著提升了分析信息和输出响应速度。Microsoft Azure 使用 SGLang。
[^1]