Posted 2025-12-04Updated 2025-12-06AI8 minutes read (About 1264 words)

vllm-omni

导言

vllm专门为了多模态单独推出了推理框架vllm-omni，调研一下

vLLM-Omni 是一个面向全模态（Omni-modality）模型推理与服务的框架，旨在为用户提供简单、快速、低成本的多模态模型部署方案。它扩展了原生 vLLM 对文本生成的支持，覆盖文本、图像、视频、音频等多模态数据处理，并支持 DiT 等非自回归架构，实现异构输出（如多模态内容生成）。

核心设计

解耦式流水线：分阶段动态分配资源，实现高吞吐与低延迟：[^4]

模态编码器（Modality Encoders）：负责高效地把多模态输入编码成向量或中间表示，例如 ViT 视觉编码器、Whisper 等语音编码器。
LLM 核心（LLM Core）：基于 vLLM 的自回归文本 / 隐藏状态生成部分，可以是一个或多个语言模型，用于思考、规划和多轮对话。
模态生成器（Modality Generators）：用于生成图片、音频或视频的解码头，例如 DiT 等扩散模型。

这些组件并不是简单串联，而是通过 vLLM-Omni 的管线调度在不同 GPU / 节点间协同工作。对于工程团队来说，这意味着：

可以针对不同阶段单独做扩缩容和部署拓扑设计；
可以根据业务瓶颈（如图像生成 vs 文本推理）调整资源分配；
可以在不破坏整体架构的前提下替换局部组件（例如切换为新的视觉编码器）。

核心优势

高性能[^4]
1. 继承 vLLM 的高效 KV 缓存管理，优化自回归任务性能
2. 通过流水线阶段执行重叠提升吞吐量
3. 基于 OmniConnector 的动态资源分配与解耦架构
易用性与灵活性
1. 异构流水线抽象管理复杂模型工作流
2. 无缝集成 Hugging Face 模型库
3. 支持分布式推理（张量/流水线/数据/专家并行）
4. 提供流式输出与 OpenAI 兼容 API

性能收益

相对于transformers推理有 3.5x ~ 4.9x的提升。[^4]

支持模型

文档说明链接

Omni-modality models (e.g. Qwen2.5-Omni, Qwen3-Omni)
Multi-modality generation models (e.g. Qwen-Image)

架构设计

Vllm-omni将从现有的vLLM框架中导入核心模块（LLM），并引入几个新的组件（DiT）和修改（调度器）以实现其目标。核心架构将基于模块化设计，允许独立开发和集成不同的模态处理程序和输出生成器。

Qwen-omni

Qwen-Image

RoadMap

规划模型

Omini类：LongCat-Flash-Omni， Bagel
生成模型 wan，HunyuanImage-3.0
理解模型 Qwen3vl 还没规划

配套支持

NPU

文档是说是能原生支持的^3, 但是上手实测还是跑不通，issue

VeRL+vllm omni

一方面, VeRL还不支持Qwen-Omni系列^1, 主要难点在支持音频, 相关PR^2
另一方面，VeRL能不能无缝的从vllm后端切换到vllm-omni后端
最后，本身就跑不通，更不用说接VeRL了。

TODO: 可以拉PR看能不能切换到vllm-omni

代码走读

以qwenImage为例子 vllm-omni\examples\offline_inference\qwen_image\text_to_image.py

from vllm_omni.entrypoints.omni import Omni

omni = Omni(
        model=args.model,
        vae_use_slicing=vae_use_slicing,
        vae_use_tiling=vae_use_tiling,
)
images = omni.generate(
      args.prompt,
      height=args.height,
      width=args.width,
      generator=generator,
      true_cfg_scale=args.cfg_scale,
      num_inference_steps=args.num_inference_steps,
      num_images_per_prompt=args.num_images_per_prompt,
      num_outputs_per_prompt=args.num_images_per_prompt,
)

类似xxx=LLM()的接口

TODO：如何和设计耦合的

新模型接入

以QwenImage的主PR为例

文件太多了，没跑通前，太难看了。

性能实测

如何获得解耦流水线收益

profiling

参考文献

[^4]: Announcing vLLM-Omni: Easy, Fast, and Cheap Omni-Modality Model Serving

vllm-omni

http://icarus.shaojiemike.top/2025/12/04/Work/Artificial Intelligence/framework/vllm/vllm-omni/

Author

Shaojie Tan

Posted on

2025-12-04

Updated on

2025-12-06

Licensed under

#vllm inference

Afdian.net Alipay

Buy me a coffee Patreon Wechat

vllm-omni

核心设计

核心优势

性能收益

支持模型

架构设计

Qwen-omni

Qwen-Image

RoadMap

规划模型

配套支持

NPU

VeRL+vllm omni

代码走读

新模型接入

性能实测

如何获得解耦流水线收益

参考文献

Author

Posted on

Updated on

Licensed under

Like this article? Support the author with

Catalogue

Categories

Subscribe for updates

follow.it

Links

Recents

Archives

Tags