Posted 2025-12-05Updated 2025-12-06Artificial Intelligence7 minutes read (About 1021 words)

Omni-Modal: AR vs DiT

导言

全模态大模型（Omnimodal Large Models, OLMs），以下简称Omni模型，有时也称之为“端到端多模态大模型”。它主要解决的文本、图片、语音多模态理解与实时交互的协同问题(图片修改)，最新的研究也会涉及统一推理和图像生成。

当前多模态设计中AR和DiT的组合关系，单独学习一下

AR 和 DiT 的区别

Diffusion Transformer(DiT):在采样时间戳的控制下，利用随机潜在噪声初始化，变换器模型迭代地预测多个步骤的潜在输出。最后，由变分自动编码器 (VAE) 的解码器对其进行解码。vLLM不支持。^1
自回归(Autoregressive):文本的主导生成范式，vLLM支持。它生成令牌的条件在以前的令牌一个接一个。vLLM提供的高效KV缓存管理可以有效地加速推理。

特性	自回归（AR）	DiT（Diffusion-based Iterative Transformer）
场景	文本生成	多模态生成
生成方式	Token-by-token，从左到右	连续向量，迭代细化
主要优势	局部一致性好	全局一致性、多样性和可控制性强
效率	更高效的 KV 缓存	需要反复生成，速度较慢
误差累积	容易累积	可在后续迭代中修复
主要挑战	全局规划能力有限，长上下文生成困难	全局计算成本巨大
序列长度	可变长度	固定长度
注意力掩码	下三角形（因果掩码）	全双向矩阵
并行策略	TP, DP, PP 等	DP, CP 等
vLLM 支持	支持	不支持

广义的理解：AR可以给模型引入理解能力，DiT能给模型带来生成能力。所以两者不同的占比，带来了不同的模型设计：^1

用于图像生成和编辑的流行模型。主要的视觉生成模型与结构相似，如Flux。(例如: qwen-image)

一个统一的多模态理解和生成模型。视觉生成可以利用CoT文本生成输出。主要的统一多模态模型与结构相似。 (例如BAGEL)

多模态输入输出的新模型。它设计了thinker-talker-codec结构，该结构是双AR+DiT格式。(例如qwen-omni)

Omni-Modal: AR vs DiT

Shaojie Tan

2025-12-05

2025-12-06