Omni-Modal: AR vs DiT

导言

全模态大模型(Omnimodal Large Models, OLMs),以下简称Omni模型,有时也称之为“端到端多模态大模型”。 它主要解决的文本、图片、语音多模态理解与实时交互的协同问题(图片修改),最新的研究也会涉及统一推理和图像生成。

当前多模态设计中AR和DiT的组合关系,单独学习一下

AR 和 DiT 的区别

  • Diffusion Transformer(DiT):在采样时间戳的控制下,利用随机潜在噪声初始化,变换器模型迭代地预测多个步骤的潜在输出。最后,由变分自动编码器 (VAE) 的解码器对其进行解码。vLLM不支持。^1
  • 自回归(Autoregressive):文本的主导生成范式,vLLM支持。它生成令牌的条件在以前的令牌一个接一个。vLLM提供的高效KV缓存管理可以有效地加速推理。

特性 自回归(AR) DiT(Diffusion-based Iterative Transformer)
场景 文本生成 多模态生成
生成方式 Token-by-token,从左到右 连续向量,迭代细化
主要优势 局部一致性好 全局一致性、多样性和可控制性强
效率 更高效的 KV 缓存 需要反复生成,速度较慢
误差累积 容易累积 可在后续迭代中修复
主要挑战 全局规划能力有限,长上下文生成困难 全局计算成本巨大
序列长度 可变长度 固定长度
注意力掩码 下三角形(因果掩码) 全双向矩阵
并行策略 TP, DP, PP 等 DP, CP 等
vLLM 支持 支持 不支持

全模态模型的AR和DiT构成

广义的理解:AR可以给模型引入理解能力,DiT能给模型带来生成能力。所以两者不同的占比,带来了不同的模型设计:^1

DiT作为主要结构,AR作为文本编码器

用于图像生成和编辑的流行模型。主要的视觉生成模型与结构相似,如Flux。(例如: qwen-image)

AR作为主要结构,DiT作为多模式生成器

一个统一的多模态理解和生成模型。视觉生成可以利用CoT文本生成输出。主要的统一多模态模型与结构相似。 (例如BAGEL)

扩展,multi-AR + DiT

多模态输入输出的新模型。它设计了thinker-talker-codec结构,该结构是双AR+DiT格式。(例如qwen-omni)

参考文献

Author

Shaojie Tan

Posted on

2025-12-05

Updated on

2025-12-06

Licensed under