Omni-Modal: AR vs DiT

导言

全模态大模型(Omnimodal Large Models, OLMs),以下简称Omni模型,有时也称之为“端到端多模态大模型”。 它主要解决的文本、图片、语音多模态理解与实时交互的协同问题(图片修改),最新的研究也会涉及统一推理和图像生成。

当前多模态设计中AR和DiT的组合关系,单独学习一下

Read more