Ideas around Vision-Language Models (VLMs)
MLLM 概述
MLLM (Multimodal Large Language Model) = Multimodality Understanding + LLM (Large Language Model)^1
两分类
- 统一嵌入-解码器架构[^2]
- 使用单个解码器模型,很像 GPT-2 或 Llama 3.2 等未经修改的 LLM 架构。在这种方法中,图像被转换为与原始文本token具有相同嵌入大小的token,从而允许 LLM 在连接后同时处理文本和图像输入token。
- 跨模态注意力架构
- 采用交叉注意力机制,将图像和文本嵌入直接集成到注意力层中。

三组件:
- A pre-trained modality encoder
- The encoders compress raw information, such as images or audio, into a more compact representation.
- 视觉编码器与NLP中的Encoder类似,可以直接选择pre-train好的, 比如CLIP
- A pre-trained LLM
- A modality interface to connect them
- 考虑到以端到端方式训练大型多模态模型的成本很高,为了使用Pre-trained LLM和Pre-trained modality encoder,我们需要去设置一个模块,这个模块可以去将不同模态的经过encoder后的信息融合。
- Learnable Connector:通过learnable connector这个模块,可以将多模态信息融合成可以让LLM理解的信息。融合的模型可以根据融合的最小颗粒度划分:token-level和feature-level。
- feature-level fusion和token-level fusion的本质区别在于是否更改LLM或是ViT的内部结构:若是仅在两个组件之间增加一个额外的组件(例如Q-former)则是token-level fusion;若是更改了LLM或是ViT的内部结构,例如加入了额外的模态融合层,则是feature-level fusion。
- Expert Model:专家模型,例如image caption模型,可以将图片转化成描述文字,这样多模态的输入可以被转化成单模态的输入。由此只需要进行单一模态建模即可。
图文编码
- 图像编码(image encoder)等于文本的分词器(tokenizer)+嵌入层(Embedding layer)
- projector 有时也叫 adapter, adaptor, or connector,用于对齐图文的维度。

ViT
ViT(vision transformer)是Google在2020年提出的直接将transformer应用在图像分类的模型,后面很多的工作都是基于ViT进行改进的。
ViT的思路很简单:
- 直接把图像分成固定大小的patchs,然后通过线性变换得到patch embedding,这就类比NLP的words和word embedding,
- 由于transformer的输入就是a sequence of token embeddings,所以将图像的patch embeddings送入transformer后就能够进行特征提取从而分类了。
ViT模型原理如下图所示,其实ViT模型只是用了transformer的Encoder来提取特征(原始的transformer还有decoder部分,用于实现sequence to sequence,比如机器翻译)。
2407 InterlVL2 76B
上海人工智能实验室(上海AI实验室)联合清华大学、香港中文大学、商汤科技等机构开源新一代书生·视觉大模型(InternVL)。性能和Qwen属于同一水平。

2408 Qwen2 VL 72B
- 亮点:能处理各种分辨率和长宽比
- 技术要点:
- 引入了naive dynamic resolution技术,支持灵活处理不同分辨率的输入图像和视频
- 创新性地提出了多模态旋转位置编码(M-RoPE),这有助于实现更高效的跨模态信息融合,从而增强了模型对于文本和视觉数据的理解能力
- 构建了一个统一的图像和视频理解框架,其中图像被视作两个相同的帧来处理,以维持与视频处理逻辑的一致性
- 并采用3D tubes替代传统的2D patches方法,进一步提升了对长时间序列视觉内容的理解深度

2411 DeepSeek-VL2
- SigCLIP改进了CLIP的loss
参考文献
Ideas around Vision-Language Models (VLMs)
http://icarus.shaojiemike.top/2025/04/17/Work/Artificial Intelligence/Model/T2I2V/VLM/

