SHAOJIE'S BOOK

Posted 2026-01-17Updated 2026-02-26Artificial Intelligence11 minutes read (About 1670 words)

260117 Step-3-VL 10B

导言

Step-3-VL 10B

Posted 2025-12-20Updated 2026-02-26Artificial Intelligence4 minutes read (About 595 words)

AI Model Memory

导言

大语言模型、多模态模型是如何设计来实现高效Mem机制。

Posted 2025-12-05Updated 2026-02-26Artificial Intelligence33 minutes read (About 5012 words)

World Model/UFMs/Omni-Modal: AR vs DiT

导言

视觉领域的GPT moment要来了吗？[^4]

World Model: (e.g., Emu3.5)
Unified Foundation Models, UFMs，强调视觉能力的闭环。证明模型能像“看懂”图片一样“画出”图片。(e.g.,Bagel, Lumina, Emu3.5)
Omni 强调交互能力的闭环。证明模型能像真人一样，具备实时、全感官的反应。图片生成暂时不是必须的(e.g.,Qwen-3-Omni、longcat-omni), 但是也能支持(e.g., Ming-Omni)

当前多模态设计中AR和DiT的组合关系，单独学习一下

Posted 2025-04-17Updated 2026-02-26Artificial Intelligence33 minutes read (About 4975 words)

Ideas around Vision-Language Models (VLMs) / Reasoning Models

导言

当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程，充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段，如先进行模态对齐的一阶段预训练，然后进行二阶段的参数微调。

排行榜:

Posted 2025-02-20Updated 2026-02-26Artificial Intelligence5 minutes read (About 763 words)

250217 Step-Video-T2V Reading & Porting

导言

阅读Step-Video-T2V代码（git id d3ca3d6），移植到昇腾。

Posted 2023-12-20Updated 2026-02-26Artificial Intelligence2 hours read (About 15134 words)

Ideas around T2I2V models

导言

当前主流的多模态生成模型（如图像生成text2image和视频生成text2video）主要采用Latent Stable Diffusion的方案框架。为了减少计算量，图像/视频等模态的数据（噪声）先经过VAE压缩得到Latent Vector，然后在文本信息的指导下进行去噪，最后生成符合预期的图像或视频。

排行榜: (T2I, ImageEdit, T2V, I2V, )

Vbench
lmarena
artificialanalysis
当前主流的多模态生成模型（如图像生成和视频生成）主要采用Latent Stable Diffusion的方案框架。为了减少计算量，图像/视频等模态的数据（噪声）先经过VAE压缩得到Latent Vector，然后在文本信息的指导下进行去噪，最后生成符合预期的图像或视频。
当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程，充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段，如先进行模态对齐的一阶段预训练，然后进行二阶段的参数微调。

Categories

Subscribe for updates

follow.it

Links

Recents

Archives

Tags