导言
Divide the bulky and outdated content about cuda runtime env into individual posts, ensuring both the thematic integrity and a balanced size for each blog entry.
导言
Divide the bulky and outdated content about cuda runtime env into individual posts, ensuring both the thematic integrity and a balanced size for each blog entry.
导言
生产特殊的硬件:
常见的例子,用于并行计算的GPU, H265视频编解码单元, Google TPU芯片、车载芯片、手机AI芯片。
AI领域的至今不变的特点:
现在大火的transformer,除非它就是AGI的最理想模型,不然为一个模型专门定制硬件,很容易钱就打水漂了。为自己的算法模型定制一块AI芯片,如特斯拉。但应用面越窄,出货量就越低,摊在每颗芯片上的成本就越高,这反过来推高芯片价格,高价格进一步缩窄了市场,因此独立的AI芯片必须考虑尽可能适配多种算法模型。[^1]
当然,也可以从workload的应用出发,分析有什么重复的热点,值得做成专用的电路单元。
导言
当前主流的多模态生成模型(如图像生成text2image和视频生成text2video)主要采用Latent Stable Diffusion的方案框架。为了减少计算量,图像/视频等模态的数据(噪声)先经过VAE压缩得到Latent Vector,然后在文本信息的指导下进行去噪,最后生成符合预期的图像或视频。
排行榜:
当前主流的多模态生成模型(如图像生成和视频生成)主要采用Latent Stable Diffusion的方案框架。为了减少计算量,图像/视频等模态的数据(噪声)先经过VAE压缩得到Latent Vector,然后在文本信息的指导下进行去噪,最后生成符合预期的图像或视频。
当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。

Turing Machine & P versus NP problem
导言
在回顾数理逻辑的时候,又想起了NP问题,和NP完全的问题
导言
作为非AI从业者,而是(即将成为)HPC赋能AI的工作者。我一直在思考,我对AI模型的了解应该止步于什么程度?
从AI模型设计的有效性角度切入,应该是我的学习的Sweet Spot / tradeoff。
意义:明白哪些层和哪些参数是有效的,对于模型压缩(模型裁剪,权重剪枝)来说是必要。远比算子融合等带来的提升大。
有待了解的内容:
困惑:如何证明网络是学习或存储了真实世界的内在关联,而不只是通过增大了训练数据量和参数而存储了问题的答案。(使用测试集的准确度来量化)
AI的现状/困境:
1. AI研究人员,由**具体问题场景**出发,利用已有的工具或者特殊设计网络来**拟合/建模**问题,尝试提取不知名的隐含的特征到网络中,来解决这一类问题。
2. 明显的缺陷:就是不可重复性,缺乏一个模型来统一描述世界的问题,每个问题都要单独设计。
对象:transformer, gpt, stable diffusion(先看效果,在看是否成熟到值得学习,之前生成的多指图简直是精神污染), YOLO。
Deploy Stable Diffusion to A100
导言
导言
和AIGC 生图相关
导言
训练由于要计算并更新梯度,一般是计算密集。但是推理一般是访存密集。
导言
训练由于要计算并更新梯度,一般是计算密集。但是推理一般是访存密集。
导言
本来在多模态组,结果被拉去优化TX的dspv3部署,还是要熟悉相关概念逻辑。