Posted 2023-12-18Updated 2026-02-26Artificial Intelligence3 minutes read (About 467 words)CV Model 导言 和AIGC 生图相关 Read more
Posted 2023-12-18Updated 2026-02-26Artificial Intelligence9 minutes read (About 1409 words)Inference Optimization 导言 训练由于要计算并更新梯度,一般是计算密集。但是推理一般是访存密集。 Read more
Posted 2023-12-18Updated 2026-02-26Artificial Intelligence27 minutes read (About 4004 words)AI Training Optimization 导言 训练由于要计算并更新梯度,一般是计算密集。但是推理一般是访存密集。 Read more
Posted 2023-12-18Updated 2026-02-26Artificial Intelligence7 minutes read (About 1090 words)[LLM]: DeekSeekV3 导言 本来在多模态组,结果被拉去优化TX的dspv3部署,还是要熟悉相关概念逻辑。 Read more
Posted 2023-12-18Updated 2026-02-26Artificial Intelligence22 minutes read (About 3340 words)LLM Model 导言 Foudation Models(One4All): General pre-training model LLM path ,generative-ai-for-beginners 排行榜: Artificial Analysis 价格智能比较 ARC-AGI(抽象与推理挑战)人工智能排行榜 lmarena Read more
导言 Foudation Models(One4All): General pre-training model LLM path ,generative-ai-for-beginners 排行榜: Artificial Analysis 价格智能比较 ARC-AGI(抽象与推理挑战)人工智能排行榜 lmarena
Posted 2023-12-18Updated 2026-02-26Artificial Intelligence14 minutes read (About 2139 words)LLM Model Basic 导言 LLM Prefill、decode、kvcache等概念 Read more
Posted 2023-12-18Updated 2026-02-26Artificial Intelligencean hour read (About 8696 words)Classical AI Models 导言 机器学习和人工智能模型算法,从一开始模仿神经元设计,到现在根据任务定制或者基于naive的思想构建(例如对抗思想、感受野、注意力机制)。模型的设计可以说是日新月异,截然不同。但是从高性能计算的角度来看,还是离不开求导操作、矩阵操作、激活函数计算这几点。剩下值得考虑的就是寻找现有或者未来模型构成计算操作的最大公约数,来对其进行特殊软硬件设计加速。或者只是对现有模型的适配加速工作。 Read more
导言 机器学习和人工智能模型算法,从一开始模仿神经元设计,到现在根据任务定制或者基于naive的思想构建(例如对抗思想、感受野、注意力机制)。模型的设计可以说是日新月异,截然不同。但是从高性能计算的角度来看,还是离不开求导操作、矩阵操作、激活函数计算这几点。剩下值得考虑的就是寻找现有或者未来模型构成计算操作的最大公约数,来对其进行特殊软硬件设计加速。或者只是对现有模型的适配加速工作。
Posted 2023-12-17Updated 2026-02-26Artificial Intelligence4 minutes read (About 544 words)Deploy OpenLLM to one A100 导言 Practice is the best teacher in learning. Read more
Posted 2023-09-26Updated 2026-02-26Artificial Intelligence3 hours read (About 22796 words)Introduction to AI and Machine Learning Basics 摘要 AI相关的基础知识。 可以参考华为昇腾架构师的博客。 Read more
Posted 2023-08-28Updated 2026-02-26Artificial Intelligence4 minutes read (About 578 words)AI Compiler百度秋招面试时遇到高铁柱前辈。问了相关的问题(对AI专业的人可能是基础知识) nvcc编译器不好用吗?为什么要开发tvm之类的编译器? 答:首先,nvcc是类似与gcc, msvc(Microsoft Visual C++) 之类的传统的编译器,支持的是CUDA C/C++ 代码。 但是tvm编译器是张量编译器,支持的是python之类的代码,将其中的网络设计,编译拆解成各种算子,然后使用cudnn或者特定硬件的高效机器码来执行。 蔚来 数字信号处理器 (Digital signal processor) HLO 简单理解为编译器 IR。 TVM介绍https://tvm.apache.org TVM解决的问题: 2017年,deploy Deep learning(TF,Pytorch) everywhere(hardware). Before TVM, 手动调优:loop tiling for locality. operator fusion 算子融合。虽然性能高,但是部署不高效 编译优化思路引入深度学习 定义了算子描述到部署空间的映射。核心是感知调度空间,并且实现compute/schedule 分离 TVM当前的发展 上层计算图表示:NNVM Relay Relax 底层优化方式:manual -> AutoTVM(schedule最优参数的搜索,基于AI的cost model) -> Ansor(也不再需要手动写AutoTVM模版,使用模版规则生成代码) TVM的额外工作 HeteroCL: TVM + FPGA output Fusion 减少Global Memory Copy 把中间算子库替换成编译器? 暂时不好支持张量 AI自动调整变化来调优 自动调参。缺点: 需要人工写模版 人工导致解空间变小 随机各级循环应用优化策略(并行,循环展开,向量化 介绍了Ansor效果很好 需要进一步的研究学习暂无 遇到的问题暂无 开题缘由、总结、反思、吐槽~~参考文献 无
2026-02-05The Mechanics of RL: How Inference Sampling Shapes the Probability LandscapeArtificial Intelligence