SHAOJIE'S BOOK

Posted 2022-01-23Updated 2026-03-04Architecture4 minutes read (About 572 words)

Nvidia Arch : Ampere & Hopper & Pascal

基本概念

GPU Processing Clusters (GPCs),

Texture Processing Clusters (TPCs),

Streaming Multiprocessors (SMs)

CUDA cores: basic integer/floating point arithmetic – high throughput, low latency
Load/Store (LD/ST): issues memory accesses to appropriate controller – possibly high latency
Special Function Unit (SFU): trigonometric math functions, etc – reduced throughput
special tensor cores (Since Turing and Volta): have specialized matrix arithmetic capabilities

H100

GH100

上面两张图组成一个SM，Special Function Units (SFUs)

P40

GP102

图中红框是一个SM

A100

GA100

RTX 3090

10496个流处理器，核心加速频率1.70GHz，384-bit 24GB GDDR6X显存。

GA102

在之前的GA100大核心中，每组SM是64个INT32单元、64个FP32单元及32个FP64单元组成的，但在GA102核心中，FP64单元大幅减少，增加了RT Core，Tensor Core也略微减少。

游戏卡与专业卡的区别

应用方面不同
1. 游戏卡会对三维图像处理有特殊处理，有光线追踪单元
2. 专业计算卡，可能对某些格式的解压压缩有特殊单元，或者对半精度计算有特殊支持。
做工不同
1. 专业卡由于在服务器上24小时不同工作，在多相供电，散热都堆料处理，游戏卡不同(公版，非公版肯定不一样)
驱动不同
1. 游戏卡对应游戏软件的优化驱动，专业卡有对专业软件的驱动支持
价格不同
1. 专业卡贵4倍不止。
参数的不同，对于同一颗核心（以RTX3090与A100 40G举例）
1. A100的GA100是8块完整的，GA102是7块。
2. A100领先的地方
  1. 堆料完爆对手
  2. 显存往往更多，AI应用
  3. 访存更快
  4. 支持 High bandwidth memory (HBM)
  5. 在多精度和半精度有优势（NVIDIA A100 SXM4 40 GB VS.NVIDIA GeForce RTX 3090）
3. RTX3090领先的地方
  1. 频率更高
  2. 有视频输出接口，支持OpenGL，DirectX
  3. 有RT core 光追

参考文献

https://zhuanlan.zhihu.com/p/394352476

Posted 2021-08-03Updated 2026-03-04Architecture10 minutes read (About 1495 words)

CPU vs GPU

GPU vs CPU

CPU: latency-oriented design

低延时的设计思路

large L1 caches to reduce the average latency of data
时钟周期的频率是非常高的，达到3-4GHz
Instruction-level parallelism to compute partial results ahead of time to further reduce latency
1. 当程序含有多个分支的时候，它通过提供分支预测的能力来降低延时。
2. 数据转发。当一些指令依赖前面的指令结果时，数据转发的逻辑控制单元决定这些指令在pipeline中的位置并且尽可能快的转发一个指令的结果给后续的指令。

相比之下计算能力只是CPU很小的一部分。擅长逻辑控制，串行的运算。

GPU: throughput-oriented design

大吞吐量设计思路

GPU采用了数量众多的计算单元和超长的流水线
但只有非常简单的控制逻辑
几乎省去了Cache。缓存的目的不是保存后面需要访问的数据的，减少cache miss。这点和CPU不同，而是为thread提高服务的。
GPU “over-subscribed” threads： GPU运行任务会启动远超物理核数的thread，原因是借助极小的上下文切换开销，GPU能通过快速切换Threads/warps来隐藏访存延迟。
1. GPU线程的创建与调度使用硬件而不是操作系统，速度很快（PowerPC创建线程需要37万个周期）[^1]
2. Cost to switch between warps allocated to a warp scheduler is 0 cycles and can happen every cycle.[^2]

对带宽大的密集计算并行性能出众，擅长的是大规模并发计算。

对比项	CPU	GPU	说明
Cache, local memory	多		低延时
Threads(线程数)		多
Registers		多	多寄存器可以支持非常多的Thread,thread需要用到register,thread数目大，register也必须得跟着很大才行。
SIMD Unit		多	单指令多数据流,以同步方式，在同一时间内执行同一条指令

DRAM vs GDRAM

其实最早用在显卡上的DDR颗粒与用在内存上的DDR颗粒仍然是一样的。后来由于GPU特殊的需要，显存颗粒与内存颗粒开始分道扬镳，这其中包括了几方面的因素：

GPU需要比CPU更高的带宽 GPU不像CPU那样有大容量二三级缓存，GPU与显存之间的数据交换远比CPU频繁，而且大多都是突发性的数据流，因此GPU比CPU更加渴望得到更高的显存带宽支持。位宽×频率=带宽，因此提高带宽的方法就是增加位宽和提高频率，但GPU对于位宽和频率的需求还有其它的因素。
显卡需要高位宽的显存显卡PCB空间是有限的，在有限的空间内如何合理的安排显存颗粒，无论高中低端显卡都面临这个问题。从布线、成本、性能等多种角度来看，显存都需要达到更高的位宽。 3090是384位。而内存则没有那么多要求，多年来内存条都是64bit，所以单颗内存颗粒没必要设计成高位宽，只要提高容量就行了，所以位宽一直维持在4/8bit。
显卡能让显存达到更高的频率显存颗粒与GPU配套使用时，一般都经过专门的设计和优化，而不像内存那样有太多顾忌。GPU的显存控制器比CPU或北桥内存控制器性能优异，而且显卡PCB可以随意的进行优化，因此显存一般都能达到更高的频率。而内存受到内存PCB、主板走线、北桥CPU得诸多因素的限制很难冲击高频率。由此算来，显存与内存“分家”既是意料之外，又是情理之中的事情了。为了更好地满足显卡GPU的特殊要求，一些厂商(如三星等)推出了专门为图形系统设计的高速DDR显存，称为“Graphics Double Data Rate DRAM”，也就是我们现在常见的GDDR。