SHAOJIE'S BOOK

Posted 2024-12-23Updated 2026-03-04software4 minutes read (About 566 words)

Aarch64 CPU Benchmarks for Performance Degrade

导言

测试人员之前有台高性能的测试机器，未知原因坏了之后，他们修好之后，发现性能损失。推测是鲲鹏920的性能损失，为此需要：

通过benchmark证明性能损失。
定位并说明性能损失原因：1. 软件硬件？ 2. 硬件老化还是流片差异？
确定性能损失原因，并给出解决方案。

Posted 2022-03-12Updated 2026-03-04Architecture16 minutes read (About 2451 words)

AMD CPU

AMD history

超微半导体公司（英語：Advanced Micro Devices, Inc.；縮寫：AMD、超微，或譯「超威」），創立於1969年，是一家專注於微处理器及相關技術設計的跨国公司，总部位于美國加州舊金山灣區矽谷內的森尼韦尔市。

AMD EPYC 7452 32-Core Processor

由 AMD 于 2019 年年中设计和推出。是基于 Zen 2 微架构的多芯片处理器

> cat lscpu.txt              
Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                64
On-line CPU(s) list:   0-63
Thread(s) per core:    1
Core(s) per socket:    32
Socket(s):             2
NUMA node(s):          2
Vendor ID:             AuthenticAMD
CPU family:            23
Model:                 49
Model name:            AMD EPYC 7452 32-Core Processor
Stepping:              0
CPU MHz:               2345.724
BogoMIPS:              4691.44
Virtualization:        AMD-V
L1d cache:             32K
L1i cache:             32K
L2 cache:              512K
L3 cache:              16384K
NUMA node0 CPU(s):     0-31
NUMA node1 CPU(s):     32-63
Flags:               
(Intel) fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht 

(AMD)   syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm 

        constant_tsc art rep_good nopl nonstop_tsc extd_apicid aperfmperf eagerfpu 

(intel) pni pclmulqdq monitor ssse3 fma cx16 sse4_1 sse4_2 x2apic movbe popcnt aes xsave avx f16c rdrand 

(AMD)   lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt tce topoext perfctr_core perfctr_nb bpext perfctr_l2 

        cpb cat_l3 cdp_l3 hw_pstate sme retpoline_amd 

        ssbd ibrs ibpb stibp 

        vmmcall 

(intel) fsgsbase bmi1 avx2 smep bmi2 cqm rdt_a rdseed adx smap clflushopt clwb sha_ni 

        xsaveopt xsavec xgetbv1 

(intel) cqm_llc cqm_occup_llc cqm_mbm_total cqm_mbm_local 

(AMD)   clzero irperf xsaveerptr 

        arat 

(AMD)   npt lbrv svm_lock nrip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold avic v_vmsave_vmload vgif 

(intel) umip 

(AMD)   overflow_recov succor smca

CPU\Thread\Socket

CPU(s):64 = the number of logical cores = “Thread(s) per core” × “Core(s) per socket” × “Socket(s)” = 1 * 32 * 2
One socket is one physical CPU package (which occupies one socket on the motherboard);
each socket hosts a number of physical cores, and each core can run one or more threads.
In this case, you have two sockets, each containing a 32-core AMD EPYC 7452 CPU, and since that not supports hyper-threading, each core just run a thread.

CPU flags

Intel-defined CPU features, CPUID level 0x00000001 (edx)

fpu：板载 FPU（浮点支持）
vme：虚拟 8086 模式增强功能
de: 调试扩展 (CR4.DE)
pse：页表大小扩展（4MB 内存页表）
tsc：时间戳计数器（RDTSC）
msr：特定模型的寄存器（RDMSR、WRMSR）
pae：物理地址扩展（支持超过 4GB 的 RAM）
mce：机器检查异常
cx8：CMPXCHG8 指令（64 位比较和交换）
apic：板载 APIC(Advanced Programmable Interrupt Controller)
sep：SYS ENTER/SYS EXIT
mtrr：内存类型范围寄存器
pge：页表全局启用（PDE 和 PTE 中的全局位）
mca：机器检查架构
cmov：CMOV 指令（条件移动）（也称为 FCMOV）
pat：页表属性表
pse36：36 位 PSE（大页表）
pn：处理器序列号
clflush：缓存行刷新指令
mmx：多媒体扩展
fxsr: FXSAVE/FXRSTOR, CR4.OSFXSR #  enables Streaming SIMD Extensions (SSE) instructions and fast FPU save & restore.
sse：英特尔 SSE 矢量指令
sse2：sse2
ht：超线程和/或多核

没有使用到的

ss：CPU自监听
tm：自动时钟控制（Thermal Monitor）
ia64：英特尔安腾架构 64 位（不要与英特尔的 64 位 x86 架构混淆，标志为 x86-64 或由标志 lm 指示的“AMD64”位）
pbe：Pending Break Enable（PBE# 引脚）唤醒支持

AMD-defined CPU features, CPUID level 0x80000001

syscall: SYSCALL (Fast System Call) and SYSRET (Return From Fast System Call)
nx：执行禁用 # NX 位（不执行）是 CPU 中使用的一项技术，用于分隔内存区域，以供处理器指令（代码）存储或数据存储使用
mmxext: AMD MMX extensions
fxsr_opt: FXSAVE/FXRSTOR optimizations
pdpe1gb: One GB pages (allows hugepagesz=1G)
rdtscp: Read Time-Stamp Counter and Processor ID
lm: Long Mode (x86-64: amd64, also known as Intel 64, i.e. 64-bit capable)

没有使用到的

1
2
3

mp: Multiprocessing Capable.
3dnowext: AMD 3DNow! extensions
3dnow: 3DNow! (AMD vector instructions, competing with Intel's SSE1)

Other features, Linux-defined mapping(映射？)

constant_tsc：TSC(Time Stamp Counter) 以恒定速率滴答
art: Always-Running Timer
rep_good：rep 微码运行良好
nopl: The NOPL (0F 1F) instructions # NOPL is long-sized bytes "do nothing" operation
nonstop_tsc: TSC does not stop in C states
extd_apicid: has extended APICID (8 bits) (Advanced Programmable Interrupt Controller)
aperfmperf: APERFMPERF # On x86 hardware, APERF and MPERF are MSR registers that can provide feedback on current CPU frequency.
eagerfpu: Non lazy FPU restore

Intel-defined CPU features, CPUID level 0x00000001 (ecx)

pni: SSE-3 (“2004年,新内核Prescott New Instructions”)
pclmulqdq: 执行四字指令的无进位乘法 - GCM 的加速器）
monitor: Monitor/Mwait support (Intel SSE3 supplements)
ssse3：补充 SSE-3
fma：融合乘加
cx16: CMPXCHG16B # double-width compare-and-swap (DWCAS) implemented by instructions such as x86 CMPXCHG16B
sse4_1：SSE-4.1
sse4_2：SSE-4.2
x2apic: x2APIC
movbe：交换字节指令后移动数据
popcnt：返回设置为1指令的位数的计数（汉明权，即位计数）
aes/aes-ni：高级加密标准（新指令）
xsave：保存处理器扩展状态：还提供 XGETBY、XRSTOR、XSETBY
avx：高级矢量扩展
f16c：16 位 fp 转换 (CVT16)
rdrand：从硬件随机数生成器指令中读取随机数

More extended AMD flags: CPUID level 0x80000001, ecx

lahf_lm：在长模式下从标志 (LAHF) 加载 AH 并将 AH 存储到标志 (SAHF)
cmp_legacy：如果是,超线程无效
svm：“安全虚拟机”：AMD-V
extapic：扩展的 APIC 空间
cr8_legacy：32 位模式下的 CR8
abm：高级位操作
sse4a：SSE-4A
misalignsse：指示当一些旧的 SSE 指令对未对齐的数据进行操作时是否产生一般保护异常 (#GP)。还取决于 CR0 和对齐检查位
3dnowprefetch：3DNow预取指令
osvw：表示 OS Visible Workaround，它允许 OS 绕过处理器勘误表。
ibs：基于指令的采样
xop：扩展的 AVX 指令
skinit：SKINIT/STGI 指令 # x86虚拟化的系列指令
wdt：看门狗定时器
tce：翻译缓存扩展
topoext：拓扑扩展 CPUID 叶
perfctr_core：核心性能计数器扩展
perfctr_nb：NB 性能计数器扩展
bpext：数据断点扩展
perfctr_l2：L2 性能计数器扩展

辅助标志：Linux 定义 - 用于分散在各种 CPUID 级别的功能

cpb：AMD 核心性能提升
cat_l3：缓存分配技术L3
cdp_l3：代码和数据优先级 L3
hw_pstate：AMD HW-PSstate Hardware P-state
sme：AMD 安全内存加密
retpoline_amd：AMD Retpoline 缓解 # 防止被攻击的安全策略

Virtualization flags: Linux defined

1	vmmcall：比 VMCALL 更喜欢 VMMCALL

Intel-defined CPU features, CPUID level 0x00000007:0 (ebx)

fsgsbase：{RD/WR}{FS/GS}BASE 指令
bmi1：第一 组位操作扩展
avx2: AVX2 instructions
smep：主管模式执行保护
bmi2：第二 组位操作扩展
cqm：缓存 QoS 监控(Quality of Service )
rdt_a：资源总监技术分配
rdseed：RDSEED 指令,RDRAND 用于仅需要高质量随机数的应用程序
adx：ADCX 和 ADOX 指令
smap：超级用户模式访问保护
clflushopt：CLFLUSHOPT 指令, Optimized CLFLUSH，优化的缓存行刷回, 能够把指定缓存行（Cache Line）从所有级缓存中淘汰，若该缓存行中的数据被修改过，则将该数据写入主存；支持现状：目前主流处理器均支持该指令。
clwb: CLWB instruction （Cache Line Write Back，缓存行写回）作用与 CLFLUSHOPT 相似，但在将缓存行中的数据写回之后，该缓存行仍将呈现为未被修改过的状态；支持现状
sha_ni: SHA1/SHA256 Instruction Extensions

扩展状态功能，CPUID 级别 0x0000000d:1 (eax)

1
2
3

xsaveopt: Optimized XSAVE
xsavec: XSAVEC 使用压缩保存处理器扩展状态
xgetbv1: XGETBV with ECX = 1

Intel-defined CPU QoS sub-leaf, CPUID level 0x0000000F:0 (edx)

cqm_llc: LLC QoS # last level cache (LLC)
cqm_occup_llc: LLC occupancy monitoring #  Memory Bandwidth Monitoring (MBM)
cqm_mbm_total: LLC total MBM monitoring
cqm_mbm_local: LLC local MBM monitoring

AMD-defined CPU features, CPUID level 0x80000008 (ebx)

1
2
3

clzero：CLZERO 指令,随 Zen 微体系结构引入的 AMD 供应商特定 x86 指令。CLZERO 通过向行中的每个字节写入零来清除由 RAX 寄存器中的逻辑地址指定的缓存行。
irperf：指令退休性能计数器
xsaveerptr：始终保存/恢复 FP 错误指针

Thermal and Power Management leaf, CPUID level 0x00000006 (eax)

1	arat: Always Running APIC Timer

AMD SVM 特征识别，CPUID 级别 0x8000000a (edx)

npt：AMD 嵌套页表支持
lbrv：AMD LBR 虚拟化支持
svm_lock：AMD SVM 锁定 MSR
nrip_save：AMD SVM next_rip 保存
tsc_scale：AMD TSC 缩放支持
vmcb_clean：AMD VMCB 清洁位支持
flushbyasid：AMD 逐个 ASID 支持
解码辅助：AMD 解码辅助支持
pausefilter: AMD 过滤暂停拦截
pfthreshold：AMD 暂停过滤器阈值
avic：虚拟中断控制器
vmsave_vmload：虚拟 VMSAVE VMLOAD
vgif：虚拟 GIF

Intel-defined CPU features, CPUID level 0x00000007:0 (ecx)

1	umip：用户模式指令保护

AMD-defined CPU features, CPUID level 0x80000007 (ebx)

1
2
3

overflow_recov：MCA 溢出恢复支持 # Machine Check Architecture (MCA)
succor：不可纠正的错误控制和恢复
smca：可扩展的 MCA

不知道的flags

ssbd ibrs ibpb stibp

Processor P-states and C-states

英特尔处理器支持多种技术来优化功耗。在本文中，我们概述了 p 状态（运行期间电压和 CPU 频率的优化）和 c 状态（如果内核不必执行任何指令，则优化功耗）。

ADCX 和 ADOX

ADCX
将两个无符号整数加上进位，从进位标志中读取进位，并在必要时将其设置在那里。不影响进位以外的其他标志。
ADOX
将两个无符号整数加上进位，从溢出标志中读取进位，并在必要时将其设置在那里。不影响溢出以外的其他标志。

需要进一步的研究学习

暂无

遇到的问题

暂无

参考文献

https://unix.stackexchange.com/questions/43539/what-do-the-flags-in-proc-cpuinfo-mean

Posted 2021-08-03Updated 2026-03-04Architecture10 minutes read (About 1495 words)

CPU vs GPU

GPU vs CPU

CPU: latency-oriented design

低延时的设计思路

large L1 caches to reduce the average latency of data
时钟周期的频率是非常高的，达到3-4GHz
Instruction-level parallelism to compute partial results ahead of time to further reduce latency
1. 当程序含有多个分支的时候，它通过提供分支预测的能力来降低延时。
2. 数据转发。当一些指令依赖前面的指令结果时，数据转发的逻辑控制单元决定这些指令在pipeline中的位置并且尽可能快的转发一个指令的结果给后续的指令。

相比之下计算能力只是CPU很小的一部分。擅长逻辑控制，串行的运算。

GPU: throughput-oriented design

大吞吐量设计思路

GPU采用了数量众多的计算单元和超长的流水线
但只有非常简单的控制逻辑
几乎省去了Cache。缓存的目的不是保存后面需要访问的数据的，减少cache miss。这点和CPU不同，而是为thread提高服务的。
GPU “over-subscribed” threads： GPU运行任务会启动远超物理核数的thread，原因是借助极小的上下文切换开销，GPU能通过快速切换Threads/warps来隐藏访存延迟。
1. GPU线程的创建与调度使用硬件而不是操作系统，速度很快（PowerPC创建线程需要37万个周期）[^1]
2. Cost to switch between warps allocated to a warp scheduler is 0 cycles and can happen every cycle.[^2]

对带宽大的密集计算并行性能出众，擅长的是大规模并发计算。

对比项	CPU	GPU	说明
Cache, local memory	多		低延时
Threads(线程数)		多
Registers		多	多寄存器可以支持非常多的Thread,thread需要用到register,thread数目大，register也必须得跟着很大才行。
SIMD Unit		多	单指令多数据流,以同步方式，在同一时间内执行同一条指令

DRAM vs GDRAM

其实最早用在显卡上的DDR颗粒与用在内存上的DDR颗粒仍然是一样的。后来由于GPU特殊的需要，显存颗粒与内存颗粒开始分道扬镳，这其中包括了几方面的因素：

GPU需要比CPU更高的带宽 GPU不像CPU那样有大容量二三级缓存，GPU与显存之间的数据交换远比CPU频繁，而且大多都是突发性的数据流，因此GPU比CPU更加渴望得到更高的显存带宽支持。位宽×频率=带宽，因此提高带宽的方法就是增加位宽和提高频率，但GPU对于位宽和频率的需求还有其它的因素。
显卡需要高位宽的显存显卡PCB空间是有限的，在有限的空间内如何合理的安排显存颗粒，无论高中低端显卡都面临这个问题。从布线、成本、性能等多种角度来看，显存都需要达到更高的位宽。 3090是384位。而内存则没有那么多要求，多年来内存条都是64bit，所以单颗内存颗粒没必要设计成高位宽，只要提高容量就行了，所以位宽一直维持在4/8bit。
显卡能让显存达到更高的频率显存颗粒与GPU配套使用时，一般都经过专门的设计和优化，而不像内存那样有太多顾忌。GPU的显存控制器比CPU或北桥内存控制器性能优异，而且显卡PCB可以随意的进行优化，因此显存一般都能达到更高的频率。而内存受到内存PCB、主板走线、北桥CPU得诸多因素的限制很难冲击高频率。由此算来，显存与内存“分家”既是意料之外，又是情理之中的事情了。为了更好地满足显卡GPU的特殊要求，一些厂商(如三星等)推出了专门为图形系统设计的高速DDR显存，称为“Graphics Double Data Rate DRAM”，也就是我们现在常见的GDDR。

内存频率

1 2	sudo dmidecode\|grep -A16 "Memory Device"\|grep "Speed" Speed: 2666 MT/s

显存等效频率

因为显存可以在一个时钟周期内的上升沿和下降沿同时传送数据，所以显存的实际频率应该是标称频率的一半。

从GDDR5开始用两路传输，GDDR6采用四路传输(达到类似效果)。

GDDR6X的频率估计应该至少从16Gbps（GDDR6目前的极限）起跳，20Gbps为主，这样在同样的位宽下，带宽比目前常见的14Gbps GDDR6大一半。比如在常见的中高端显卡256bit～384位宽下能提供512GB/s～768GB/s的带宽。

RTX 3090的GDDR6X显存位宽384bit，等效频率19Gbps到21Gbps，带宽可达912GB/s到1006GB/s，达到T级。(384*19/8=912)

RTX 3090 加速频率 (GHz) 1.7, 基础频率 (GHz) 1.4

1 2	19/1.4 = 13.57 21/1.7 = 12.35

消费者设备 GDDR6x DDR4 的带宽对比

上一小节 RTX 3090 带宽在912GB/s到1006GB/s 附近
DRAM Types 一文里有分析，个人主机插满4条DDR4带宽” 3.2 Gbps * 64 bits * 2 / 8 = 51.2GB/s

可见两者差了20倍左右。

GPU / CPU workload preference

通过上面的例子，大致能知道：需要高访存带宽和高并行度的SIMD的应用适合分配在GPU上。

最佳并行线程数

$$ 144 SM * 4 warpScheduler/SM * 32 Threads/warps = 18432 $$

参考文献

https://zhuanlan.zhihu.com/p/156171120?utm_source=wechat_session

https://www.cnblogs.com/biglucky/p/4223565.html

https://www.zhihu.com/question/36825227/answer/69351247

https://baijiahao.baidu.com/s?id=1675253413370892973&wfr=spider&for=pc

https://zhuanlan.zhihu.com/p/62234511

https://kknews.cc/digital/x6v69xq.html

[^1]: 并行计算课程-CUDA 密码pa22

AMD history

AMD EPYC 7452 32-Core Processor

CPU\Thread\Socket

CPU flags

Intel-defined CPU features, CPUID level 0x00000001 (edx)

没有使用到的

AMD-defined CPU features, CPUID level 0x80000001

没有使用到的

Other features, Linux-defined mapping(映射？)

Intel-defined CPU features, CPUID level 0x00000001 (ecx)

More extended AMD flags: CPUID level 0x80000001, ecx

辅助标志：Linux 定义 - 用于分散在各种 CPUID 级别的功能

Virtualization flags: Linux defined

Intel-defined CPU features, CPUID level 0x00000007:0 (ebx)

扩展状态功能，CPUID 级别 0x0000000d:1 (eax)

Intel-defined CPU QoS sub-leaf, CPUID level 0x0000000F:0 (edx)

AMD-defined CPU features, CPUID level 0x80000008 (ebx)

Thermal and Power Management leaf, CPUID level 0x00000006 (eax)

AMD SVM 特征识别，CPUID 级别 0x8000000a (edx)

Intel-defined CPU features, CPUID level 0x00000007:0 (ecx)

AMD-defined CPU features, CPUID level 0x80000007 (ebx)

不知道的flags

Processor P-states and C-states

ADCX 和 ADOX

需要进一步的研究学习

遇到的问题

参考文献

GPU vs CPU

CPU: latency-oriented design

GPU: throughput-oriented design

DRAM vs GDRAM

内存频率

显存等效频率

消费者设备 GDDR6x DDR4 的带宽对比

GPU / CPU workload preference

最佳并行线程数

参考文献

Categories

Subscribe for updates

follow.it

Links

Recents

Archives

Tags