SHAOJIE'S BOOK

Posted 2023-09-07Updated 2026-03-04Tutorials7 minutes read (About 976 words)

GDB 基本命令

命令	描述
`next`	单步执行
`step`	单步进入
`finish` or `fin`	跳出当前函数
`continue`	继续执行到下一个断点
`until`	继续运行到指定位置

跳出当前函数 finish: Continue running until just after function in the selected stack frame returns. Print the returned value (if any).

运行带参数程序

gdb --args 正常程序+参数
进入gdb后运行 set args 参数

break断点

f 打印当前文件，便于打断点
info breakpoints 查看已经的断点
del 3 删除NUM=3的第三个断点

给某个结构体内的函数全部上break

1	rbreak file.cpp:.TemplateClass.

打印信息

参数 show args
局部变量 info locals
修改变量 p result=20
函数调用栈 bt

多线程

info threads
切换线程 thread 2
打印线程堆栈 thread apply all bt

代码信息

list # 代码，需要-g
info line
info source
where
disas # 汇编

结构体class

gef➤  p -raw-values off -- this->TotalCycles
gef➤  p this
$11 = (llvm::mca::SummaryView * const) 0x7fffffffcc08
gef➤  p *this

指针变量

二维指针 p **matrix@3@3
一维指针 p *matrix@3
或者转换为数组 p *(int *)matrix@3
或者转换为数组 p *(int (*)[3])matrix

数组

1 2	(gdb) p array[60]@10 $9 = {60, 61, 62, 63, 64, 65, 66, 67, 68, 69}

可以看到打印了array数组第60~69个元素的值。如果要打印从数组开头连续元素的值，也可使用这个命令：“p *array@num”：

1 2	(gdb) p *array@10 $2 = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

内存地址内容

examine 命令（简写是 x）

格式：x /nfu <addr>

说明：

x 是 examine 的缩写。
n 表示要显示的内存单元的个数。
f 表示显示方式，可取如下值：

显示方式	描述
`x`	按十六进制格式显示变量。
`d`	按十进制格式显示变量。
`u`	按无符号整型格式显示变量。
`o`	按八进制格式显示变量。
`t`	按二进制格式显示变量。
`a`	按十六进制格式显示变量。
`i`	指令地址格式。
`c`	按字符格式显示变量。
`f`	按浮点数格式显示变量。

u 表示一个地址单元的长度，长度类型如下：

类型	描述
`b`	单字节
`h`	双字节
`w`	四字节
`g`	八字节

example:

(gdb) x 0x8049948
0x8049948: 0x20726f46
(gdb) x/s 0x8049948
0x8049948: "For NASA,space is still a high priority."
(gdb) x/4 0x7fffe536dbc0 # display 4 bytes info?
0x7fffe536dbc0: 0x0     0x0     0x9d835 0x0

打印寄存器值（表格）

1
2
3

layout split
layout regs
tui reg general

GDB segmentation fault

段错误定位

# ulimit -c 显示核心转储文件大小的最大值
ulimit -c unlimited # 打开
ulimit -c 0         # 关闭

# 改变core存储位置 
#%e 打印线程name 
#%p 打印进程id 
#%h 打印主机名 
#%t 打印时间
echo '/tmp/core-%e.%p.%h.%t' > /proc/sys/kernel/core_pattern

c++程序

执行编译加入-g的SLIC程序，产生core文件

然后执行进gdb

1 2	gdb SLIC core.199048 bt

(gdb) bt
#0  0x00002af6047e4a4b in fgets () from /lib64/libc.so.6
#1  0x000000000040450a in LoadPPM (filename=0x407e63 "input_image.ppm", data=0x7ffecda55cc8, width=0x7ffecda55cc4, height=0x7ffecda55cc0) at SLIC_raw.cpp:692
#2  0x00000000004049e1 in main (argc=1, argv=0x7ffecda55de8) at SLIC_raw.cpp:794

python 程序

# add debug file for gdb
cd /compile_path/build
cp dbg/libtorch_npu.so.debug /path2conda/site-packages/torch_npu/lib
# gdb need the same python env
conda activate xxx
gdb python core_xxx
    # bt

问题

define内容难以解析

gef 界面

效果

会打印详细的信息

安装gef

需要GDB10以上

bash -c "$(curl -fsSL http://gef.blah.cat/sh)"

# 没有网，手动下 https://gef.blah.cat/py ，替换
$ wget -O ~/.gdbinit-gef.py -q https://gef.blah.cat/py
$ echo source ~/.gdbinit-gef.py >> ~/.gdbinit

注意：gdbtui 与 gef 不太兼容

开题缘由、总结、反思、吐槽~~

参考文献

Posted 2021-07-23Updated 2026-03-04Tutorials6 minutes read (About 890 words)

IPCC Preliminary SLIC Optimization 1

第一部分优化

从数据重用(不重复计算，降低计算量)、计算融合(减少访存次数)、循环重组、改变数据结构入手

数据重用

主体变量数据依赖梳理

一开始所有的RGB颜色在ubuff里，klabel存分类结果

首先经过转换，将ubuff的RGB转换为lvec avec bvec三个double[sz]数组
存在私有变量m_lvec m_avec m_bvec,供class内访问

优化建议：lab三种颜色存在一起，访问缓存连续

DoRGBtoLABConversion(ubuff, m_lvec, m_avec, m_bvec);

计算冗余一：

计算出的全体edges,只有一部分在后面一个地方用了196个中心以及周围8个节点。

优化建议：要用edges时再计算(保证了去除不必要计算和计算融合)

优化建议：kseedsl/a/b/x/y 分别用5个vector存是不好的，每个中心的5元组要存在一起，因为访问和修改都是一起的。

优化建议：

核心计算，是不是要拆开？
除以maxlab[n]，改成乘1/maxlab[n]
maxxy没有用，可以除去定义与数组维护（line 429）
disxy[i]也就可以不用数组

优化建议：

if判断用掩码
想将与每个像素i有关的属性放在一起，但是distvec要全部初始化。那我维护char*的passcheck数组判断是否已经遍历？未遍历直接赋值，已经遍历，比较后判断是否赋值。
对于2和并行化这个部分的问题：1.按照中心划分，存储每个点的距不同中心的距离，最后归约取最小。2. 并行还是按照坐标划分，判断在哪几个区域内，然后计算距离最小的)

优化建议：

对于求和部分labxy与1/clustersize??存在一起
这部分按坐标并行时，归约的是196个元素的最小值或者求和

vector 连续性

vector中的元素在内存中是连续存储的.

vector的实现是由一个动态数组构成. 当空间不够的时候, 采用类似于C语言的realloc函数重新分配空间. 正是因为vector中的元素是连续存储的, 所以vector支持常数时间内完成元素的随机访问. vector中的iterator属于Random Access Iterator.

cache缓存原理疑问

每级cache难道只存读取数据周围的所有地址数据吗？还是一块一块读的。

假如调度是一块一块读取的而且cache足够大存下时，对于m_lvec m_avec m_bvec，假如各读取同一块，会导致和将其存储在一起是一样的效果。对于m_lvec[i]的下一个元素m_lvec[i+1],m_avec[i+1],m_bvec[i+1]也在cache中。

chivier 建议

#pragma omp parallel for collapse(2)
icpc -xCOMMON-AVX512 -O3 -std=c++11 -qopenmp SLIC.cpp -o SLIC
g++ -fopenmp
先openMP优化，然后MPI一分为二
数据结构没有必要改，不会访存连续

minicoda for tmux zsh htop gcc9

pip install gdbgui to localhost

gdb tui enable

需要进一步的研究学习

暂无

遇到的问题

暂无

参考文献

无

Posted 2021-07-10Updated 2026-03-04Tutorialsa minute read (About 214 words)

IPCC Preliminary SLIC test

test on node5

1
2
3

g++ -std=c++11 SLIC.cpp -o SLIC
time ./SLIC
./SLIC  28.46s user 0.52s system 99% cpu 29.027 total

slic

test on amd_256

1 2	gcc 10.2.0 [1] 122955 segmentation fault (core dumped) ./SLIC

我傻逼了，我把cpp移动了，但是输入文件忘记动了

1
2
3

cat ./log/job_436960_rank0_fb0707_0.out
Computing time=21872 ms
There are 0 points' labels are different from original file.

要求

对slic.PerformSLICO_ForGivenK 函数运行时间进行通用优化
1. 首先是并行化处理
2. 读取时间不在计分范围
3. 可以优化编译选项
4. 可以改变数据结构与类型
需保证结果正确
之后有多组数据

需要进一步的研究学习

遇到的问题

北京超算的机器传文件只能用wincp,而且有时候不行，需要刷新缓存

GDB 基本命令

运行带参数程序

break断点

打印信息

多线程

代码信息

结构体class

指针变量

数组

内存地址内容

examine 命令（简写是 x）

打印寄存器值（表格）

GDB segmentation fault

问题

define内容难以解析

gef 界面

效果

安装gef

开题缘由、总结、反思、吐槽~~

参考文献

第一部分优化

数据重用

主体变量数据依赖梳理

vector 连续性

cache缓存原理疑问

chivier 建议

需要进一步的研究学习

遇到的问题

参考文献

test on node5

test on amd_256

要求

需要进一步的研究学习

遇到的问题

参考文献

Categories

Subscribe for updates

follow.it

Links

Recents

Archives

Tags