PyPTO

导言

  • 浦江现场性能优化时,原始 triton 的 GDN性能相对于H200的triton性能很差;
  • 接入了 Ascend C的若干GDN算子实现,提速了一倍;
  • 接入 mojo_opset 的 casual_conv1d; 或者 huawei-csl的 sglang的高性能 solve_tril 。性能又提升一波,但和竞品还是有差异。
  • 2012实验室对 PyPTO 有精细调优,现在想接入
Read more