对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
本文通过对Cloudflare的创立故事及其招股书中两个双轮...
打不掉! 因为东风41发射前要注入坐标,是打固定目标的。 考...
任何东西都是为了满足特定需求而存在的,所以才有一句名言叫存在...
本来是随意写写的文章,原想删掉。 但是收到了这么多夸奖和认可...
goroutine 这个号称最适合开发网络应用的东西用在客户...
macOS漂亮是漂亮,但是并没有GNU/Linux流畅啊。 ...