博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
CUDA实践指南(八)
阅读量:6281 次
发布时间:2019-06-22

本文共 1741 字,大约阅读时间需要 5 分钟。

优化CUDA应用程序:

在每轮应用程序并行化完成后,开发人员可以转向优化实施以提高性能。 由于可以考虑许多可能的优化,对应用程序的需求有充分的了解可以帮助尽可能平滑地实现流程。 但是,与APOD整体一样,程序优化是一个迭代过程(找出优化的机会,应用和测试优化,验证实现的加速并重复),这意味着程序员不需要花费大量 在看到很好的加速之前记住大部分可能的优化策略。 相反,策略可以在学习时逐步应用。
优化可以应用于各个层面,从重叠的数据传输和计算一直到精细调整浮点运算序列。 可用的分析工具对于指导此过程非常有用,因为它们可以帮助为开发人员的优化工作提供次佳的操作方法。
性能指标:
在尝试优化CUDA代码时,需要知道如何准确衡量性能并了解带宽在性能测量中的作用。 本章讨论如何使用CPU定时器和CUDA事件正确测量性能。 然后探讨带宽如何影响性能指标以及如何减轻它带来的一些挑战。
Timing:
CUDA调用和内核执行可以使用CPU或GPU定时器来定时。
用CPU计时器:
任何CPU计时器都可以用来测量CUDA调用或内核执行所用的时间。 各种CPU时序方法的细节超出了本文档的范围,但开发人员应始终注意其定时调用提供的分辨率。
在使用CPU定时器时,记住许多CUDA API函数是异步的,这一点很重要。 也就是说,他们在完成工作之前将控制权返回给调用CPU线程。 所有内核启动都是异步的,因为内存复制函数的名称上带有Async后缀。 因此,要准确测量某个特定调用或CUDA调用序列的运行时间,需要在启动和停止CPU计时器之前立即调用cudaDeviceSynchronize()来同步CPU线程与GPU。 cudaDeviceSynchronize()阻塞调用CPU线程,直到线程先前发出的所有CUDA调用都完成为止。
尽管也可以使CPU线程与GPU上的特定流或事件同步,但这些同步功能不适用于除默认流以外的流中的计时代码。 cudaStreamSynchronize()阻塞CPU线程,直到先前发送到给定流中的所有CUDA调用都完成为止。 cudaEventSynchronize()阻塞,直到GPU记录特定流中的给定事件。 由于驱动程序可能会交错执行来自其他非默认流的CUDA调用,因此其他流中的调用可能会包含在该时序中。
由于默认流0在设备上表现出序列化行为(默认流中的操作只有在任何流中的所有前面的调用都完成之后才能开始;并且任何流中的后续操作都不能开始,直到完成为止) 这些功能可以在默认流中可靠地用于定时。
CPU到GPU同步点意味着GPU处理流水线中存在停顿,因此应谨慎使用,以尽量减少其对性能的影响。
用GPU计时器:
CUDA事件API提供创建和销毁事件,记录事件(通过时间戳)以及将时间戳差异转换为浮点值(以毫秒为单位)的调用。 如何使用CUDA事件计时代码说明了它们的使用。

cudaEvent_t start, stop;float time;cudaEventCreate(&start);cudaEventCreate(&stop);cudaEventRecord( start, 0 );kernel<<
>> ( d_odata, d_idata, size_x, size_y,NUM_REPS);cudaEventRecord( stop, 0 );cudaEventSynchronize( stop );cudaEventElapsedTime( &time, start, stop );cudaEventDestroy( start );cudaEventDestroy( stop );

这里使用cudaEventRecord()将开始和停止事件放入默认流,即流0中。设备将在事件到达流中时记录该事件的时间戳。 cudaEventElapsedTime()函数返回记录开始和停止事件之间的时间间隔。 该值以毫秒为单位表示并具有大约半微秒的分辨率。 与本清单中的其他调用一样,它们的具体操作,参数和返回值在CUDA工具包参考手册中进行了描述。 请注意,时序是在GPU时钟上测量的,因此时序分辨率与操作系统无关。

转载地址:http://sriva.baihongyu.com/

你可能感兴趣的文章
定义内部类 继承 AsyncTask 来实现异步网络请求
查看>>
VC中怎么读取.txt文件
查看>>
如何清理mac系统垃圾
查看>>
企业中最佳虚拟机软件应用程序—Parallels Deskto
查看>>
Nginx配置文件详细说明
查看>>
怎么用Navicat Premium图标编辑器创建表
查看>>
Spring配置文件(2)配置方式
查看>>
MariaDB/Mysql 批量插入 批量更新
查看>>
ItelliJ IDEA开发工具使用—创建一个web项目
查看>>
solr-4.10.4部署到tomcat6
查看>>
切片键(Shard Keys)
查看>>
淘宝API-类目
查看>>
virtualbox 笔记
查看>>
Git 常用命令
查看>>
驰骋工作流引擎三种项目集成开发模式
查看>>
SUSE11修改主机名方法
查看>>
jdk6.0 + Tomcat6.0的简单jsp,Servlet,javabean的调试
查看>>
Android:apk签名
查看>>
2(2).选择排序_冒泡(双向循环链表)
查看>>
MySQL 索引 BST树、B树、B+树、B*树
查看>>