泰国如何做网站推广,网站建设安全规范,wordpress 模板 小工具,电子商务网站建设侧重点一、指令延迟隐藏
1. 延迟和延迟隐藏
指令延迟指计算指令从调度到指令完成所需的时钟周期如果在每个时钟周期都有就绪的线程束可以被执行#xff0c;此时GPU处于满符合状态指令延迟被GPU满负荷计算状态所掩盖的现象称为延迟隐藏延迟隐藏对GPU编程开发很重要#xff0c;GPU设…一、指令延迟隐藏
1. 延迟和延迟隐藏
指令延迟指计算指令从调度到指令完成所需的时钟周期如果在每个时钟周期都有就绪的线程束可以被执行此时GPU处于满符合状态指令延迟被GPU满负荷计算状态所掩盖的现象称为延迟隐藏延迟隐藏对GPU编程开发很重要GPU设计目标是处理大量但是轻量级的线程函数如何计算满足延迟隐藏所需要的线程束数量 2. 指令分类
GPU指令分为算术运算指令、内存访问指令算术运算指令延迟指从开始运算到得到计算结果的时钟周期通常为10~20个时钟周期内存访问指令延迟指从命令发出到数据到达目的地的时钟周期通常为400~800个时钟周期
二、算术运算指令并行性需求
1. 并行性需求概念
使GPU保持满负荷运行时所需的指令操作的数量算术运算指令并行性需求由隐藏算术运算指令延迟所需的操作数operations衡量 线程束中线程执行相同的指令 instruction执行32个操作opeartion需要640/32个线程束才能满足算术运算指令的并行性需求提升并行性方法线程中更多的独立指令更多的并发线程
https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#maximize-instruction-throughput