更多“对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,还需进行SIMD寄存器中几个元素的()操作才能得到结果矩阵的一个元素。”相关的问题
第1题
对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一个元素,这种说法是____。
点击查看答案
第2题
编写矩阵乘法的Neon程序,若矩阵元素为单精度浮点数,则应对矩阵乘—加计算的循环进行()路循环展开。
点击查看答案
第3题
采用划分子矩阵方法实现矩阵乘法,在进行SSE并行化时,是对(由外至内数)第____层循环进行循环展开然后向量化。
点击查看答案
第4题
对一个串行程序进行SIMD并行化,应重点考虑的程序部分是____。
A.声明语句
B.条件分支语句
C.循环语句
D.输入输出语句
点击查看答案
第5题
采用划分子矩阵技术优化矩阵乘法CUDA程序,主要思想是访存更多在____。
A.CPU内存
B.GPU显存
C.GPU共享内存
D.GPU寄存器
点击查看答案
第6题
采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加()前缀。
A._global_
B._device_
C._shared_
D._private_
点击查看答案
第7题
n个数求和的串行程序,通过一个循环将每个数累加到全局变量sum中,其多线程版本简单将循环范围改变为每个线程负载的范围,存在的问题是____。
A、负载不均
B、通信开销大
C、CPU空闲等待严重
D、sum累加产生竞争条件,导致结果错误
点击查看答案
第8题
两个矩阵相乘,若矩阵总规模小于cache大小,则优化访存的最佳方法是____。
A、先将两个矩阵读入cache再进行乘法
B、先转置第一个矩阵再进行乘法
C、先转置第二个矩阵再进行乘法
D、以上皆错
点击查看答案
第9题
对奇偶转置排序进行OpenMP并行化,第一种策略是直接对内层循环使用ompparallelfor指令,第二种策略是对外层循环使用ompparallel指令,对内层循环使用ompfor指令,后者相对于前者的优点是()。
A.保持了数据依赖
B.消除了大量线程创建、销毁开销
C.有利于负载均衡
D.减少了线程间交互
点击查看答案
第10题
单精度浮点数矩阵乘法进行AVX并行,期望的加速比为()。
点击查看答案