更多“对矩阵乘法串行程序的主体三重循环,我们选择最内层循环进行向量化的原因是____。”相关的问题
第1题
对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一个元素,这种说法是____。
点击查看答案
第2题
对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,还需进行SIMD寄存器中几个元素的()操作才能得到结果矩阵的一个元素。
点击查看答案
第3题
编写矩阵乘法的SSE程序,若矩阵元素为单精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。
点击查看答案
第4题
编写矩阵乘法的Neon程序,若矩阵元素为单精度浮点数,则应对矩阵乘—加计算的循环进行()路循环展开。
点击查看答案
第5题
采用划分子矩阵方法实现矩阵乘法,在进行SSE并行化时,是对(由外至内数)第____层循环进行循环展开然后向量化。
点击查看答案
第6题
对矩阵乘法进行多线程并行化,对矩阵采用()。
A.简单均匀块划分即可保证负载均衡
B.循环划分才能实现负载均衡
C.动态划分才能实现负载均衡
D.随机划分才能实现负载均衡
点击查看答案
第7题
对一个串行程序进行SIMD并行化,应重点考虑的程序部分是____。
A.声明语句
B.条件分支语句
C.循环语句
D.输入输出语句
点击查看答案
第8题
采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加()前缀。
A._global_
B._device_
C._shared_
D._private_
点击查看答案
第9题
采用划分子矩阵技术优化矩阵乘法CUDA程序,主要思想是访存更多在____。
A.CPU内存
B.GPU显存
C.GPU共享内存
D.GPU寄存器
点击查看答案
第10题
n个数求和的串行程序,通过一个循环将每个数累加到全局变量sum中,其多线程版本简单将循环范围改变为每个线程负载的范围,存在的问题是____。
A、负载不均
B、通信开销大
C、CPU空闲等待严重
D、sum累加产生竞争条件,导致结果错误
点击查看答案