更多“编写矩阵乘法的SSE程序,若矩阵元素为单精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。”相关的问题
第1题
编写矩阵乘法的Neon程序,若矩阵元素为单精度浮点数,则应对矩阵乘—加计算的循环进行()路循环展开。
点击查看答案
第2题
采用划分子矩阵方法实现矩阵乘法,在进行SSE并行化时,是对(由外至内数)第____层循环进行循环展开然后向量化。
点击查看答案
第3题
对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一个元素,这种说法是____。
点击查看答案
第4题
对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,还需进行SIMD寄存器中几个元素的()操作才能得到结果矩阵的一个元素。
点击查看答案
第5题
两个n*n的矩阵相乘,将所有n^2个乘法计算划分给不同进程,再将对应某行某列的n个乘法结果累加得到结果矩阵对应元素,这是一种划分的数据并行。
点击查看答案
第6题
两个矩阵相乘,若矩阵总规模小于cache大小,则优化访存的最佳方法是____。
A、先将两个矩阵读入cache再进行乘法
B、先转置第一个矩阵再进行乘法
C、先转置第二个矩阵再进行乘法
D、以上皆错
点击查看答案
第7题
采用划分子矩阵技术优化矩阵乘法CUDA程序,主要思想是访存更多在____。
A.CPU内存
B.GPU显存
C.GPU共享内存
D.GPU寄存器
点击查看答案
第8题
采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加()前缀。
A._global_
B._device_
C._shared_
D._private_
点击查看答案
第10题
单精度浮点数矩阵乘法进行AVX并行,期望的加速比为()。
点击查看答案