编写矩阵乘法的SSE程序，若矩阵元素为单精度浮点数，则应对矩阵乘—加计算的循环进行____路循环展开。

第1题

编写矩阵乘法的Neon程序,若矩阵元素为单精度浮点数,则应对矩阵乘—加计算的循环进行（）路循环展开。

A.2

B.4

C.8

D.16

点击查看答案

第2题

采用划分子矩阵方法实现矩阵乘法，在进行SSE并行化时，是对(由外至内数)第____层循环进行循环展开然后向量化。

A.3

B.4

C.5

D.6

点击查看答案

第3题

对矩阵乘法串行程序主体三重循环的最内层循环进行向量化，则该循环执行完毕后，就计算出了结果矩阵的一个元素，这种说法是____。

A.正确的

B.错误的

点击查看答案

第4题

对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,还需进行SIMD寄存器中几个元素的（）操作才能得到结果矩阵的一个元素。

A.排列

B.交换

C.广播

D.归约

点击查看答案

第5题

两个n*n的矩阵相乘，将所有n^2个乘法计算划分给不同进程，再将对应某行某列的n个乘法结果累加得到结果矩阵对应元素，这是一种划分的数据并行。

A.输入数据

B.中间结果

C.输出数据

D.临时数据

点击查看答案

第6题

两个矩阵相乘,若矩阵总规模小于cache大小,则优化访存的最佳方法是____。

A、先将两个矩阵读入cache再进行乘法

B、先转置第一个矩阵再进行乘法

C、先转置第二个矩阵再进行乘法

D、以上皆错

点击查看答案

第7题

采用划分子矩阵技术优化矩阵乘法CUDA程序，主要思想是访存更多在____。

A.CPU内存

B.GPU显存

C.GPU共享内存

D.GPU寄存器

点击查看答案

第8题

采用划分子矩阵技术优化矩阵乘法CUDA程序，子矩阵数组变量声明应加（)前缀。

A._global_

B._device_

C._shared_

D._private_

点击查看答案

第9题

SSE运算指令中未提供（)指令。

A.算术运算

B.矩阵运算

C.逻辑运算

D.比较运算

点击查看答案

第10题

单精度浮点数矩阵乘法进行AVX并行，期望的加速比为（)。

A.等于8

B.小于8

C.4到8之间

D.等于4

点击查看答案