贴片电感
贴片电感
・  当前位置::扁平线圈电感 > 行业新闻
Mali GPU编程特性及二维浮点矩阵运算并行优化详解
作者:    来源:    时间:2016-09-01 10:19:58浏览量:

  AB两个矩阵的乘法的结果矩阵中的每个数据均依赖于A中的一行和B中的一列的点积结果,每个计算结果没有依赖和相关,显然是高度可数据并行的计算问题,很适合使用GPU做并行处理,使用GPU上的多个线程可以并行进行矩阵A和B中不同行和列的点积。

  实际进行实验时,以N*N的两个浮点矩阵A和B进行乘法,得出N*N的浮点结果矩阵matrixResult,利用Mali GPU进行并行化的时候,总共分配N*N个线程,以二维方式进行排布,标识号为(i,j)的线程提取出矩阵matrixA的第i行和矩阵matrixB的第j列,利用OpenCL中长度为128位的float4向量类型快速实现两个一维向量的点积,再将该点积结果存储到matrixResult[i] [j]位置。主机端分配线程的代码段如下:

  

  笔者将clEnqueueNDRangeKernel函数中工作组大小参数设置为NULL,由Mali GPU硬件自动确定最佳的工作组大小。由于内核中每次会连续读取4个浮点数值凑成float4类型的数据,所以对于矩阵的宽度不是4的倍数的情况需要进行特殊处理,可在主机端首先将输入矩阵A修改为N行N/4+4列,将矩阵B修改为N/4+4行N列,多出的矩阵部分均以0补齐,这样既不影响计算结果,也不会影响线程的分配方案,实现并行方案的内核函数如下所示:

  

  本文采用Arndale Board开发板作为测试平台,软件平台采用Linaro机构为Arndale Board定制的基于Ubuntu的嵌入式Linux操作系统,其内核版本为3.10.37,实验时使用arm-linux-gnueabihf工具链对程序进行编译。不同规模的二维浮点矩阵乘法运算在ARM Cortex-A15 CPU上的串行方案和Mali-T604 GPU上的并行方案的测试结果如面的表1所示,为不失一般性,测试时输入矩阵内容为随机值,每种不同矩阵大小的测试项进行10次测试,将测试值的平均值作为测试结果。扁平线圈电感制造厂

  • NCP1203电源过压保护电路元件疑惑 如题:


    修个NCP1203的电路


    有个元件,不知道是电容,电阻,还是电感,或者其他


    电路图传不上来,不知道什么原因,


    图片画圈的那个元件,没有标识。电路原理图,抄板的。


  • 做400WPFC+LLC的LED恒流驱动,辅助电源的问题。 做40串10并的400W LED驱动,采用前级PFC+后级LLC的方案。


    前级我做,后级我师弟做。


    PFC采用PI的PFS726芯片,峰值功率可达到540W;后级采用PI的LCS708方案,输出最大功率440W

  • LLC的问1 电源网内藏龙卧虎,后进新生特向大家学习。请多多支持。


    有个疑问:


    一款来自市面上的LED路灯电源(品牌不透了),200Wmax,标称36-54V输出,3.7A(CC)其带载情况如下:


    1,CV模式下5

  • 上一篇:USB 3.1助力USB Type-C高飞