下载此文档

计组实验4报告.docx


文档分类:行业资料 | 页数:约8页 举报非法文档有奖
1/8
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/8 下载此文档
文档列表 文档介绍
.
5
HUNANUNIVERSITY
课程实验报告
课程名称:计算机组成与结构实验项目名称:peflab-handout
专业班级:计科1403姓名:
学号:
指导教师:黄丽达完成时间:2016年5_月—28—日
信息i<dim;i+=block)
for(j=0;j<dim;j+=block)
{//block*blockminimatrix
im=i+block;
for(i1=i;i1<i+block;i1++){jm=j+block;
for(j1=j;j1<j+block;j1++)dst[RIDX(i1,j1,dim)]=src[RIDX(j1,dim-i1-1,dim)];
}
}从上述截图可以看出,当将循环步长分成最大为32,优先dest的写操作时,程序的性能
Rotate:Version
二naive_
rotate:
Naivebaseline
LFipleme
Dim
64
12&
2S6
512
1024
Mean
YourCPEs

27,6


BaseltneCPEs

40*1
4筑4


Speedup
1*2
1-5
1,8
0-9
1*3
Rotate:Version
=rotate
1:Currentworkingversion:
Dim
64
128
256
512
1024
Mean
YourCPFs


53


Basel!deCPEs

49,1
4队4


Speedup
£.3

九9
4•今
明显提高,,优化后性能是原始代码的三倍多,所以循环分块与写优先操作结合可以提高性能。
优化3:
循环展开类循环分块结合,通过减少每次迭代计算元素的数量,减少循环的迭代次数,同时分块可以逐点赋值一>逐行(列)赋值充分利用块空间,防止前面开辟的块还没有完全利用就被后来的覆盖,提高cache命中率。
voidrotate(intdim,pixel*src,pixel*dst){
inti,j;intdst_base=(dim-1)*dim;dst+=dst_base;
for(i=0;i<dim;i+=32){for(j=0;j<dim;j++){
*dst=*src;src+=dim;dst++;*dst=*src;src+=dim;dst++;
*dst=*src;src+=dim;dst++;*dst=*src;src+=dim;dst++;
*dst=*src;src+=dim;dst++;*dst=*src;src+=dim;dst++;
*dst=*src;src+=dim;dst++;*dst=*src;src+=dim;dst++;
*dst=*src;src+=dim;dst++;*dst=*src;src+=dim;dst++;
*dst=*src;src+=dim;dst++;*dst=*src;src+=dim;dst++;
*dst=*src;sr

计组实验4报告 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数8
  • 收藏数0 收藏
  • 顶次数0
  • 上传人niupai11
  • 文件大小65 KB
  • 时间2022-03-31
最近更新