下载此文档

存储器访问模式.pptx


文档分类:IT计算机 | 页数:约23页 举报非法文档有奖
1/23
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/23 下载此文档
文档列表 文档介绍
目录: 一、 GPU简介 二、 GPU存储器访问模式
一、GPU简介
GPU(Graphics Processing Unit),即图像处理器,是一种专用图形渲染设备。GPU 的功能更新很迅速, 平均每一年多便有新一代的 GPU 诞生,运算速度也越来越快。早期GPU主要用于信号成像和图像处理,GPGPU(General puting on GPU)技术提高了GPU通用计算执行效率。
GPU实物图:
Tesla c2050实物图

GPU芯片实物图
GPU的硬件架构:
右图是NVIDIA Geforce8800硬件架构图
GF100架构概览
16个SM (Stream Multiprocessor)
每个SM中有32个SP (标量处理器)
6个64bit GDDR5存储器控制器
(streaming multiprocessor)的解析图
• 32 SP(标量处理器),双warp-schduler
• 64KB shared memory/L1 cache, 可以配置为48KB shared/16KB L1 或者16KB shared/48KB L1
CUDA
puting Unified Device Architecture)是一种不需要借助于图形学API进行GPU通用计算的软硬件架构。NVIDIA在2007年推向市场的并行架构,CUDA并不是一种编程语言,其包括了NVIDIA对于GPGPU的完整解决方案。提供了CUDA C编程语言,类似c语言。
CUDA用一种分层的编程模式来组织线程.
SIMT:SIMD的变形
每个block是SIMT,而block间则是MIMD
Block的宽度是可变的,与硬件无关;而通常SIMD编程模型中的向量
宽度是固定的
一个warp 内的线程行为更类似SIMD
Block内允许存在分支
Block内的线程间通过shared memory和同步进行通信;而SIMD编程
模型内的向量之间通过寄存器通信,不需要显式的同步
Grid block thread
• Kernel以包含大量的线程的Grid形式
•存在,每一个线程执行相同的程序
• Grid由block组成,block内的线程间
可以高效通信
• Block和thread拥有唯一的ID,用于
控制thread操作不同的数据,或者执行
不同分支
Warp
• Warp并不存在于抽象的CUDA编程模型,而是由硬件决定的,对性能
影响较大
•,一个warp 由同一block内相邻的32个线程组成
•少数指令,如vote和ballot,是显式的以warp为单位执行。
•同一warp 内的线程可以认为是“同时”执行的,不需要进行同步也能
通过shared memory进行通信
•分支以warp为单位进行
•以warp为单位考虑对存储器的访问的优化,可以获得更高性能
CUDA开发环境:
---支持CUDA的GPU
---NVIDIA设备驱动器
---CUDA开发工具(可以从NVIDIA下载,用于开发的工具包)
---标准C编译器

存储器访问模式 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数23
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wz_198613
  • 文件大小1.22 MB
  • 时间2018-06-20