发表于2024-12-19
基本信息
书名:OpenCL异构并行计算:原理、机制与优化实践
定价:79.00元
作者:刘文志,陈轶,吴长江 著
出版社:机械工业出版社
出版日期:2015-11-01
ISBN:9787111519348
字数:
页码:
版次:1
装帧:平装
开本:16开
商品重量:
编辑推荐
目 录 序一序二前言第章 异构并行计算的过去、现状和未来1.1 单核标量处理器的困境1.1.1 单核标量处理器如何提高性能1.1.2 为什么单核标量处理器性能到达瓶颈1.2 多核并行计算与向量化的出现1.2.1 为什么会有多核1.2.2 为什么会有向量化1.2.3 如何利用多核和向量化的能力1.2.4 多核和向量化的难点1.3 异构并行计算的崛起1.3.1 的理念1.3.2 的崛起1.3.3 横空出世1.4 异构并行计算的未来(花齐放)1.5 本章小结第章 的基本介绍2.1 什么是2.2 平台模型2.3 执行模型2.3.1 上下文2.3.2 命令队列2.3.3 内核在设备上执行2.4 存储器模型2.4.1 存储器区域2.4.2 存储器对象2.4.3 共享虚拟存储器2.5 与2.6 与2.7 本章小结第章 进入的世界(矢量加法)3.1 构建示例3.1.1 平台3.1.2 平台3.1.3 平台3.1.4 矢量加示例3.2 获得平台和设备及其属性3.2.1 平台3.2.2 设备3.3 创建上下文和命令队列3.3.1 创建上下文3.3.2 创建命令队列3.4 创建程序对象和内核对象3.5 程序对象3.5.1 创建程序对象3.5.2 构建程序对象3.5.3 查询和管理程序对象3.6 内核对象3.6.1 创建内核对象3.6.2 设置内核参数3.6.3 查询和管理内核对象3.7 执行内核3.8 编写内核代码3.9 错误处理3. 本章小结第章 语言4.1 修饰符4.1.1 地址空间修饰符4.1.2 函数修饰符4.1.3 对象访问修饰符4.2 标量数据类型4.3 矢量数据类型4.3.1 为什么要有矢量数据类型4.3.2 矢量数据的使用4.4 运算符4.5 工作项布局函数4.5.1 维度和工作项4.5.2 工作组4.6 数据拷贝操作4.6.1 矢量数据拷贝4.6.2 异步拷贝和预取4.7 浮点函数4.7.1 数学函数4.7.2 公共函数4.7.3 几何函数4.8 整数函数4.9 关系函数4. 杂项矢量函数4.11 同步函数4.12 原子函数4.13 图像读写函数4.13.1 内建图像读函数4.13.2 内建无采样器图像读 函数4.13.3 内建图像写函数4.13.4 内建图像查询函数4.14 工作组函数4.15 管道函数4.15.1 内建管道读写函数4.15.2 内建工作组管道读写函数4.15.3 内建管道查询函数4.16 设备队列4.16.1 语法4.16.2 设备队列相关函数4.16.3 子内核存储器可见性4.16.4 设备队列的使用示例4.17 本章小结第章 存储器对象5.1 缓冲区5.1.1 分配缓冲区对象5.1.2 创建子缓冲区对象5.2 图像对象和采样器对象5.2.1 图像对象5.2.2 采样器对象5.2.3 图像旋转示例5.3 管道5.3.1 创建管道对象5.3.2 管道对象查询5.4 存储器对象数据传输5.4.1 主机与设备间数据传输5.4.2 存储器对象数据填充5.4.3 存储器对象间数据传输5.4.4 存储器对象映射5.5 共享虚拟存储器5.5.1 缓冲操作5.5.2 类型和特性5.5.3 相关示例5.6 存储器一致性模型5.6.1 存储器次序规则5.6.2 原子操作的存储器次序规则5.6.3 栅栏操作的存储器次序规则5.6.4 工作组函数的存储器次序规则5.6.5 主机端与设备端命令的存储器次序规则5.6.6 关于存储器次序在实际计算设备中的实现5.7 本章小结第章 同步及事件机制6.1 主机端的同步6.2 事件机制6.2.1 对事件的标记和栅栏6.2.2 内核程序中的同步6.2.3 工作组内同步6.3 原子操作6.3.1 中的原子操作6.3.2 中的原子操作6.4 局部存储器与全局存储器间的异步拷贝6.5 工作组间同步6.6 本章小结第章 与互操作7.1 从一个上下文来创建上下文7.2 使用共享的缓存对象7.3 使用纹理数据7.4 共享渲染缓存7.5 从一个存储器对象查询对象信息7.6 访问共享对象的与之间的同步7.7 本章小结第章 到主流处理器的映射8.1 家族8.1.1 架构8.1.2 架构的8.2 兼容的8.2.1 架构的执行模型8.2.2 的全局存储器8.2.3 的局部存储器8.3 架构8.3.1 硬件架构8.3.2 存储器层次8.3.3 映射8.4 本章小结第章 计算二维卷积9.1 测试平台信息9.2 串行实现9.2.1 简单实现9.2.2 循环展开优化实现9.2.3 指令集优化9.2.4 9.3 简单实现9.4 使用常量存储器优化9.5 使用局部存储器优化9.6 一个工作项同时计算多个输出9.7 本章小结第章 计算矩阵乘法.1 串行实现.1.1 初次实现.1.2 缓存友好的实现.1.3 使用指令集实现.2 简单实现.3 使用局部存储器优化.4 使用向量加载指令.5 一个工作项同时计算多个输出.6 优化流水线性能.7 本章小结附录 实例附录 其他主流异构并行计算编程环境简介
<
目录
目 录 序一序二前言第章 异构并行计算的过去、现状和未来1.1 单核标量处理器的困境1.1.1 单核标量处理器如何提高性能1.1.2 为什么单核标量处理器性能到达瓶颈1.2 多核并行计算与向量化的出现1.2.1 为什么会有多核1.2.2 为什么会有向量化1.2.3 如何利用多核和向量化的能力1.2.4 多核和向量化的难点1.3 异构并行计算的崛起1.3.1 的理念1.3.2 的崛起1.3.3 横空出世1.4 异构并行计算的未来(花齐放)1.5 本章小结第章 的基本介绍2.1 什么是2.2 平台模型2.3 执行模型2.3.1 上下文2.3.2 命令队列2.3.3 内核在设备上执行2.4 存储器模型2.4.1 存储器区域2.4.2 存储器对象2.4.3 共享虚拟存储器2.5 与2.6 与2.7 本章小结第章 进入的世界(矢量加法)3.1 构建示例3.1.1 平台3.1.2 平台3.1.3 平台3.1.4 矢量加示例3.2 获得平台和设备及其属性3.2.1 平台3.2.2 设备3.3 创建上下文和命令队列3.3.1 创建上下文3.3.2 创建命令队列3.4 创建程序对象和内核对象3.5 程序对象3.5.1 创建程序对象3.5.2 构建程序对象3.5.3 查询和管理程序对象3.6 内核对象3.6.1 创建内核对象3.6.2 设置内核参数3.6.3 查询和管理内核对象3.7 执行内核3.8 编写内核代码3.9 错误处理3. 本章小结第章 语言4.1 修饰符4.1.1 地址空间修饰符4.1.2 函数修饰符4.1.3 对象访问修饰符4.2 标量数据类型4.3 矢量数据类型4.3.1 为什么要有矢量数据类型4.3.2 矢量数据的使用4.4 运算符4.5 工作项布局函数4.5.1 维度和工作项4.5.2 工作组4.6 数据拷贝操作4.6.1 矢量数据拷贝4.6.2 异步拷贝和预取4.7 浮点函数4.7.1 数学函数4.7.2 公共函数4.7.3 几何函数4.8 整数函数4.9 关系函数4. 杂项矢量函数4.11 同步函数4.12 原子函数4.13 图像读写函数4.13.1 内建图像读函数4.13.2 内建无采样器图像读 函数4.13.3 内建图像写函数4.13.4 内建图像查询函数4.14 工作组函数4.15 管道函数4.15.1 内建管道读写函数4.15.2 内建工作组管道读写函数4.15.3 内建管道查询函数4.16 设备队列4.16.1 语法4.16.2 设备队列相关函数4.16.3 子内核存储器可见性4.16.4 设备队列的使用示例4.17 本章小结第章 存储器对象5.1 缓冲区5.1.1 分配缓冲区对象5.1.2 创建子缓冲区对象5.2 图像对象和采样器对象5.2.1 图像对象5.2.2 采样器对象5.2.3 图像旋转示例5.3 管道5.3.1 创建管道对象5.3.2 管道对象查询5.4 存储器对象数据传输5.4.1 主机与设备间数据传输5.4.2 存储器对象数据填充5.4.3 存储器对象间数据传输5.4.4 存储器对象映射5.5 共享虚拟存储器5.5.1 缓冲操作5.5.2 类型和特性5.5.3 相关示例5.6 存储器一致性模型5.6.1 存储器次序规则5.6.2 原子操作的存储器次序规则5.6.3 栅栏操作的存储器次序规则5.6.4 工作组函数的存储器次序规则5.6.5 主机端与设备端命令的存储器次序规则5.6.6 关于存储器次序在实际计算设备中的实现5.7 本章小结第章 同步及事件机制6.1 主机端的同步6.2 事件机制6.2.1 对事件的标记和栅栏6.2.2 内核程序中的同步6.2.3 工作组内同步6.3 原子操作6.3.1 中的原子操作6.3.2 中的原子操作6.4 局部存储器与全局存储器间的异步拷贝6.5 工作组间同步6.6 本章小结第章 与互操作7.1 从一个上下文来创建上下文7.2 使用共享的缓存对象7.3 使用纹理数据7.4 共享渲染缓存7.5 从一个存储器对象查询对象信息7.6 访问共享对象的与之间的同步7.7 本章小结第章 到主流处理器的映射8.1 家族8.1.1 架构8.1.2 架构的8.2 兼容的8.2.1 架构的执行模型8.2.2 的全局存储器8.2.3 的局部存储器8.3 架构8.3.1 硬件架构8.3.2 存储器层次8.3.3 映射8.4 本章小结第章 计算二维卷积9.1 测试平台信息9.2 串行实现9.2.1 简单实现9.2.2 循环展开优化实现9.2.3 指令集优化9.2.4 9.3 简单实现9.4 使用常量存储器优化9.5 使用局部存储器优化9.6 一个工作项同时计算多个输出9.7 本章小结第章 计算矩阵乘法.1 串行实现.1.1 初次实现.1.2 缓存友好的实现.1.3 使用指令集实现.2 简单实现.3 使用局部存储器优化.4 使用向量加载指令.5 一个工作项同时计算多个输出.6 优化流水线性能.7 本章小结附录 实例附录 其他主流异构并行计算编程环境简介
<
内容提要
本书一共分为个部分:第章介绍并行计算的沿革与现状。第章介绍了语言的相关语法。第章到第章讲解了运行时接口及其功能。第章讲解了更底层的工作机制,并结合当前主流的做详细分析。第章到第章则是以四个实际常用算法来介绍如何用做加速并行计算。通过阅读本书,读者不仅能全面掌握的常规用法,而且还能深入了解的运作机制,如何将计算设备的性能发挥到。这样就可以充分利用硬件特性来调整算法,使得计算速度能达到峰值。
文摘
暂无相关内容
作者介绍
暂无相关内容
OpenCL异构并行计算:原理、机制与优化实践 OpenCL 2.0编程教程书籍 API平 下载 mobi pdf epub txt 电子书 格式 2024
OpenCL异构并行计算:原理、机制与优化实践 OpenCL 2.0编程教程书籍 API平 下载 mobi epub pdf 电子书OpenCL异构并行计算:原理、机制与优化实践 OpenCL 2.0编程教程书籍 API平 mobi epub pdf txt 电子书 格式下载 2024