科学计算与企业级应用的并行优化
- 资料大王PDF
-
0 次阅读
-
0 次下载
-
2024-11-05 21:54:46
微信
赏
支付宝
文档简介:
2.3.6 CUDA算法实现
2.4 矩阵乘法
2.4.1 AVX指令计算矩阵乘法
2.4.2 NEON指令计算矩阵乘法
2.4.3 GPU计算矩阵乘法
2.5 本章小结
第3章 优化偏微分方程的数值解法
3.1 热传递问题
3.1.1 C代码及性能
3.1.2 OpenMP代码及性能
3.1.3 OpenACC代码及性能
3.1.4 CUDA代码
3.2 简单三维Stencil
3.2.1 串行实现
3.2.2 Stencil在X86处理器上实现的困境
3.2.3 CUDA实现
3.3 本章小结
第4章 优化分子动力学算法
4.1 简单搜索的实现
4.1.1 串行代码
4.1.2 向量化实现分析
4.1.3 OpenMP实现
4.1.4 CUDA实现
4.2 范德华力计算
4.2.1 串行实现
4.2.2 向量化实现分析
4.2.3 OpenMP实现
4.2.4 CUDA实现
4.2.5 如何提高缓存的利用
4.3 键长伸缩力计算
4.3.1 串行实现
4.3.2 向量化实现
4.3.3 OpenMP实现
4.3.4 CUDA实现
4.4 径向分布函数计算
4.4.1 串行实现
4.4.2 向量化实现
4.4.3 OpenMP实现
4.4.4 CUDA实现
4.5 本章小结
第5章 机器学习算法
5.1 k-means算法
5.1.1 计算流程
5.1.2 计算元素所属分类
5.1.3 更新分类中心
5.1.4 入口函数
5.2 KNN算法
5.2.1 计算步骤
5.2.2 相似度计算
5.2.3 求前k个相似度最大元素
5.2.4 统计所属分类
5.3 二维卷积
5.3.1 X86实现
5.3.2 ARM实现
5.3.3 CUDA实现
5.4 四维卷积
5.4.1 X86实现
5.4.2 ARM实现
5.4.3 CUDA实现
5.5 多GPU并行优化深度学习软件Caffe
5.5.1 为什么要使用多GPU并行Caffe
5.5.2 AlexNet示例
5.5.3 Caffe的主要计算流程
......
评论
发表评论