CUDA 编程与 GPU 并行计算培训课程
课程名称:CUDA 编程与 GPU 并行计算实战
培训对象
高性能计算应用开发人员、算法工程师、计算机视觉开发者及科学计算研究人员。
培训目标
-
掌握 CUDA 编程模型与线程层次结构(Grid、Block、Thread)。
-
理解 GPU 内存层次(全局内存、共享内存、寄存器)与优化策略。
-
能够独立编写并优化 CUDA 内核函数,解决实际计算问题。
培训内容介绍
-
GPU 计算概述:GPU 与 CPU 架构对比(多核并行 vs 众核并行);GPU 适合处理的并行模式(数据并行);CUDA 生态系统简介(CUDA Toolkit、cuBLAS、cuFFT)。
-
CUDA 编程模型:主机与设备的区分;内核函数(Kernel)的定义与启动;线程层次结构(Grid、Block、Thread)。
-
内存模型:全局内存(Global Memory);共享内存(Shared Memory);寄存器(Registers);常量内存(Constant Memory);纹理内存(Texture Memory)。
-
线程索引与数据映射:内置变量(threadIdx、blockIdx、blockDim、gridDim);线程与数据的映射策略;处理任意大小数据的方法。
-
共享内存与同步:共享内存的声明与使用;块内同步(__syncthreads());线程束(Warp)的概念与线程束级编程。
-
合并访问:全局内存的合并访问条件;数组结构体 vs 结构体数组;对齐要求对性能的影响。
-
原子操作:原子函数的种类(atomicAdd、atomicMin、atomicCAS);原子操作的性能代价;无原子操作的替代方案。
-
CUDA 流与并发:CUDA 流的概念;内存传输与计算的重叠;多个内核的并发执行;事件管理。
-
性能分析工具:NVIDIA Nsight Systems 的使用;NVIDIA Nsight Compute 的指标分析;热点识别与瓶颈诊断。
-
CUDA 库的使用:cuBLAS 线性代数库;cuFFT 快速傅里叶变换库;Thrust 模板库;与自定义内核的混合编程。
-
动态并行与高级特性:CUDA 动态并行(在 GPU 上启动新内核);CUDA 统一内存(Unified Memory);CUDA Graphs 优化内核启动开销。
-
综合实战项目:实现并优化矩阵乘法(GEMM)或卷积运算,对比不同优化策略(共享内存、合并访问、向量化)的性能提升。
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击
服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。
专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值