课程培训
CUDA 编程与 GPU 并行计算培训课程

CUDA 编程与 GPU 并行计算培训课程

课程名称:CUDA 编程与 GPU 并行计算实战

 

培训对象

高性能计算应用开发人员、算法工程师、计算机视觉开发者及科学计算研究人员。

 

培训目标

  • 掌握 CUDA 编程模型与线程层次结构(Grid、Block、Thread)。

  • 理解 GPU 内存层次(全局内存、共享内存、寄存器)与优化策略。

  • 能够独立编写并优化 CUDA 内核函数,解决实际计算问题。

 

培训内容介绍

  1. GPU 计算概述:GPU 与 CPU 架构对比(多核并行 vs 众核并行);GPU 适合处理的并行模式(数据并行);CUDA 生态系统简介(CUDA Toolkit、cuBLAS、cuFFT)

  2. CUDA 编程模型:主机与设备的区分;内核函数(Kernel)的定义与启动;线程层次结构(Grid、Block、Thread)

  3. 内存模型:全局内存(Global Memory);共享内存(Shared Memory);寄存器(Registers);常量内存(Constant Memory);纹理内存(Texture Memory)

  4. 线程索引与数据映射:内置变量(threadIdx、blockIdx、blockDim、gridDim);线程与数据的映射策略;处理任意大小数据的方法

  5. 共享内存与同步:共享内存的声明与使用;块内同步(__syncthreads());线程束(Warp)的概念与线程束级编程

  6. 合并访问:全局内存的合并访问条件;数组结构体 vs 结构体数组;对齐要求对性能的影响

  7. 原子操作:原子函数的种类(atomicAdd、atomicMin、atomicCAS);原子操作的性能代价;无原子操作的替代方案。

  8. CUDA 流与并发:CUDA 流的概念;内存传输与计算的重叠;多个内核的并发执行;事件管理

  9. 性能分析工具:NVIDIA Nsight Systems 的使用;NVIDIA Nsight Compute 的指标分析;热点识别与瓶颈诊断

  10. CUDA 库的使用:cuBLAS 线性代数库;cuFFT 快速傅里叶变换库;Thrust 模板库;与自定义内核的混合编程。

  11. 动态并行与高级特性:CUDA 动态并行(在 GPU 上启动新内核);CUDA 统一内存(Unified Memory);CUDA Graphs 优化内核启动开销。

  12. 综合实战项目:实现并优化矩阵乘法(GEMM)或卷积运算,对比不同优化策略(共享内存、合并访问、向量化)的性能提升。





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。

专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>