CUDA 编程与 GPU 并行计算培训课程-中科信软培训

CUDA 编程与 GPU 并行计算培训课程

课程名称：CUDA 编程与 GPU 并行计算实战

培训对象

高性能计算应用开发人员、算法工程师、计算机视觉开发者及科学计算研究人员。

培训目标

掌握 CUDA 编程模型与线程层次结构（Grid、Block、Thread）。
理解 GPU 内存层次（全局内存、共享内存、寄存器）与优化策略。
能够独立编写并优化 CUDA 内核函数，解决实际计算问题。

培训内容介绍

GPU 计算概述：GPU 与 CPU 架构对比（多核并行 vs 众核并行）；GPU 适合处理的并行模式（数据并行）；CUDA 生态系统简介（CUDA Toolkit、cuBLAS、cuFFT）。
CUDA 编程模型：主机与设备的区分；内核函数（Kernel）的定义与启动；线程层次结构（Grid、Block、Thread）。
内存模型：全局内存（Global Memory）；共享内存（Shared Memory）；寄存器（Registers）；常量内存（Constant Memory）；纹理内存（Texture Memory）。
线程索引与数据映射：内置变量（threadIdx、blockIdx、blockDim、gridDim）；线程与数据的映射策略；处理任意大小数据的方法。
共享内存与同步：共享内存的声明与使用；块内同步（__syncthreads()）；线程束（Warp）的概念与线程束级编程。
合并访问：全局内存的合并访问条件；数组结构体 vs 结构体数组；对齐要求对性能的影响。
原子操作：原子函数的种类（atomicAdd、atomicMin、atomicCAS）；原子操作的性能代价；无原子操作的替代方案。
CUDA 流与并发：CUDA 流的概念；内存传输与计算的重叠；多个内核的并发执行；事件管理。
性能分析工具：NVIDIA Nsight Systems 的使用；NVIDIA Nsight Compute 的指标分析；热点识别与瓶颈诊断。
CUDA 库的使用：cuBLAS 线性代数库；cuFFT 快速傅里叶变换库；Thrust 模板库；与自定义内核的混合编程。
动态并行与高级特性：CUDA 动态并行（在 GPU 上启动新内核）；CUDA 统一内存（Unified Memory）；CUDA Graphs 优化内核启动开销。
综合实战项目：实现并优化矩阵乘法（GEMM）或卷积运算，对比不同优化策略（共享内存、合并访问、向量化）的性能提升。

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势：
丰富专家资源，精准匹配相关行业，相关项目技术精英，面向用户实际需求，针对性培训或咨询，互动式交流，案例教学，精品小班，实际工程项目经验分享，快捷高效，节省时间与金钱，少走弯路与错路。

专家力量：
中国科学院相关研究所高级研究人员
西门子，TI,vmware，MSC,Ansys，MDI，Mentor, candence,Altium,Atmel 、Freescale,达索，华为等
大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关学历背景专业，理论素养高
多年实际项目实践，大型复杂项目实战案例分享，热情，乐于技术分享
针对客户实际需要，真实案例演示，互动式沟通，学有所值