GPU 深度学习优化培训课程
课程名称:GPU 深度学习模型训练与推理优化
培训对象
深度学习算法工程师、AI 平台开发人员、模型推理优化工程师。
培训目标
-
掌握 GPU 上深度学习训练与推理的性能瓶颈分析方法。
-
理解混合精度训练(AMP)与分布式训练的原理与实践。
-
能够使用 TensorRT 等工具对模型进行推理优化。
培训内容介绍
-
深度学习与 GPU:GPU 在 AI 训练中的主导地位;张量核心(Tensor Cores)的架构与优势;NVIDIA AI 软件栈(CUDA、cuDNN、TensorRT)。
-
cuDNN 与 cuBLAS 应用:cuDNN 中卷积算法的选择(FFT、Winograd、隐式 GEMM);cuBLAS 在神经网络全连接层中的应用;自动调优机制。
-
性能分析工具:PyTorch Profiler 的使用;TensorBoard 性能分析;Nsight Systems 分析训练流水线瓶颈。
-
输入流水线优化:数据加载与增强的 GPU 加速(DALI);使用 GPU 直接解压数据;预处理与训练的并行。
-
混合精度训练:FP16 与 BF16 的优势;损失缩放(Loss Scaling);自动混合精度(AMP)的实现;FP16 训练中的数值稳定性。
-
分布式训练:数据并行 vs 模型并行;同步 SGD 与梯度累积;AllReduce 算法;NCCL 库的使用。
-
大模型训练技术:张量并行(Tensor Parallelism);流水线并行(Pipeline Parallelism);ZeRO 优化器(零冗余优化)。
-
模型推理优化:推理延迟与吞吐量的权衡;模型量化(INT8、FP8);TensorRT 的模型转换与优化引擎生成。
-
TensorRT 高级特性:插件编写支持自定义算子;动态形状(Dynamic Shapes)处理;多流推理与并发。
-
推理部署框架:TensorRT Inference Server(Triton)的架构;并发模型服务与动态批处理;与 Kubernetes 的集成。
-
算子融合与内核自动调优:垂直融合与水平融合;TVM 与 XLA 的编译优化;算子自动调优(AutoTVM、Ansor)。
-
综合实战项目:选取典型模型(如 ResNet、BERT),进行训练性能分析与优化,并使用 TensorRT 加速推理,对比优化前后的吞吐量与延迟。
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击
服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。
专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值