课程培训
GPU 深度学习优化培训课程

GPU 深度学习优化培训课程

课程名称:GPU 深度学习模型训练与推理优化

 

培训对象

深度学习算法工程师、AI 平台开发人员、模型推理优化工程师。

 

培训目标

  • 掌握 GPU 上深度学习训练与推理的性能瓶颈分析方法。

  • 理解混合精度训练(AMP)与分布式训练的原理与实践。

  • 能够使用 TensorRT 等工具对模型进行推理优化。

 

培训内容介绍

  1. 深度学习与 GPU:GPU 在 AI 训练中的主导地位;张量核心(Tensor Cores)的架构与优势;NVIDIA AI 软件栈(CUDA、cuDNN、TensorRT)

  2. cuDNN 与 cuBLAS 应用:cuDNN 中卷积算法的选择(FFT、Winograd、隐式 GEMM);cuBLAS 在神经网络全连接层中的应用;自动调优机制。

  3. 性能分析工具:PyTorch Profiler 的使用;TensorBoard 性能分析;Nsight Systems 分析训练流水线瓶颈

  4. 输入流水线优化:数据加载与增强的 GPU 加速(DALI);使用 GPU 直接解压数据;预处理与训练的并行。

  5. 混合精度训练:FP16 与 BF16 的优势;损失缩放(Loss Scaling);自动混合精度(AMP)的实现;FP16 训练中的数值稳定性

  6. 分布式训练:数据并行 vs 模型并行;同步 SGD 与梯度累积;AllReduce 算法;NCCL 库的使用。

  7. 大模型训练技术:张量并行(Tensor Parallelism);流水线并行(Pipeline Parallelism);ZeRO 优化器(零冗余优化)。

  8. 模型推理优化:推理延迟与吞吐量的权衡;模型量化(INT8、FP8);TensorRT 的模型转换与优化引擎生成

  9. TensorRT 高级特性:插件编写支持自定义算子;动态形状(Dynamic Shapes)处理;多流推理与并发。

  10. 推理部署框架:TensorRT Inference Server(Triton)的架构;并发模型服务与动态批处理;与 Kubernetes 的集成

  11. 算子融合与内核自动调优:垂直融合与水平融合;TVM 与 XLA 的编译优化;算子自动调优(AutoTVM、Ansor)。

  12. 综合实战项目:选取典型模型(如 ResNet、BERT),进行训练性能分析与优化,并使用 TensorRT 加速推理,对比优化前后的吞吐量与延迟。





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。

专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>