GPU 深度学习优化培训课程-中科信软培训

GPU 深度学习优化培训课程

课程名称：GPU 深度学习模型训练与推理优化

培训对象

深度学习算法工程师、AI 平台开发人员、模型推理优化工程师。

培训目标

掌握 GPU 上深度学习训练与推理的性能瓶颈分析方法。
理解混合精度训练（AMP）与分布式训练的原理与实践。
能够使用 TensorRT 等工具对模型进行推理优化。

培训内容介绍

深度学习与 GPU：GPU 在 AI 训练中的主导地位；张量核心（Tensor Cores）的架构与优势；NVIDIA AI 软件栈（CUDA、cuDNN、TensorRT）。
cuDNN 与 cuBLAS 应用：cuDNN 中卷积算法的选择（FFT、Winograd、隐式 GEMM）；cuBLAS 在神经网络全连接层中的应用；自动调优机制。
性能分析工具：PyTorch Profiler 的使用；TensorBoard 性能分析；Nsight Systems 分析训练流水线瓶颈。
输入流水线优化：数据加载与增强的 GPU 加速（DALI）；使用 GPU 直接解压数据；预处理与训练的并行。
混合精度训练：FP16 与 BF16 的优势；损失缩放（Loss Scaling）；自动混合精度（AMP）的实现；FP16 训练中的数值稳定性。
分布式训练：数据并行 vs 模型并行；同步 SGD 与梯度累积；AllReduce 算法；NCCL 库的使用。
大模型训练技术：张量并行（Tensor Parallelism）；流水线并行（Pipeline Parallelism）；ZeRO 优化器（零冗余优化）。
模型推理优化：推理延迟与吞吐量的权衡；模型量化（INT8、FP8）；TensorRT 的模型转换与优化引擎生成。
TensorRT 高级特性：插件编写支持自定义算子；动态形状（Dynamic Shapes）处理；多流推理与并发。
推理部署框架：TensorRT Inference Server（Triton）的架构；并发模型服务与动态批处理；与 Kubernetes 的集成。
算子融合与内核自动调优：垂直融合与水平融合；TVM 与 XLA 的编译优化；算子自动调优（AutoTVM、Ansor）。
综合实战项目：选取典型模型（如 ResNet、BERT），进行训练性能分析与优化，并使用 TensorRT 加速推理，对比优化前后的吞吐量与延迟。

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势：
丰富专家资源，精准匹配相关行业，相关项目技术精英，面向用户实际需求，针对性培训或咨询，互动式交流，案例教学，精品小班，实际工程项目经验分享，快捷高效，节省时间与金钱，少走弯路与错路。

专家力量：
中国科学院相关研究所高级研究人员
西门子，TI,vmware，MSC,Ansys，MDI，Mentor, candence,Altium,Atmel 、Freescale,达索，华为等
大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关学历背景专业，理论素养高
多年实际项目实践，大型复杂项目实战案例分享，热情，乐于技术分享
针对客户实际需要，真实案例演示，互动式沟通，学有所值