AI大模型性能优化实战课程-中科信软培训

AI大模型性能优化实战课程

培训对象：
AI算法工程师；大模型应用开发者；MLOps工程师；以及负责大模型推理服务部署与优化的技术人员。

培训目标：
使学员全面掌握大模型性能优化的核心技术栈与工程实践方法。精通模型量化、剪枝、知识蒸馏等压缩技术，能够根据业务场景选择合适的优化策略。掌握推理加速引擎（TensorRT-LLM、vLLM）的配置与调优方法。具备构建高并发、低延迟、低成本推理服务的能力，通过系统化的性能监控与调优，确保大模型在生产环境中的稳定高效运行。

培训内容介绍：

大模型性能优化概述：讲解大模型性能优化的核心指标（延迟、吞吐量、显存占用、成本）。分析性能瓶颈的常见来源（计算瓶颈、访存瓶颈、通信瓶颈）。建立性能优化的系统化思维框架。
模型量化技术深度解析：深入讲解量化原理，包括对称量化、非对称量化、动态量化、静态量化。对比GPTQ、AWQ、GGUF等主流量化方法的优缺点与适用场景。学习4bit/8bit量化的工程实现，掌握量化对模型精度的影响评估方法。
模型剪枝与稀疏化：学习结构化剪枝与非结构化剪枝的技术原理，掌握剪枝后微调的方法。了解稀疏化计算在GPU上的加速原理，掌握NVIDIA AMP（自动混合精度）的配置方法。
知识蒸馏技术实战：讲解知识蒸馏的基本原理，包括软标签蒸馏、特征蒸馏、关系蒸馏。学习教师模型与学生模型的协同训练方法，实现大模型向小模型的能力迁移。
TensorRT-LLM推理优化：深入学习TensorRT-LLM的核心技术，包括层融合、内核自动调优、动态形状推理。掌握模型转换为TensorRT引擎的方法，配置优化参数实现极致推理加速。
vLLM高性能推理框架：讲解vLLM的核心技术（PagedAttention、连续批处理、KV缓存复用）。实操vLLM部署大模型，配置并发请求数、最大输入长度、量化参数，实现高吞吐量推理服务。
推理服务架构设计：学习构建支持高并发的推理服务架构，包括负载均衡、请求队列、自动弹性伸缩。掌握FastAPI、Ray Serve等工具在推理服务中的应用。
分布式推理技术：讲解张量并行（Tensor Parallelism）与流水线并行（Pipeline Parallelism）的原理与实现。学习多GPU多节点部署的配置方法，实现大模型的分布式推理。
内存优化技术：学习PagedAttention技术减少KV缓存碎片，掌握连续批处理提高GPU利用率的方法。优化显存占用，支持更大并发量。
性能监控与调优：建立大模型服务的监控指标体系，包括QPS（每秒查询数）、延迟分布（P50/P95/P99）、显存占用、GPU利用率。部署Prometheus+Grafana监控栈，实现可视化监控与告警。掌握性能瓶颈的诊断方法与调优策略。
A/B测试与效果评估：学习构建A/B测试框架，对比不同优化版本的效果差异。建立业务指标（用户满意度、任务完成率）与技术指标（推理延迟、吞吐量）的关联分析。
端到端性能优化实战：从零开始优化一个真实的大模型服务，经历需求分析、基准测试、量化压缩、推理加速、分布式部署、监控上线的完整流程。输出性能优化报告与最佳实践方案。

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势：
丰富专家资源，精准匹配相关行业，相关项目技术精英，面向用户实际需求，针对性培训或咨询，互动式交流，案例教学，精品小班，实际工程项目经验分享，快捷高效，节省时间与金钱，少走弯路与错路。

专家力量：
中国科学院相关研究所高级研究人员
西门子，TI,vmware，MSC,Ansys，MDI，Mentor, candence,Altium,Atmel 、Freescale,达索，华为等
大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关学历背景专业，理论素养高
多年实际项目实践，大型复杂项目实战案例分享，热情，乐于技术分享
针对客户实际需要，真实案例演示，互动式沟通，学有所值