AI大模型本地化部署与运维课程-中科信软培训

AI大模型本地化部署与运维课程

培训对象：
企业IT/运维工程师；系统架构师；DevOps负责人；以及负责AI基础设施规划与管理的技术人员。

培训目标：
使学员全面掌握大模型本地化部署的完整技术栈与工程实践方法。能够熟练使用Ollama、vLLM、Xinference等主流推理框架进行模型部署与加速。精通私有化部署环境下的模型量化、性能调优、高可用架构设计及监控运维策略。理解RAG系统的部署架构与知识库管理，具备构建安全、高效、可扩展的企业级大模型推理系统的能力。

培训内容介绍：

本地化部署需求分析：讲解企业选择大模型本地化部署的核心动因（数据安全、合规要求、成本控制、定制化需求）。评估本地化部署的硬件需求（GPU选型、内存、存储、网络）与软件架构设计原则。
主流推理框架对比：对比分析Ollama、vLLM、Xinference、TensorRT-LLM、TGI等主流推理框架的特点、性能指标与适用场景。根据业务需求选择最优推理框架。
Ollama深度实践：学习Ollama的架构设计、安装部署、模型管理与服务配置。掌握Modelfile的编写方法，自定义模型参数、提示模板与系统指令。实现Ollama的多模型管理与热切换。
vLLM高性能部署：深入讲解vLLM的核心技术（PagedAttention、连续批处理、KV缓存复用）。实操vLLM部署大模型，配置并发请求数、最大输入长度、量化参数等，实现高吞吐量推理服务。
Xinference与模型网关：学习Xinference的多模型统一管理能力，支持LLM、嵌入模型、重排序模型的混合部署。掌握模型网关的配置方法，实现负载均衡、模型路由与版本控制。
模型量化技术实战：深入讲解量化原理（GPTQ、AWQ、GGUF），对比不同量化级别对模型体积、推理速度、输出质量的影响。实操使用llama.cpp等工具对模型进行量化转换与部署测试。
推理性能调优：学习推理性能的关键指标（首字延迟、吞吐量、并发能力）。掌握批处理大小、缓存策略、量化等级、并行计算等参数的调优方法。开展压力测试与性能基准评估。
RAG系统部署架构：讲解RAG系统的完整部署架构，包括文档解析服务、文本分块、向量化嵌入、向量数据库、检索服务、重排序、大模型生成等组件。设计高可用的RAG服务集群。
向量数据库选型与部署：对比主流向量数据库（Milvus、Qdrant、Chroma、Weaviate）的特点与适用场景。实操Milvus集群部署，配置索引类型（IVF_FLAT、HNSW）、相似度算法与分区策略。
模型服务监控体系：建立大模型服务的监控指标体系，包括QPS（每秒查询数）、延迟分布、显存占用、GPU利用率、错误率、Token吞吐量。部署Prometheus+Grafana监控栈，实现可视化监控与告警。
高可用与弹性伸缩：设计大模型服务的高可用架构，包括多副本部署、负载均衡、故障转移、容灾备份。学习基于Kubernetes的模型服务弹性伸缩策略（HPA/VPA），应对业务波动。
生产环境运维实战：开展从零搭建企业级大模型推理平台的全流程实战，包括硬件选型、操作系统优化、框架部署、模型加载、服务发布、监控接入、日志收集。探讨基于ZTE AIS等企业级AI平台的本地化部署解决方案。

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势：
丰富专家资源，精准匹配相关行业，相关项目技术精英，面向用户实际需求，针对性培训或咨询，互动式交流，案例教学，精品小班，实际工程项目经验分享，快捷高效，节省时间与金钱，少走弯路与错路。

专家力量：
中国科学院相关研究所高级研究人员
西门子，TI,vmware，MSC,Ansys，MDI，Mentor, candence,Altium,Atmel 、Freescale,达索，华为等
大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关学历背景专业，理论素养高
多年实际项目实践，大型复杂项目实战案例分享，热情，乐于技术分享
针对客户实际需要，真实案例演示，互动式沟通，学有所值