AI大模型本地化部署与运维课程
培训对象:
企业IT/运维工程师;系统架构师;DevOps负责人;以及负责AI基础设施规划与管理的技术人员。
培训目标:
使学员全面掌握大模型本地化部署的完整技术栈与工程实践方法。能够熟练使用Ollama、vLLM、Xinference等主流推理框架进行模型部署与加速。精通私有化部署环境下的模型量化、性能调优、高可用架构设计及监控运维策略。理解RAG系统的部署架构与知识库管理,具备构建安全、高效、可扩展的企业级大模型推理系统的能力。
培训内容介绍:
-
本地化部署需求分析:讲解企业选择大模型本地化部署的核心动因(数据安全、合规要求、成本控制、定制化需求)。评估本地化部署的硬件需求(GPU选型、内存、存储、网络)与软件架构设计原则。
-
主流推理框架对比:对比分析Ollama、vLLM、Xinference、TensorRT-LLM、TGI等主流推理框架的特点、性能指标与适用场景。根据业务需求选择最优推理框架。
-
Ollama深度实践:学习Ollama的架构设计、安装部署、模型管理与服务配置。掌握Modelfile的编写方法,自定义模型参数、提示模板与系统指令。实现Ollama的多模型管理与热切换。
-
vLLM高性能部署:深入讲解vLLM的核心技术(PagedAttention、连续批处理、KV缓存复用)。实操vLLM部署大模型,配置并发请求数、最大输入长度、量化参数等,实现高吞吐量推理服务。
-
Xinference与模型网关:学习Xinference的多模型统一管理能力,支持LLM、嵌入模型、重排序模型的混合部署。掌握模型网关的配置方法,实现负载均衡、模型路由与版本控制。
-
模型量化技术实战:深入讲解量化原理(GPTQ、AWQ、GGUF),对比不同量化级别对模型体积、推理速度、输出质量的影响。实操使用llama.cpp等工具对模型进行量化转换与部署测试。
-
推理性能调优:学习推理性能的关键指标(首字延迟、吞吐量、并发能力)。掌握批处理大小、缓存策略、量化等级、并行计算等参数的调优方法。开展压力测试与性能基准评估。
-
RAG系统部署架构:讲解RAG系统的完整部署架构,包括文档解析服务、文本分块、向量化嵌入、向量数据库、检索服务、重排序、大模型生成等组件。设计高可用的RAG服务集群。
-
向量数据库选型与部署:对比主流向量数据库(Milvus、Qdrant、Chroma、Weaviate)的特点与适用场景。实操Milvus集群部署,配置索引类型(IVF_FLAT、HNSW)、相似度算法与分区策略。
-
模型服务监控体系:建立大模型服务的监控指标体系,包括QPS(每秒查询数)、延迟分布、显存占用、GPU利用率、错误率、Token吞吐量。部署Prometheus+Grafana监控栈,实现可视化监控与告警。
-
高可用与弹性伸缩:设计大模型服务的高可用架构,包括多副本部署、负载均衡、故障转移、容灾备份。学习基于Kubernetes的模型服务弹性伸缩策略(HPA/VPA),应对业务波动。
-
生产环境运维实战:开展从零搭建企业级大模型推理平台的全流程实战,包括硬件选型、操作系统优化、框架部署、模型加载、服务发布、监控接入、日志收集。探讨基于ZTE AIS等企业级AI平台的本地化部署解决方案。
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击
服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。
专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值