RAG技术与大模型知识库搭建课程-中科信软培训

RAG技术与大模型知识库搭建课程

培训对象：
AI应用开发工程师；企业知识管理负责人；智能客服系统建设人员；以及希望解决大模型幻觉问题的技术人员。

培训目标：
使学员全面掌握RAG（检索增强生成）技术的核心原理与工程实现方法，能够独立搭建基于企业私有知识的高可靠智能问答系统。精通非结构化数据的清洗、分块（Chunking）、嵌入（Embedding）与向量化存储技术。掌握混合检索（Hybrid Search）、重排序（Reranking）、多路召回等进阶优化策略，构建高精度、低延迟的企业级知识库系统。

培训内容介绍：

RAG技术原理与价值：深入讲解RAG的工作流程（检索-增强-生成），理解其如何解决大模型幻觉与知识时效性问题。分析RAG在企业知识问答、智能客服等场景的核心价值。
数据工程与清洗策略：学习非结构化数据（PDF、Word、Excel）的清洗方法，处理页眉页脚、水印、表格提取等工业级难题。掌握pdfplumber、unstructured等工具的使用技巧。
语义切分（Semantic Chunking）：深入讲解滑动窗口切分策略，设置合理的重叠量（Overlap）防止语义断裂。掌握父子索引（Parent-Child Indexing）技术，实现"检索小切片-生成大上下文"的优化方案。
文本嵌入与向量化：学习Embedding模型的原理与选型，掌握Sentence-Transformers库的使用方法。针对垂直领域术语，开展Embedding模型的微调训练。
向量数据库选型与部署：对比分析主流向量数据库（Milvus、Qdrant、Chroma、pgvector）的特点与适用场景。实操向量数据库的安装、索引配置（IVF_FLAT、HNSW）与数据导入。
元数据过滤（Metadata Filtering）：学习在向量存储时为文档打标（来源、日期、类型），实现检索前的预过滤（Pre-filtering），大幅提升查询准确率。
混合检索（Hybrid Search）：深入讲解向量检索（语义）与关键词检索（BM25）的互补价值。掌握RRF（倒数排名融合）算法，实现两路检索结果的科学合并。
重排序（Reranking）技术：学习使用Cross-Encoder模型对粗排结果进行精细打分，将最相关的文档排在上下文前列。掌握bge-reranker等重排序模型的应用方法。
LangChain/LlamaIndex框架应用：学习使用LangChain构建RAG系统的完整流程，包括文档加载、分割、向量存储、检索与生成。掌握LlamaIndex的多数据源管理与索引优化功能。
多链路召回与融合策略：讲解多源数据（知识库、知识图谱、结构化数据库）的统一检索架构。设计并行召回与串行召回机制，实现多链路召回的索引与缓存优化。
LangFlow低代码构建：学习使用LangFlow可视化平台搭建RAG知识检索系统，通过拖拽节点快速实现文档解析、向量存储、检索生成的完整链路设计。
RAGAS评估与优化闭环：掌握RAGAS评估框架的四个核心指标（忠实度、回答相关性、上下文精度、上下文召回率）。建立Bad Case修复流程，根据评估结果优化分块策略或Embedding模型。

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势：
丰富专家资源，精准匹配相关行业，相关项目技术精英，面向用户实际需求，针对性培训或咨询，互动式交流，案例教学，精品小班，实际工程项目经验分享，快捷高效，节省时间与金钱，少走弯路与错路。

专家力量：
中国科学院相关研究所高级研究人员
西门子，TI,vmware，MSC,Ansys，MDI，Mentor, candence,Altium,Atmel 、Freescale,达索，华为等
大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关学历背景专业，理论素养高
多年实际项目实践，大型复杂项目实战案例分享，热情，乐于技术分享
针对客户实际需要，真实案例演示，互动式沟通，学有所值