RAG技术进阶与知识库优化课程-中科信软培训

RAG技术进阶与知识库优化课程

培训对象：
AI应用开发工程师；企业知识管理负责人；智能客服系统建设人员；以及希望解决大模型幻觉问题、提升知识问答精度的技术人员。

培训目标：
使学员深入掌握RAG（检索增强生成）技术的进阶原理与工程优化方法。精通非结构化数据的清洗、分块、嵌入与向量化存储技术。掌握混合检索、重排序、多路召回、知识图谱增强等高级优化策略。具备构建高精度、低延迟、可解释的企业级知识库问答系统的能力，通过系统化的评估与优化闭环，持续提升知识检索与生成的准确性。

培训内容介绍：

RAG技术原理深度回顾：回顾RAG的工作流程（检索-增强-生成），理解其解决大模型幻觉问题的机制。深入分析RAG系统的核心挑战（检索精度、上下文窗口、响应延迟）。
数据清洗与预处理进阶：学习非结构化数据（PDF、Word、Excel、PPT）的高级清洗方法，处理页眉页脚、水印、复杂表格、多栏排版等工业级难题。掌握unstructured、LlamaParse等专业解析工具的使用技巧。
智能分块策略：深入讲解语义分块（Semantic Chunking）的实现方法，学习通过嵌入相似度确定分块边界。掌握父子索引（Parent-Child Indexing）技术，实现"检索小切片-生成大上下文"的优化方案。学习滑动窗口切分策略，设置合理的重叠量防止语义断裂。
文本嵌入模型优化：学习Embedding模型的选型原则，对比开源与商业嵌入模型的性能差异。掌握针对垂直领域术语微调Embedding模型的方法，提升领域检索精度。
向量数据库深度应用：对比分析主流向量数据库（Milvus、Qdrant、Chroma、pgvector）的性能特点与适用场景。学习向量数据库的索引配置（IVF_FLAT、HNSW、SCANN），掌握参数调优方法。实现元数据过滤（Metadata Filtering），大幅提升查询准确率。
混合检索技术：深入讲解向量检索（语义）与关键词检索（BM25）的互补价值。掌握RRF（倒数排名融合）算法，实现多路检索结果的科学合并。学习学习式排序模型的应用，提升检索结果的相关性。
重排序（Reranking）技术：学习使用Cross-Encoder模型对粗排结果进行精细打分，将最相关的文档排在上下文前列。掌握bge-reranker等重排序模型的应用方法，理解重排序对最终生成质量的提升价值。
知识图谱增强RAG：学习知识图谱的基本概念与构建方法，掌握使用Neo4j等图数据库存储知识。实现知识图谱与RAG的融合，通过图结构增强检索的语义关联性，提升复杂问题的回答能力。
多模态RAG系统构建：讲解多模态RAG的技术架构，支持图像、表格、文档等多格式数据的检索与生成。实操基于多模态嵌入模型的图文混合检索问答系统。
查询理解与改写：学习用户查询的意图识别与分类方法。掌握查询改写技术，包括同义扩展、分解复杂查询、错误纠正等，提升检索命中率。
RAG评估体系（RAGAS）：掌握RAGAS评估框架的核心指标（忠实度、回答相关性、上下文精度、上下文召回率）。建立Bad Case修复流程，根据评估结果优化分块策略、嵌入模型或重排序方法。
企业级RAG系统实战：开展金融研报问答、制造业设备故障诊断、医疗知识问答等全流程实战项目。完成从需求分析、知识库构建、检索优化、生成评估到部署上线的完整闭环。

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势：
丰富专家资源，精准匹配相关行业，相关项目技术精英，面向用户实际需求，针对性培训或咨询，互动式交流，案例教学，精品小班，实际工程项目经验分享，快捷高效，节省时间与金钱，少走弯路与错路。

专家力量：
中国科学院相关研究所高级研究人员
西门子，TI,vmware，MSC,Ansys，MDI，Mentor, candence,Altium,Atmel 、Freescale,达索，华为等
大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关学历背景专业，理论素养高
多年实际项目实践，大型复杂项目实战案例分享，热情，乐于技术分享
针对客户实际需要，真实案例演示，互动式沟通，学有所值