RAG技术进阶与知识库优化课程
培训对象:
AI应用开发工程师;企业知识管理负责人;智能客服系统建设人员;以及希望解决大模型幻觉问题、提升知识问答精度的技术人员。
培训目标:
使学员深入掌握RAG(检索增强生成)技术的进阶原理与工程优化方法。精通非结构化数据的清洗、分块、嵌入与向量化存储技术。掌握混合检索、重排序、多路召回、知识图谱增强等高级优化策略。具备构建高精度、低延迟、可解释的企业级知识库问答系统的能力,通过系统化的评估与优化闭环,持续提升知识检索与生成的准确性。
培训内容介绍:
-
RAG技术原理深度回顾:回顾RAG的工作流程(检索-增强-生成),理解其解决大模型幻觉问题的机制。深入分析RAG系统的核心挑战(检索精度、上下文窗口、响应延迟)。
-
数据清洗与预处理进阶:学习非结构化数据(PDF、Word、Excel、PPT)的高级清洗方法,处理页眉页脚、水印、复杂表格、多栏排版等工业级难题。掌握unstructured、LlamaParse等专业解析工具的使用技巧。
-
智能分块策略:深入讲解语义分块(Semantic Chunking)的实现方法,学习通过嵌入相似度确定分块边界。掌握父子索引(Parent-Child Indexing)技术,实现"检索小切片-生成大上下文"的优化方案。学习滑动窗口切分策略,设置合理的重叠量防止语义断裂。
-
文本嵌入模型优化:学习Embedding模型的选型原则,对比开源与商业嵌入模型的性能差异。掌握针对垂直领域术语微调Embedding模型的方法,提升领域检索精度。
-
向量数据库深度应用:对比分析主流向量数据库(Milvus、Qdrant、Chroma、pgvector)的性能特点与适用场景。学习向量数据库的索引配置(IVF_FLAT、HNSW、SCANN),掌握参数调优方法。实现元数据过滤(Metadata Filtering),大幅提升查询准确率。
-
混合检索技术:深入讲解向量检索(语义)与关键词检索(BM25)的互补价值。掌握RRF(倒数排名融合)算法,实现多路检索结果的科学合并。学习学习式排序模型的应用,提升检索结果的相关性。
-
重排序(Reranking)技术:学习使用Cross-Encoder模型对粗排结果进行精细打分,将最相关的文档排在上下文前列。掌握bge-reranker等重排序模型的应用方法,理解重排序对最终生成质量的提升价值。
-
知识图谱增强RAG:学习知识图谱的基本概念与构建方法,掌握使用Neo4j等图数据库存储知识。实现知识图谱与RAG的融合,通过图结构增强检索的语义关联性,提升复杂问题的回答能力。
-
多模态RAG系统构建:讲解多模态RAG的技术架构,支持图像、表格、文档等多格式数据的检索与生成。实操基于多模态嵌入模型的图文混合检索问答系统。
-
查询理解与改写:学习用户查询的意图识别与分类方法。掌握查询改写技术,包括同义扩展、分解复杂查询、错误纠正等,提升检索命中率。
-
RAG评估体系(RAGAS):掌握RAGAS评估框架的核心指标(忠实度、回答相关性、上下文精度、上下文召回率)。建立Bad Case修复流程,根据评估结果优化分块策略、嵌入模型或重排序方法。
-
企业级RAG系统实战:开展金融研报问答、制造业设备故障诊断、医疗知识问答等全流程实战项目。完成从需求分析、知识库构建、检索优化、生成评估到部署上线的完整闭环。
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击
服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。
专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值