RAG技术与大模型知识库搭建课程
培训对象:
AI应用开发工程师;企业知识管理负责人;智能客服系统建设人员;以及希望解决大模型幻觉问题的技术人员。
培训目标:
使学员全面掌握RAG(检索增强生成)技术的核心原理与工程实现方法,能够独立搭建基于企业私有知识的高可靠智能问答系统。精通非结构化数据的清洗、分块(Chunking)、嵌入(Embedding)与向量化存储技术。掌握混合检索(Hybrid Search)、重排序(Reranking)、多路召回等进阶优化策略,构建高精度、低延迟的企业级知识库系统。
培训内容介绍:
-
RAG技术原理与价值:深入讲解RAG的工作流程(检索-增强-生成),理解其如何解决大模型幻觉与知识时效性问题。分析RAG在企业知识问答、智能客服等场景的核心价值。
-
数据工程与清洗策略:学习非结构化数据(PDF、Word、Excel)的清洗方法,处理页眉页脚、水印、表格提取等工业级难题。掌握pdfplumber、unstructured等工具的使用技巧。
-
语义切分(Semantic Chunking):深入讲解滑动窗口切分策略,设置合理的重叠量(Overlap)防止语义断裂。掌握父子索引(Parent-Child Indexing)技术,实现"检索小切片-生成大上下文"的优化方案。
-
文本嵌入与向量化:学习Embedding模型的原理与选型,掌握Sentence-Transformers库的使用方法。针对垂直领域术语,开展Embedding模型的微调训练。
-
向量数据库选型与部署:对比分析主流向量数据库(Milvus、Qdrant、Chroma、pgvector)的特点与适用场景。实操向量数据库的安装、索引配置(IVF_FLAT、HNSW)与数据导入。
-
元数据过滤(Metadata Filtering):学习在向量存储时为文档打标(来源、日期、类型),实现检索前的预过滤(Pre-filtering),大幅提升查询准确率。
-
混合检索(Hybrid Search):深入讲解向量检索(语义)与关键词检索(BM25)的互补价值。掌握RRF(倒数排名融合)算法,实现两路检索结果的科学合并。
-
重排序(Reranking)技术:学习使用Cross-Encoder模型对粗排结果进行精细打分,将最相关的文档排在上下文前列。掌握bge-reranker等重排序模型的应用方法。
-
LangChain/LlamaIndex框架应用:学习使用LangChain构建RAG系统的完整流程,包括文档加载、分割、向量存储、检索与生成。掌握LlamaIndex的多数据源管理与索引优化功能。
-
多链路召回与融合策略:讲解多源数据(知识库、知识图谱、结构化数据库)的统一检索架构。设计并行召回与串行召回机制,实现多链路召回的索引与缓存优化。
-
LangFlow低代码构建:学习使用LangFlow可视化平台搭建RAG知识检索系统,通过拖拽节点快速实现文档解析、向量存储、检索生成的完整链路设计。
-
RAGAS评估与优化闭环:掌握RAGAS评估框架的四个核心指标(忠实度、回答相关性、上下文精度、上下文召回率)。建立Bad Case修复流程,根据评估结果优化分块策略或Embedding模型。
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击
服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。
专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值