课程培训
NVIDIA InfiniBand技术培训课程

 目标学员:HPC/AI集群架构师、网络工程师、系统管理员、高性能计算开发者

预备要求

  • 熟悉Linux系统管理和网络基础

  • 了解数据中心架构和集群计算概念

  • 有MPI或分布式计算经验者优先

  • 具备Shell脚本和Python基础

    课程目标

    1. 深入理解InfiniBand架构、协议栈和性能特性

    2. 掌握NVIDIA Mellanox InfiniBand设备的安装、配置和管理

    3. 熟练使用UFM、MFT等管理工具进行网络监控和故障排除

    4. 优化HPC和AI工作负载在InfiniBand上的性能

    5. 掌握GPUDirect RDMA、NCCL等高级技术

      培训大纲

      1:InfiniBand基础与架构

      模块1.1:InfiniBand技术概述

      • InfiniBand vs 以太网:技术对比与选型指南

      • InfiniBand发展历程与业界地位

      • NVIDIA Mellanox InfiniBand产品线全览

        • ConnectX系列网卡(ConnectX-6/7)

        • Quantum/SwitchX系列交换机

        • LinkX线缆与光模块

      • InfiniBand在AI/HPC/云数据中心的应用场景

      模块1.2:InfiniBand协议栈深度解析

      • 物理层与链路层:信号、编码、链路训练

      • 网络层:全局路由与子网管理

      • 传输层:可靠/不可靠传输服务

      • RDMA操作原语:Send/Recv、RDMA Write/Read、Atomic

      • 队列对(QP)架构与工作请求处理流程

      模块1.3:硬件安装与物理部署

      • 机架安装最佳实践

      • 线缆选择与布线规范(铜缆、光缆、AOC)

      • 电源与散热考虑

      • 硬件初始化与固件升级

      • 实验1:InfiniBand交换机初始配置


      2:软件栈配置与管理

      模块2.1:InfiniBand软件栈安装

      • OFED驱动栈:MLNX_OFED vs inbox驱动

      • 驱动安装与兼容性矩阵

      • 内核模块加载与配置(mlx4_core, mlx5_core)

      • 用户空间库:libibverbs, libmlx5

      • 实验2:多节点OFED驱动安装与验证

      模块2.2:子网管理器配置

      • OpenSM vs 商业SM对比

      • OpenSM配置文件详解

      • 多子网管理器配置(主备、分区)

      • 性能调优参数(congestion control, QoS)

      模块2.3:基本网络操作与诊断

      • 基础诊断工具集:ibstat, ibdiagnet, ibnetdiscover

      • 链路状态监控与故障排除

      • 性能基准测试:ib_write_bw, ib_read_bw, ib_send_bw


      3:高级功能与性能优化

      模块3.1:GPUDirect技术深度

      • GPUDirect RDMA架构与原理

      • GPUDirect Storage技术详解

      • 配置与启用GPUDirect RDMA

      • 性能分析与优化技巧

      模块3.2:NCCL通信库优化

      • NCCL架构与通信模式

      • NCCL over InfiniBand调优

      • 拓扑感知通信(NCCL_TOPO)

      • 大规模集群(>1024节点)优化策略

      模块3.3:多租户与网络隔离

      • 分区(Partition)配置与管理

      • 服务质量(QoS)策略实施

      • 链路层隔离技术


      4:管理与监控

      模块4.1:NVIDIA UFM平台深度管理

      • UFM架构与组件

      • 安装与初始配置

      • 网络拓扑自动发现与可视化

      • 性能监控与阈值告警

      • 配置管理与策略部署

      模块4.2:高级监控与故障排除

      • UFM Telemetry数据流分析

      • 性能热点检测与瓶颈分析

      • 流监控与异常检测

      • 与Prometheus/Grafana集成

      • 生成合规与审计报告

      模块4.3:MFT工具集高级应用

      • 固件管理工具(MFT)

      • 性能计数器读取与解析

      • 高级诊断功能

      • 批量操作与自动化

       

 




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。

专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>