目标学员:HPC/AI集群架构师、网络工程师、系统管理员、高性能计算开发者
预备要求:
-
熟悉Linux系统管理和网络基础
-
了解数据中心架构和集群计算概念
-
有MPI或分布式计算经验者优先
-
具备Shell脚本和Python基础
课程目标
-
深入理解InfiniBand架构、协议栈和性能特性
-
掌握NVIDIA Mellanox InfiniBand设备的安装、配置和管理
-
熟练使用UFM、MFT等管理工具进行网络监控和故障排除
-
优化HPC和AI工作负载在InfiniBand上的性能
-
掌握GPUDirect RDMA、NCCL等高级技术
培训大纲
1:InfiniBand基础与架构
模块1.1:InfiniBand技术概述
-
InfiniBand vs 以太网:技术对比与选型指南
-
InfiniBand发展历程与业界地位
-
NVIDIA Mellanox InfiniBand产品线全览
-
ConnectX系列网卡(ConnectX-6/7)
-
Quantum/SwitchX系列交换机
-
LinkX线缆与光模块
-
InfiniBand在AI/HPC/云数据中心的应用场景
模块1.2:InfiniBand协议栈深度解析
-
物理层与链路层:信号、编码、链路训练
-
网络层:全局路由与子网管理
-
传输层:可靠/不可靠传输服务
-
RDMA操作原语:Send/Recv、RDMA Write/Read、Atomic
-
队列对(QP)架构与工作请求处理流程
模块1.3:硬件安装与物理部署
-
机架安装最佳实践
-
线缆选择与布线规范(铜缆、光缆、AOC)
-
电源与散热考虑
-
硬件初始化与固件升级
-
实验1:InfiniBand交换机初始配置
2:软件栈配置与管理
模块2.1:InfiniBand软件栈安装
-
OFED驱动栈:MLNX_OFED vs inbox驱动
-
驱动安装与兼容性矩阵
-
内核模块加载与配置(mlx4_core, mlx5_core)
-
用户空间库:libibverbs, libmlx5
-
实验2:多节点OFED驱动安装与验证
模块2.2:子网管理器配置
-
OpenSM vs 商业SM对比
-
OpenSM配置文件详解
-
多子网管理器配置(主备、分区)
-
性能调优参数(congestion control, QoS)
模块2.3:基本网络操作与诊断
-
基础诊断工具集:ibstat, ibdiagnet, ibnetdiscover
-
链路状态监控与故障排除
-
性能基准测试:ib_write_bw, ib_read_bw, ib_send_bw
3:高级功能与性能优化
模块3.1:GPUDirect技术深度
-
GPUDirect RDMA架构与原理
-
GPUDirect Storage技术详解
-
配置与启用GPUDirect RDMA
-
性能分析与优化技巧
模块3.2:NCCL通信库优化
-
NCCL架构与通信模式
-
NCCL over InfiniBand调优
-
拓扑感知通信(NCCL_TOPO)
-
大规模集群(>1024节点)优化策略
模块3.3:多租户与网络隔离
-
分区(Partition)配置与管理
-
服务质量(QoS)策略实施
-
链路层隔离技术
4:管理与监控
模块4.1:NVIDIA UFM平台深度管理
-
UFM架构与组件
-
安装与初始配置
-
网络拓扑自动发现与可视化
-
性能监控与阈值告警
-
配置管理与策略部署
模块4.2:高级监控与故障排除
-
UFM Telemetry数据流分析
-
性能热点检测与瓶颈分析
-
流监控与异常检测
-
与Prometheus/Grafana集成
-
生成合规与审计报告
模块4.3:MFT工具集高级应用
-
固件管理工具(MFT)
-
性能计数器读取与解析
-
高级诊断功能
-
批量操作与自动化
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击
服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。
专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值