智算集群GPU Direct RDMA智能调度与监控实践

课程 ID: 17517

描述:
案例背景: 在现有智算集群中,对一机多卡中GPU Derict RDMA 容器化管理支持,面临3大挑战: 1. 异构GPU的管理和兼容,AI Job如何调度到最合适节点上执行 2. 如何对 GPU Derict RDMA N:M 驱动管理 3. 如何对异构GPU做那个统一的监控和管理 解决思路: 1. GPU集群中GPU拓扑资源分配和管理 2. 异构计算资源、存储、网络资源,如何对其对其进行抽象,统一管理、运维和分配 3. 对GPU等异构资源进行统一采集、监控和报警,提供多维度监控、健康检查、自动异常发现、自愈和告警等自动化运维能力 成果: 提升单机多卡下的GPU利用率; GPU多维度监控与健康检查;