智算集群GPU Direct RDMA智能调度与监控实践

课程 ID: 17517

描述:
案例背景: 在现有智算集群中，对一机多卡中GPU Derict RDMA 容器化管理支持，面临3大挑战： 1. 异构GPU的管理和兼容，AI Job如何调度到最合适节点上执行 2. 如何对 GPU Derict RDMA N:M 驱动管理 3. 如何对异构GPU做那个统一的监控和管理解决思路: 1. GPU集群中GPU拓扑资源分配和管理 2. 异构计算资源、存储、网络资源，如何对其对其进行抽象，统一管理、运维和分配 3. 对GPU等异构资源进行统一采集、监控和报警，提供多维度监控、健康检查、自动异常发现、自愈和告警等自动化运维能力成果：提升单机多卡下的GPU利用率； GPU多维度监控与健康检查；