课程 ID: 17517
描述:
案例背景:
在现有智算集群中,对一机多卡中GPU Derict RDMA 容器化管理支持,面临3大挑战:
1. 异构GPU的管理和兼容,AI Job如何调度到最合适节点上执行
2. 如何对 GPU Derict RDMA N:M 驱动管理
3. 如何对异构GPU做那个统一的监控和管理
解决思路:
1. GPU集群中GPU拓扑资源分配和管理
2. 异构计算资源、存储、网络资源,如何对其对其进行抽象,统一管理、运维和分配
3. 对GPU等异构资源进行统一采集、监控和报警,提供多维度监控、健康检查、自动异常发现、自愈和告警等自动化运维能力
成果:
提升单机多卡下的GPU利用率;
GPU多维度监控与健康检查;