在之前的章节,我们已经介绍集群管理中的运行时,但是作业进程在启动前,需要平台本身进行决策当前作业运行在哪些服务器和 GPU 上,哪个作业能优先执行,进而进行调度决策。如图中所示,本章将围绕调度问题的抽象与优化目标,以及可用于深度学习作业 ...