SageMaker HyperPod, 분산 학습 워크로드를 위한 갱 스케줄링(Gang Scheduling) 지원 시작

Amazon SageMaker HyperPod 태스크 거버넌스가 이제 갱 스케줄링(gang scheduling)을 지원합니다. 이를 통해 분산 학습 작업에 필요한 모든 포드(pod)가 준비된 후에만 학습이 시작되도록 보장할 수 있습니다. 관리자는 갱 스케줄링을 설정하여 일부 포드만 실행되어 발생하는 컴퓨팅 자원 낭비를 방지하고, 리소스를 기다리는 작업들로 인해 발생하는 데드락(deadlock) 현상을 피할 수 있습니다.

EKS 오케스트레이터를 사용하는 Amazon SageMaker HyperPod 클러스터에서 분산 AI/ML 학습 작업을 실행하는 데이터 과학자들은 여러 노드에 걸쳐 포드 간 통신이 이루어지는 다수의 포드가 필요합니다. 일부 포드만 시작되고 나머지는 시작되지 않을 경우, 작업이 진전 없이 리소스만 점유하게 되어 다른 워크로드의 실행을 방해하고 비용을 증가시킬 수 있습니다. 갱 스케줄링은 워크로드 내의 모든 포드를 모니터링하고, 설정된 시간 내에 모든 포드가 준비되지 않으면 해당 워크로드를 회수하여 이 문제를 해결합니다. 회수된 워크로드는 자동으로 대기열(requeued)에 다시 추가되어 전체 시스템이 멈추는 것을 방지합니다. 관리자는 HyperPod 콘솔에서 포드 준비 대기 시간, 노드 장애 처리 방법, 혼잡한 클러스터에서 데드락을 피하기 위해 워크로드를 하나씩 수용할지 여부, 재시도 스케줄링 방식 등을 세부적으로 조정할 수 있습니다.

이 기능은 현재 EKS 오케스트레이터를 사용하는 Amazon SageMaker HyperPod 클러스터를 대상으로 다음 AWS 리전에서 사용할 수 있습니다: 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 아시아 태평양(뭄바이), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(도쿄), 아시아 태평양(자카르타), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(스톡홀름), 유럽(스페인), 남아메리카(상파울루).

자세한 내용은 SageMaker HyperPod 웹페이지 및 HyperPod 태스크 거버넌스 문서를 참조하세요.