Amazon SageMaker HyperPod, Slurm 토폴로지 자동 관리 기능 지원 시작

이제 Amazon SageMaker HyperPod은 클러스터 내 GPU 인스턴스 유형을 기반으로 Slurm 클러스터를 위한 최적의 네트워크 토폴로지 구성을 자동으로 선택하고 지속적으로 유지 관리합니다. 네트워크 토폴로지는 분산 학습 성능에 직접적인 영향을 미칩니다. 작업이 토폴로지상 서로 가까운 노드에 배치되면 GPU 간 통신이 빨라지고, NCCL 집합 통신(Collective operations)이 더욱 효율적으로 이루어지며, 결과적으로 학습 처리량(throughput)이 향상됩니다. HyperPod은 확장 작업이나 노드 교체 등을 통해 클러스터가 변화함에 따라 토폴로지를 동적으로 조정하므로, 사용자가 토폴로지 파일을 수동으로 업데이트하거나 Slurm을 재설정하지 않아도 클러스터 수명 주기 전반에 걸쳐 작업 배치가 최적화된 상태로 유지됩니다.

HyperPod은 클러스터 생성 시 모든 인스턴스 그룹의 인스턴스 유형을 검사하여 각 인스턴스 유형의 네트워킹 및 상호 연결 특성을 식별하고, 가장 적합한 토폴로지 모델을 자동으로 선택합니다. HyperPod은 ml.p5.48xlarge, ml.p5e.48xlarge, ml.p5en.48xlarge와 같이 계층적 상호 연결 구조를 가진 인스턴스 유형에는 트리(Tree) 토폴로지를 지원하며, ml.p6e-gb200.NVL72와 같이 균일한 고대역폭 연결을 제공하는 인스턴스 유형에는 블록(Block) 토폴로지를 지원합니다. 여러 인스턴스 유형이 혼합된 클러스터의 경우, HyperPod은 모든 노드에서 호환 가능한 토폴로지를 선택합니다. 또한 확장(Scale-up), 축소(Scale-down) 또는 노드 교체 이벤트로 인해 클러스터 구성이 변경되면 HyperPod이 수동 개입 없이 토폴로지 설정을 자동으로 업데이트하여, 토폴로지가 항상 클러스터의 실제 상태를 반영하도록 합니다.

이 기능을 시작하려면 지원되는 GPU 인스턴스 유형으로 SageMaker HyperPod Slurm 클러스터를 생성하십시오. 토폴로지 인식 스케줄링(Topology-aware scheduling)은 기본적으로 활성화되어 있으며 별도의 설정이 필요하지 않습니다.

이 기능은 Amazon SageMaker HyperPod이 지원되는 모든 AWS 리전에서 사용할 수 있습니다. 토폴로지 인식 스케줄링에 대해 자세히 알아보려면 Amazon SageMaker HyperPod 설명서를 방문하시기 바랍니다.