Amazon SageMaker HyperPod는 이제 AWS 콘솔에서 개별 클러스터 노드를 직접 관리할 수 있도록 지원합니다. 대규모 AI/ML 워크로드를 관리하는 HyperPod 클러스터 운영자는 문제 해결, 응답하지 않는 인스턴스 재부팅 또는 성능 저하 노드 교체를 위해 노드에 연결해야 하는 경우가 많습니다. 이전에는 노드에 연결하려면 SSM 연결 문자열을 수동으로 구성해야 했고, 재부팅 및 교체와 같은 노드 복구 작업에는 CLI 명령이 필요했지만, 이제 콘솔은 모든 노드 작업을 위한 단일 인터페이스를 제공합니다.
콘솔의 노드 작업을 통해 이제 AWS Systems Manager(SSM)를 통해 모든 노드에 연결할 수 있습니다. 콘솔은 클립보드 복사 기능을 지원하는 미리 채워진 SSM CLI 명령과 콘솔 내 직접 SSM 세션 시작 기능을 제공합니다. SageMaker HyperPod 클러스터는 이미 비정상 인스턴스의 자동 교체 및 재부팅을 지원하지만, 메모리 과부하 또는 감지할 수 없는 하드웨어 성능 저하와 같이 수동 개입이 필요할 수 있는 시나리오도 있습니다. 이제 콘솔의 노드 작업은 일시적인 문제로부터 복구하기 위해 노드를 수동으로 재부팅하고, 비정상 노드를 삭제하며, 노드를 교체하는 일관된 접근 방식을 제공하며, 여러 노드 작업을 동시에 지원하는 일괄 작업을 통해 노드 문제를 몇 분 안에 해결할 수 있습니다. 이 기능은 다운타임 최소화가 필수적인 시간 민감형 AI 학습 및 추론 워크로드를 실행할 때 특히 유용합니다.
이 기능은 Amazon SageMaker HyperPod가 지원되는 모든 AWS 리전에서 사용할 수 있습니다. 이러한 모든 노드 작업은 콘솔의 HyperPod 클러스터 관리 페이지에서 수행할 수 있습니다. 각 링크를 클릭하여 교체/재부팅 및 노드 연결에 대해 자세히 알아보세요.