AWS Parallel Computing Service(AWS PCS)가 이제 Slurm 버전 25.11을 지원합니다. 이번 업데이트에는 Prometheus와 호환되는 OpenMetrics 엔드포인트 지원이 추가되었으며, 스케줄러 감사 로그를 포함한 새로운 로그 유형이 도입되었습니다.
이번 Slurm 25.11 출시와 함께 도입된 '신속 재대기(expedited re-queue)' 기능은 노드 문제의 영향을 받은 작업을 가장 높은 우선순위로 자동 재스케줄링하여 워크로드가 더 빠르게 복구될 수 있도록 돕습니다. 또한 새로운 OpenMetrics 엔드포인트를 활성화하면 기존 모니터링 도구를 사용하여 작업, 노드 및 스케줄링 현황을 실시간으로 파악할 수 있습니다. 이제 AWS PCS는 Slurm 데이터베이스 데몬(slurmdbd) 및 REST API 데몬(slurmrestd) 로그를 Amazon CloudWatch Logs, Amazon S3 또는 Amazon Data Firehose로 전송할 수 있어, 계정 관리 이슈 진단 및 API 통합 디버깅에 유용합니다. 기존에 운영 로그에 포함되었던 스케줄러 감사 로그는 이제 독립된 로그 유형으로 제공되므로, 데이터 수집 및 저장 비용을 별도로 제어할 수 있습니다.
AWS PCS는 Slurm을 사용하여 AWS에서 고성능 컴퓨팅(HPC) 워크로드를 실행 및 확장하고, 과학 및 엔지니어링 모델을 더욱 쉽게 구축할 수 있게 해주는 관리형 서비스입니다. AWS PCS를 사용하면 컴퓨팅, 스토리지, 네트워킹 및 시각화 도구가 통합된 완전하고 탄력적인 환경을 구축할 수 있습니다. 또한 AWS PCS는 관리형 업데이트와 내장된 관측성(observability) 기능을 통해 클러스터 운영을 간소화하고 유지 관리 부담을 줄여줍니다. 이를 통해 사용자는 인프라에 대한 걱정 없이 익숙한 환경에서 연구와 혁신에 집중할 수 있습니다.
이러한 기능은 AWS PCS가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 로그 전송 대상에 따라 표준 요금이 부과됩니다. AWS PCS에 대해 더 자세히 알아보려면 서비스 문서를 참조하십시오.