오늘 AWS Parallel Computing Service(AWS PCS)는 Deep Learning Base GPU AMI(Ubuntu 24.04)를 기반으로 구축된 AWS 관리형 Amazon Machine Image인 PCS-ready DLAMI를 출시했습니다. 이 AMI는 AI/ML 학습 및 고성능 컴퓨팅(HPC)을 위한 프로덕션급 토대를 제공하며, 핵심 인프라 구성 요소가 미리 설치되어 있고 호환성 테스트를 마쳤습니다.
AWS PCS는 Slurm을 사용하여 AWS에서 HPC 워크로드를 실행 및 확장하고 과학 및 엔지니어링 모델을 더 쉽게 구축할 수 있도록 지원하는 관리형 서비스입니다. AWS PCS를 사용하면 컴퓨팅, 스토리지, 네트워킹 및 시각화 도구가 통합된 완전하고 탄력적인 환경을 구축할 수 있습니다. AWS PCS는 관리형 업데이트와 내장된 관측성(observability) 기능을 통해 클러스터 운영을 간소화하여 유지 관리 부담을 줄여줍니다. 이를 통해 사용자는 인프라에 대한 걱정 없이 익숙한 환경에서 연구와 혁신에 집중할 수 있습니다.
이 AMI는 소스 Deep Learning Base GPU AMI로부터 운영 체제, NVIDIA GPU 드라이버, CUDA 툴킷, EFA 드라이버 및 Lustre 클라이언트를 상속받으며, 여기에 PCS 에이전트, PCS용 Slurm 및 EFS 유틸리티를 추가했습니다. 지원되는 여러 Slurm 버전이 포함되어 있으며, 클러스터 구성에 따라 올바른 버전이 자동으로 활성화됩니다. 사용자는 그 위에 프레임워크, 라이브러리 및 애플리케이션 소프트웨어를 추가하여 환경을 완성할 수 있습니다. AWS는 소스 DLAMI 또는 PCS 구성 요소가 업데이트될 때마다 정기적으로 업데이트된 AMI를 출시하여 지속적인 보안 패치와 드라이버 업데이트를 제공합니다.
AWS PCS-ready DLAMI는 AWS PCS를 사용할 수 있는 모든 AWS 리전에서 x86_64 및 arm64 아키텍처용으로 추가 비용 없이 제공됩니다. 시작하려면 컴퓨팅 노드 그룹을 구성할 때 PCS-ready AMI를 지정하십시오. 자세한 내용은 AWS PCS 사용 설명서의 PCS-ready DLAMI 사용을 참조하십시오. PCS-ready DLAMI를 기반으로 하는 참조 클러스터 아키텍처는 GitHub의 awsome-distributed-ai 리포지토리를 참조하십시오.