목록으로

Programming Notes

AWS PCS, 이제 프로덕션 환경에 즉시 사용 가능한 Deep Learning AMI 제공

오늘 AWS Parallel Computing Service(AWS PCS)는 Deep Learning Base GPU AMI(Ubuntu 24.04)를 기반으로 구축된 AWS 관리형 Amazon Machine Image인 PCS-ready DLAMI를 출시했습니다. 이 AMI는 AI/ML 학습 및 고성능 컴퓨팅(HPC)을 위한 프로덕션급 토대를 제공하며, 핵심 인프라 구성 요소가 미리 설치되어 있고 호환성 테스트를 마쳤습니다.

AWS PCS는 Slurm을 사용하여 AWS에서 HPC 워크로드를 실행 및 확장하고 과학 및 엔지니어링 모델을 더 쉽게 구축할 수 있도록 지원하는 관리형 서비스입니다. AWS PCS를 사용하면 컴퓨팅, 스토리지, 네트워킹 및 시각화 도구가 통합된 완전하고 탄력적인 환경을 구축할 수 있습니다. AWS PCS는 관리형 업데이트와 내장된 관측성(observability) 기능을 통해 클러스터 운영을 간소화하여 유지 관리 부담을 줄여줍니다. 이를 통해 사용자는 인프라에 대한 걱정 없이 익숙한 환경에서 연구와 혁신에 집중할 수 있습니다.

이 AMI는 소스 Deep Learning Base GPU AMI로부터 운영 체제, NVIDIA GPU 드라이버, CUDA 툴킷, EFA 드라이버 및 Lustre 클라이언트를 상속받으며, 여기에 PCS 에이전트, PCS용 Slurm 및 EFS 유틸리티를 추가했습니다. 지원되는 여러 Slurm 버전이 포함되어 있으며, 클러스터 구성에 따라 올바른 버전이 자동으로 활성화됩니다. 사용자는 그 위에 프레임워크, 라이브러리 및 애플리케이션 소프트웨어를 추가하여 환경을 완성할 수 있습니다. AWS는 소스 DLAMI 또는 PCS 구성 요소가 업데이트될 때마다 정기적으로 업데이트된 AMI를 출시하여 지속적인 보안 패치와 드라이버 업데이트를 제공합니다.

AWS PCS-ready DLAMI는 AWS PCS를 사용할 수 있는 모든 AWS 리전에서 x86_64 및 arm64 아키텍처용으로 추가 비용 없이 제공됩니다. 시작하려면 컴퓨팅 노드 그룹을 구성할 때 PCS-ready AMI를 지정하십시오. 자세한 내용은 AWS PCS 사용 설명서PCS-ready DLAMI 사용을 참조하십시오. PCS-ready DLAMI를 기반으로 하는 참조 클러스터 아키텍처는 GitHub의 awsome-distributed-ai 리포지토리를 참조하십시오.