Amazon SageMaker AI, 자동 인스턴스 폴백을 통한 용량 인식 추론 지원 시작

Amazon SageMaker AI 추론 엔드포인트가 이제 우선순위가 지정된 인스턴스 유형 목록을 통해 유연한 프로비저닝을 지원합니다. 선호하는 인스턴스 유형의 용량이 부족할 경우, SageMaker AI는 목록에서 사용 가능한 다음 옵션에서 인스턴스를 자동으로 프로비저닝합니다. 이를 통해 수동 개입 없이도 엔드포인트 생성 및 오토스케일링(autoscaling)이 원활하게 유지됩니다. 덕분에 프로덕션 환경에 AI/ML 모델을 배포하는 팀은 용량 제약 문제를 유연하게 처리할 수 있는 회복 탄력성을 확보하고, 엔드포인트를 안정적으로 생성하며 필요에 따라 확장할 수 있게 되었습니다.

인스턴스 풀 지원 기능을 통해 사용자는 우선순위가 지정된 인스턴스 유형 목록을 정의할 수 있으며, SageMaker AI는 목록의 순서에 따라 자동으로 용량을 확보합니다. 이 기능은 엔드포인트 생성, 업데이트 및 스케일링 전반에 걸쳐 적용됩니다. 스케일 다운(축소) 시, SageMaker AI는 우선순위가 가장 낮은 인스턴스부터 먼저 제거하여 플릿이 축소될 때 사용자가 선호하는 인프라가 최대한 유지되도록 합니다. 이 기능은 단일 모델 엔드포인트, InferenceComponent 기반 엔드포인트, 비동기 추론 엔드포인트에 적용됩니다. 여기에는 0으로 스케일링되는(scale to zero) 엔드포인트도 포함되며, 다시 스케일 업될 때 사용 가능한 가장 높은 우선순위의 풀에서 프로비저닝을 수행합니다.

폴백 인스턴스 유형마다 GPU 메모리 및 컴퓨팅 성능이 다르기 때문에, 우선순위 목록의 각 인스턴스 유형에 맞게 최적화된 서로 다른 모델을 지정할 수 있습니다. 이러한 아티팩트를 직접 준비하거나, 각 인스턴스 유형별로 하드웨어 맞춤형 최적화 구성을 자동으로 생성해 주는 SageMaker AI 추론 추천(Inference Recommendations) 기능을 활용할 수 있습니다. 또한, 인스턴스 유형별 CloudWatch 지표를 제공하므로 단일 엔드포인트 내에서 하드웨어 유형별 지연 시간, 처리량, GPU 사용률 및 인스턴스 수를 가시적으로 확인할 수 있습니다.

이 기능은 현재 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오레곤), 캐나다(중부), 남미(상파울루), 유럽(아일랜드), 유럽(런던), 유럽(프랑크푸르트), 유럽(스톡홀름), 유럽(취리히), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(뭄바이), 아시아 태평양(자카르타) 리전에서 사용할 수 있습니다. 자세한 내용은 Amazon SageMaker AI 설명서를 참조하세요.