Amazon SageMaker AI, 추론 엔드포인트를 위한 새로운 관측성(Observability) 기능 발표

Amazon SageMaker AI의 새로운 관측성 기능은 토큰 성능, GPU 상태, 추론 컴포넌트 배치 및 오토스케일링 동작에 대한 포괄적인 가시성을 제공하여 고객이 프로덕션 생성형 AI 추론 워크로드를 자신 있게 운영할 수 있도록 지원합니다. 이 기능은 엔드포인트별 메트릭을 찾기 위해 CloudWatch를 수동으로 검색하거나, 지연 시간 급증과 GPU 포화 또는 KV 캐시 소진 사이의 상관관계를 분석하고, 스케일링 작업이 느린 이유를 진단해야 했던 번거로운 수작업을 없애줍니다. 또한 첫 번째 토큰 생성 시간(TTFT), 토큰 간 지연 시간, 대기열 깊이(Queue Depth), 초당 토큰 수 등 추론 성능 메트릭을 실시간으로 추적하고 이를 인프라 상태와 함께 표시하여, 고객이 문제를 몇 시간이 아닌 몇 분 만에 식별하고 해결할 수 있도록 돕습니다.

SageMaker AI의 상세 관측성 기능은 고객이 추론 플릿(fleet)을 모니터링하고 최적화하는 방식을 혁신합니다. Amazon CloudWatch에 새롭게 사전 구축된 'SageMaker AI Insights' 대시보드는 토큰 지연 시간, GPU 사용률, 추론 컴포넌트 복제본 수, 스케일링 이벤트, 콜드 스타트 내역 등을 한눈에 볼 수 있게 제공합니다. OpenTelemetry 네이티브 메트릭이 자동으로 게시되므로 별도의 계측(instrumentation) 작업이 필요하지 않습니다. 이를 통해 팀은 TTFT 성능 저하를 신속하게 진단하고, 가용 영역 준수 여부를 확인하며, 오토스케일링 정책을 세밀하게 조정할 수 있습니다. Grafana와 같은 관측성 도구를 표준으로 사용하는 고객은 리전별 PromQL 엔드포인트를 사용하여 직접 연결하고 사전 구성된 대시보드 템플릿을 가져올 수 있습니다. 이 기능은 고객이 운영 문제를 스스로 해결하고 AI 투자의 성능을 극대화할 수 있도록 지원합니다.

SageMaker AI 추론 관측성 기능은 다음 AWS 리전에서 사용할 수 있습니다: 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오레곤), 미국 서부(북부 캘리포니아), 캐나다(중부), 남미(상파울루), 유럽(아일랜드), 유럽(프랑크푸르트), 유럽(런던), 유럽(스톡홀름), 유럽(취리히), 아시아 태평양(뭄바이), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(도쿄), 아시아 태평양(서울), 아시아 태평양(자카르타). 자세한 내용은 설명서 및 Amazon SageMaker AI 웹페이지를 방문하여 확인해 보세요.