목록으로

Programming Notes

Amazon SageMaker HyperPod, 이제 추론 워크로드를 위한 데이터 캡처 지원

Amazon SageMaker HyperPod에서 추론 워크로드를 위한 데이터 캡처 기능을 이제 지원합니다. 이 기능은 운영 환경의 엔드포인트에서 발생하는 추론 요청 및 응답 페이로드를 Amazon S3에 기록하는 새로운 역량입니다. HyperPod에 생성형 AI 모델을 배포하는 고객은 모델의 입력과 출력을 가시화하여 드리프트를 감지하고, 운영 이슈를 해결하며, 평가 데이터 세트를 구축하고, 배포된 모델을 지속적으로 개선해야 합니다. 하지만 이전에는 이러한 가시성을 확보하기 위해 서비스 외부에서 별도의 맞춤형 로깅 파이프라인을 직접 구축해야만 했습니다.

데이터 캡처 기능을 통해 고객은 실제 운영 트래픽을 활용하여 투기적 디코딩(speculative decoding) 초안 모델을 학습시킴으로써 범용 초안 모델보다 더 나은 성능을 확보할 수 있습니다. 또한 운영 데이터로 평가 파이프라인을 구축하고, 실제 입력을 기반으로 미세 조정(fine-tuning) 작업을 수행하며, 규정 준수를 위한 감사 추적(audit trail)을 유지할 수 있습니다. 고객은 각 엔드포인트에서 SageMaker 엔드포인트, 로드 밸런서 또는 모델 포드(pod) 중 추론 트래픽을 캡처할 위치를 선택할 수 있습니다. 캡처된 데이터는 추론 프로세스를 방해하지 않고 Amazon S3 버킷으로 비동기식으로 전송되며, 구성 가능한 샘플링 및 고객 관리형 AWS KMS 암호화를 지원합니다. HyperPod Inference Operator를 통해 모델을 배포할 때 데이터 캡처를 활성화할 수 있으며, 캡처된 데이터를 Amazon SageMaker Model Monitor와 연동하거나 기존의 평가, 미세 조정 및 초안 모델 학습 워크플로에서 활용할 수 있습니다.

이 기능은 Amazon SageMaker HyperPod가 지원되는 모든 AWS 리전에서 EKS 오케스트레이터를 사용하는 SageMaker HyperPod 클러스터에서 사용할 수 있습니다. 자세한 내용은 HyperPod 추론을 위한 데이터 캡처를 참조하세요.