SageMaker JumpStart에서 이제 파운데이션 모델을 위한 최적화된 배포(optimized deployments) 기능을 제공합니다.

SageMaker JumpStart는 이제 최적화된 배포 기능을 제공하여, 고객이 특정 사용 사례 및 성능 제약 조건에 맞게 사전 구성된 설정으로 파운데이션 모델을 배포할 수 있도록 지원합니다. SageMaker JumpStart의 최적화된 배포는 콘텐츠 생성, 요약, Q&A 등 워크로드 요구 사항에 따라 비용, 처리량 또는 지연 시간을 최적화하는 '태스크 인식(task-aware)' 구성을 제공하여 모델 배포를 간소화합니다. 이번 출시에는 Meta, Microsoft, Mistral AI, Qwen, Google, TII의 30개 이상의 인기 모델에 대한 지원이 포함되며, 배포 전 P50 지연 시간, 첫 번째 토큰 생성 시간(TTFT), 처리량과 같은 핵심 성능 지표를 확인할 수 있는 가시성을 제공합니다.

SageMaker JumpStart 최적화 배포를 통해 고객은 사용 사례별 구성(예: 생성형 작문 또는 채팅 스타일 상호 작용)을 선택할 수 있으며, 비용 최적화, 처리량 최적화, 지연 시간 최적화 또는 균형 잡힌 성능 중 원하는 최적화 목표를 선택할 수 있습니다. 모델은 사전 설정된 구성과 함께 SageMaker AI 관리형 추론 엔드포인트 또는 SageMaker HyperPod 클러스터에 배포되어, 배포 상세 정보에 대한 전체 가시성을 유지하면서도 추측에 의존하는 복잡한 설정 과정을 없앴습니다. 지원 모델에는 Meta Llama 3.1 및 3.2 변체, Microsoft Phi-3, 최신 Mistral-Small-24B-Instruct-2501을 포함한 Mistral AI 모델, 멀티모달 Qwen2-VL을 포함한 Qwen 2 및 3 시리즈, Google Gemma, 그리고 TII Falcon3가 포함됩니다. 모든 배포는 SageMaker의 VPC 배포 기능을 활용하여 데이터 제어권을 확보하고 엔터프라이즈급 보안을 갖춘 프로덕션 지원 인프라를 보장합니다. 이 기능은 현재 SageMaker JumpStart가 지원되는 모든 AWS 리전에서 사용할 수 있습니다.

최적화된 배포를 시작하려면 SageMaker Studio의 'Models'로 이동하여 JumpStart 모델 탭에서 원하는 파운데이션 모델을 선택하고, "Deploy(배포)"를 클릭한 후 사용 사례와 성능 최적화 목표를 선택하십시오. 자세한 내용은 SageMaker JumpStart 문서를 참조하시기 바랍니다. AWS는 지원 모델을 추가하기 위해 지속적으로 지원 범위를 확장하고 있습니다.