목록으로

Programming Notes

NVIDIA Blackwell을 활용한 Amazon SageMaker AI 모델 학습 최적화

이 게시물에서는 AWS 환경에서 Blackwell 아키텍처를 최대한 활용할 수 있도록 Amazon SageMaker AI에서 학습 작업을 구성하는 방법을 소개합니다. Blackwell의 확장된 메모리 용량을 활용하기 위한 배치 크기(batch size) 및 시퀀스 길이(sequence length) 선택 방법, 모델 크기(10억~640억 개의 파라미터)에 적합한 정밀도 형식(precision format) 선택, 그리고 전략적인 활성화 체크포인팅(activation checkpointing) 적용 방법을 배우게 됩니다.

이 과정을 마치고 나면, 학습 구성을 미세 조정하고 P6-B200 인스턴스에서 분산 학습 작업을 실행하기 위한 실질적인 프레임워크를 갖추게 될 것입니다.