이 게시물에서는 vLLM에서 MoE(Mixture of Experts) 모델을 위한 멀티 LoRA 추론을 구현한 방법, 수행한 커널 수준 최적화, 그리고 이 작업을 통해 얻을 수 있는 이점을 설명합니다. 이 게시물 전반에 걸쳐 GPT-OSS 20B를 주요 예시로 사용합니다.
Programming Notes
Amazon SageMaker AI 및 Amazon Bedrock에서 vLLM을 사용하여 수십 개의 미세 조정 모델을 효율적으로 서비스하기
이 게시물에서는 vLLM에서 MoE(Mixture of Experts) 모델을 위한 멀티 LoRA 추론을 구현한 방법, 수행한 커널 수준 최적화, 그리고 이 작업을 통해 얻을 수 있는 이점을 설명합니다. 이 게시물 전반에 걸쳐 GPT-OSS 20B를 주요 예시로 사용합니다.