이 게시물에서는 vLLM에서 MoE(Mixture of Experts) 모델을 위한 멀티 LoRA 추론을 구현한 방법, 수행한 커널 수준 최적화, 그리고 이 작업을 통해 얻을 수 있는 이점을 설명합니다. 이 게시물 전반에 걸쳐 GPT-OSS 20B를 주요 예시로 사용합니다.
Programming Notes
프로그래밍과 기술 이슈를 빠르게 정리하는 개발 블로그
Programming Notes
이 게시물에서는 vLLM에서 MoE(Mixture of Experts) 모델을 위한 멀티 LoRA 추론을 구현한 방법, 수행한 커널 수준 최적화, 그리고 이 작업을 통해 얻을 수 있는 이점을 설명합니다. 이 게시물 전반에 걸쳐 GPT-OSS 20B를 주요 예시로 사용합니다.