목록으로

Programming Notes

AWS, NIXL과 EFA 지원 추가로 대규모 LLM 추론 가속화

AWS는 Amazon EC2에서 분산형 거대 언어 모델(LLM) 추론을 가속화하기 위해 Elastic Fabric Adapter(EFA)와 함께 NVIDIA Inference Xfer Library(NIXL) 지원을 발표합니다. 이 통합은 세 가지 핵심 개선 사항을 통해 분산형...

AWS는 Amazon EC2에서 분산형 거대 언어 모델(LLM) 추론을 가속화하기 위해 Elastic Fabric Adapter(EFA)와 함께 NVIDIA Inference Xfer Library(NIXL) 지원을 발표합니다. 이 통합은 세 가지 핵심 개선 사항을 통해 분산형 추론 서비스를 향상시킵니다: KV 캐시 처리량 증가, 토큰 간 지연 시간 감소, KV 캐시 메모리 활용 최적화.

EFA와 NIXL은 프리필 및 디코드 노드 간의 고처리량, 저지연 KV 캐시 전송을 가능하게 하며, 다양한 스토리지 계층 간의 효율적인 KV 캐시 이동을 지원합니다. NIXL은 모든 EFA 지원 EC2 인스턴스와 상호 운용 가능하며, NVIDIA Dynamo, SGLang, vLLM을 포함한 프레임워크와 기본적으로 통합됩니다. 결과적으로, EFA와 NIXL은 원하는 EC2 인스턴스 및 프레임워크와의 유연한 통합을 가능하게 하여 대규모로 고성능 분산형 추론을 제공합니다.

AWS는 모든 EFA 지원 EC2 인스턴스 유형에서 모든 AWS 리전에 걸쳐 NIXL 버전 1.0.0 이상과 EFA 인스톨러 버전 1.47.0 이상을 추가 비용 없이 지원합니다. 더 자세한 정보는 EFA 설명서를 참조하세요.