초대형 언어 모델(XL LLM) 실행을 위한 기반 구축

Cloudflare는 자사 인프라에서 대규모 언어 모델(LLM)을 빠르게 실행하기 위해 맞춤형 기술 스택을 구축했습니다. 이 포스트에서는 고성능 AI 추론을 누구나 쉽게 이용할 수 있도록 하는 데 필요한 엔지니어링 트레이드오프(Trade-offs)와 기술적 최적화 과정을 살펴봅니다.

AI 추론 시각화 이미지

작년에 Cloudflare는 전 세계 150개 이상의 도시에서 GPU를 지원하며 Workers AI를 출시했습니다. 그 이후로 우리는 하드웨어 제품군을 확장하여 전 세계 300개 이상의 도시에 GPU를 배포했으며, 개발자들이 Mistral, Antropic, Meta 등 업계 선두의 모델을 사용하여 풀스택 AI 애플리케이션을 구축할 수 있도록 지원하고 있습니다.

하지만 AI 모델이 점점 더 커지고 복잡해짐에 따라(예: Meta의 Llama 3 70B), 이러한 모델을 네트워크 엣지(Edge)에서 지연 시간 없이 실행하는 것은 새로운 도전 과제가 되었습니다. 우리는 성능 저하 없이 초대형 언어 모델을 실행하기 위해 하드웨어와 소프트웨어 스택을 처음부터 다시 설계해야 했습니다.

도전 과제: 메모리와 속도의 균형

대규모 언어 모델을 실행할 때 직면하는 가장 큰 병목 현상은 '메모리 대역폭'입니다. 모델이 커질수록 매개변수(Parameters)를 메모리에서 프로세서로 이동시키는 데 드는 시간이 실제 계산 시간보다 더 길어지곤 합니다.

Llama 3 70B와 같은 모델은 단일 GPU의 메모리 용량을 초과하는 경우가 많으며, 이를 해결하기 위해 우리는 다음과 같은 최적화 전략을 도입했습니다.

텐서 병렬 처리(Tensor Parallelism): 모델을 여러 GPU에 분산하여 동시에 계산을 수행함으로써 처리 속도를 극적으로 높였습니다.
양자화(Quantization): 모델의 정밀도를 지능적으로 조정하여 메모리 사용량을 줄이면서도 정확도는 유지하는 기술을 적용했습니다.
플래시 어텐션(Flash Attention): 트랜스포머 아키텍처의 핵심인 어텐션 메커니즘을 최적화하여 메모리 읽기/쓰기 횟수를 최소화했습니다.

고성능 AI 추론을 위한 스택

우리는 단순히 기존 라이브러리를 사용하는 데 그치지 않고, Cloudflare 전용으로 최적화된 추론 엔진을 구축했습니다.

하드웨어: 최신 NVIDIA GPU와 고대역폭 메모리를 탑재한 서버를 전 세계 데이터 센터에 배치했습니다.
소프트웨어: 가볍고 빠른 실행을 위해 Rust 기반의 커스텀 런타임을 개발하여 모델 로딩 시간을 단축했습니다.
네트워크: Cloudflare의 글로벌 네트워크를 통해 사용자와 가장 가까운 위치에서 추론을 수행함으로써 네트워크 지연 시간을 최소화했습니다.

Cloudflare AI 아키텍처

결론: 누구나 사용 가능한 고성능 AI

이러한 기술적 기반을 통해 개발자들은 이제 인프라 관리의 복잡성 없이도 초대형 언어 모델의 강력한 성능을 Cloudflare Workers AI에서 직접 활용할 수 있습니다.

우리의 목표는 명확합니다. 가장 복잡하고 강력한 AI 모델을 지구상의 모든 사람이 가장 빠르고 쉽게 사용할 수 있도록 만드는 것입니다. 이번에 구축한 새로운 기반은 그 여정의 시작일 뿐입니다.

더 자세한 기술적 세부 사항이 궁금하시다면 아래 링크를 확인해 보세요: Cloudflare Workers AI 문서 읽어보기