Cloudflare의 네트워크 전반에서 LLM을 실행하려면 GPU 메모리 대역폭을 더욱 스마트하고 효율적으로 활용해야 합니다. 이것이 바로 저희가 'Unweight'를 개발한 이유입니다. Unweight는 모델의 점유 공간(footprint)을 최대 22%까지 줄여주는 무손실 추론 시점(inference-time) 압축 시스템으로, 이를 통해 이전보다 훨씬 더 빠르고 저렴한 추론 서비스를 제공할 수 있게 되었습니다.
Programming Notes