Azure의 Anyscale: Azure Kubernetes Service 기반의 대규모 엔터프라이즈 AI 구현

AI 플랫폼 팀의 어느 엔지니어는 이번 주말에도 당직을 서고 있습니다. 모델이나 학습 실행 때문이 아니라, 서로 다른 5개의 AI 처리 시스템을 하나로 묶어주는 통합 코드 때문입니다. 데이터 준비는 첫 번째 시스템에서, 학습은 두 번째에서, 평가는 세 번째, 서빙은 네 번째, 그리고 이 모든 것을 감싸는 관측성(Observability) 도구까지. 이 시스템들 사이의 연결 고리(글루 코드)는 어느덧 그 자체로 독자적인 실패 모드와 호출기를 갖춘 하나의 거대한 운영 시스템이 되어버렸습니다.

이것이 바로 2026년 대부분의 기업이 겪고 있는 대규모 AI 운영의 현실입니다. 광범위한 AI 워크로드를 처리하기 위해 팀은 하나의 플랫폼이 아닌, 여러 개의 컴퓨팅 엔진을 복잡하게 이어 붙여 24시간 내내 모니터링해야 하는 스택을 보유하게 됩니다. 멀티 노드 GPU 클러스터는 활용도가 낮고 운영이 어렵기 때문에 학습 실패 비용은 점점 더 비싸집니다. 추론 비용은 낮아지기는커녕 사용량에 따라 정비례하며 상승합니다. 그리고 노드당 연간 수억 원에 달하는 가속기(GPU)들은 겨우 30~40%의 낮은 이용률로 방치됩니다.

이것은 모델의 문제가 아닙니다. 시스템의 문제이며, 업계 내에서 점점 더 벌어지고 있는 격차를 드러내는 지점입니다.

AI 패러다임의 변화: API 추론 호출을 넘어 엔드투엔드 AI로

대부분의 기업은 호스팅된 모델 API를 호출하는 것으로 AI 여정을 시작합니다. 이는 실험하고 제품을 출시하는 가장 빠른 방법입니다. 하지만 도입 규모가 커질수록 추론 비용은 정비례하여 증가하는 반면 차별화 요소는 제한적입니다. 앞서 나가는 조직은 단순히 모델을 소비하는 것에 그치지 않습니다. 그들은 자체 데이터를 사용해 모델을 커스터마이징하고, 대규모로 운영하며, 데이터와 모델 사이의 인프라를 직접 소유합니다. 규모가 커질수록 단위 경제성(unit economics)이 개선됩니다. 이 격차를 만드는 것은 예산이나 야망이 아닙니다. 단 하나의 아키텍처적 결정에 달려 있습니다. 바로 데이터와 모델 사이의 계층을 파편화된 조각으로 빌려 쓸 것인지, 아니면 단일 시스템으로 운영할 것인지의 차이입니다.

이러한 엔드투엔드 AI를 위한 통합 시스템은 거의 예외 없이 하나의 런타임 위에서 구축됩니다. 바로 Ray입니다. Ray는 Cursor, Mistral, xAI와 같은 AI 네이티브 기업들이 멀티모달 데이터 처리부터 강화 학습에 이르기까지 다양한 워크로드를 구동하는 엔진으로 널리 채택하고 있는 오픈 소스 프레임워크입니다.

Anyscale on Azure: Azure 구독 내에서 엔드투엔드 AI 구축 및 실행

Anyscale on Azure는 AI 업계가 표준으로 삼고 있는 분산 컴퓨팅 런타임인 Ray를 Azure 테넌트 내의 Azure 기본 서비스(Native Service)로 제공합니다. 여기에는 Anyscale과 Microsoft 간의 긴밀한 엔지니어링 협력을 통해 구축된 전용 개발자 도구와 통합 클러스터 관리 콘솔이 포함됩니다.

![Anyscale on Azure 개념 이미지]

CPU와 같은 특정 하드웨어만 지원하거나 추론과 같은 단일 워크로드에만 집중하는 다른 처리 엔진과 달리, Ray는 CPU와 GPU가 섞인 이기종 클러스터를 단일 Python 런타임으로 변환합니다. 이를 통해 데이터 준비, 분산 학습, 미세 조정(fine-tuning), 강화 학습, 고처리량 추론, 에이전트 실행을 5개의 서로 맞물린 시스템이 아닌 하나의 프로그램으로 구성할 수 있습니다. Anyscale은 Ray를 만들고 오픈 소스 프로젝트를 관리해 왔으며, 현재 Ray는 PyTorch Foundation에서 관리되고 있습니다. Anyscale 런타임은 기업이 첫날부터 핵심 업무에 활용할 수 있는 프로덕션 등급의 계층으로, 관리형 클러스터 운영, 엔터프라이즈급 지원, 대규모 AI 및 데이터 워크로드 실행에 필요한 운영 안정성을 제공합니다.

Azure에서 이 런타임은 귀하의 구독 내 Azure Kubernetes Service(AKS) 클러스터에서 실행되며 Microsoft Entra ID 워크로드 ID의 제어를 받습니다. 데이터, 모델 및 가중치는 절대로 사용자의 클라우드 경계를 벗어나지 않으며, 사용료는 기존 Azure 소모 약정(MACC)에 따라 Azure를 통해 통합 청구됩니다.

주권(Sovereignty)은 나중에 덧붙이는 라벨이 아닙니다. 이는 아키텍처의 출발점입니다. 고객 소유의 테넌트와 거버넌스 경계 내에서 고객 소유의 데이터와 모델을 유지하는 것입니다. 호스팅된 API의 변동적인 토큰당 비용은 직접 관리하는 컴퓨팅 자원으로 대체됩니다. 사용자의 고유 데이터는 제3자 엔드포인트로 전송되는 페이로드가 아니라, 복리 효과를 창출하는 강력한 자산이 됩니다.

전체 AI 라이프사이클을 위한 단일 런타임

엔터프라이즈 AI의 비용 프로필은 상당 부분 아키텍처에 의해 결정됩니다. 데이터 준비, 학습, 평가, 서빙을 위한 개별 시스템으로 나뉜 파편화된 스택은 유휴 GPU 시간, 통합 코드 복잡성, 시스템 간 데이터 이동과 같은 예측 가능한 실패 모드들을 만들어냅니다.

그 결과, 노드당 수억 원에 달하는 가속기를 사용함에도 불구하고 프로덕션 환경의 GPU 이용률은 30~40% 수준에 머물게 됩니다.

반면 동일한 인프라에서 Anyscale 고객들은 가속기 이용률을 80% 이상 지속적으로 유지하며, 정적인 단일 테넌트 클러스터 대비 GPU 비용을 40~60% 절감한다고 보고합니다. 이는 GPU 분할 할당(최대 0.2개 단위), 상호 보완적인 메모리 및 컴퓨팅 프로필을 가진 작업들의 빈 패킹(bin-packing), 분산 학습을 위한 갱 스케줄링(gang scheduling), 프로덕션 추론이 임시 학습 작업보다 우선순위를 갖게 하는 우선순위 기반 선점(priority-aware preemption), 그리고 장기 실행 작업이 중단되더라도 작업을 잃지 않게 해주는 체크포인트 인식 선점(checkpoint-aware preemption) 기술 덕분입니다.

Anyscale on Azure는 이를 단일 분산 계산 그래프로 전체 라이프사이클을 아우르는 Ray 기반 런타임으로 대체합니다.

![Ray 런타임 아키텍처 이미지]

Ray Data(분산 준비) → Ray Train(결함 허용 학습) → Ray Tune(하이퍼파라미터 탐색) → Ray Serve(추론) — 이 모든 과정이 하나의 관리형 제어 평면(control plane) 아래에서 이루어집니다.

![Ray Lifecycle 이미지]

오픈 소스 Ray 위에 Anyscale 런타임은 체크포인트/재시작을 지원하는 결함 허용 학습, 최적화된 스케줄링, 더 빠른 클러스터 구동, 추론 인식 오토스케일링, 그리고 단계별 관측성 기능을 추가했습니다.

Ray는 기존에 AI 업계에서 이미 사용 중인 프레임워크 스택들을 대체하는 것이 아니라 스트림라인화하는 통합 계층입니다. 학습을 위한 PyTorch, Hugging Face Transformers, FSDP, DeepSpeed, Megatron과 고처리량 추론을 위한 vLLM, SGLang(연속 배칭, 페이징 어텐션, 추측 디코딩 포함) 등이 여기에 해당합니다. Ray Train은 현대적 학습에 필요한 데이터 병렬, 모델 병렬, 하이브리드 3D 병렬(데이터+텐서+파이프라인)의 세 가지 병렬 패턴을 오케스트레이션하여, 팀이 별도의 분산 코드를 작성하지 않고도 조 단위 파라미터 모델을 다룰 수 있게 합니다.

이 아키텍처가 주는 보상은 직접적입니다. 단일 Python 프로그램이 CPU 중심의 데이터 준비와 GPU 중심의 학습을 아우르는 그래프를 정의합니다. Ray Train이 생성한 모델은 동일한 클러스터 내에서 동일한 스토리지를 바라보며 Ray Serve에 의해 서빙됩니다. 운영, ID 관리, 관측성 환경이 파편화되지 않고 하나로 통합됩니다.

엔터프라이즈가 Anyscale on Azure로 배포하는 것들

현대적인 AI 시스템 개발을 뒷받침하는 5가지 워크로드(데이터 처리, 학습, 추론, 시뮬레이션 등)가 있습니다. 하지만 대부분의 환경에서 이들은 각각 별도의 엔진, 프레임워크, 오케스트레이션 계층에 의존합니다. 이러한 파편화는 인프라 비용, 지연 시간, 엔지니어링 복잡성을 증가시킵니다. 따라서 Anyscale의 관리형 제어 평면 아래에서 실행되는 단일 Ray 기반 런타임은 운영 측면에서 가장 합리적인 선택입니다.

Anyscale on Azure는 오픈 소스 Ray와 동일한 API를 사용하여 AI 애플리케이션을 구축하고 배포할 수 있는 완전한 플랫폼을 제공합니다. 데이터 평면(data plane)은 고객의 AKS 클러스터 내부에서 실행되는 반면, 관리형 제어 평면은 개발, 디버깅 및 클러스터 운영을 위한 통합 인터페이스를 제공합니다.

![Anyscale on Azure 워크로드 이미지]

설계부터 적용된 신뢰 경계(Trust Boundary) 내의 AI: 아키텍처

Anyscale on Azure는 **Azure 기본 서비스(Native product)**입니다. Azure 포털을 통해 검색할 수 있으며, 구독 내의 다른 리소스와 마찬가지로 Azure Resource Manager를 통해 프로비저닝되고 태그 지정, 범위 설정 및 정책 바인딩이 이루어집니다.

![Anyscale on Azure 아키텍처 다이어그램]

Anyscale on Azure는 분리된 평면(split-plane) 구조를 가집니다.

제어 평면(Anyscale 관리): 스케줄링, 작업(Jobs), 서비스, 워크스페이스 및 관측성 관리.
데이터 평면(고객 Azure 구독): Ray 클러스터는 고객의 AKS, VNet, 스토리지(Azure Blob / ADLS Gen2 via BlobFuse2) 위에서 실행됨.

금융 서비스, 의료, 공공 부문과 같이 규제가 엄격한 워크로드나 고유 데이터가 핵심 경쟁력인 기업에게는 개별 기능보다 이 **신뢰 경계(trust boundary)**가 훨씬 더 중요합니다.

실행 모델의 특징:

워크로드는 고객의 AKS 클러스터 내에서 실행됩니다. 모델 가중치, 학습 데이터, KV 캐시, 체크포인트 및 추론 트래픽은 고객의 VNet 경계를 절대 벗어나지 않습니다.
프로비저닝은 ARM 네이티브 방식입니다. 리소스 태깅, 범위 설정 및 Azure Policy 상속이 구독 내 다른 리소스와 동일하게 적용됩니다.
ID 관리는 Microsoft Entra ID로 종단 간(end-to-end) 처리됩니다. 워크로드 ID가 포드(pod) 자격 증명을 발급하며, RBAC이 액세스를 제어합니다. 수명이 긴 키나 별도의 비밀 저장소는 필요하지 않습니다.
네트워크 제어 권한은 고객에게 있습니다. Private Link, NSG, Cilium 기반 Azure CNI 정책 및 Key Vault를 통한 고객 관리 암호화 키를 지원합니다.
감사(Audit)는 Azure Activity Log를 사용합니다. 이미 규정 준수 팀이 모니터링하고 있는 동일한 인터페이스를 그대로 활용합니다.
Anyscale Operator가 환경 내 유일한 Anyscale 제어 구성 요소입니다. AKS 내부에서 실행되며 제어 평면과는 아웃바운드(egress) 통신만 수행합니다. Anyscale 측에서의 인바운드 접근은 허용하지 않습니다.

결론적으로, 코드와 데이터는 귀하의 Azure 구독 내에 머뭅니다. 기존의 보안 컴플라이언스, 감사 체계, 데이터 레지던시 인증이 그대로 유지되므로 별도의 검증 절차가 필요 없습니다. 비용은 MACC가 적용된 동일한 Azure 인보이스에 통합되어 청구되므로 번거로운 조달 절차도 생략할 수 있습니다.

실제 도입 사례

Xoople: Anyscale on Azure 상에서 행성 규모의 위성 이미지를 처리합니다. 멀티모달 AI를 통해 스펙트럼 데이터를 실전 지능으로 변환합니다. "Anyscale 덕분에 우리 팀은 인프라가 아닌 모델과 결과에 집중할 수 있게 되었고, 실험에서 배포까지의 경로를 획기적으로 단축했습니다." — Milos Colic, Xoople 엔지니어링 부사장.
Wayve: Anyscale on Azure에서 대규모 CPU 및 GPU 플릿을 활용해 분산 ML 및 데이터 파이프라인을 실행하며 차세대 자율주행 파운데이션 모델을 학습시킵니다. 단일 지역이나 클러스터로는 감당할 수 없는 규모의 GPU 용량을 결합하여 운영하는 것이 핵심 동력입니다.

Anyscale on Azure 외에도 Cursor, Physical Intelligence, xAI, Coinbase, Bedrock Robotics, Runway 등 수많은 기업이 프로덕션 환경에서 Ray를 사용하고 있습니다. Bedrock Robotics는 비용을 선형적으로 증가시키지 않으면서 Anyscale을 통해 컴퓨팅 규모를 85배 확장했습니다. 현재 주간 다운로드 1,200만 회 이상(전년 대비 400% 증가), GitHub 스타 42,000개 이상을 기록하고 PyTorch Foundation에서 관리되는 Ray는 이제 특정 벤더에 종속되지 않은 오픈 소스 표준이 되어가고 있습니다.

가격 정책

가격 정책은 사용량 기반이며, Azure 소모 약정(MACC) 차감을 포함하여 다른 Azure 구독 서비스와 함께 통합 청구됩니다.

Azure 인프라 비용: 워크로드가 실행되는 AKS 하부 구조에 대한 표준 Azure 컴퓨팅 및 GPU 비용으로, 실제 사용량에 따라 직접 확장됩니다.
Anyscale 서비스 계층 비용: Azure 서비스 미터를 통한 종량제 방식으로 사전 약정이 필요 없으며, CPU, 메모리 및 GPU 유형별로 가격이 책정됩니다.

Anyscale on Azure가 적합한 곳

기본 모델의 지능은 점차 수렴하고 있습니다. 모든 기업이 동일한 프런티어 모델에 접근할 수 있게 되면서, 모델 그 자체는 더 이상 독점적인 해자(Moat)가 되지 못합니다. 앞서 나가는 기업을 가르는 차이는 그 아래 계층에 있습니다. 즉, 전체 AI 라이프사이클을 얼마나 효율적으로 대규모 운영하는지, 고유 데이터로부터 얼마나 많은 복리 효과를 이끌어내는지, 그리고 이 모든 것을 묶어주는 런타임을 직접 소유하고 있는지 여부입니다. Anyscale on Azure는 이러한 자세를 지원하는 Azure 네이티브 런타임 계층입니다. AI 업계의 표준인 오픈 소스 분산 컴퓨팅 기술을 Azure의 거버넌스, ID 관리 및 구매 모델 안으로 가져옵니다.

엔터프라이즈 AI의 형태가 정립되고 있습니다. 앞서 나가는 팀은 단순히 API를 통해 지능을 빌려 쓰는 팀이 아닙니다. 자신의 클라우드 내에서, 자신의 데이터로, 자신의 거버넌스 아래 AI 시스템을 구축하고 운영하며, 검증된 오픈 분산 런타임을 통해 이를 확장하는 팀입니다.

Anyscale on Azure는 바로 그러한 팀을 위해 Azure 기본 서비스로 제공되는 런타임입니다.

프로덕션 수준으로 강화된 Ray: AI를 위한 오픈 소스 분산 컴퓨팅 표준을 Anyscale 런타임, 관리형 제어 평면, 파운데이션 모델 규모의 워크로드를 위한 관측성 도구로 강화했습니다.
단일 런타임, 전체 AI 라이프사이클: 데이터 준비, 학습, 미세 조정, 강화 학습, 추론 및 에이전트 워크로드를 별도의 연결 시스템 없이 단일 Python 프로그램과 단일 기판 위에서 처리합니다.
사용자의 Azure 테넌트 내, 기존 AKS 위에서 실행: 고객 소유의 데이터, 모델, 거버넌스. Entra ID, Azure RBAC, Private Link, Activity Log 감사 및 고객 관리 키를 종단 간 지원합니다.
단일 Azure 인보이스: 마켓플레이스를 통한 사용량 기반 가격 책정 및 MACC 차감 지원. 별도의 벤더 계약이나 복잡한 조달 과정이 필요 없습니다.

만약 여러분의 팀이 GPU 이용률 저하, 파편화된 스택, 단일 지역의 용량을 초과하는 학습 작업, 또는 사용량보다 빠르게 증가하는 API 비용 문제로 고민하고 있다면, Anyscale on Azure가 바로 그 해결책입니다.

지금 시작하기

Azure 포털에서 Anyscale Cloud 리소스를 생성하여 첫걸음을 떼보세요. "만들기(Create)"를 클릭하면 Anyscale 클라우드 리소스를 생성하고 필요한 Azure 리소스를 연결할 수 있습니다.

![Azure 포털에서 Anyscale Cloud 생성 이미지] Azure 포털에서 직접 Anyscale Cloud를 생성할 수 있습니다.

![AKS 및 스토리지 설정 이미지] 기존 AKS 클러스터를 연결하고, 스토리지 및 Azure Container Registry(ACR) 리소스를 설정합니다.

![Anyscale 콘솔 실행 이미지] "Launch Anyscale"을 클릭하여 Anyscale 콘솔로 이동합니다.

Microsoft Learn의 퀵스타트 가이드와 문서를 통해 더 자세한 내용을 확인하세요. 아키텍처 심층 분석, 용량 계획 또는 Anyscale on Azure 솔루션 아키텍트와의 워크숍이 필요한 경우 Microsoft 담당 계정 팀에 문의하시기 바랍니다.

곧 진행될 가상 웨비나에서 더 깊이 있는 전문 지식과 모범 사례를 확인하실 수 있습니다. 여기에서 등록하세요.

엔터프라이즈 AI의 향후 10년을 책임질 인프라가 준비되었습니다. 이제 그 위에서 구축하십시오.