Azure에서 ChatGPT, Sora & DeepSeek을 실행하는 슈퍼컴퓨터를 만나보세요 (Mark Russinovich 출연)
인프라 관리 없이 오픈 소스 및 독점 모델을 사용하여 멀티 에이전트 앱과 대규모 추론 솔루션을 오케스트레이션하세요. Azure를 사용하면 GPU를 프로비저닝하거나 복잡한 스케줄링 로직을 작성하지 않고도 Semantic Kernel과 같은 프레임워크를 DeepSeek, Llama, OpenAI의 GPT-4o 및 Sora의 모델에 연결할 수 있습니다. 프롬프트와 에셋을 제출하기만 하면 모델이 나머지를 처리합니다.
Azure의 Model as a Service를 사용하면 자동 확장 및 내장된 보안 기능을 갖춘 관리형 API로 DeepSeek R1 및 Sora와 같은 최첨단 모델을 포함한 새로운 릴리스에 액세스할 수 있습니다. 수요 폭주를 처리하든, 모델을 미세 조정하든, 컴퓨팅을 프로비저닝하든, Azure는 필요한 용량, 효율성 및 유연성을 제공합니다. H100, GB200 및 고급 냉각을 포함한 업계 최고의 AI 실리콘을 통해 솔루션은 ChatGPT를 지원하는 것과 동일한 성능과 규모로 실행할 수 있습니다.
Azure CTO, 부 CISO 겸 Microsoft 기술 펠로우인 Mark Russinovich가 Jeremy Chapman과 함께 Azure의 최신 AI 발전과 오케스트레이션 기능이 개발자에게 어떻게 새로운 가능성을 열어주는지 공유합니다.
텍스트 생성을 넘어선 AI
여러 LLM, 에이전트, 음성 내레이션 및 비디오를 사용하세요. Azure에서 완전히 자동화됩니다. 여기에서 시작하세요.
일관된 성능으로 대규모 추론을 실행하세요.
가장 까다로운 AI 워크로드를 위해 병렬 배포 및 벤치마킹된 GPU 인프라를 사용하세요. 여기에서 시청하세요.
비용과 복잡성을 절약하세요.
더 큰 AI 앱을 위한 슈퍼컴퓨터의 성능을 얻으면서 더 작은 앱을 위해 GPU의 일부를 임대할 수 있는 유연성을 확보하세요. 확인해 보세요.
빠른 링크:
00:00 — Azure에서 AI 앱 및 에이전트 구축 및 실행
00:26 — 멀티 에이전트, 멀티 모델 앱을 사용한 음성 내레이션 비디오 생성 예시
03:17 — Azure의 Model as a Service
04:02 — 규모 및 성능
04:55 — 엔터프라이즈급 보안
05:17 — Azure에서 사용할 수 있는 최신 AI 실리콘
06:29 — 대규모 추론
07:27 — 일상적인 AI 및 에이전트 솔루션
08:36 — 프로비저닝된 처리량
10:55 — 부분 GPU 할당
12:13 — Azure의 다음 단계는 무엇일까요?
12:44 — 마무리
링크 참조
자세한 내용은 https://aka.ms/AzureAI를 확인하세요.
Microsoft Mechanics를 잘 모르시나요?
Microsoft의 공식 IT 비디오 시리즈로서 Microsoft에서 제품을 구축하는 사람들이 제공하는 현재 및 향후 기술에 대한 가치 있는 콘텐츠와 데모를 시청하고 공유할 수 있습니다.
- YouTube 구독: https://www.youtube.com/c/MicrosoftMechanicsSeries
- 다른 IT 전문가와 대화하고 Microsoft 기술 커뮤니티에 참여하세요: https://techcommunity.microsoft.com/t5/microsoft-mechanics-blog/bg-p/MicrosoftMechanicsBlog
- 어디서든 시청하거나 듣고 팟캐스트를 구독하세요: https://microsoftmechanics.libsyn.com/podcast
이 내부자 지식을 계속 얻으려면 소셜에서 함께 하세요.
- Twitter에서 팔로우하세요: https://twitter.com/MSFTMechanics
- LinkedIn에서 지식을 공유하세요: https://www.linkedin.com/company/microsoft-mechanics/
- Instagram에서 즐기세요: https://www.instagram.com/msftmechanics/
- TikTok에서 함께 즐기세요: https://www.tiktok.com/@msftmechanics
비디오 트랜스크립트:
-
그래서 Azure는 오픈 소스 모델과 오케스트레이션을 사용하려는 경우에도 AI 앱과 에이전트를 구축하고 실행하기에 가장 좋은 곳일까요? 오늘은 Azure CTO이자 Sysinternals의 공동 창립자로 여러분 중 일부가 아마 알고 계실 Mark Russinovich와 함께합니다.
-
여기 오게 되어 기쁩니다, Jeremy.
-
오늘은 추론에 대해 이야기할 것이고, 가능한 것을 보여주기 위해 멀티 에이전트 솔루션으로 시작한 다음, 그것을 실행하는 것과 여러분이 구축할 수 있는 것을 자세히 살펴볼 것입니다.
-
좋습니다. 최고의 AI 모델과 도구를 사용하여 처음부터 음성 해설이 포함된 맞춤형 비디오 광고를 제작하기 위해 함께 작동하는 여러 에이전트를 사용할 것입니다. 이 페이지를 통해 기본 프롬프트를 제공하고 사진을 업로드할 수 있으며, 제 에이전트 앱은 제품 출시에 대한 음성 내레이션과 여러 장면이 포함된 30초 분량의 비디오를 제작합니다. 새로운 SUV에 대한 광고를 생성하기 위한 프롬프트로 시작하여 어디든 갈 수 있고 모든 것을 벗어날 수 있는 아웃랜더 옵션 패키지가 포함되어 있습니다. 다른 색상과 각도에서 로컬 장치의 자동차 사진을 몇 장 업로드하겠습니다. 그런 다음 프롬프트를 제출하면 에이전트가 오른쪽에서 무엇을 하고 있는지 볼 수 있습니다. 비디오가 생성되는 동안 VS Code로 이동하여 이 앱의 배후에 있는 것을 설명하겠습니다. 이것은 Python 코드를 사용한 오케스트레이션을 위해 Microsoft의 오픈 소스 Semantic Kernel을 사용하고 있으며, 터미널에서 플레이 바이 플레이로 발생하는 상황을 볼 수 있습니다. 우리는 Azure AI Foundry 모델을 사용하고 있습니다. 먼저 Azure DeepSeek의 R1 모델이 기본 계획 에이전트를 구동합니다. 다음 에이전트는 내 프롬프트를 해석하는 카피라이터입니다. 25초 정도 길이의 내레이션 텍스트를 작성하기 위해 Meta의 오픈 소스 Llama 4 모델을 사용하는 Azure Llama를 사용하고 있습니다. 그런 다음 카피라이터 에이전트의 출력을 가져와 광고 카피에 음성 해설을 추가하기 위해 Azure AI Foundry에서 텍스트 음성 변환을 사용하는 또 다른 에이전트가 있습니다. 브랜드 승인된 음성을 사용하고 MP3 파일을 출력합니다. 어떤 비디오 장면을 생성하는 것이 가장 합리적인지 결정하는 또 다른 비디오 에이전트가 있습니다. 이것은 첫 번째 광고 카피 에이전트가 생성한 스크립트를 기반으로 합니다. 그런 다음 앱은 Azure OpenAI에서 Sora 모델을 호출합니다. 업로드된 이미지를 참조하고 토크 트랙에 나타나는 순서대로 장면을 설명하는 텍스트 프롬프트를 사용하여 비디오를 생성합니다. 프롬프트는 몇 개의 5초 비디오를 생성하는 데 사용됩니다. 이것은 곧 출시될 Sora API의 초기 모습이며, 출시 직후 이미지에서 비디오 지원이 제공되는 Azure 고유의 기능입니다. 비디오 및 오디오 파일이 완료되면 앱은 오픈 소스 FFMPEG 명령줄 도구를 사용하여 비디오와 오디오 트랙을 결합하는 비디오 어셈블리를 수행하고 브랜드에 맞게 미리 제작된 Contoso 인트로 및 아웃트로 범퍼를 첫 번째 및 마지막 비디오 세그먼트로 삽입합니다. 이 모든 것이 완료되면 완성된 다운로드 가능한 MP4 파일을 만듭니다. 그리고 제가 이야기하는 동안 전체 프로세스가 완료되었기 때문에 빠릅니다. 그리고 여기 최종 결과가 있습니다.
-
모험이 부릅니다. Contoso EarthPilot 하이브리드 SUV로 응답하세요. 견고하고 신뢰할 수 있으며 모든 것을 위한 준비가 되어 있습니다. 바위투성이의 길에서 탁 트인 고속도로까지, 이 강력한 자동차는 여러분의 마음이 감히 원하는 곳 어디든 데려다 줍니다. Overlander 옵션 패키지로 업그레이드하고 궁극의 휴가를 즐기세요. 세련된 옥상 텐트, 높은 저장 공간 및 최첨단 트레일 기술을 제공합니다. EarthPilot은 여러분을 더 멀리 데려다 주고, 계속 움직이게 하고, 진정으로 벗어날 수 있게 해줍니다. Contoso EarthPilot. 어디든 가세요. 모든 것을 벗어나세요.
-
맞습니다. 추론 측면에서 이것은 대부분의 텍스트 생성 시나리오보다 훨씬 더 강렬합니다. 그리고 에이전트가 실제로 OpenAI의 상당히 다양한 모델을 사용하고 있다는 것을 보여주셨습니다. 오픈 소스 오케스트레이션, Llama, DeepSeek, 모든 Azure AI Foundry 모델을 보았습니다. 그렇다면 이와 같은 것이 어떤 하드웨어에서 실행될까요?
-
방금 보신 모든 것은 ChatGPT를 구동하는 것과 동일한 전투 테스트를 거친 인프라에서 실행되고 있으며, Azure에서 매주 5억 명 이상의 활성 사용자가 실행됩니다. 이것을 맥락에 맞게 설명하자면, 방금 보여드린 에이전트 시스템을 직접 실행하려면 비디오 생성 모델을 실행하고 모든 것을 인코딩하기 위해 H100 또는 최신 GPU 서버의 상당히 큰 클러스터가 필요합니다. 또한 효율적인 것으로 간주되는 DeepSeek R1 671B와 같은 대형 LLM에는 1.3테라바이트 이상의 GPU 메모리와 16개의 NVIDIA A100 또는 최신 클러스터링된 GPU가 필요합니다. Azure에서 서비스를 관리하는 방식으로 모든 것을 처리해 드립니다. 컴퓨팅을 프로비저닝하거나 모든 것을 연결하는 것에 대해 걱정할 필요가 없습니다. GPT-4o 및 Sora를 포함한 OpenAI, DeepSeek 및 Llama 모델은 Azure의 Model as a Service의 일부이며, 여기에서 특정 모델을 서버리스로 실행하고 있습니다. 런타임을 설정하거나 토큰화 또는 스케줄링 로직에 대해 걱정할 필요가 없습니다. 내장된 할당량 관리 및 자동 확장이 있는 엔드포인트일 뿐입니다.
-
규모 측면에서 지난 5월에 Azure 슈퍼컴퓨터 쇼를 함께 했을 때, 당시에도 Azure에서 하루에 300억 건 이상의 추론 요청을 이미 지원하고 있었습니다.
-
그리고 우리는 얼마 전에 그것을 넘어섰습니다. 실제로 올해 1분기에 100조 개 이상의 토큰을 처리했는데, 이는 작년보다 5배 증가한 것입니다. 그리고 우리가 보고 있는 성장은 기하급수적입니다. 지난달에만 50조 개의 토큰을 처리했습니다. 최고의 AI 성능을 위해서는 효율적인 AI 모델, 최첨단 하드웨어 및 최적화된 인프라가 필요합니다. 항상 최신의 가장 훌륭한 AI 모델에 액세스할 수 있도록 보장합니다. 예를 들어 DeepSeek R1 모델을 출시된 지 단 하루 만에 Azure 서비스에 완전히 통합하고 엔터프라이즈급 보안 및 안전과 함께 제공할 수 있었습니다. 엔터프라이즈급 보안 및 안전이라고 말할 때 Key Vault, API 게이트웨이, 개인 링크 및 책임감 있는 AI 필터와 같은 서비스와 통합된다는 의미입니다. Azure 구독 없이도 GitHub에서 모델 카탈로그에 직접 액세스하고 실험할 수 있습니다. 또는 Azure를 사용하는 경우 수천 개의 오픈 소스 및 산업 모델을 포함하여 10,000개 이상의 Foundry 모델이 있는 Azure AI Foundry에서 액세스할 수 있습니다. 또한 우리는 항상 최신 AI 실리콘을 제공하고 Azure에서 사용할 수 있도록 하는 데 앞장서 왔습니다. 우리는 추론에 매우 중요한 192기가바이트의 고대역폭 메모리를 갖춘 AMD의 MI300X GPU 설계에 긴밀하게 협력하고 있습니다. 또한 NVIDIA와 협력하여 NVIDIA GB200 플랫폼과 함께 H100 칩을 최초로 클라우드에 제공했습니다. 이는 현재 시장에서 가장 강력한 것입니다. 이는 이전 세대 GPU에 비해 1/3의 비용으로 토큰을 생성할 수 있음을 의미합니다. 또한 최고의 비용 성능을 활용하기 위해 대규모 맞춤형 데이터 센터에서 수만 개의 GB200 GPU를 통해 용량 면에서 선두를 달리고 있으며, AI 인프라를 실행하기 위해 고급 액체 냉각을 개발했습니다. 여기에는 현재 일부 Copilot 서비스를 포함하여 대규모 1차 AI 워크로드를 효율적으로 실행하는 데 사용되는 자체 칩 Maia가 포함됩니다. 또한 우리 시스템은 모듈식이므로 각 시스템에 대한 특정 수요를 충족하기 위해 NVIDIA 및 AMG GPU를 동일한 InfiniBand 네트워크 인프라에 배포할 수 있습니다.
-
이 모든 것은 지금 구축하든 몇 년 후에 구축하든 항상 최첨단 기술에 액세스할 수 있음을 의미합니다.
-
맞습니다. 추론 성능을 입증할 수 있습니다. MLPerf 벤치마크 테스트의 일부로 업계 표준 Llama2 70B 모델을 사용합니다. 오래된 모델이지만 크기로 인해 하드웨어 벤치마킹 및 테스트를 위한 업계 표준입니다. NVIDIA GB200 Blackwell GPU로 가속화된 Azure의 ND GB200 v6 가상 머신에서 추론을 실행했으며, 여기에서 단일 전체 NVIDIA GB200 Blackwell GPU 랙을 사용했습니다. 하나의 랙에는 노드당 4개의 GPU가 있는 18개의 GPU 서버가 포함되어 총 72개의 GPU가 있습니다. 이러한 18개의 GPU 서버에 Llama2 70B 모델을 로드했으며 각 서버에 하나의 모델 인스턴스가 있습니다. 이것은 각 서버에서 실행한 Python 스크립트이며, 추론 프레임워크인 CycleCloud에서 SLURM을 사용하여 병렬로 실행했습니다. 이 Grafana 대시보드에서 모델 추론의 초당 토큰 성능을 볼 수 있습니다. 하단의 벤치마크 결과에서 볼 수 있듯이 각 노드에서 평균 약 48,000개의 토큰/초를 달성했습니다. 그리고 위에서 전체 랙에 대해 총 865,000개의 토큰/초를 달성하고 있으며 이는 새로운 기록입니다. 오른쪽 상단의 막대 차트는 시스템 전체에서 성능이 매우 낮고 편차가 거의 없이 얼마나 일관적인지 보여줍니다.
-
그렇다면 이 성능은 현재 사람들이 Azure에서 구축하고 있는 일상적인 AI 및 에이전트 솔루션으로 어떻게 전환될까요?
-
상호 작용당 소비되는 토큰에 대한 정확한 숫자는 없지만 간단한 수학을 사용하고 몇 가지 가정을 통해 일상적인 성능으로 대략적으로 변환할 수 있습니다. 예를 들어 Sysinternals에 대해 Llama에 질문한 이 프롬프트와 같이 쉬운 작업은 약 20개의 토큰을 소비합니다. 내부적으로 시스템 프롬프트에 대해 약 100개의 토큰을 추가해야 하며, 프롬프트를 처리하는 데 필요한 약 500개의 토큰이 프록시입니다. 그런 다음 마지막으로 생성된 응답은 약 1,400개의 토큰입니다. 따라서 총 합계는 이 하나의 상호 작용에 대해 2,000개의 동등한 토큰에 가깝습니다. 벤치마크 테스트에서 초당 865,000개의 토큰을 보여주었다는 것을 기억하십시오. 따라서 그것을 내 예제의 2,000개의 토큰으로 나눕니다. 그리고 그것은 Azure에서 랙당 초당 약 432회의 사용자 상호 작용으로 변환됩니다. 또는 하루 종일 외삽하고 사용자당 10회의 상호 작용을 추정하면 이는 매우 높은 수치이며 약 370만 명의 일일 활성 사용자입니다. 그리고 그건 그렇고, 모든 사람은 이미 Sysinternals 도구를 사용하는 방법을 알고 있어야 하며 그 질문을 할 필요가 없습니다.
-
정확합니다. 저도 그렇게 생각하고 있었습니다. 실제로 이 모든 것을 기억에 새겼습니다.
-
당신을 믿을 수 있을지 모르겠네요.
-
명령줄 도움말도 도움이 됩니다. 하지만 방향을 바꿔봅시다. 이와 같은 규모의 앱을 실행하는 경우 응답 시간이 계속 유지되도록 어떻게 보장할 수 있을까요?
-
선택한 배포 옵션에 따라 다릅니다. 모델을 서버리스로 실행하는 경우 공유 모델 및 인프라를 사용할 때 처리량 성능의 설정 수준을 유지하는 옵션도 있습니다. 사용자를 격리하는 방식으로 인해 처리량에 영향을 미칠 수 있는 스파이크가 있을 수 있는 시끄러운 이웃에 대해 걱정할 필요가 없습니다. Azure에서 서버리스 모델에 대한 컴퓨팅을 직접 프로비저닝할 때 표준, 공유, 로컬 프로비저닝 및 글로벌 프로비저닝을 사용할 수 있습니다. 여기에서 배포된 모델이 몇 개 있음을 알 수 있습니다. 부하 테스트 대시보드로 이동하여 서비스에 대한 추론 트래픽을 살펴보기 위한 테스트를 실행할 수 있습니다. 테스트를 시작하겠습니다. Grafana 대시보드로 이동하면 부하 상태에서 들어오는 모든 요청을 처리하고 있음을 알 수 있습니다. 이를 통해 프로비저닝된 처리량에 대해 설정해야 하는 용량을 알 수 있습니다. 이제 프로비저닝된 처리량을 설정하기 위한 구성 콘솔로 이동하여 트래픽을 볼 날짜 범위를 선택할 수 있습니다. 이 막대 차트 시간 계열은 파란색으로 프로비저닝된 처리량의 수면을 편리하게 나타내며 이 슬라이더를 사용하여 보장하려는 성능 수준과 일치시킬 수 있습니다. 최대 수요 또는 대부분의 요청에 대해 예측 가능한 일정한 수요가 있는 수준과 일치하도록 슬라이드할 수 있습니다. 그렇게 하고 약 70으로 설정하겠습니다. 이제 트래픽이 해당 수준을 초과하면 설계상 일부 사용자는 오류를 받고 요청이 처리되지 않습니다. 즉, 제공되는 요청과 설정된 PT 제한 내에서 다른 Azure 사용자도 동일한 모델 배포 및 기본 인프라를 사용하는 경우에도 성능 수준은 일관됩니다. 이 설정을 부하 상태에서 수행한 결과와 함께 Grafana 대시보드에서 보여줄 수 있으며, 여기서 여전히 많은 요청을 받고 있지만 이 라인 차트에서 프로비저닝된 처리량이 적용된 위치를 볼 수 있습니다. 그곳에서 다른 모델 배포와 스필오버를 사용하여 프로비저닝된 처리량을 초과하는 추가 트래픽을 처리할 수 있습니다. 스필오버 배포 옵션을 스필오버 없음에서 GPT-4o 미니 사용으로 변경하겠습니다. 모델은 서버 트래픽의 PTU 부분에서 사용한 모델과 일치해야 합니다. 그런 다음 배포 유형을 업데이트하여 확인하겠습니다. 이제 Grafana 대시보드로 다시 이동하겠습니다. 여기에서 동일한 라인 차트에서 스파이크가 있는 스필오버 요청을 처리하기 위해 표준 배포가 시작된 위치를 볼 수 있습니다. 그 아래에서 표준 및 프로비저닝된 처리량을 사용하여 처리된 요청의 비율을 볼 수 있습니다. 즉, 모든 트래픽은 먼저 프로비저닝된 처리량을 사용하여 예측 가능한 성능을 보게 됩니다. 그리고 앱이 입소문을 타는 경우에도 표준 처리량 성능으로 추가 요청을 처리할 수 있습니다. 그리고 이와 관련하여 미세 조정 또는 대량 추론과 같은 작업의 경우 부분 GP 할당도 지원합니다. 조각만 필요한 경우 전체 H100을 임대할 필요가 없습니다.
-
그리고 GPU 임대라는 생각은 요즘 많은 관심을 받고 있는 GPU 중심 호스터와 같은 다른 옵션을 떠올리게 합니다. 그렇다면 Azure는 어디에 쌓일까요?
-
글쎄, Azure는 단순한 하드웨어 그 이상입니다. 우리는 AI 슈퍼컴퓨터 시스템을 구축했으며 AI 인프라는 스택의 모든 계층에서 최적화되어 있습니다. 실리콘 수준에서 원시 컴퓨팅 성능을 위해 전역적으로 실행하는 최첨단 하드웨어부터 시작하여 전력 관리 및 고급 냉각을 통해 모든 온스의 성능을 최대한 활용할 수 있습니다. 물론 연결된 GPU의 고대역폭, 저지연 네트워크도 있습니다. 또한 플랫폼과 하이퍼바이저가 해당 네트워크 GPU에 액세스할 수 있도록 플랫폼과 하이퍼바이저를 밝혀 성능이 베어 메탈에서 실행하는 것과 비교할 수 있도록 하는 소프트웨어 플랫폼 최적화도 있습니다. 그런 다음 전 세계 70개 이상의 데이터 센터 지역에서 ID, 연결, 스토리지, 데이터, 보안, 모니터링 자동화 서비스 등을 통해 완전한 관리성 및 통합 계층이 있습니다. 또한 스택으로 이동하면 PyTorch, DeepSpeed, vLLM 등을 포함한 다양한 인기 있는 오픈 소스 AI 프레임워크 및 도구를 지원하므로 이미 친숙한 도구를 사용하여 AI 솔루션을 더 빠르게 구축하고 확장할 수 있습니다.
-
그리고 우리가 보았듯이 그 맨 위에는 전체 스택에서 실행되는 AI 앱과 에이전트가 있습니다. 자, 지난번에 쇼에 출연했을 때 에이전트 움직임이 다음에 시작될 것이라고 정확하게 예측했습니다. 그렇다면 내년에 어떤 일이 일어날 것이라고 생각하십니까?
-
가벼운 에이전트에서 완전히 자율적인 에이전트 시스템으로 전환될 것입니다. AI는 원하는 것을 설명하기만 하면 강력한 자동화를 더 쉽게 구축할 수 있도록 합니다. 이것은 모든 사람에게 점점 더 만연해지고 있습니다. 그리고 Azure에서 우리가 하고 있는 모든 것은 훨씬 더 빠른 추론과 모든 것을 안정적으로 대규모로 실행하기 위한 모든 지원 서비스를 통해 AI의 다음 단계를 활성화하는 데 중점을 두고 있습니다.
-
그리고 상황이 달마다 너무 빠르게 변하고 있어서 상황이 어떻게 전개될지 기대됩니다. 오늘 딥 다이빙에 참여해주셔서 정말 감사합니다. 시청해주셔서 감사합니다. aka.ms/AzureAI를 확인하세요. 무엇을 구축하고 있는지 댓글로 알려주세요. 구독을 누르시면 다음에 또 뵙겠습니다.