목록으로

Programming Notes

코파일럿에서 동료로: AI 에이전트가 Azure 네트워킹 운영을 혁신하는 방법

Microsoft의 'Customer Zero(고객 제로)' 블로그 시리즈는 Microsoft가 신뢰할 수 있는 엔터프라이즈급 IQ 플랫폼을 사용하여 자체 시스템을 어떻게 구축하고 운영하는지에 대한 내부 견해를 제공합니다. 엔지니어링 팀으로부터 얻은 실전 교훈, 아키텍처 패턴, 그리고 조직 전반에서 AI 앱과 에이전트 함대(agent fleets)를 구축, 운영 및 확장하기 위한 운영 전략 등 모범 사례를 알아보세요.

과제: 글로벌 규모의 물리적 네트워크 운영

Azure는 지구상에서 가장 큰 물리적 네트워크 중 하나를 운영합니다. 이러한 규모는 단순히 인프라 결정을 넘어, 운영 업무 자체를 조직화하는 방식을 재형성합니다.

수십만 킬로미터의 실외 광섬유와 백만 개 이상의 광학 장치가 데이터 센터, 리전, 그리고 Microsoft의 글로벌 서비스를 연결합니다. Azure와 상호작용하는 모든 고객은 궁극적으로 이 물리적 네트워크가 정확하고 지속적이며 빠르게 작동하는지에 달려 있습니다.

네트워크가 성장함에 따라 문제의 본질도 바뀌었습니다. 탐지, 모니터링, 트래픽 재라우팅은 이제 고도로 자동화되었고 신속하게 이루어집니다. 하지만 팀이 여전히 어려움을 겪는 부분은 그 이후의 모든 단계입니다. 즉, 물리적 수리 조정, 시스템 및 벤더 간의 진행 상황 추적, 결과 검증, 그리고 문제가 완전히 해결될 때까지 작업을 지속하는 일입니다.

AI 도입 이전의 운영 모델 하에서는 이러한 조정 작업에 대한 수요가 팀이 현실적으로 적응할 수 있는 속도보다 더 빠르게 증가했습니다. 제약 요인은 더 이상 기술적인 라우팅이나 신호 처리가 아니었습니다. 수 시간, 수 일에 걸쳐 분산된 작업을 조율하는 데 필요한 '사람의 주의력(human attention)'이 한계에 도달한 것이었습니다.

이 지점이 대부분의 운영 노력이 집중되는 곳입니다. 사고가 발생하면 더 많은 전문가가 협력해야 하므로 운영 오버헤드가 누적되기 시작합니다.

  • 현장 운영, 하드웨어 교체, 사고 복구는 여러 회사와 리전 간의 조정이 포함될 때 점점 더 많은 시간이 소요될 수 있습니다.
  • 엔지니어는 업데이트를 기다리고, 후속 조치를 취하며, 수리 내용을 확인하고, 시스템 간의 컨텍스트를 전달하는 데 불균형적으로 많은 시간을 소비합니다.

코드로 구현된 자동화로 해결할 수 있었던 이전의 규모 확장 과제와 달리, 운영의 "지저분한 중간 단계(messy middle)"는 본질적으로 비결정적(non-deterministic)입니다. 이는 판단, 불완전한 정보, 비동기적 의존성으로 구성됩니다. Azure의 규모에서 '조정(Coordination)'은 성장을 가로막는 제한 요인이 됩니다.

솔루션: 조율(Coordination)을 최우선 엔지니어링 과제로 처리

우리는 단순히 스크립트를 추가하거나 취약한 자동화를 확장하는 대신, AI 에이전트를 일상 운영의 일급 참여자(first-class participants)로 만듦으로써 조율 작업이 수행되는 방식을 재설계했습니다. 이 전환의 초기 단계에서는 에이전트를 단순한 도구로 취급하기 쉬웠으나, 이제는 에이전트를 시스템 자체의 일부로 내재화하는 방향으로 발전시켰습니다.

이것은 하룻밤 사이에 이루어진 과정이 아니었습니다. 시간이 지남에 따라 접근 방식을 진화시켜야 했습니다.

  • 먼저 엔지니어와 기술자가 자연어를 사용하여 장치 상태 및 텔레메트리를 쿼리할 수 있게 해주는 **대화형 코파일럿(conversational copilots)**으로 시작하여 일상적인 트러블슈팅의 마찰을 줄였습니다.
  • 결과적으로는 특정 운영 프로세스의 목표를 향해 엔드 투 엔드로 조치를 취하는 **자율 워크플로 에이전트(autonomous workflow agents)**를 배포하는 단계까지 성장했습니다.

자율 워크플로 에이전트는 데이터 센터 기술자, 네트워크 엔지니어, 하드웨어 엔지니어 등 10,000명 이상의 직원과 함께 일하는 '디지털 동료'처럼 작동합니다. 이들은 목표를 부여받고 수 시간 또는 수 일 동안 컨텍스트를 유지하며 할당된 작업을 완료까지 추진합니다. 이는 광섬유 복구 또는 RMA(반품 승인)부터 데이터 센터 배포의 오케스트레이션에 이르기까지 다양합니다. 실제로 이들은 인간의 인지 부하를 최소화하는 것을 목표로 하는 뛰어난 실행 엔진이며, 위험도가 높은 판단이 필요한 경우에만 인간에게 의존합니다.

에이전트는 티켓 큐, 텔레메트리 시스템, Teams 및 이메일과 같은 운영 채널 내부에서 엔지니어 및 기술자와 함께 작업합니다. 이를 통해 동일한 워크플로 내에서 맥락을 유지할 수 있습니다. 작업과 피드백 루프를 반복하면서, 에이전트가 일상 운영에서 의존할 수 있는 지식 베이스를 지속적으로 관리하고 거버넌스를 적용합니다. 운영 데이터, 런북(runbooks), 조직적 지식을 논리적 세그먼트로 집계하여 에이전트가 더 일관성 있게 행동할 수 있도록 합니다. 이러한 기반과 더불어 Work IQ 및 Fabric IQ는 작업 진행에 따른 조직적 컨텍스트를 연결하여 응답 성능을 강화합니다.

우리는 자율 워크플로 에이전트를 '에이전트 조직'으로 구조화하고 디지털 동료와 유사하게 대우합니다. 이들은 정의된 ID, 역할, 기술, 정책 및 감사 가능성을 사용하는 내부 제어 평면(control plane)에 의해 관리됩니다.

에이전트의 역할, 권한 및 정책은 일률적으로 적용되지 않고 에이전트 클래스와 위험 수준에 따라 다르게 적용됩니다. 하지만 에이전트 권한은 결코 인간의 책임과 통제라는 핵심 원칙을 우선하지 않습니다. 인간은 계속해서 목표, 정책 및 성공 기준을 경계로 정의합니다. 고위험 또는 되돌릴 수 없는 변경 사항은 인간 전문가의 명시적인 승인 없이는 수행될 수 없습니다. 마찬가지로 에이전트가 모호함이나 예외 상황에 직면하면 추측하여 위험을 감수하는 대신 인간에게 결정을 요청합니다. 궁극적으로 시스템 내의 에이전트는 중요한 구성 요소에 영향을 미치는 조치에 대해 범위 및 구현에 대한 인간의 통제권을 희생하지 않습니다. 우리 전문가들은 여전히 정책 결정과 시스템 설계에 대해 예리한 판단을 내리며, 이전보다 소음은 줄어들고 집중도는 높아진 환경에서 일합니다.

가드레일을 설정하는 것 외에도, 이를 통해 에이전트의 규모와 비용 사이의 적절한 균형을 유지할 수 있습니다. 에이전트 조직을 감사 가능하고 정책에 따라 관리되는 에이전트 인벤토리로 생각하십시오. 어떤 에이전트는 정기적인 점검과 이상 징후 검색을 위해 장기간 실행되는 반면, 다른 에이전트는 이슈가 발생할 때 규모를 확장하기 위해 온디맨드 방식으로 생성됩니다. 이런 방식으로 우리는 사고의 수와 해당 시점에 작업 중인 에이전트 수 사이의 직접적인 관계를 형성합니다.

이것이 실제로 어떻게 작동하는지 이해하기 위해 동남아시아의 Azure 인프라에 영향을 미친 광섬유 단선 사고의 실제 사례를 살펴보겠습니다. 단선이 확인되자마자 사고에 대한 모든 컨텍스트를 가진 자율 에이전트가 생성되었습니다. 에이전트는 여러 언어와 시스템을 사용하여 지역 광섬유 제공업체 및 현장 기술자들과 이메일 및 Teams로 소통하며 정의된 주기에 따라 업데이트를 요청하고 라이브 텔레메트리를 통해 수리 시도를 검증했습니다. 기술자의 첫 번째 수리가 실패했을 때, 에이전트는 실패 원인에 대한 명확한 피드백과 함께 기술자에게 다시 에스컬레이션했습니다. 기술자들은 에이전트의 피드백을 바탕으로 수리를 재시도한 후 에이전트에게 알렸고, 에이전트는 성공적인 테스트를 마친 후 관련 당사자들에게 복구 완료를 확인해 주었습니다. 이 모든 과정은 우리 직원들이 사용하는 것과 동일한 시스템과 커뮤니케이션 채널 내에서 수행되었습니다. 덕분에 응답 시간은 놀라울 정도로 빨라졌으며 업데이트 기록도 매우 간편해졌습니다.

이 워크플로는 약 9.5시간 동안 대략 14번의 상호작용을 포함했으며, 인간 엔지니어가 각 단계를 직접 관리할 필요가 없었습니다. 엔지니어는 결정과 결과에 대한 책임을 유지했지만, 조정 작업은 인간의 수동 후속 조치나 인수인계 없이 지속적으로 진행되었습니다. 이 모델은 소유권을 대체하는 것이 아니라, 인력이 운영을 조율하고 관리하는 방식을 변화시킵니다.

영향: 에이전트가 조율을 담당할 때 나타나는 변화

에이전트가 사고, 수리 및 워크플로 전반에서 기본 조정 계층이 되면 몇 가지 변화가 뒤따릅니다.

  • 벤더, 리전 및 시스템 간의 조정이 일관되고 지속적으로 이루어집니다.
  • 업데이트를 맹목적으로 믿는 대신 라이브 텔레메트리를 통해 검증합니다.
  • 실패한 조치를 조기에 감지하고 성공 기준이 충족될 때까지 재시도합니다.
  • 인수인계 지연으로 인해 발생하는 장기 미결 사고가 크게 줄어듭니다.

이러한 변화는 에이전트가 우리 팀의 업무를 이전에는 상상할 수 없었던 규모로 확장할 수 있도록 돕는 혁신적인 결과로 이어집니다.

  • 광섬유 수리 워크플로와 같은 이슈에서 완화 시간(Time to Mitigate) 2배 단축
  • 운영상의 고된 작업(Toil)을 에이전트에게 위임함으로써 수작업 최대 78% 감소

인간과 에이전트의 작업이 동일한 채널에서 동시에 발생하므로 정보의 동등성과 실행 가능한 인수인계가 거의 즉각적으로 이루어집니다. 엔지니어는 여전히 루프 안에 확고히 머물러 있지만, 더 이상 각 단계를 미세하게 관리할 필요가 없습니다. 대신 결과를 가이드하고, 예외 상황에 개입하며, 시간이 지남에 따라 시스템이 대응하는 방식을 형성합니다.

하지만 궁극적으로 에이전트를 일상 업무에 내재화하는 것은 '학습하는 시스템'을 만드는 것에 관한 일입니다. 사후 대응을 넘어, 에이전트는 반복되는 문제와 약한 신호를 포착하는 제2의 눈 역할을 하여 일상 운영은 물론 향후 네트워크 및 데이터 센터 설계에 정보를 제공합니다. 피드백 루프를 통한 각 반복 주기를 거치며 네트워크는 더욱 강력해지고, 에이전트는 문제를 해결하고 예방하는 데 더욱 똑똑해집니다.

주요 교훈 및 전수 가능한 관행

우리의 경험은 글로벌 규모의 시스템을 설계, 운영 및 관리하는 데 있어 몇 가지 교훈을 주었습니다.

대화형 에이전트의 성공에서 시작하여, 조치를 수행하는 에이전트로 진화시키십시오. 에이전트가 시간에 따라 컨텍스트를 유지하고, 문제를 끝까지 추적하며, 끊임없는 프롬프트 없이 루프를 닫을 때 진정한 레버리지가 발생합니다. 이는 소유권을 명확히 유지하면서 대기 시간과 인수인계를 제거합니다.

일반적이고 접근 가능한 채널에서 작동하도록 에이전트를 설계하십시오. 엔터프라이즈 규모에서는 간소화된 조정 작업이 시기적절하고 정확한 결과를 내는 데 필수적입니다. 에이전트를 동일한 커뮤니케이션 및 기록 시스템에 명시적으로 내재화하면 조치가 더 빠르고 원활해지며 명확하게 기록됩니다.

가드레일과 에이전트 조직 정책을 조기에 명확하게 정의하십시오. 명확한 승인 지점과 역할별 권한을 통해 에이전트는 알려진 경계 내에서 자신 있게 행동할 수 있습니다. 지속적인 영향을 미치는 결정에 대해서는 인간이 책임을 유지합니다.

운영 부서가 체감하는 지점에서 영향력을 측정하십시오. 가장 명확한 신호는 우리가 항상 갈구해 온 것들입니다. 바로 빠른 완화, 줄어든 지연 사고, 짧은 수리 시간입니다. 에이전트의 영향력을 파악하려면, 이러한 결과에 도달하는 과정에서 에이전트가 자율적으로 완료한 프로세스의 양을 측정하십시오.

향후 전망

우리는 거버넌스, 신뢰 및 비용 규율을 포함하여 책임 있는 확장에 중점을 두고 이 모델을 지속적으로 발전시키고 있습니다.

시간이 지남에 따라 이 접근 방식은 단순히 더 빨리 복구되는 시스템을 넘어, 운영 신호로부터 학습하고 그 교훈을 네트워크 설계 및 운영 방식에 다시 반영하는 시스템을 형성하고 있습니다. 궁극적으로 우리는 스스로를 관리하고 치유하는 새로운 수준의 자율성을 가진 시스템을 만들고 있습니다.

더 광범위한 시사점은 특정 플랫폼이나 제품에 관한 것이 아닙니다. AI 에이전트가 실제 프로덕션 시스템 내부에서 인간과 함께 작동할 때 무엇이 가능해지는지에 관한 것입니다. 운영상의 고된 작업에 대항하는 확장의 엔진으로서 에이전트가 뒷받침된다면, 인간은 방향과 결과에 대한 통제권을 유지하면서도 그 어느 때보다 더 넓은 영역에서 더 빠른 속도로 전문성을 조율할 수 있게 될 것입니다.

에이전트와 Azure 네트워킹에 대해 더 자세히 알아보려면 다음을 참조하세요.