Microsoft Build에서, Healthcare Agent Orchestrator를 소개했습니다. 이제 Azure AI Foundry Agent Catalog에서 사용할 수 있습니다. 이 블로그에서는 그 과학적 원리를 풀어보겠습니다. 아키텍처를 어떻게 구성했고, 실제 종양 치료 데이터는 어떻게 큐레이션했으며, 강력한 에이전트 협업을 구축하여 AI를 실제 의료 워크플로우에 어떻게 통합했는지 설명합니다.

Healthcare Agent Orchestrator가 가상 종양 치료 회의를 지원하는 라이브 데모.

소개

헬스케어는 본질적으로 협업적입니다. 중요한 결정은 종종 환자에게 최상의 결과를 제공하기 위해 함께 노력하는 여러 전문가(방사선 전문의, 병리학자, 종양 전문의, 유전학자)의 의견을 필요로 합니다.

하지만 오늘날 대부분의 AI 시스템은 좁은 작업이나 단일 에이전트 아키텍처를 중심으로 설계되어 실제 의료 행위를 정의하는 팀워크를 반영하지 못합니다.

이것이 바로 저희가 Healthcare Agent Orchestrator를 개발한 이유입니다. 이는 Microsoft의 업계 최고 의료 AI 모델을 기반으로 구축된 오케스트레이터 및 코드 샘플로, 추론 및 다학제적 협업을 지원하도록 설계되었습니다. 이를 통해 의료 팀이 실제로 일하는 방식을 반영하는 모듈식의 해석 가능한 AI 워크플로우를 구현할 수 있습니다.

오케스트레이터는 이미지 인식용 MedImageParse, 자동 방사선 보고용 CXRReportGen, 검색 및 유사성 분석용 MedImageInsight와 같은 Microsoft 의료 AI 모델을 통합하여 실제 의료 의사 결정 패턴을 반영하는 통합된 작업 인식 시스템을 구축합니다.

헬스케어는 본질적으로 멀티 에이전트 시스템입니다

헬스케어 의사 결정은 종종 다양한 데이터 유형(방사선 이미지, 병리 슬라이드, 유전 표지자, 비정형 임상 기록)을 종합하고, 전문가의 서로 다른 관점을 조율해야 합니다.
예를 들어, 분자 종양 치료 위원회에서 방사선 전문의는 CT 이미지에서 의심스러운 병변을 강조 표시하고, 병리학자는 불일치하는 생검 결과를 표시할 수 있으며, 유전학자는 대체 치료 경로를 가리키는 돌연변이를 식별할 수 있습니다.
이러한 환경에서 효과적인 협업은 고립된 분석이 아니라 구조화된 대화에 달려 있습니다. 즉, 증거가 드러나고, 가정이 도전을 받고, 가설이 반복적으로 개선되는 것입니다.

Healthcare Agent Orchestrator 개발을 지원하기 위해, 당사는 주요 의료 서비스 제공 기관과 협력하여 종단 환자 기록 및 실제 종양 치료 위원회 기록으로 구성된 독점 데이터 세트를 큐레이션했습니다. 여기에는 다학제적 토론의 복잡성이 담겨 있습니다. LLM 기반 구조화 기술을 적용하여 자유 형식의 기록을 해석 가능한 단위로 변환한 다음, 도메인 충실도와 관련성을 보장하기 위해 전문가 검토를 거쳤습니다. 이 데이터 세트는 시뮬레이션된 협업 환경에서 에이전트 협업, 추론 전달 및 작업 정렬을 평가하기 위한 중요한 기반을 제공합니다.

단일 에이전트 AI 모델은 이러한 종류의 역동적이고 다각적인 팀 기반 추론을 복제하는 데 적합하지 않으므로, 멀티 에이전트 도메인 특화 프레임워크의 필요성이 강조됩니다.

일반적인 LLM이 헬스케어 협업에 적합하지 않은 이유

일반적인 대규모 언어 모델이 많은 도메인에서 놀라운 결과를 제공했지만, 고위험 헬스케어 환경에서는 다음과 같은 주요 제한 사항이 있습니다.

정확성이 중요합니다: 작은 환각이나 불일치도 안전과 의사 결정 품질을 저해할 수 있습니다.
멀티 모달 통합이 필요합니다: 많은 의료 결정에는 이미지, 보고서, 구조화된 기록 등 다양한 데이터 유형을 해석하고 상호 연관시키는 작업이 포함됩니다. 이러한 데이터의 대부분은 공개 교육 세트에서 사용할 수 없습니다.
투명성과 추적 가능성이 중요합니다: 사용자는 결론이 어떻게 도출되었는지 이해하고 중간 단계를 감사할 수 있어야 합니다.

Healthcare Agent Orchestrator는 이미지, 게놈 및 구조화된 EHR에 대한 작업을 수행하는 전문 에이전트와 함께 일반적인 추론 기능을 결합하여 임상적 기대치에 부합하는 명확하고 설명 가능한 결과를 보장합니다. 각 에이전트는 도메인별 전문 지식을 제공하고, 오케스트레이터는 일관성, 감독 및 설명 가능성을 보장하여 근거 있고 검증 가능한 출력을 생성합니다.

아키텍처: 오케스트레이션을 통한 전문가 조정

Healthcare Agent Orchestrator의 멀티 에이전트 프레임워크는 안전하고 확장 가능한 협업을 위해 설계된 모듈식 AI 인프라를 기반으로 구축되었습니다.

Semantic Kernel: AI 에이전트를 구축하고 LLM을 프로덕션 코드에 통합하기 위한 Microsoft의 경량 오픈 소스 SDK입니다. 여기에는 복잡한 임상 워크플로우에서 동적 도구 호출, 상황별 작업 계획, 적응형 대화 관리를 포함한 에이전트 오케스트레이션이 가능합니다.
MCP(Model Context Protocol): AI 모델을 구조화된 임상 데이터(예: FHIR 기반 EHR) 및 대화형 인터페이스와 안전하게 연결하기 위해 오케스트레이터에 통합된 개방형 프로토콜입니다. MCP는 상황 인식 프롬프트, 추적 가능한 추론 및 환자별 정보에 대한 개인 정보 보호 액세스를 용이하게 합니다.
Magentic-One: Microsoft의 일반 멀티 에이전트 시스템으로, AutoGen을 기반으로 구축되어 구조화된 메시지 전달과 중앙 집중식 컨텍스트를 통해 작업 분해, 역할 기반 협업 및 공유 메모리를 가능하게 합니다.

각 에이전트는 시스템 내에서 오케스트레이션되고 Semantic Kernel의 그룹 채팅 인프라를 통해 통합되며, Azure를 통한 안전한 통신 및 모듈식 배포를 지원합니다.

이 오케스트레이션을 통해 폐결절을 해석하든, 생검 이미지를 분석하든, 게놈 변이를 요약하든 각 모델이 전문 지식이 가장 관련성이 높은 곳에 정확하게 적용되어 단일 시스템에 모든 작업이 과부하되지 않도록 합니다.

또한 프레임워크의 모듈성은 미래를 보장합니다. 새로운 의료 AI 모델과 도구가 등장함에 따라 기존 워크플로우를 방해하지 않고 에코시스템에 원활하게 통합될 수 있어 임상적 안정성을 유지하면서 지속적인 혁신이 가능합니다.

Microsoft의 핵심 의료 AI 모델

Healthcare Agent Orchestrator는 Microsoft의 최신 의료 AI 모델을 활용합니다.

CXRReportGen: 현재 및 이전 X선 이미지와 보고서 컨텍스트를 포함한 멀티 모달 입력을 통합하여 명확하고 해석 가능한 방사선 보고서를 생성합니다. 이 모델은 공개 및 개인 데이터 모두에서 평가한 결과 자동 흉부 X선 해석에서 정확도와 투명성이 향상된 것으로 나타났습니다.
MedImageParse³: 9가지 이미징 양식에서 공동으로 분할, 감지 및 인식을 수행할 수 있는 이미징 구문 분석을 위한 생물 의학 파운데이션 모델입니다.
MedImageInsight⁴: 임상적으로 유사한 사례를 신속하게 검색하고 광범위한 의료 영상 양식에서 질병 분류를 지원하여 두 번째 의견 생성 및 진단 검토 워크플로우를 가속화합니다.

각 모델은 시스템 내에서 특수 에이전트 역할을 수행하며, 집중된 전문 지식을 제공하는 동시에 시스템 수준에서 오케스트레이션된 유연하고 상황 인식 협업을 가능하게 합니다. CXRReportGen은 초기 릴리스에 포함되어 있으며 근거 기반 방사선 보고서 생성을 지원합니다. MedImageParse 및 MedImageInsight와 같은 다른 Microsoft 의료 모델은 분할, 감지 및 이미지 검색 작업에서 오케스트레이터의 기능을 확장하기 위해 내부 프로토타입에서 탐색되고 있습니다.

Microsoft Teams와의 원활한 통합

새로운 사일로를 만드는 대신 Healthcare Agent Orchestrator는 임상의가 이미 사용하고 있는 도구, 특히 Microsoft Teams에 직접 통합됩니다.

개발자는 임상의가 자연스러운 대화를 통해 질문하고, 두 번째 의견을 요청하거나, 결과를 교차 검증하는 등 기본 협업 환경을 벗어나지 않고도 에이전트와 상호 작용할 수 있는 방법을 조사하고 있습니다.

이 접근 방식은 마찰을 최소화하고 사용자 경험을 개선하며 최첨단 AI를 실제 진료 환경에 도입합니다.

견고하고 신뢰할 수 있는 멀티 에이전트 협업 구축

오케스트레이터를 안전하고 구조화된 그룹 채팅을 관리하는 것으로 생각하십시오. 각 참가자는 '방사선' 에이전트, '환자 병력' 에이전트 또는 '임상 시험' 에이전트와 같은 전문 AI 에이전트입니다. 중앙에는 상호 작용을 조정하고, 작업을 할당하고, 공유 컨텍스트를 유지하고, 충돌하는 출력을 해결하는 '오케스트레이터' 에이전트가 있습니다. 에이전트는 중간 결과를 교환하거나 입력을 명확히 하는 등 서로 직접 통신할 수도 있습니다. 한편, 사용자(잠재적으로 임상의)는 필요에 따라 오케스트레이터 또는 특정 에이전트와 상호 작용할 수 있습니다.

각 에이전트는 지침(추론을 안내하는 시스템 프롬프트)과 설명(UI와 오케스트레이터 모두에서 에이전트를 활성화해야 하는 시기를 결정하는 데 사용됨)으로 구성됩니다. 예를 들어, Radiology 에이전트는 흉부 X선 이미지에서 결과를 생성하기 위해 Microsoft의 CXRReportGen 모델을 래핑하는 cxr_report_gen 도구와 페어링됩니다. 이와 같은 도구는 에이전트의 도구 필드에 선언되며 ClinicalTrials.gov를 쿼리하는 clinical_trials 도구와 같이 요청 시 파운데이션 모델 또는 기타 기능을 호출할 수 있습니다. 하나의 에이전트만 촉진자로 표시되어 대화의 조정자로 지정됩니다. 이 시나리오에서 오케스트레이터 에이전트가 해당 역할을 수행합니다.

초기 관찰 결과에 따르면 멀티 에이전트 오케스트레이션은 전문화 및 작업 정렬을 개선하더라도 새로운 복잡성을 야기합니다. 이러한 새로운 문제를 해결하기 위해 여러 측면에서 프레임워크를 적극적으로 발전시키고 있습니다.

에이전트 간 오류 전파 완화:
한 에이전트의 초기 단계 오류(예: 이미지 오해석)가 후속 추론 단계를 통해 확인되지 않은 채로 전달되지 않도록 보장합니다. 여기에는 주요 에이전트의 출력이 다른 에이전트에서 사용되기 전에 확인되는 중요한 검사점을 도입하는 것이 포함됩니다.
에이전트 선택 및 전문화 최적화:
에이전트가 많다고 항상 좋은 것은 아닙니다. 불필요하거나 중복된 에이전트를 추가하면 노이즈와 혼란이 발생할 수 있다는 점을 인식합니다. 사례 복잡성과 도메인 요구 사항에 따라 동적으로 선택되는 작업당 몇 개의 매우 적합한 에이전트를 강조하는 체계적인 프레임워크를 구현하는 동시에 성능 향상을 지속적으로 추적하고 회귀를 조기에 포착하고 있습니다.
투명성 및 전달 명확성 개선:
중간 출력과 근거를 보이게 하여 임상의(및 시스템 자체)가 결론에 도달한 방식을 추적하고, 불일치를 조기에 포착하고, 필요한 경우 개입할 수 있도록 에이전트 상호 작용을 구조화합니다.

헬스케어 복잡성에 맞게 일반 프레임워크 조정

Semantic Kernel과 같은 일반적인 오케스트레이션 프레임워크는 강력한 기반을 제공하지만 헬스케어는 더 많은 것을 요구합니다. 이해 관계가 더 높고 데이터가 더 미묘하며 워크플로우에는 정확성, 추적 가능성 및 규정 준수가 필요합니다.

다음은 이러한 시스템을 확장하고 조정하여 헬스케어 요구 사항을 해결하는 데 도움이 되는 방법입니다.

정확성 및 안전: 도메인 인식 검증 검사점과 작업별 에이전트 제약 조건을 도입하여 부적절한 도구 사용을 방지하여 보다 안정적인 추론을 지원합니다. 헬스케어에 필요한 높은 기준을 유지하기 위해 두 가지 상호 보완적인 메트릭 시스템을 정의했습니다(자세한 내용은 Healthcare Agent Orchestrator 평가 확인).
- 핵심 메트릭: 건강 에이전트 선택 정확도, 의도 해결, 상황적 관련성 및 정보 집계를 모니터링합니다.
- RoughMetric: 생성된 출력과 대화 신뢰성의 정확성을 정량화하는 데 도움이 되는 ROUGE 기반의 복합 점수입니다.
- TBFact: 에이전트 메시지의 주장의 사실성을 측정하고 누락 및 환각을 식별하는 데 도움이 되는 RadFact²의 수정된 버전입니다.

도메인별 도구 계획: 헬스케어 에이전트는 흉부 X선, CT 슬라이스, 병리 이미지 및 구조화된 EHR과 같은 멀티 모달 입력을 통해 추론해야 합니다. 당사는 일반적인 작업 체인이 아닌 임상 워크플로우를 반영하도록 Semantic Kernel의 도구 호출 및 계획 모듈을 사용자 지정했습니다.
안전하고 규정을 준수하는 데이터 액세스: MCP 및 Azure 인프라를 통해 에이전트가 엄격한 개인 정보 보호 통제를 유지하고 기관 정책에 부합하면서 환자별 데이터를 기반으로 작동할 수 있습니다.

이러한 인프라 수준의 조정은 CXRReportGen, MedImageParse 및 MedImageInsight와 같은 Microsoft Healthcare AI 모델을 보완하도록 설계되었으며, 함께 작동하여 복잡한 헬스케어 작업에서 조정된 도메인 인식 추론을 가능하게 합니다.

헬스케어에서 협업적이고 신뢰할 수 있는 AI 지원

헬스케어는 지원하고자 하는 임상 팀만큼이나 협업적이고 적응력이 뛰어나며 신뢰할 수 있는 AI 시스템을 요구합니다.
Healthcare Agent Orchestrator 는 특수 의료 AI 모델과 유연한 멀티 에이전트 조정 프레임워크를 결합하여 실제 임상 의사 결정의 복잡성을 반영하도록 특별히 구축된 비전으로 나아가는 구체적인 단계입니다.

기존 의료 워크플로우에 맞춰 투명하고 역할별 협업을 지원함으로써 이 시스템은 임상의가 AI를 대체재가 아닌 파트너로 활용하여 보다 효과적으로 작업할 수 있도록 지원할 수 있는 가능성을 보여줍니다.

¹arXiv, Universal Abstraction: Harnessing Frontier Models to Structure Real-World Data at Scale, February 2, 2025

² arXiv, MAIRA-2: Grounded Radiology Report Generation, June 6, 2024

³Nature Method, A foundation model for joint segmentation, detection and recognition of biomedical objects across nine modalities, Nov 18, 2024

⁴arXiv, Medimageinsight: An open-source embedding model for general domain medical imaging, Oct 9, 2024

⁵ Machine Learning for Healthcare Conference, Scaling Clinical Trial Matching Using Large Language Models: A Case Study in Oncology, August 4, 2023