지능의 적정 규모화: 헬스케어 및 생명 과학을 위한 멀티모달 모델 포트폴리오 구축

지난 2년 동안 헬스케어 분야의 AI 논의는 단 하나의 질문에 집중되었습니다. 바로 "어떤 대규모 언어 모델(LLM)이 가장 좋은가?"라는 질문입니다. 하지만 이제 이 질문은 시대에 뒤떨어진 것이 되었습니다. AI의 최전선은 단순히 더 똑똑해진 것이 아니라 '다원화'되었습니다. 오늘날 구축되는 가장 유능한 헬스케어 AI 시스템은 단일 모델이 아니라 하나의 포트폴리오입니다. 대규모 추론 모델, 작고 효율적인 모델, 그리고 음성·이미지·비디오를 위한 전문 모델이 각각 자신이 가장 잘하는 역할을 수행합니다.

Microsoft Foundry는 이러한 포트폴리오를 실용적으로 만들어 줍니다. Foundry의 모델 카탈로그에는 Microsoft, OpenAI, Anthropic, Meta, Mistral, xAI, DeepSeek, Hugging Face 등의 1,900개 이상의 모델이 포함되어 있으며, 이를 한곳에서 비교, 그라운딩(Grounding), 평가 및 거버넌스할 수 있는 도구들이 함께 제공됩니다. 헬스케어 및 생명 과학(HLS) 리더들에게 있어 전략적 전환점은 '모델 선택'에서 '포트폴리오 설계'로 옮겨가고 있습니다.

이 포스트에서는 임상 의사의 구두 진료 내용을 검증된 구조화된 노트로 변환하는 고가치 패턴을 통해, 모델 포트폴리오가 종단 간(End-to-End)으로 어떻게 작동하는지, 대규모 운영 시 비용은 어느 정도인지, 그리고 안전을 어떻게 유지하는지 살펴봅니다. 여기에 언급된 최신 기능 중 일부는 프리뷰 단계에 있으므로, 구축 전 현재 명칭과 가용성을 확인하시기 바랍니다.

왜 이제 '모델'은 복수형인가

현대적인 모델 전략은 두 가지 축, 즉 **역량 규모(Capability size)**와 **양식(Modality)**을 가로지릅니다. 이 두 가지를 모두 적절히 조합하는 것이 핵심입니다.

규모 축에서 Microsoft Foundry는 명확한 메뉴를 제시합니다. GPT-5급 모델은 복잡하고 다단계 추론이 필요한 시나리오 및 멀티모달 시나리오에 가장 적합합니다. GPT-4.1은 운영 환경에서 역량과 비용의 균형을 맞추며, GPT-4.1 mini는 대기 시간이 가장 짧고 처리량이 높은 작업에 최적화되어 있습니다. 그 곁에는 Microsoft의 Phi 소형 언어 모델 제품군인 Phi-4, Phi-4-mini, Phi-4-multimodal이 자리 잡고 있습니다. 이들은 강력한 추론 능력을 갖추면서도 Foundry Local을 통해 온디바이스(On-device) 배포가 가능할 정도로 효율적으로 설계되었습니다.

양식(Modality) 축에서 카탈로그의 범위는 텍스트를 훨씬 뛰어넘습니다. Microsoft의 MAI(Microsoft AI) 제품군에는 자연스럽고 긴 분량의 영어 음성을 위한 표현력이 풍부한 신경망 텍스트 음성 변환 모델인 MAI-Voice-1과 정확도와 효율성을 모두 갖춘 음성 인식 모델인 MAI-Transcribe가 포함됩니다. Phi-4-multimodal은 텍스트, 이미지, 오디오를 단일 모델에서 수용합니다. 또한 MedImageInsight, MedImageParse, CXRReportGen과 같은 전용 헬스케어 AI 모델 세트는 의료 영상, 병리학 및 방사선학에 멀티모달 추론 기능을 제공합니다. 핵심은 이 모든 것을 사용하는 것이 아니라, 거의 모든 실제 HLS 워크플로에 적합한 여러 모델을 조합하여 최적의 해답을 내놓는 데 있습니다.

Microsoft Foundry의 멀티모달 모델 포트폴리오 이미지

Microsoft Foundry의 멀티모달 모델 포트폴리오: 다양한 입력, 작업당 가장 작은 최적 모델 사용, 거버넌스가 적용된 출력.

비즈니스 문제: 문서화, 교육, 그리고 읽히지 않는 데이터

임상 의사들이 가장 절실하게 느끼는 문제인 '문서화'에서 시작해 봅시다. 진료 기록, 처방, 퇴원 요약지를 작성하는 데는 의사가 환자와 함께 보내고 싶어 하는 금쪽같은 시간이 소요되며, 이는 번아웃의 주요 원인이 됩니다. 진료 내용을 경청하고 노트를 초안으로 작성하는 '앰비언트 AI 필기(Ambient AI scribing)'는 헬스케어 AI에서 가장 명확하고 단기적인 성과 중 하나입니다.

하지만 문서화는 시작일 뿐입니다. 노트를 작성하는 것과 동일한 포트폴리오가 평이한 언어와 자연스러운 음성으로 환자 교육 자료를 생성하고, 전문의의 영상 판독 결과를 의뢰 의사를 위해 요약하며, 난해한 임상 텍스트를 간병인이 이해하기 쉽게 만들 수 있습니다. 오디오, 이미지, 스캔 문서 등 그동안 소프트웨어가 제대로 읽지 못했던 헬스케어의 가장 가치 있는 데이터들이 멀티모달 모델을 통해 활용 가능해집니다.

관건은 경제성입니다. 이러한 모든 작업에 가장 큰 모델을 호출한다면, 누적된 비용과 지연 시간 때문에 프로그램을 확장하는 것이 불가능해집니다. 각 작업을 수행할 수 있는 가장 작은 모델과 매칭하는 '적정 규모화(Right-sizing)'야말로 단순한 데모를 지속 가능한 서비스로 바꾸는 열쇠입니다.

기술적 실무 가이드: 음성에서 검증된 노트까지

앰비언트 문서화 워크플로를 자세히 살펴보겠습니다. 이는 음성, 소형 모델, 대형 모델, 검색, 평가 및 휴먼 리뷰(Human Review) 등 포트폴리오의 모든 요소를 한 번에 거치기 때문에 매우 유용한 템플릿이 됩니다.

입력값 (Inputs)

파이프라인은 두 가지 입력으로 시작됩니다. 환자의 동의하에 캡처된 **진료 현장의 음성(Ambient audio)**과 전자 건강 기록(EHR)에서 추출된 환자의 문제 목록, 현재 복용 약물, 최근 검사 결과와 같은 **구조화된 맥락(Context)**입니다. 관련 이미지나 문서도 필요에 따라 함께 포함될 수 있습니다.

어떤 모델이 무엇을 하는가

포트폴리오가 진가를 발휘하는 지점입니다. 단일 모델이 모든 일을 처리하지 않습니다.

음성-텍스트 변환(Speech-to-text): 음성 모델(Azure AI Speech 또는 고정밀/고효율의 MAI-Transcribe)이 대화 내용을 정확하고 타임스탬프가 찍힌 스크립트로 변환합니다.
추출 및 구조화: 소형 Phi 모델이 스크립트를 문제, 약물, 후속 조치 등 개별 요소로 파싱합니다. 이는 프런티어 모델 비용의 극히 일부로 가능하며 데이터 근처에서 즉시 실행될 수 있습니다.
그라운딩(RAG): 검색 단계에서 승인된 맥락(조직의 임상 가이드라인 및 특정 환자 기록)만 주입하여, 초안이 모델의 기억이 아닌 실제 최신 권한 데이터에 기반하도록 합니다.
초안 작성: 더 큰 GPT급 모델이 스크립트, 구조화된 추출 내용 및 그라운딩된 맥락을 조화시켜 깔끔한 임상 산문체로 기록 노트를 작성합니다.
환자용 미디어: 퇴원 요약지의 경우, MAI-Voice-1이 평이한 언어 버전을 자연스러운 음성으로 생성할 수 있으며, 아바타나 비디오 생성을 통해 환자나 의료진을 위한 짧은 교육 클립을 만들 수 있습니다.
영상 인사이트: 이미지가 포함된 경우 MedImageInsight 또는 CXRReportGen과 같은 헬스케어 모델이 전문의가 검토할 수 있도록 소견을 제시합니다(지원되는 비진단 구성 내에서).

오케스트레이션, 평가 및 인간의 최종 확인

Foundry는 이러한 호출을 조율하며, 모델 자체만큼 중요한 두 단계가 이어집니다. 평가(Evaluation) 단계에서는 모든 초안에 대해 근거 확신성(Faithfulness), 안전성, 완전성 등을 자동 체크하고, 신뢰도가 낮은 출력물은 별도의 정밀 검토 대상으로 분류합니다. **인간의 검토(Human review)**는 협상 불가능한 최종 관문입니다. 임상 의사는 차트에 기록되기 전 최종적으로 내용을 읽고 편집하고 서명합니다. 모델은 초안을 쓰고, 결정은 의사가 내립니다.

음성에서 검증된 노트까지의 과정 이미지

음성에서 검증된 노트까지: 각 단계는 해당 작업을 수행할 수 있는 가장 작은 모델을 사용하며, 차트에 반영되기 전 반드시 임상 의사의 승인을 거칩니다.

동의 하에 캡처: 진료 시점에서 앰비언트 오디오를 녹음하고 관련 EHR 맥락을 가져옵니다.
전사(Transcribe): 정확도와 처리량에 맞춰 조정된 음성 모델로 오디오를 텍스트로 변환합니다.
추출: 소형 Phi 모델을 사용하여 스크립트를 문제, 약물 및 조치 사항으로 구조화합니다.
그라운딩: 승인된 가이드라인과 환자 기록만을 맥락(RAG)으로 검색합니다.
초안 작성: 대형 모델이 스크립트, 구조 데이터, 그라운딩된 맥락을 바탕으로 노트를 작성합니다.
평가: 각 초안의 근거 확신성, 안전성, 완전성을 점수화하고 의심스러운 항목은 플래그를 표시합니다.
검토 및 승인: 임상 의사가 편집 및 승인하며, 이 편집 내용은 프롬프트 및 라우팅 개선을 위한 피드백으로 활용됩니다.

대규모 운영의 경제성: 포트폴리오의 적정 규모화

파일럿 프로젝트와 실제 플랫폼의 차이는 '서비스 비용'에 있습니다. 적정 규모화된 포트폴리오는 여러 방면에서 비용 문제를 해결합니다.

작업에 모델 맞추기: 위 단계 중 전사, 추출, 분류, 라우팅 등 대부분의 단계는 처리량은 많지만 인지적으로는 어렵지 않습니다. 이런 작업은 소형 모델인 Phi에 맡겨 훨씬 낮은 비용과 대기 시간으로 강력한 결과를 얻을 수 있습니다. 비싸고 거대한 모델은 최종 노트를 작성하고 조율하는 진정으로 어려운 단계에만 아껴 두십시오. 일상적인 추출 작업에 프런티어 모델의 비용을 쓰는 것이 AI 예산을 낭비하는 가장 흔한 원인입니다.

캐싱 및 배치 처리: 동일하거나 유사한 요청(일반적인 가이드라인 조회, 표준 교육 문구 등)은 캐싱하여 재사용할 수 있습니다. 야간 요약이나 코호트 처리와 같은 비긴급 작업은 즉각적인 응답 대신 처리량 중심의 배치 처리가 가능합니다.

데이터 근처에서 소형 모델 실행: Foundry Local을 통해 적합한 Phi 워크로드를 온디바이스나 에지에서 실행할 수 있습니다. 이는 호출당 비용을 절감할 뿐만 아니라 민감한 오디오와 텍스트를 로컬 인프라에 유지할 수 있게 해주어, 대기 시간과 데이터 거주성(Data Residency)이 모두 중요한 병원 환경에서 매우 가치 있습니다.

예측 가능한 단위 경제성: 전문적인 작업을 위해 Microsoft의 프리미엄 헬스케어 모델은 예측 가능한 이미지당 비용이 책정된 서버리스 엔드포인트(Pay-as-you-go)로 제공됩니다. 덕분에 재무 부서는 인프라 비용을 추측하는 대신 연구당 비용을 모델링할 수 있습니다. 결과적으로 비용과 대기 시간은 단순 노출량이 아니라 작업의 난이도에 비례하게 됩니다.

단일 모델 대 적정 규모 포트폴리오 비교 이미지

단일 거대 모델 대 적정 규모 포트폴리오: 작업 난이도에 모델 규모를 맞추는 것이 경제성을 바꾸는 핵심입니다.

거버넌스: 안전, 책임 있는 AI 및 인간의 감독

헬스케어에서 거버넌스는 마지막에 덧붙이는 층이 아니라 토대입니다. 적정 규모화된 포트폴리오는 각 모델이 더 좁고 명확한 역할을 수행하기 때문에 오히려 거버넌스를 더 쉽게 만듭니다.

설계 단계부터 고려된 책임 있는 AI: Foundry에는 내장된 평가, 콘텐츠 안전성 및 관측성 도구가 포함되어 있어 팀이 자체 데이터로 모델을 테스트하고 운영 환경에서 모니터링할 수 있습니다.
데이터 경계: 모든 파이프라인은 고객의 테넌트 내에서 기존의 ID, 권한 및 데이터 보호 제어 하에 실행됩니다. 그라운딩 기능은 모델이 승인되고 권한이 부여된 소스에만 접근하도록 제한합니다.
인간 중심(Human in the loop): Microsoft의 헬스케어 모델들은 숙련된 전문가를 대체하는 것이 아니라 지원하도록 명시적으로 설계되었습니다. 다수의 모델은 프리뷰 단계에 있으며 연구 및 개발용으로 설계되었고 자율적인 임상 의사 결정을 위한 것이 아닙니다. 임상적으로 의미 있는 모든 결과물에는 의사의 서명이 필요합니다.
출처 및 피드백: 편집 및 승인 과정을 캡처하여 감사 추적(Audit trail)을 생성하고 프롬프트, 라우팅 및 모델 선택을 지속적으로 개선하는 루프를 만듭니다.

책임은 배포하는 조직에 있습니다. 출력물의 검증, 관련 헬스케어 규정 준수, 모델이 임상 결정을 지원하기 전 필요한 모든 인허가 획득에 대한 책임은 조직에 있습니다. 포트폴리오 접근 방식은 각 단계를 점검 가능하게 하고 모든 중대한 결정을 인간의 손에 맡김으로써 이러한 책임 이행을 지원합니다.

시작하는 방법: 30일 미니 플레이북

가장 고통스럽고 빈번한 워크플로 하나를 선택하십시오. 앰비언트 문서화, 의뢰 요약지, 또는 환자 교육 초안 작성이 좋은 후보입니다.
양식(Modalities)을 매핑하십시오. 어떤 모델 유형이 필요한지 알 수 있도록 입력(오디오, 텍스트, 이미지)과 출력(노트, 요약, 음성) 목록을 작성하십시오.
작은 모델부터 포트폴리오를 구성하십시오. 각 단계에 적합한 가장 작은 모델을 할당하고, 대형 모델은 가장 어려운 단계에만 배정하십시오.
그라운딩을 적용하십시오. 다른 최적화 작업을 하기 전에 먼저 검색을 통해 승인된 가이드라인과 관련 기록을 연결하십시오.
조기에 평가 체계를 구축하십시오. 출시 후가 아니라 첫날부터 근거 확신성, 안전성, 완전성 점검 및 인간 검토 단계를 정의하십시오.
작업당 비용과 대기 시간을 측정하십시오. 그 다음 실제 사용량을 바탕으로 라우팅, 캐싱, 배치를 조정하십시오.
재사용을 통해 확장하십시오. 하나의 워크플로에서 포트폴리오가 작동하면 음성 인식, 추출, 그라운딩, 거버넌스와 같은 대부분의 요소는 다음 워크플로에 그대로 적용될 수 있습니다.

내년 한 해 동안 헬스케어 AI 분야에서 승리하는 조직은 단순히 단 하나의 '최고' 모델을 선택한 곳이 아닐 것입니다. 역량과 양식을 각 작업에 맞게 매칭하고, 모든 출력을 실제 데이터에 근거하게 하며, 임상 의사를 프로세스의 중심에 두는 최적의 포트폴리오를 설계한 조직이 승리할 것입니다. 적정 규모화는 비용 절감을 위한 사후 고려 사항이 아닙니다. AI를 어디에서나 사용할 수 있을 만큼 저렴하고 빠르며 안전하게 만드는 근본적인 아키텍처입니다.

**Microsoft Healthcare & Life Sciences 블로그를 구독**하여 규모에 맞는 AI 구축에 대한 매주 실질적이고 심도 있는 내용을 확인해 보세요. 마지막으로 질문을 하나 드립니다. 오늘 여러분의 핵심 임상 워크플로를 분석해 본다면, 몇 단계나 실제로 프런티어 모델이 필요하며, 얼마나 많은 단계에서 조용히 과도한 비용을 지불하고 계십니까?