이번 주 Model Mondays 에디션에서는 Microsoft Foundry에 새로 추가된 두 가지 모델을 소개합니다. 첫 번째는 Microsoft의 VibeVoice-ASR로, 60분 분량의 오디오 파일을 한 번에 처리하며 화자 분리(speaker diarisation) 및 타임스탬프 기능이 내장된 통합 음성-텍스트 모델입니다. 두 번째는 MiniMaxAI의 MiniMax-M2.5로, 코딩 및 도구 사용 벤치마크에서 선두를 달리는 최첨단 에이전트 모델이며, 강력한 독점 모델들과 유사한 성능을 훨씬 저렴한 비용으로 제공합니다. 그리고 세 번째는 Qwen의 Qwen3.5-9B로, Qwen3.5 Small Series 중 가장 큰 모델입니다.
이 세 모델 모두 긴 컨텍스트와 다단계 처리 능력으로의 전환을 보여줍니다. VibeVoice-ASR은 최대 1시간 분량의 연속 오디오를 청크 분할 없이 처리합니다. MiniMax-M2.5는 이전 모델보다 복잡하고 다단계적인 에이전트 작업을 더 효율적으로 처리하여, M2.1보다 SWE-Bench Verified를 37% 더 빠르게 완료하고 도구 사용 라운드를 20% 줄였습니다. 그리고 Qwen3.5-9B는 소비자 하드웨어에서 훨씬 더 큰 모델들을 능가하는 멀티모달 추론 능력을 제공합니다.
금주의 모델
VibeVoice-ASR
모델 사양
- 매개변수/크기: 약 8.3B
- 주요 작업: 화자 분리 및 타임스탬프가 포함된 자동 음성 인식
주목할 만한 점
- 화자 완벽 귀속을 통한 60분 단일 패스 처리: VibeVoice-ASR은 청크 기반 분할 없이 최대 60분 분량의 연속 오디오를 처리하여, 각 세그먼트에 대한 시작/종료 타임스탬프, 화자 ID 및 전사된 내용을 포함하는 구조화된 JSON 출력을 생성합니다. 이를 통해 청크 기반 파이프라인이 세그먼트 경계에서 초래하는 화자 추적 오차 및 의미론적 불연속성을 제거합니다.
- 하나의 모델로 ASR, 화자 분리 및 타임스탬프 동시 처리: VibeVoice-ASR은 전사, 화자 분리 및 타이밍을 위해 별도의 시스템을 실행하는 대신, 단일 순방향 패스에서 이 세 가지 출력을 모두 생성합니다. 사용자는 또한 특정 명사, 기술 용어 또는 도메인별 구문과 같은 맞춤형 핫 워드를 삽입하여 미세 조정 없이 전문화된 콘텐츠에 대한 인식 정확도를 향상시킬 수 있습니다.
- 네이티브 코드 스위칭을 통한 다국어 지원: 명시적인 언어 구성 없이 50개 이상의 언어를 지원하며, 발화 내외의 코드 스위칭을 기본적으로 처리합니다. 따라서 언어별로 오디오를 미리 라우팅할 필요 없이 다국어 회의 및 국제 콜센터 녹음에 적합합니다.
- 벤치마크: Open ASR Leaderboard에서 VibeVoice-ASR은 8개 영어 데이터셋(RTFx 51.80)에서 평균 WER 7.77%를 달성했으며, LibriSpeech Clean에서 2.20%, TED-LIUM에서 2.57%를 기록했습니다. MLC-Challenge 다중 화자 벤치마크에서는 DER 4.28%, cpWER 11.48%, tcpWER 13.02%를 기록했습니다.
시도해 보기
| 사용 사례 | 구축할 내용 | 모범 사례 |
|---|---|---|
| 회의 및 규정 준수를 위한 장문 다중 화자 전사 | 요청당 최대 60분 분량의 오디오를 수집하고 화자 ID + 시작/종료 타임스탬프 + 전사 텍스트(검색, 요약 또는 규정 준수 검토용)가 포함된 구조화된 세그먼트를 반환하는 전사 서비스입니다. | 화자 일관성을 유지하고 연결 오차를 피하기 위해 오디오를 청크 분할하지 않고(단일 패스) 유지합니다. 별도의 화자 분리/타임스탬프 파이프라인이나 후처리 없이 모델의 ASR, 화자 분리 및 타임스탬프 동시 처리에 의존합니다. |
| 다국어 + 도메인별 전사(글로벌 지원, 기술 검토) | 다국어 회의 또는 콜센터 녹음을 위한 글로벌 전사 워크플로로, "누가/언제/무엇을" 출력하고 제품명, 약어 및 기술 용어에 대한 어휘 삽입을 지원합니다. | 전문화된 콘텐츠의 인식률을 높이기 위해 요청에 맞춤형 핫 워드(이름/기술 용어)를 제공합니다. 명시적인 언어 구성을 요구하지 마십시오. VibeVoice-ASR은 50개 이상의 언어 및 코드 스위칭을 지원하므로 언어별로 오디오를 미리 라우팅할 필요가 없습니다. |
모델에 대한 자세한 내용을 읽고 Hugging Face Spaces에서 Microsoft 플레이그라운드를 통해 직접 모델을 체험해 보세요.
MiniMax-M2.5
모델 사양
- 매개변수/크기: 약 229B (FP8, Mixture of Experts)
- 주요 작업: 텍스트 생성 (에이전트 코딩, 도구 사용, 검색)
주목할 만한 점
- 선도적인 코딩 벤치마크 성능: SWE-Bench Verified에서 80.2%, 10개 이상의 프로그래밍 언어(Go, C, C++, TypeScript, Rust, Python, Java 등)를 아우르는 Multi-SWE-Bench에서 51.3%를 기록했습니다. 다양한 에이전트 하네스 평가에서 M2.5는 Droid에서 79.7%, OpenCode에서 76.1%를 기록했는데, 이는 Claude Opus 4.6(각각 78.9% 및 75.9%)보다 앞선 수치입니다. 이 모델은 시스템 설계, 환경 설정, 기능 반복, 코드 검토 및 테스트 등 전체 개발 수명 주기를 포괄하는 200,000개 이상의 실제 코딩 환경에서 학습되었습니다.
- 전문가 수준의 검색 및 도구 사용: M2.5는 BrowseComp, Wide Search 및 Real-world Intelligent Search Evaluation (RISE)에서 업계 최고의 성능을 달성하여 복잡한 작업을 자율적으로 처리할 수 있는 견고한 기반을 마련합니다.
- 전문적인 사무 작업: 금융 모델링, Word 및 PowerPoint 작업에서 다른 주류 모델 대비 평균 59.0%의 승률을 달성했습니다. 이는 GDPval-MM 프레임워크를 통해 금융, 법률, 사회 과학 분야의 선임 전문가들이 쌍대 비교(pairwise comparison)로 평가한 결과입니다. M2.5는 이러한 전문가들과 공동 개발되어 일반적인 지침 준수보다는 도메인별 암묵적 지식(tacit knowledge)이 모델 학습에 통합되었습니다.
![이미지]
시도해 보기
| 사용 사례 | 구축할 내용 | 모범 사례 |
|---|---|---|
| 에이전트 소프트웨어 엔지니어링 | 다중 파일 코드 리팩토링, CI-게이티드 패치 생성, 대규모 저장소에서 작동하는 장기 실행 코딩 에이전트 | 명확한 아키텍처 또는 리팩토링 목표로 프롬프트를 시작합니다. 모델이 파일을 편집하기 전에 계획을 세우게 하고, 도구 호출을 순차적으로 유지하며, 대규모 변경 사항을 단계별 작업으로 분할하여 긴 워크플로 전반에 걸쳐 상태와 일관성을 유지합니다. |
| 자율 생산성 에이전트 | 연구 비서, 웹 지원 작업 에이전트, 문서 및 스프레드시트 생성 워크플로 | 의도와 예상 출력 형식에 대해 명확하게 밝힙니다. 복잡한 목표를 더 작은 단계(검색 → 합성 → 생성)로 분해하고, 모델의 긴 컨텍스트 처리를 활용하여 다단계 추론 및 문서 작성을 수행합니다. |
이러한 사용 사례와 모범 사례를 염두에 두고 다음 단계는 모델에 특정 목표와 적절한 도구를 제공하는 명확하고 제한적인 프롬프트로 변환하는 것입니다. 아래 예시는 제품 또는 엔지니어링 팀이 자동화된 코드 검토 및 구현 작업을 어떻게 구성하여 모델이 작업을 단계별로 추론하고 원래 요구 사항에 직접 매핑되는 결과를 반환할 수 있는지 보여줍니다.
"“백엔드 엔지니어링 팀을 위한 자동화된 코드 검토 및 기능 구현 시스템을 구축하고 있습니다. MiniMax-M2.5를 Microsoft Foundry에 배포하고 리포지토리의 파일 시스템 도구 및 테스트 러너에 대한 액세스 권한을 부여하세요. 새 API 엔드포인트 요구 사항을 설명하는 GitHub 이슈가 주어졌을 때, 모델이 먼저 요구 사항을 하위 작업으로 분해하는 기능 사양을 작성하고, 관련 서비스 파일 전반에 걸쳐 엔드포인트를 구현하고, 최소 85%의 커버리지를 가진 단위 테스트를 작성한 다음, 각 코드 변경 사항과 원래 요구 사항과의 관계를 설명하는 Pull Request 요약을 반환하도록 하세요. 기존 코드베이스에서 발견되는 패턴에서 벗어나는 구현 결정 사항이 있다면 플래그를 지정하세요.”"
Qwen3.5-9B
모델 사양
- 매개변수/크기: 9B
- 컨텍스트 길이: 기본적으로 262,144 토큰; 1,010,000 토큰으로 확장 가능
- 주요 작업: 이미지-텍스트-텍스트 (멀티모달 추론)
주목할 만한 점
- 작은 크기에서 높은 지능 밀도: Qwen 3.5 Small 모델은 매개변수 수 대비 큰 추론 능력 향상을 보여주며, 4B 및 9B 변형은 공개 추론 벤치마크에서 다른 10B 미만 모델을 능가합니다.
- 기본적으로 긴 컨텍스트: 최대 262K 토큰 지원으로 청크 분할 없이 장문 문서 분석, 코드베이스 검토 및 다중 턴 워크플로를 가능하게 합니다.
- 네이티브 멀티모달 아키텍처: 비전이 어댑터를 통해 추가되는 대신 모델 아키텍처에 내장되어 작은 모델(0.8B, 2B)도 이미지-텍스트 작업을 효율적으로 처리할 수 있습니다.
- 오픈 및 배포 가능: Apache-2.0 라이선스가 적용된 모델로, 로컬, 엣지 또는 클라우드 배포 시나리오를 위해 설계되었습니다.
벤치마크
![차트] 자세한 내용은 다음을 참조하세요: AI Model & API Providers Analysis | Artificial Analysis
시도해 보기
| 사용 사례 | 사용 시기 | 모범 사례 프롬프트 패턴 |
|---|---|---|
| 긴 컨텍스트 추론 | 청크 분할 시 컨텍스트가 손실될 수 있는 전체 PDF, 긴 연구 논문 또는 대규모 코드 저장소 분석 | * 명확한 목표와 범위를 설정합니다. 모델에 주요 주장 요약, 모순점 파악, 전체 문서에 걸친 의사 결정 추적을 요청한 다음 출력을 생성합니다. |
| 경량 멀티모달 문서 이해 | 스크린샷, 스캔한 양식 또는 이미지-텍스트 혼합 입력을 사용하는 OCR 기반 워크플로 | * 작업을 아티팩트에 기반을 둡니다. 모델에게 먼저 보이는 것을 설명한 다음 구조화된 정보를 추출하고, 이어서 후속 질문에 답하도록 지시합니다. |
이러한 모범 사례를 염두에 두고 Qwen 3.5-9B는 소형 멀티모달 모델이 청크 분할이나 수동 오케스트레이션 없이 복잡한 추론 작업을 처리할 수 있는 방법을 보여줍니다. 아래 프롬프트는 운영 분석가가 모델을 사용하여 전체 보고서를 처음부터 끝까지 분석하는 방법을 보여줍니다.
"“당신은 운영 분석가를 돕고 있습니다. 첨부된 PDF 보고서와 추출된 표를 검토하세요. 세 가지 가장 큰 비용 동인을 식별하고, 해당 비용이 분기별로 어떻게 변했는지 설명하며, 후속 조치가 필요한 모든 이상 징후를 플래그 지정하세요. 정보가 누락된 경우, 어떤 데이터가 필요한지 명시하세요.”"
시작하기
오픈 소스 Hugging Face 모델을 Microsoft Foundry에서 직접 배포할 수 있습니다. Foundry 모델 카탈로그에서 Hugging Face 컬렉션을 탐색하고 몇 번의 클릭만으로 관리형 엔드포인트에 배포할 수 있습니다. Hugging Face Hub에서 시작할 수도 있습니다. 먼저 지원되는 모델을 선택한 다음 "Deploy on Microsoft Foundry"를 선택하면, 보안적이고 확장 가능한 추론이 이미 구성된 Azure로 바로 연결됩니다. Microsoft Foundry 설명서를 사용하여 모델을 검색하고 배포하는 방법을 알아보세요.