SWIN‑S(Shifted Window Transformer – Small)는 마이크로소프트 리서치(Microsoft Research)에서 제안한 Swin Transformer 계열 중 하나로, 컴퓨터 비전 분야에서 사용되는 경량화된 비전 트랜스포머(Vision Transformer) 모델이다. Swin Transformer는 이미지 전처리 단계에서 고정된 크기의 패치를 토큰으로 변환한 뒤, 윈도우 기반 self‑attention을 적용하고, 인접 윈도우를 시프트(shift) 시켜 전체 이미지에 대한 전역적 상호작용을 효율적으로 학습한다. 이러한 설계는 전통적인 전역 self‑attention에 비해 연산량과 메모리 사용량을 크게 줄이면서도 뛰어난 표현력을 유지한다.
주요 특징
| 특징 | 내용 |
|---|---|
| 모델 규모 | “S”는 Small(소형) 모델을 의미한다. Swin‑S는 Swin‑Base, Swin‑Large 등에 비해 파라미터 수와 연산량이 적다(약 50 M 파라미터). |
| 윈도우 크기 | 기본 윈도우 크기는 7×7이며, 윈도우 내부에서 self‑attention을 수행한다. |
| 시프트 메커니즘 | 각 레이어마다 윈도우를 한 픽셀씩 이동시켜(shift) 인접 윈도우 간의 정보 교환을 가능하게 한다. |
| 계층 구조 | 4개의 단계(stage)로 구성되며, 단계마다 차원 수가 2배씩 증가하고, 피처 맵 해상도는 2배씩 감소한다. |
| 다중 스케일 특징 | 마지막 단계에서는 피라미드 형태의 다중 스케일 특징 맵을 제공해 객체 검출·세분화 등 다양한 downstream 작업에 활용한다. |
| 학습 효율 | 윈도우 기반 연산 덕분에 GPU 메모리 요구량이 낮아 대규모 데이터셋(예: ImageNet‑22K)에서도 효율적으로 학습할 수 있다. |
| 적용 분야 | 이미지 분류, 객체 검출, 의미론적 분할, 영상 인식, 의료 영상 분석 등. |
아키텍처 개요
- Patch Embedding: 입력 이미지를 4×4 혹은 2×2 패치로 나눠선형 변환 후 차원을 확장한다.
- Stage 1: 2개의 Swin‑Transformer 블록(윈도우 self‑attention + MLP) → 출력 크기 H/4 × W/4, 차원 96.
- Stage 2: Patch Merging(다운샘플링) 후 2개의 블록 → 차원 192, 해상도 H/8 × W/8.
- Stage 3: Patch Merging 후 6개의 블록 → 차원 384, 해상도 H/16 × W/16.
- Stage 4: Patch Merging 후 2개의 블록 → 차원 768, 해상도 H/32 × W/32.
- Classification Head: Global average pooling 후 fully‑connected 레이어(클래스 수에 맞게)로 출력.
성능
- ImageNet‑1K 상위 1% 수준(Top‑1 정확도 약 83 %).
- COCO 객체 검출에서 Swin‑S‑Backbone을 사용한 FCOS, ATSS 등과 결합 시 AP(average precision) 46~48 수준을 기록.
- ADE20K 의미분할에서 mIoU 45~47 정도를 달성한다(Backbone만 교체했을 때).
장점·단점
| 장점 | 단점 |
|---|---|
| 연산·메모리 효율이 뛰어나 모바일·임베디드 환경에 적합 | Small 규모이므로 대형 모델(예: Swin‑L) 대비 미세한 디테일 캡처 능력에 한계 |
| 윈도우 시프트 덕분에 전역 정보 흐름을 유지하면서도 로컬 처리를 효율화 | 윈도우 크기와 시프트 설정에 따라 성능 변동이 크게 나타날 수 있음 |
| 다양한 비전 과제에 쉽게 적용 가능한 범용 Backbone | 기존 CNN 대비 구현 복잡도가 다소 높음(특히 윈도우 매핑·시프트 연산) |
활용 사례
- 자연어‑시각 멀티모달 모델(BERT‑Vision)에서 저비용 이미지 인코더로 활용.
- 의료 영상(CT, MRI)에서 경량 모델이 요구되는 현장에서 Swin‑S 기반 세그멘테이션.
- 자율 주행 시스템에서 실시간 객체 검출·거리 추정 파이프라인의 백본으로 적용.
연구·개발 동향
- Swin‑V2와 같은 후속 모델이 윈도우 어텐션의 정규화·스케일링을 개선하면서도 Swin‑S와 유사한 경량 구조를 제공한다.
- Hybrid Conv‑Transformer 설계에서 Swin‑S를 CNN 레이어와 결합해 초기 특징 추출을 가볍게 처리하고, 뒤쪽에 고성능 트랜스포머를 배치하는 방식이 연구되고 있다.
- Quantization·Pruning 기술을 적용해 8비트 정밀도에서도 성능 저하를 최소화한 경량 배포 모델이 공개되고 있다.
요약
SWIN‑S는 Swin Transformer 아키텍처의 소형 변형으로, 윈도우 기반 self‑attention과 시프트 메커니즘을 통해 연산 효율성을 크게 높이면서도 높은 비전 성능을 유지한다. 파라미터 수가 적어 모바일·임베디드 환경에 적합하며, 이미지 분류, 객체 검출, 의미 분할 등 다양한 컴퓨터 비전 과제에 널리 사용되고 있다.