정의
CIFAR(Canadian Institute for Advanced Research)는 주로 머신러닝 및 컴퓨터 비전 분야에서 사용되는 이미지 데이터셋을 가리키는 약칭이다. 가장 널리 알려진 CIFAR-10·CIFAR-100은 각각 10개·100개의 객체 클래스로 구분된 32×32 픽셀 컬러 이미지 60,000장을 포함한다.
개요
CIFAR 데이터셋은 캐나다 고등연구소(CIFAR) 소속 연구진이 2009년 ~ 2010년에 공개한 것으로, 딥러닝 모델의 학습 및 평가에 표준 벤치마크로 활용된다. 원본은 80 백만 장의 저해상도 이미지(“80 Million Tiny Images”)에서 무작위로 추출한 서브셋이며, 각 이미지가 32 × 32 픽셀의 RGB 형태로 정규화되어 있다. CIFAR‑10은 10개의 일반 객체(비행기, 자동차, 새, 고양이, 사슴, 개, 개구리, 말, 배, 트럭)로, CIFAR‑100은 20개의 상위 슈퍼클래스와 그 하위 100개의 세부 클래스로 구분된다.
어원/유래
‘CIFAR’는 “Canadian Institute for Advanced Research”의 약자이다. 데이터셋은 이 기관의 연구 프로젝트 일환으로 제작되었으며, 데이터셋 명칭도 해당 기관의 약자를 그대로 사용한다. 정확한 명명 과정에 대한 상세한 기록은 공개된 논문에서는 확인되지 않는다.
특징
| 구분 | CIFAR‑10 | CIFAR‑100 |
|---|---|---|
| 클래스 수 | 10 | 100 (20 슈퍼클래스) |
| 이미지 수 | 60,000(훈련 50,000 / 테스트 10,000) | 60,000(훈련 50,000 / 테스트 10,000) |
| 이미지 해상도 | 32 × 32 픽셀, RGB | 32 × 32 픽셀, RGB |
| 출처 | 80 Million Tiny Images 중 무작위 추출 | 동일 데이터베이스에서 하위 클래스로 재구성 |
| 공개 연도 | 2009 ~ 2010 | 2009 ~ 2010 |
| 주요 활용 분야 | 이미지 분류, 컴퓨터 비전 알고리즘 평가 | 보다 세분화된 객체 인식, 멀티‑클래스 학습 |
- 단순함: 저해상도와 제한된 클래스 수 덕분에 학습 속도가 빠르고, 초보자부터 연구자까지 폭넓게 활용할 수 있다.
- 표준 벤치마크: 다양한 모델(Convolutional Neural Network, Residual Network 등)의 성능 비교에 널리 이용된다.
- 공개 및 자유 이용: 데이터는 자유롭게 다운로드 및 사용이 가능하며, 상업적 목적 포함 모든 용도로 제한이 없다.
관련 항목
- Canadian Institute for Advanced Research (CIFAR) – 데이터셋을 제공한 연구 기관.
- MNIST – 손글씨 숫자 이미지 데이터셋, CIFAR와 함께 초기 딥러닝 벤치마크로 활용됨.
- ImageNet – 대규모 이미지 데이터베이스, CIFAR보다 높은 해상도와 클래스 수를 특징으로 함.
- 80 Million Tiny Images – CIFAR 데이터셋의 원본이 되는 대규모 저해상도 이미지 컬렉션.
- Deep Learning – CIFAR 데이터셋을 이용한 주요 연구 분야.
※ 본 문서는 CIFAR 데이터셋에 대한 일반적으로 확인된 정보를 바탕으로 작성되었으며, 추가적인 세부 사항은 공식 논문 및 CIFAR 프로젝트 홈페이지를 참고한다.