OCR-B

OCR-B는 광학 문자 인식(Optical Character Recognition, OCR) 시스템에서 사용하도록 설계된 서체(폰트)이다. 영문 대소문자와 아라비아 숫자를 포함한 문자 집합을 가지고 있으며, 문자 형태가 기계 판독에 최적화되도록 일정한 간격과 명확한 구분을 제공한다.

개요

OCR-B는 ISO/IEC 1073‑2 표준에 정의된 서체이며, 원래는 영국의 표준화 기구인 BSI(British Standards Institution)와 국제 표준화 기구(ISO)의 공동 작업을 통해 1970년대 초에 개발되었다. 이 서체는 인간이 읽기에 충분히 가독성을 유지하면서도 OCR 장치가 높은 인식률을 보일 수 있도록 설계되었다.

역사

  • 1970년대: 영국 BSI와 독일 DIN이 각각 OCR-A와 OCR-B 서체를 제안하였다. OCR-A는 기계 판독에 초점을 맞춘 매우 기하학적인 형태였으며, OCR-B는 인간 가독성을 고려해 보다 자연스러운 형태를 채택하였다.
  • 1974년: ISO/IEC 1073‑2 표준으로 공식 채택되었다. 이후 국제 무역 문서, 은행 수표, 여권 등 다양한 공식 문서에 사용되기 시작했다.
  • 1995년: 미국 연방 정부에서 발행한 문서 표준인 Federal Register에도 OCR-B가 허용 서체 중 하나로 명시되었다.

특징

  1. 균일한 문자 폭: 대부분의 글자는 고정 폭을 갖고 있어 스캔 시 문자 간 간격이 일정하게 유지된다.
  2. 명확한 구분선: 숫자 ‘0’와 ‘O’, ‘1’과 ‘I’ 등 혼동될 가능성이 높은 문자들을 구분하기 위해 고유한 형태를 사용한다.
  3. 다국어 지원: 기본 라틴 알파벳 외에도 독일어·프랑스어·스페인어 등 서유럽 언어에서 사용되는 일부 특수 문자를 포함한다.

표준 및 규격

  • ISO/IEC 1073‑2:1994 – OCR 서체(특히 OCR-B) 규격. 이 표준은 문자 크기, 두께, 비율, 최소·최대 높이 등을 상세히 정의한다.
  • ANSI Z39.96-1998 – 미국 표준으로, OCR-B를 포함한 OCR 서체에 대한 요구 사항을 규정한다.

주요 적용 분야

  • 은행 및 금융: 수표, 전표, 계좌 이체 문서 등에서 자동 인식 시스템에 활용.
  • 정부 및 공공: 세금 신고서, 통계 조사 표본, 여권 등 공식 문서.
  • 산업 자동화: 바코드 및 라벨 인쇄 시스템, 생산 라인에서의 부품 번호 표기.

구현 및 사용

OCR-B는 다양한 디지털 폰트 파일 형식(TTF, OTF, Type 1 등)으로 제공되며, 대부분의 워드 프로세서와 디자인 소프트웨어에서 이용할 수 있다. 또한, ISO 표준에 따라 제작된 물리적 인쇄물은 OCR 장치가 높은 인식 정확도를 달성하도록 설계된다.

제한 및 비판

  • 가독성 논란: 인간 독자를 위한 가독성이 OCR-A에 비해 뛰어나지만, 현대 디지털 디스플레이 환경에서는 전통적인 산세리프 서체보다 가독성이 낮다는 평가도 있다.
  • 대체 서체 등장: 최근에는 고해상도 이미지와 딥러닝 기반 OCR 기술이 발달하면서, 전용 OCR 서체 없이도 다양한 일반 서체를 인식할 수 있게 되었다.

참고

  • ISO/IEC 1073‑2:1994, “Information technology – Character sets – OCR fonts – Part 2: OCR-B”.
  • BSI, “Specification for OCR-B font”, 1973.

(※ 위 내용은 공개된 표준·문헌에 기초한 객관적인 정보이며, 추가적인 세부 사항에 관해서는 해당 표준 문서를 참조한다.)

둘러보기

더 찾아볼 만한 주제