Big5

Big5(빅5)는 전통 중국어(繁體中文) 문자 인코딩 방식 중 하나로, 1980년대 초 대만의 중앙정보국(Central Information Office)과 중화고전연구소(Chinese Information Processing Center)에서 공동 개발하였다. 이 인코딩은 8비트(1바이트) 기반이며, 0x80~0xFF 범위의 두 바이트 조합을 이용해 약 13,000자의 한자를 표현한다.

개요

  • 정식 명칭: Big5 (Big Five)
  • 표준화: 1993년 대만 전자 정보 산업협회(TEL)에서 제정한 "Big5" 표준(TEL-1)를 기반으로 한다.
  • 주된 사용 지역: 대만, 홍콩, 마카오 등 전통 한자를 사용하는 지역.
  • 대응 문자 집합: Unicode와의 호환성을 위해 변환 테이블이 제공되며, 특히 UTF-8이 널리 보급되면서 점차 사용이 감소하고 있다.

역사

  1. 개발 배경
    1970년대 후반, 대만에서는 로컬 컴퓨터 시스템에서 전통 한자를 처리하기 위한 인코딩이 필요했다. 기존의 EUC-CN(간체 중국어) 인코딩은 전통 한자를 충분히 지원하지 못했으며, GB2312와 같은 간체 전용 표준은 대만의 언어 환경에 적합하지 않았다.
  2. 도입 및 표준화
    1984년 최초 버전이 발표되었으며, 이후 1993년 TEL-1 표준이 제정되면서 공식적인 문서화가 이루어졌다. 1990년대 초반에는 윈도우 3.1, 마이크로소프트 오피스 등 주요 소프트웨어에서 기본 문자 인코딩으로 채택되었다.
  3. 후속 변형
    • Big5‑2003: 일부 문자 누락을 보완하고, 신문·출판물에서 자주 쓰이는 신문용 한자를 추가하였다.
    • Big5‑HKSCS: 홍콩에서 사용되는 추가 한자와 기호를 포함한 변형으로, HKSCS(Hong Kong Supplementary Character Set)와 결합된다.

기술적 특징

  • 바이트 구조: 첫 바이트가 0xA1~0xFE 범위에 있으면 두 번째 바이트와 결합해 한자를 구성한다. 영문 및 숫자 등 ASCII 영역(0x00~0x7F)은 그대로 사용한다.
  • 코드 페이지: Windows code page 950이 Big5 인코딩에 대응한다. 일부 운영체제에서는 CP951, CP1386 등 다른 코드 페이지를 제공하기도 한다.
  • 호환성: UTF‑8, UTF‑16 등 유니코드 체계와의 변환이 가능하며, 아이콘, 기호, 일부 특수문자는 별도 매핑 테이블을 통해 처리한다.

현재 활용 상황

인터넷 초기 시절에는 웹사이트와 이메일에서 HTML의 charset=big5 선언이 흔했지만, 2000년대 이후 UTF‑8이 국제 표준으로 자리 잡음에 따라 신규 프로젝트에서는 거의 사용되지 않는다. 다만, 레거시 시스템, 오래된 문서 보존, 일부 전통 신문·출판사의 디지털 아카이브 등에서는 여전히 Big5 인코딩이 유지되고 있다.

관련 표준 및 문서

  • TEL-1: 대만 전자 정보 산업협회가 제정한 Big5 표준 문서.
  • ISO/IEC 10646: 유니코드와의 매핑 표준을 제공한다.
  • RFC 1345: 문자 집합 명세에 Big5를 포함하고 있다.

참고 사항

  • Big5 인코딩은 동일한 코드 포인트가 다른 문자를 가리키는 경우가 존재해, 정확한 텍스트 처리 시 문자 매핑표를 최신 상태로 유지하는 것이 중요하다.
  • 최근에는 Unicode 기반의 UTF‑8이 전 세계적으로 표준화되면서, 새로운 소프트웨어 개발에서는 Big5 사용을 권장하지 않는다.
둘러보기

더 찾아볼 만한 주제