📖 WIPIVERSE

🔍 현재 등록된 정보: 31,243건

말뭉치

말뭉치는 특정 목적을 가지고 언어 연구를 위해 텍스트나 음성 등의 형태로 수집된 대규모 데이터 집합입니다. 코퍼스라고도 불립니다.

개요

말뭉치는 자연어 처리, 전산 언어학, 통계 언어학 등 다양한 언어 연구 분야에서 필수적인 자료로 활용됩니다. 단순히 텍스트를 모아놓은 것뿐만 아니라, 각 텍스트에 품사 정보, 구문 분석 정보, 의미 정보 등 다양한 언어학적 정보가 추가된 형태를 띠기도 합니다. 이러한 정보를 부가하는 작업을 어노테이션(annotation)이라고 합니다.

종류

  • 형태에 따른 분류: 텍스트 말뭉치, 음성 말뭉치, 영상 말뭉치 등
  • 언어에 따른 분류: 한국어 말뭉치, 영어 말뭉치, 중국어 말뭉치 등
  • 목적에 따른 분류: 일반 언어 연구용 말뭉치, 특정 분야(예: 의료, 법률) 연구용 말뭉치, 교육용 말뭉치 등
  • 정보량에 따른 분류: 어노테이션이 없는 원시 말뭉치, 품사 태깅 말뭉치, 구문 분석 말뭉치, 의미 분석 말뭉치 등

활용

말뭉치는 다음과 같은 다양한 분야에서 활용됩니다.

  • 자연어 처리: 기계 번역, 챗봇 개발, 텍스트 요약, 감성 분석 등
  • 언어 교육: 외국어 학습 자료 개발, 언어 능력 평가 도구 개발 등
  • 사전 편찬: 단어의 용례 분석, 새로운 단어 발굴 등
  • 언어 연구: 언어 변화 연구, 사회 방언 연구, 심리 언어학 연구 등

예시

  • 국립국어원에서 제공하는 '현대 국어 균형 말뭉치'
  • Penn Treebank (영어 구문 분석 말뭉치)
  • Switchboard Corpus (영어 음성 말뭉치)