말뭉치 또는 코퍼스(영어: corpus, 복수형: corpora)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. 컴퓨터의 발달로 말뭉치 분석이 용이해졌으며 분석의 정확성을 위해 해당 자연언어를 형태소 분석하는 경우가 많다. 확률/통계적 기법과 시계열적인 접근으로 전체를 파악한다. 언어의 빈도와 분포를 확인할 수 있는 자료이며, 현대 언어학 연구에 필수적인 자료이다. 인문학에 자연과학적 방법론이 가장 성공적으로 적용된 경우로 볼 수 있다.
말뭉치는 언어학에서 주로 구조를 이루고 있는 텍스트(요즘에는 보통 전자적인 방식으로 저장되거나 또는 처리됨) 집합이다. 통계 분석 및 가설 검증을 수행하거나, 특정한 언어 영역 내에서 언어 규칙 발생의 검사와 그 규칙의 정당성 입증에 사용된다.
말뭉치는 단일한 언어(단일언어 말뭉치) 또는 여러 언어(다중언어 말뭉치)의 텍스트를 포함하고 있는 경우가 있다. 여러 언어 간의 비교를 위해 특별히 형태화된 다중언어 말뭉치는 '정렬된 병렬 말뭉치(aligned parallel corpora)'라고 한다.
언어 연구를 더 효과적으로 하기 위해 말뭉치가 말뭉치 주석(annotation)이라는 과정을 종종 거치기도 한다. 말뭉치 단어의 한 예는 각 단어의 품사 표기(동사, 명사, 형용사 등)에 대한 정보가 말뭉치에 '태그'의 형태로 추가되는' 품사 표기(part-of-speech tagging, POS-tagging)'이다. 말뭉치의 언어가 연구자에게 익숙한 언어 아닌 경우에는, '행간 주석(interlinear glossing)'을 사용하여 이(二)언어 주석을 만들어 낸다.
어떤 말뭉치는 한층 더 구조적인 수준의 분석이 적용된다. 특히, 많은 소 말뭉치는 구문 분석이 완전히 이루어질 수 있다. 그러한 말뭉치들은 트리뱅크(Treebank) 또는 분석된 말뭉치(parsed corpara)라고 한다. 모든 말뭉치에 완전하고 일관적으로 주석을 달기 어려우므로 이러한 말뭉치는 더 작으며 약 백만 내지 3백만 단어를 포함하고 있다. 형태론, 의미론 또는 화용론적 주석을 포함하는 다른 수준의 언어학적 구조 분석이 가능하다.
말뭉치는 말뭉치 언어학에서의 주요한 지식 기반이며, 또한 다양한 형태의 말뭉치를 분석하고 처리하는 것은 품사 표기 및 다른 목적을 위하여 은닉 마르코프 모델(Hidden Markov Model, HMM)을 만들어 사용하는 전산언어학, 음성 인식, 기계 번역 분야의 연구 대상이기도 하다. 여기에서 파생된 말뭉치와 빈도 목록은 언어 교육에 유용하게 사용된다. 말뭉치는 비(非)원어민 언어 사용자가 말뭉치 속의 실제 텍스트에 노출되어 습득한 문맥화된 문법 지식이 학습자가 목적 언어에서의 문장 형성 방법을 이해할 수 있고 효과적인 작문을 도와주므로, 외국어 작문의 도우미로 여겨진다.[1]
텍스트 말뭉치는 또한 역사적 문서(사료 등)를 연구하는 데 사용된다.(예를 들어 고문서와 성서 해독 등) 고고학적 말뭉치는 그 시대의 시대상을 제공하며 아주 짧게 기간 동안의 것인 경우가 있다. 가장 짧은 말뭉치 중 하나는 15 ~ 30년 동안의 아마르나의 서한 텍스트(기원전 1350년)이다. 한 고대 도시의 말뭉치는(예를 들어 터키의 '퀼테페(Kültepe) 텍스트')는 발굴 시일에 따라 정해진 연속적인 말뭉치를 이룰 수도 있다.
주요 말뭉치
영어 말뭉치:
구글은 엔그램 말뭉치 - 155,000,000,000 단어수 이며 가장 큰 영어 말뭉치 이다.다른 언어 말뭉치도 구성돼있다. (http://ngrams.googlelabs.com/datasets)
미국 국립 코퍼스 (American National Corpus)
Bank of English
British National Corpus
법학 말뭉치 (Corpus Juris Secundum)
현대미국영어 말뭉치 (COCA) 단어수 425,000,000, 1990~2011 무료 온라인 검색 서비스 제공.
브라운 코퍼스(Brown Corpus). LOB, 찡그린 얼굴과 F-LOB와 함께 "브라운 가족"(Brown Family)이라는 말뭉치를 구성하다.
국제 영어 코퍼스
옥스포드 영어 코퍼스
스코틀랜드 텍스트 및 음성 코퍼스
기타 언어 말뭉치:
유럽 언어
불가리아 국립 코퍼스 (http://search.dcl.bas.bg)
CETENFolha
크로아티아어 코퍼스
크로아티아 국립 코퍼스
체코 국립 코퍼스
러시아 국립 코퍼스 (http://ruscorpora.ru)
슬로베니아어 국립 코퍼스
동의어 Linguae Graecae 사전 (고대 그리스어)
동 아르메니아 국립 코퍼스 (EANC) 110,000,000 단어입니다.무료 온라인 검색 서비스
폴란드 국립 코퍼스
독일어 참조 코퍼스 (DeReKo) 4,000,000,000억 이상의 단어수의 현대 문어 독일어 말뭉치 이다.
스페인어 텍스트 말뭉치. 저작자는 몰 리노 데 아이디어이다. 660 백만 단어를 포함. (스페인어)
CorALit : 리투아니아 학술 코퍼스 1999년 ~ 2009년 (약 900 만 단어)에 발표 된 학술 텍스트로 구성. 빌 뉴스 대학교, 리투아니아에서 편찬.
터키 국립 코퍼스
중동 언어 말뭉치
Hamshahri 코퍼스 (페르시아어)
아마르나 편지, (아카드어 이집트어, 수메르어 등)
TEP: 테헤란 영어 - 페르시아어 병렬 코퍼스 (http://ece.ut.ac.ir/nlp/)
TMC: 테헤란 단일 언어 코퍼스, 페르시아어 언어모델링에 대한 표준 말뭉치 (http://ece.ut.ac.ir/nlp/)
Bijankhan 코퍼스 NLP의 연구에 대한 현대 페르시아 코퍼스
신 아시리아어 텍스트 코퍼스 프로젝트
쿠란 아랍어 코퍼스 (고전 아랍어)
병렬 코퍼스
OPUS : 많은 언어의 오픈 소스 병렬 코퍼스
Tatoeba 122 언어의 2,288,000개 문장 포함하는 병렬 말뭉치.[2]
NTU - 다국어 코퍼스 7 개 언어 (아랍어, 영어, 이디어, 일본어, 국어, MCN, 배트남어)
동아시아 언어
코토노하 일본어 코퍼스