본문으로 이동

트리뱅크

위키백과, 우리 모두의 백과사전.
Image
대부분의 통사 트리뱅크는 구구조 문법 (왼쪽) 또는 의존 문법 (오른쪽)의 변형을 주석 처리한다.

언어학에서 트리뱅크(treebank)는 통사적 또는 의미적 문장 구조를 주석 처리한 구문 분석된 텍스트 말뭉치이다. 1990년대 초에 구문 분석된 말뭉치가 구축되면서 대규모 경험적 데이터의 혜택을 받은 전산언어학에 혁명을 가져왔다.[1]

어원

[편집]

트리뱅크라는 용어는 1980년대 언어학자 제프리 리치씨앗은행이나 혈액은행과 같은 다른 저장소에 비유하여 만들었다.[2] 이는 통사적 구조와 의미적 구조가 모두 일반적으로 트리 구조로 구성적으로 표현되기 때문이다. 구문 분석된 말뭉치(parsed corpus)라는 용어는 트리뱅크와 종종 상호 교환적으로 사용되며, 트리보다는 문장의 중요성에 중점을 둔다.

구축

[편집]

트리뱅크는 일반적으로 이미 품사 태그로 주석 처리된 말뭉치 위에 구축된다. 또한 트리뱅크는 때때로 의미적 또는 기타 언어 정보로 보강되기도 한다. 트리뱅크는 언어학자가 각 문장에 통사적 구조를 주석 처리하는 방식으로 완전히 수동으로 생성할 수도 있고, 구문 분석기가 언어학자가 확인하고 필요한 경우 수정하는 통사적 구조를 할당하는 방식으로 반자동으로 생성할 수도 있다. 실제로 자연어 말뭉치의 구문 분석을 완전히 확인하고 완료하는 것은 대학원 언어학자 팀에게 몇 년이 걸릴 수 있는 노동 집약적인 프로젝트이다. 주석 세부 정보의 수준과 언어 샘플의 폭이 작업의 난이도와 트리뱅크를 구축하는 데 필요한 시간을 결정한다.

Image
꾸란 아랍어 말뭉치의 하이브리드 구성 요소/의존 트리

일부 트리뱅크는 통사적 주석에서 특정 언어 이론을 따른다(예: BulTreeBankHPSG를 따른다). 그러나 대부분은 이론에 덜 국한되려고 노력한다. 하지만 두 가지 주요 그룹으로 나눌 수 있다. 구구조를 주석 처리하는 트리뱅크(예: 펜 트리뱅크[3] 또는 ICE-GB)와 의존 구조를 주석 처리하는 트리뱅크(예: 프라하 의존성 트리뱅크 또는 꾸란 아랍어 의존성 트리뱅크)이다.

주석 처리된 데이터를 저장하는 데 사용되는 형식적 표현과 파일 형식 간의 구분을 명확히 하는 것이 중요하다. 트리뱅크는 특정 문법에 따라 구축되어야 한다. 동일한 문법은 다른 파일 형식으로 구현될 수 있다. 예를 들어, 오른쪽/위 그림에 표시된 존은 메리를 사랑한다에 대한 통사 분석은 텍스트 파일에 다음과 같이 간단한 레이블이 지정된 괄호로 표현될 수 있다( 펜 트리뱅크 표기법에 따름).

(S (NP (NNP John))
   (VP (VPZ loves)
       (NP (NNP Mary)))
   (. .))

이러한 유형의 표현은 리소스 사용량이 적고 소프트웨어 도구 없이도 트리 구조를 비교적 쉽게 읽을 수 있기 때문에 인기가 있다. 그러나 말뭉치가 점점 더 복잡해짐에 따라 다른 파일 형식이 선호될 수 있다. 대안으로는 트리뱅크별 XML 스키마, 번호 매기기 들여쓰기 및 다양한 유형의 스탠드오프 표기법이 있다.

응용

[편집]

전산언어학[4] 관점에서 트리뱅크는 품사 태그 지정기, 구문 분석기, 의미 분석기 및 기계 번역 시스템과 같은 최첨단 자연어 처리 시스템을 개발하는 데 사용되었다.[5] 대부분의 전산 시스템은 골드 표준 트리뱅크 데이터를 활용한다. 그러나 인간 언어학자에 의해 수정되지 않은 자동 구문 분석 말뭉치도 여전히 유용할 수 있다. 이는 구문 분석기의 규칙 빈도에 대한 증거를 제공할 수 있다. 구문 분석기는 많은 양의 텍스트에 적용하고 규칙 빈도를 수집하여 개선될 수 있다. 그러나 말뭉치를 수동으로 수정하고 완성하는 과정을 통해서만 구문 분석기 지식 기반에 없는 규칙을 식별할 수 있다는 것은 명백하다. 또한 빈도는 더 정확할 가능성이 높다.

말뭉치언어학에서 트리뱅크는 통사 현상을 연구하는 데 사용된다(예: 통시적 말뭉치는 통사 변화의 시간 경과를 연구하는 데 사용될 수 있다). 구문 분석되면 말뭉치는 다양한 문법 구조가 사용되는 빈도를 보여주는 빈도 증거를 포함한다. 트리뱅크는 또한 적용 범위에 대한 증거를 제공하고 새롭고 예상치 못한 문법 현상 발견을 지원한다.

이론언어학심리언어학에서 트리뱅크의 또 다른 사용은 상호작용 증거이다. 완성된 트리뱅크는 언어학자가 한 문법 구조를 사용하기로 한 결정이 다른 구조를 형성하기로 한 결정에 어떻게 영향을 미치는지에 대한 실험을 수행하고, 화자와 작가가 문장을 형성할 때 어떻게 결정을 내리는지 이해하려고 노력하는 데 도움이 될 수 있다. 상호작용 연구는 의미론, 화용론 등 추가적인 주석 레이어가 말뭉치에 추가될 때 특히 유익하다. 그러면 비통사적 현상이 문법적 선택에 미치는 영향을 평가할 수 있다.

언어학 연구에서 주석 처리된 트리뱅크 데이터는 통사 연구에서 대량의 자연적으로 발생하는 예시를 통해 문장 구조의 언어 이론을 테스트하는 데 사용되었다.

의미 트리뱅크

[편집]

의미 트리뱅크는 의미 표현으로 주석 처리된 자연어 문장 모음이다. 이 리소스는 각 문장의 의미 구조의 형식적 표현을 사용한다. 의미 트리뱅크는 의미 표현의 깊이가 다양하다. 깊은 의미 주석의 주목할 만한 예는 흐로닝언 대학교에서 개발되었으며 담화표현이론을 사용하여 주석 처리된 흐로닝언 의미 은행이다. 얕은 의미 트리뱅크의 예로는 PropBank가 있는데, 이 은행은 말뭉치의 모든 단어를 논리 형식으로 표현하려고 시도하지 않고 동사 명제와 그 인수에 대한 주석을 제공한다.

언어 트리뱅크 의미 형식론 배포 / 라이선스
중국어 Chinese Universal Propositions PropBank 의미론 CC BY-NC-SA 3.0 US
영어 Abstract Meaning Representation (AMR) Bank 깊은 의미론 ?
영어 FrameNet 얕은 의미론 ?
영어 Universal Conceptual Cognitive Annotation (UCCA) 깊은 의미론 ?
영어 Robot Commands Treebank[6] 깊은 의미론 ?
영어 Groningen Meaning Bank 깊은 의미론 different licenses
영어 Parallel Meaning Bank 깊은 의미론 different licenses
네덜란드어 Parallel Meaning Bank 깊은 의미론 different licenses
독일어 Parallel Meaning Bank 깊은 의미론 different licenses
이탈리아어 Parallel Meaning Bank 깊은 의미론 different licenses
영어 DeepBank project 깊은 의미론 ?
영어 Treebank Semantics Parsed Corpus 깊은 의미론 ?
영어 RoboCup Corpus 깊은 의미론 ?
영어 Geoquery 깊은 의미론 ?
영어 PropBank PropBank 의미론 different licenses
핀란드어 Finnish Universal Propositions PropBank 의미론 CC BY-NC-SA 3.0 US
핀란드어 Finnish PropBank PropBank 의미론 CC BY-SA 4.0
프랑스어 French Universal Propositions PropBank 의미론 CC BY-NC-SA 3.0 US
독일어 German Universal Propositions PropBank 의미론 CC BY-NC-SA 3.0 US
이탈리아어 Italian Universal Propositions PropBank 의미론 CC BY-NC-SA 3.0 US
포르투갈어 Portuguese PortLex PropBank 의미론 ?
포르투갈어 Portuguese Universal Propositions PropBank 의미론 CC BY-NC-SA 3.0 US
스페인어 Spanish Universal Propositions PropBank 의미론 CC BY-NC-SA 3.0 US
튀르키예어 Turkish PropBank PropBank 의미론 CC BY-NC-SA 4.0

통사 트리뱅크

[편집]

다양한 언어에 대한 많은 통사 트리뱅크가 개발되었다.

언어 트리뱅크 통사 형식론 배포 / 라이선스
아바자어 Universal Dependencies, ATB 의존성 CC BY-SA
아프리칸스어 Universal Dependencies, AfriBooms 의존성 CC BY-SA
아카드어 Universal Dependencies, PISANDUB 의존성 CC BY-SA
알바니아어 Universal Dependencies, TSA 의존성 CC BY-SA
암하라어 Universal Dependencies, ATT 의존성 CC BY-SA
고대 그리스어 Universal Dependencies, Perseus 의존성 CC BY-NC-SA
고대 그리스어 Universal Dependencies, PROIEL 의존성 CC BY-NC-SA
고대 그리스어 Ancient Greek Dependency Treebank[7][8] 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
고대 그리스어 PROIEL Treebank[9] 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
아랍어 Columbia Arabic Treebank (CATiB) 의존성 Linguistic Data Consortium
아랍어 Prague Arabic Dependency Treebank (PADT) 의존성 Linguistic Data Consortium
아랍어 Universal Dependencies, NYUAD 의존성 CC BY-SA
아랍어 Universal Dependencies, PADT 의존성 CC BY-NC-SA
아랍어 Universal Dependencies, PUD 의존성 CC BY-SA
아랍어 Penn Arabic Treebank 구구조 Linguistic Data Consortium
아르메니아어 Universal Dependencies, ArmTDP 의존성 CC BY-SA
아시리아 신아람어 Universal Dependencies, AS 의존성 CC BY-SA
밤바라어 Universal Dependencies, CRB 의존성 CC BY-SA
바스크어 Universal Dependencies, BDT 의존성 CC BY-NC-SA
벨라루스어 Universal Dependencies, HSE 의존성 CC BY-SA
보지푸리어 Universal Dependencies, BhEn 의존성 CC BY-SA
보지푸리어 Universal Dependencies, BHTB 의존성 CC BY-SA
브르타뉴어 Universal Dependencies, KEB 의존성 CC BY-SA
불가리아어 Universal Dependencies, BTB 의존성 CC BY-NC-SA
불가리아어 BulTreeBank HPSG 연구용으로 자유롭게 이용 가능
부랴트어 Universal Dependencies, BDT 의존성 CC BY-SA
광둥어 Universal Dependencies, HK 의존성 CC BY-SA
카탈루냐어 Cat3LB 구구조 연구용으로 자유롭게 이용 가능
카탈루냐어 Universal Dependencies, AnCora 의존성 GPL
중국어 Sinica Treebank 격문법 자유롭게 이용 불가
중국어 Universal Dependencies, CFL 의존성 CC BY-SA
중국어 Universal Dependencies, GSD 의존성 CC BY-SA
중국어 Universal Dependencies, GSDSimp 의존성 CC BY-SA
중국어 Universal Dependencies, HK 의존성 CC BY-SA
중국어 Universal Dependencies, PUD 의존성 CC BY-SA
중국어 Penn Chinese Treebank 구구조 Linguistic Data Consortium
중국어 Chinese Dependency Treebank 의존성 Linguistic Data Consortium
고전 아랍어 Quranic Arabic Dependency Treebank (QADT) (꾸란 아랍어 말뭉치) 의존성 오픈 소스 (GNU 일반 공중 사용 허가서)
고전 아르메니아어 PROIEL Treebank[9] 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
콥트어 Universal Dependencies, Coptic Scriptorium 의존성 CC BY
크로아티아어 Croatian Dependency Treebank 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
크로아티아어 Universal Dependencies, SET 의존성 CC BY-SA
체코어 Prague Dependency Treebank 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
체코어 Universal Dependencies, CAC 의존성 CC BY-SA
체코어 Universal Dependencies, CLTT 의존성 CC BY-SA
체코어 Universal Dependencies, FicTree 의존성 CC BY-NC-SA
체코어 Universal Dependencies, PDT 의존성 CC BY-NC-SA
체코어 Universal Dependencies, PUD 의존성 CC BY-SA
덴마크어 Danish Dependency Treebank 의존성 오픈 소스 (GNU 일반 공중 사용 허가서)
덴마크어 Arboretum: A syntactic tree corpus of Danish 구구조 라이선스 비용
덴마크어 Universal Dependencies, DDT 의존성 CC BY-SA
덴마크어 Universal Dependencies, DTB 의존성 CC BY-SA
네덜란드어 Spoken Dutch Corpus (CGN) 구구조 라이선스 비용
네덜란드어 Universal Dependencies, Alpino 의존성 CC BY-SA
네덜란드어 Universal Dependencies, LassySmall 의존성 CC BY-SA
네덜란드어 LASSY Small and Large 의존성 라이선스 비용
네덜란드어 Alpino Treebank 의존성 오픈 소스 (GNU 일반 공중 사용 허가서)
이집트어 Universal Dependencies, UJaen 의존성 CC BY-SA
영어 CCGbank 결합 범주 문법 Linguistic Data Consortium
영어 LinGO Redwoods HPSG ?
영어 Lancaster Parsed Corpus 구구조 ?
영어 Prague English Dependency Treebank 의존성 Linguistic Data Consortium
영어 Universal Dependencies, BhEn 의존성 CC BY-SA
영어 Universal Dependencies, ESL 의존성 CC BY-SA
영어 Universal Dependencies, EWT 의존성 CC BY-SA
영어 Universal Dependencies, GUM 의존성 CC BY-NC-SA
영어 Universal Dependencies, GUMReddit 의존성 CC BY
영어 Universal Dependencies, LinES 의존성 CC BY-NC-SA
영어 Universal Dependencies, ParTUT 의존성 CC BY-NC-SA
영어 Universal Dependencies, Pronouns 의존성 CC BY-SA
영어 Universal Dependencies, PUD 의존성 CC BY-SA
영어 Treebank Semantics Parsed Corpus 구구조 오픈 소스 (크리에이티브 커먼즈 라이선스)
영어 Christine Corpus 구구조 연구용으로 자유롭게 이용 가능
영어 Lucy Corpus 구구조 연구용으로 자유롭게 이용 가능
영어 Susanne Corpus 구구조 연구용으로 자유롭게 이용 가능
영어 BLLIP WSJ corpus 구구조 Linguistic Data Consortium
영어 Tübingen Treebank of English / Spontaneous Speech (TüBa-E/S) HPSG 연구용으로 자유롭게 이용 가능
영어 Diachronic Corpus of Present-Day Spoken English (DCPSE) 구구조 라이선스 비용
영어 British Component of the International Corpus of English (ICE-GB) 구구조 라이선스 비용
영어 The PARC 700 Dependency Bank 의존성 ?
영어 Yahoo Query Treebank 의존성 연구용으로 자유롭게 이용 가능
영어 Penn Treebank 구구조 Linguistic Data Consortium
영어 Multi-Treebank 구구조 비교 목적으로 온라인에서 이용 가능
영어 CHILDES Brown Eve corpus with dependency annotation 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
영어 SMULTRON - Parallel Treebank EN-DE-SV 구구조 연구용으로 자유롭게 이용 가능
에르자어 Universal Dependencies, JR 의존성 CC BY-SA
에스토니아어 Arborest 구구조 ?
에스토니아어 Syntactically analyzed and disambiguated text corpus 의존성 연구용으로 자유롭게 이용 가능
에스토니아어 Universal Dependencies, EDT 의존성 CC BY-NC-SA
에스토니아어 Universal Dependencies, EWT 의존성 CC BY-NC-SA
페로어 Universal Dependencies, FarPaHC 의존성 CC BY-SA
페로어 Universal Dependencies, OFT 의존성 CC BY-SA
핀란드어 Turku Dependency Treebank (TDT) 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
핀란드어 Universal Dependencies, FTB 의존성 CC BY
핀란드어 Universal Dependencies, PUD 의존성 CC BY-SA
핀란드어 Universal Dependencies, TDT 의존성 CC BY-SA
프랑스어 (구어) Rhapsodie 의존성 및 거시통사적 주석 오픈 소스 (크리에이티브 커먼즈 라이선스)
프랑스어 L'Arboratoire 구구조 ?
프랑스어 Universal Dependencies, CrapBank 의존성 CC BY-SA
프랑스어 Universal Dependencies, FQB 의존성 GPL
프랑스어 Universal Dependencies, FTB 의존성 GPL
프랑스어 Universal Dependencies, GSD 의존성 CC BY-SA
프랑스어 Universal Dependencies, ParTUT 의존성 CC BY-NC-SA
프랑스어 Universal Dependencies, PUD 의존성 CC BY-SA
프랑스어 Universal Dependencies, Sequoia 의존성 GPL
프랑스어 Universal Dependencies, Spoken 의존성 CC BY-SA
프랑스어 French Treebank 구구조 연구용으로 자유롭게 이용 가능
프랑스어 Free French Treebank 구구조 오픈 소스 라이선스 LGPL-LR
프랑스어 Sequoia Treebank 구구조 & 의존성 오픈 소스 라이선스 LGPL-LR
갈리시아어 Universal Dependencies, CTG 의존성 CC BY-NC-SA
갈리시아어 Universal Dependencies, TreeGal 의존성 GPL
독일어 Hamburg Dependency Treebank (HDT) 의존성 연구용으로 자유롭게 이용 가능
독일어 Universal Dependencies, GSD 의존성 CC BY-SA
독일어 Universal Dependencies, LIT 의존성 CC BY-NC-SA
독일어 Universal Dependencies, PUD 의존성 CC BY-SA
독일어 SMULTRON - Parallel Treebank EN-DE-SV 구구조 연구용으로 자유롭게 이용 가능
독일어 NEGRA 구구조 연구용으로 자유롭게 이용 가능
독일어 TIGER 구구조 연구용으로 자유롭게 이용 가능
독일어 Tübingen Treebank of German / Spontaneous Speech (TüBa-D/S) 구구조 연구용으로 자유롭게 이용 가능
독일어 Tübingen Treebank of Written German (TüBa-D/Z) 구구조 연구용으로 자유롭게 이용 가능
독일어 Tübingen Partially Parsed Corpus of Written German (TüPP-D/Z) 구구조 라이선스 비용
고트어 PROIEL Treebank[9] 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
고트어 Universal Dependencies, PROIEL 의존성 CC BY-NC-SA
그리스어 Greek Dependency Treebank 의존성 자유롭게 이용 불가
그리스어 Universal Dependencies, GDT 의존성 CC BY-NC-SA
히브리어 Universal Dependencies, HTB 의존성 CC BY-NC-SA
히브리어 Hebrew Dependency Treebank 의존성 오픈 소스 (GNU 일반 공중 사용 허가서)
힌디어 영어 Universal Dependencies, HIENCS 의존성 CC BY-SA
힌디어 Universal Dependencies, HDTB 의존성 CC BY-NC-SA
힌디어 Universal Dependencies, PUD 의존성 CC BY-SA
힌디어 AnnCorra 의존성 ?
영어의 역사 Penn Parsed Corpora of Historical English; 구구조 Linguistic Data Consortium (2020년 4월 기준)
영어의 역사 York-Toronto-Helsinki Parsed Corpus of Old English Prose (YCOE) 구구조 연구용으로 자유롭게 이용 가능
프랑스어의 역사 Corpus MCVF 구구조 연구용으로 자유롭게 이용 가능
포르투갈어의 역사 Tycho Brahe corpus 구구조 ?
헝가리어 Universal Dependencies, Szeged 의존성 CC BY-NC-SA
헝가리어 Hungarian Treebank 구구조 ?
아이슬란드어 IcePaHC - Icelandic Parsed Historical Corpus 구구조 오픈 소스 (GNU 약소 일반 공중 사용 허가서)
아이슬란드어 Universal Dependencies, IcePaHC 의존성 CC BY-SA
아이슬란드어 Universal Dependencies, PUD 의존성 CC BY-SA
인도네시아어 Universal Dependencies, GSD 의존성 CC BY-SA
인도네시아어 Universal Dependencies, PUD 의존성 CC BY-SA
인도네시아어 ICON 구구조 ?
아일랜드어 Universal Dependencies, IDT 의존성 CC BY-SA
이탈리아어 ISST - Italian Syntactic-Semantic Treebank 구구조의존성 라이선스 비용
이탈리아어 MIDT (Merged Italian Dependency Treebank) resulting from the merging and harmonization of the TUT and ISST-CoNLL/TANL treebanks 의존성 연구용으로 자유롭게 이용 가능
이탈리아어 VIT - Venice Italian Treebank 구구조의존성 라이선스 비용
이탈리아어 Universal Dependencies, ISDT 의존성 CC BY-NC-SA
이탈리아어 Universal Dependencies, ParTUT 의존성 CC BY-NC-SA
이탈리아어 Universal Dependencies, PoSTWITA 의존성 CC BY-NC-SA
이탈리아어 Universal Dependencies, PUD 의존성 CC BY-SA
이탈리아어 Universal Dependencies, TWITTIRO 의존성 CC BY-SA
이탈리아어 Universal Dependencies, VIT 의존성 CC BY-NC-SA
이탈리아어 Italian Syntactic-Semantic Treebank for the CoNLL-2007 Shared Task (ISST-CoNLL) 의존성 연구용으로 자유롭게 이용 가능
이탈리아어 SUT - Siena University Treebank ? ?
이탈리아어 TUT - Turin University Treebank 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
이탈리아어 ISDT (Italian Stanford Dependency Treebank) 의존성 연구용으로 자유롭게 이용 가능
일본어 Kyoto Text Corpus ? ?
일본어 Universal Dependencies, BCCWJ 의존성 CC BY-NC-SA
일본어 Universal Dependencies, GSD 의존성 CC BY-SA
일본어 Universal Dependencies, KTC 의존성 CC BY-SA
일본어 Universal Dependencies, Modern 의존성 CC BY-NC-ND
일본어 Universal Dependencies, PUD 의존성 CC BY-SA
일본어 Keyaki Treebank 구구조 오픈 소스 (크리에이티브 커먼즈 라이선스)
일본어 Tübingen Treebank of Japanese / Spontaneous Speech (TüBa-J/S) 구구조 연구용으로 자유롭게 이용 가능
일본어 ATR Dependency corpus 의존성 ?
카렐어 Universal Dependencies, KKPP 의존성 CC BY-SA
카자흐어 Universal Dependencies, KTB 의존성 CC BY-SA
코미 페름어 Universal Dependencies, UH 의존성 CC BY-SA
코미 지랸어 Universal Dependencies, IKDP 의존성 CC BY-SA
코미 지랸어 Universal Dependencies, Lattice 의존성 CC BY-SA
한국어 Universal Dependencies, GSD 의존성 CC BY-SA
한국어 Universal Dependencies, Kaist 의존성 CC BY-SA
한국어 Universal Dependencies, Penn 의존성 CC BY-SA
한국어 Universal Dependencies, PUD 의존성 CC BY-SA
한국어 Universal Dependencies, Sejong 의존성 CC BY-SA
한국어 Korean Treebank 구구조 Linguistic Data Consortium
쿠르만지어 Universal Dependencies, MG 의존성 CC BY-SA
라틴어 Universal Dependencies, ITTB 의존성 CC BY-NC-SA
라틴어 Universal Dependencies, LLCT 의존성 CC BY-SA
라틴어 Universal Dependencies, Perseus 의존성 CC BY-NC-SA
라틴어 Universal Dependencies, PROIEL 의존성 CC BY-NC-SA
라틴어 Index Thomisticus Treebank 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
라틴어 PROIEL Treebank[9] 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
라틴어 Latin Dependency Treebank[10] 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
라트비아어 Universal Dependencies, LVTB 의존성 CC BY-SA
리투아니아어 Universal Dependencies, ALKSNIS 의존성 CC BY-SA
리투아니아어 Universal Dependencies, HSE 의존성 CC BY-SA
리비어 Universal Dependencies, KKPP 의존성 CC BY-SA
마가히어 Universal Dependencies, MGTB 의존성 CC BY-SA
몰타어 Universal Dependencies, MUDT 의존성 CC BY-SA
마라티어 Universal Dependencies, UFAL 의존성 CC BY-SA
음비아 과라니어 Universal Dependencies, Dooley 의존성 CC BY-NC-SA
음비아 과라니어 Universal Dependencies, Thomas 의존성 CC BY-NC-SA
중세 아일랜드어 Universal Dependencies, CritMITB 의존성 CC BY-SA
중세 아일랜드어 Universal Dependencies, DipMITB 의존성 CC BY-SA
목샤어 Universal Dependencies, JR 의존성 CC BY-SA
나이지리아 피진 Universal Dependencies, NSC 의존성 CC BY-SA
북부 사미어 Universal Dependencies, Giella 의존성 CC BY-SA
노르웨이어 INESS treebanking infrastructure LFG ?
노르웨이어 Universal Dependencies, Bokmaal 의존성 CC BY-SA
노르웨이어 Universal Dependencies, Nynorsk 의존성 CC BY-SA
노르웨이어 Universal Dependencies, NynorskLIA 의존성 CC BY-SA
고대 교회 슬라브어 Universal Dependencies, PROIEL 의존성 CC BY-NC-SA
고대 교회 슬라브어 TOROT Treebank[9] 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
고대 프랑스어 Universal Dependencies, SRCMF 의존성 CC BY-NC-SA
고대 러시아어 Universal Dependencies, RNC 의존성 CC BY-SA
고대 러시아어 Universal Dependencies, TOROT 의존성 CC BY-NC-SA
고대 러시아어 TOROT Treebank[9] 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
페르시아어 Persian Dependency Treebank (PerDT) 의존성 연구용으로 자유롭게 이용 가능
페르시아어 PerTreeBank HPSG 연구용으로 자유롭게 이용 가능
페르시아어 Universal Dependencies, Seraji 의존성 CC BY-SA
폴란드어 A Treebank / Test Suite for Polish HPSG ?
폴란드어 Universal Dependencies, LFG 의존성 GPL
폴란드어 Universal Dependencies, PDB 의존성 CC BY-NC-SA
폴란드어 Universal Dependencies, PUD 의존성 CC BY-SA
폴란드어 Składnica 구구조의존성 오픈 소스 (GNU 일반 공중 사용 허가서)
포르투갈어 Universal Dependencies, Bosque 의존성 CC BY-SA
포르투갈어 Universal Dependencies, GSD 의존성 CC BY-SA
포르투갈어 Universal Dependencies, PUD 의존성 CC BY-SA
포르투갈어 Projecto Floresta Sintá(c)tica 의존성, 구구조 오픈 소스 (GNU 일반 공중 사용 허가서)
루마니아어 Romanian Dependency Treebank 의존성 ?
루마니아어 Universal Dependencies, Nonstandard 의존성 CC BY-SA
루마니아어 Universal Dependencies, RRT 의존성 CC BY-SA
루마니아어 Universal Dependencies, SiMoNERo 의존성 CC BY-SA
러시아어 Universal Dependencies, GSD 의존성 CC BY-SA
러시아어 Universal Dependencies, PUD 의존성 CC BY-SA
러시아어 Universal Dependencies, SynTagRus 의존성 CC BY-NC-SA
러시아어 Universal Dependencies, Taiga 의존성 CC BY-SA
러시아어 SynTagRus Dependency Treebank (러시아어 국가 말뭉치) 의존성 연구용으로 자유롭게 이용 가능
산스크리트어 Universal Dependencies, UFAL 의존성 CC BY-SA
산스크리트어 Universal Dependencies, Vedic 의존성 CC BY-SA
스코틀랜드 게일어 Universal Dependencies, ARCOSG 의존성 CC BY-SA
세르비아어 Universal Dependencies, SET 의존성 CC BY-SA
신드어 Universal Dependencies, MazharDootio 의존성 CC BY-SA
스코트 사미어 Universal Dependencies, Giellagas 의존성 CC BY-SA
슬로바키아어 Universal Dependencies, SNK 의존성 CC BY-SA
슬로베니아어 Slovene Dependency Treebank 의존성 연구용으로 자유롭게 이용 가능
슬로베니아어 Universal Dependencies, SSJ 의존성 CC BY-NC-SA
슬로베니아어 Universal Dependencies, SST 의존성 CC BY-NC-SA
스페인어 Cast3LB 구구조의존성 연구용으로 자유롭게 이용 가능
스페인어 Universal Dependencies, AnCora 의존성 GPL
스페인어 Universal Dependencies, GSD 의존성 CC BY-SA
스페인어 Universal Dependencies, PUD 의존성 CC BY-SA
스페인어 UAM Treebank of Spanish 구구조 연구용으로 자유롭게 이용 가능
스웨덴어 Talbanken05 구구조의존성 연구용으로 자유롭게 이용 가능
스웨덴어 Swedish Treebank 구구조 연구용으로 자유롭게 이용 가능
스웨덴어 Universal Dependencies, LinES 의존성 CC BY-NC-SA
스웨덴어 Universal Dependencies, PUD 의존성 CC BY-SA
스웨덴어 Universal Dependencies, Talbanken 의존성 CC BY-SA
스웨덴어 SMULTRON - Parallel Treebank EN-DE-SV 구구조 연구용으로 자유롭게 이용 가능
스웨덴 수화 Universal Dependencies, SSLC 의존성 CC BY-SA
스위스 독일어 Universal Dependencies, UZH 의존성 CC BY-SA
타갈로그어 Universal Dependencies, TRG 의존성 CC BY-SA
타갈로그어 Universal Dependencies, Ugnayan 의존성 CC BY-NC-SA
타밀어 Universal Dependencies, TTB 의존성 CC BY-NC-SA
텔루구어 Universal Dependencies, MTG 의존성 CC BY-SA
태국어 NAiST Thai Treebank 의존성 오픈 소스 (GNU 일반 공중 사용 허가서)
태국어 Universal Dependencies, PUD 의존성 CC BY-SA
태국어 THTB 구구조 CC BY 4.0
튀르키예어 METU-Sabanci Turkish Treebank 의존성 연구용으로 자유롭게 이용 가능
튀르키예어 Universal Dependencies, BOUN 의존성 CC BY-SA
튀르키예어 Universal Dependencies, GB 의존성 CC BY-SA
튀르키예어 Universal Dependencies, IMST 의존성 CC BY-NC-SA
튀르키예어 Universal Dependencies, PUD 의존성 CC BY-SA
우크라이나어 Institute for Ukrainian, NGO Gold Standard 의존성 오픈 소스 (크리에이티브 커먼즈 라이선스)
우크라이나어 Universal Dependencies, IU 의존성 CC BY-NC-SA
고지 소르브어 Universal Dependencies, UFAL 의존성 CC BY-SA
우르두어 NU-FAST Treebank 구구조 Computational Learning Strategies & Practices에 문의
우르두어 The URDU.KON-TB Treebank 구구조 및 하이퍼 의존 구조 Computational Learning Strategies & Practices에 문의
우르두어 Universal Dependencies, UDTB 의존성 CC BY-NC-SA
위구르어 Universal Dependencies, UDT 의존성 CC BY-SA
베트남어 Universal Dependencies, VTB 의존성 CC BY-SA
베트남어 Vietnamese Treebank 구구조 연구용으로 자유롭게 이용 가능
베트남어 Vietnamese Dependency Treebank 의존성 연구용으로 자유롭게 이용 가능
왈피리어 Universal Dependencies, UFAL 의존성 CC BY-SA
웨일스어 Universal Dependencies, CCG 의존성 CC BY-SA
월로프어 Universal Dependencies, WTB 의존성 CC BY-SA
요루바어 Universal Dependencies, YTB 의존성 CC BY-SA

다국어 작업 간의 추가 연구를 용이하게 하기 위해 일부 연구자들은 다국어 간의 보편적인 주석 체계에 대해 논의했다. 이러한 방식으로 사람들은 다양한 트리뱅크 말뭉치의 장점을 활용하거나 통합하려고 노력한다. 예를 들어, 의존 트리뱅크에 대한 보편적인 주석 방식;[11] 그리고 구구조 트리뱅크에 대한 보편적인 주석 방식.[12]

검색 도구

[편집]

트리뱅크에서 증거를 추출하는 주요 방법 중 하나는 검색 도구를 사용하는 것이다. 구문 분석된 말뭉치에 대한 검색 도구는 일반적으로 말뭉치에 적용된 주석 체계에 따라 달라진다. 사용자 인터페이스는 컴퓨터 프로그래머를 대상으로 하는 표현 기반 쿼리 시스템부터 일반 언어학자를 대상으로 하는 완전한 탐색 환경에 이르기까지 정교함이 다양하다. 월리스(Wallis, 2008)는 트리뱅크 검색 원리를 자세히 논의하고 당시의 최신 기술을 검토했다.[13]

같이 보기

[편집]

각주

[편집]
  1. Alexander Clark, Chris Fox and Shalom Lappin (2010). The handbook of computational linguistics and natural language processing. Wiley.
  2. Sampson, G. (2003) ‘Reflections of a dendrographer.’ In A. Wilson, P. Rayson and T. McEnery (eds.) Corpus Linguistics by the Lune: A Festschrift for Geoffrey Leech, Frankfurt am Main: Peter Lang, pp. 157-184
  3. Marcus, Mitchell P.; Santorini, Beatrice; Marcinkiewicz, Mary Ann (1993). Hirschberg, Julia (편집). Building a Large Annotated Corpus of English: The Penn Treebank. Computational Linguistics 19. 313–330쪽.
  4. Haitao Liu, Wei Huang — A Chinese Dependency Syntax for Treebanking, published by Communication University of China, published (online) by the Association for Computational Linguistics - accessed 2020-2-4
  5. Kübler, Sandra; McDonald, Ryan; Nivre, Joakim (2008년 12월 18일). Dependency Parsing (영어). Synthesis Lectures on Human Language Technologies 2. 1–127쪽. doi:10.2200/s00169ed1v01y200901hlt002.
  6. Kais Dukes (2013) Semantic Annotation of Robotic Spatial Commands. Language and Technology Conference (LTC). Poznan, Poland.
  7. Celano, Giuseppe G. A. 2014. Guidelines for the annotation of the Ancient Greek Dependency Treebank 2.0. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
  8. Mambrini, F. 2016. The Ancient Greek Dependency Treebank: Linguistic Annotation in a Teaching Environment. In: Bodard, G & Romanello, M (eds.) Digital Classics Outside the Echo-Chamber: Teaching, Knowledge Exchange & Public Engagement, Pp. 83–99. London: Ubiquity Press. doi:10.5334/bat.f
  9. 1 2 3 4 5 6 Dag Haug. 2015. Treebanks in historical linguistic research. In Carlotta Viti (ed.), Perspectives on Historical Syntax, Benjamins, 188-202. A preprint is available at http://folk.uio.no/daghaug/historical-treebanks.pdf.
  10. Bamman David & al. 2008. Guidelines for the Syntactic Annotation of Latin Treebanks (v. 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
  11. McDonald, R.; Nivre, J., Quirmbach-Brundage, Y. 외. Universal Dependency Annotation for Multilingual Parsing.. Proceedings of the ACL 2013..
  12. Han, A.L.-F; Wong, D.F.; Chao, L.S.; Lu, Y.; He, L.; Tian, L. (2014). A Universal Phrase Tagset for Multilingual Treebanks (PDF). Proceedings of the CCL and NLP-NABD 2014, LNAI 8801, pp. 247– 258. © Springer International Publishing Switzerland. doi:10.1007/978-3-319-12277-9_22. 다음 값 잘못됨: |이름목록형식=amp (도움말)
  13. Wallis, Sean (2008). Searching treebanks and other structured corpora. Chapter 34 in Lüdeling, A. & Kytö, M. (ed.) Corpus Linguistics: An International Handbook. Handbücher zur Sprache und Kommunikationswissenschaft series. Berlin: Mouton de Gruyter.