한국어 중첩 개체명의 말뭉치 구축 연구KONNE: A Korean Nested Named Entity Corpus
1중앙대학교 인문콘텐츠연구소 2경희대학교 3서울대학교 본 논문은 한국어 개체명 말뭉치의 구축 방법을 논의하고 실제로 중첩 주석을수행하여 완성된 말뭉치를 소개하는 것을 목적으로 한다. 이 연구에서는 개방형데이터인 한국어 자연어 이해 평가(KLUE) 데이터 세트 중 개체명 말뭉치의 원시문장에 150개의 개체명 분류 표지를 주석하여 한국어 세분류 개체명 말뭉치(KONEC)를 구축하는 실증적 연구를 수행하였다. 이를 바탕으로 한국어 중첩 개체명 주석을 위한 방법론을 제안하고 실제 주석을 수행하여 한국어 중첩 개체명말뭉치(KONNE)를 구축하였다. 중첩 개체명 주석은 개체명을 계층적 내부 구조를 가진 요소로 분석하는 것으로, 기존의 나열식 주석에 비해 언어학적 정보를풍부하게 표현할 수 있으며 체계적이고 일관성 있는 주석이 가능하다는 장점이있다. 본 논문은 한국어에서 아직 시도되지 않은 중첩 개체명 주석의 방법론을제안하고 실제로 개체명 말뭉치를 구축하는 전 과정을 수행하여 실증적으로 제안된 방법을 검토하고 그 결과 얻어지는 한국어 개체명 주석의 특성을 살펴보았다는 데에 의의가 있다. 또한 본 연구를 통해 생성된 자료를 자유롭게 사용, 수정, 재배포가 가능한 개방형 데이터로 공개하여 한국어 개체명 연구를 위한 공공의토대를 만드는 데에 기여했다. |