자연언어처리를 위한 한국어 사건 개체명 연구A study on the Korean event named entity for natural language processing
본 연구에서는 자연언어처리를 위하여 한국어 사건 개체명의 실현 양상을 살펴보고일관된 처리를 위하여 중첩 개체명 주석 방법을 제안하였다. 국립국어원의 개체명 분석 말뭉치를 대상으로 하여 사건 개체명과 함께 실현되는 인접 개체명의 유형과 빈도를 제시하였고, 세부 유형별 사건 개체명의 내부 구조를 분석하였다. 사건 개체명의 세분류의 의미에 따라 인접 개체명과 내부 구조 양상이 다르게 실현됨을 알 수 있었다.
본 연구에서 분석한 결과, 인접 개체명 유형과 개체명 내부 정보는 사건 개체명 인식 처리에 유용하게 적용될 수 있다. 기존 지침의 ‘최장 단위 태깅’ 원칙과 ‘최소 단위태깅’ 예외원칙의 혼재로 인한 주석 단위 결정에 미치는 어려움을 해소하기 위하여다어절 개체명을 일관적이면서도 체계적으로 주석할 방법을 제안하였다. 중첩 개체명주석 방법은 고품질의 데이터를 구축하는 데 기여할 수 있고, 언어 정보를 통해 AI 모델 향상되도록 할 수 있다. |