목차
1. 들어가며 2. 방법론 이해 3. 연구 사례 4. 논의 사항 5. 공개 라이브러리 6. 맺으며
초록
본고는 영어 및 한국어의 딥러닝 모델을 활용하여 언어 연구를 하는 방법론에 대해서 소개한다. 딥러닝 언어모델은 언어 표현의 연쇄가 가지는 확률적 자연스러움을 학습하므로, 그 자연스러움에 반하는 이상 분포에 대해서는 민감하게 반응한다. 이러한 이상치를 계산하는 심리언어학적 방식이 surprisal이다. 이 산술식을 이용한 언어 연구는 사실상 언어의 전 층위에 적용 가능하다. 형태론, 통사론, 의미론 등의 문장 단위 구성은 물론이며 담화 및 정보구조 등의 연구에도 사용할 수 있다. 나아가 언어 데이터에 함축되어 있는 인간의 세계 지식 및 상식 판단에 대해서도 준용할 수 있다. 본고는 surprisal 기반 실험을 실시할 때 주요한 고려 사항에 대해서도 개괄한다. 물론, 딥러닝 기반 방법이 자연언어에 대한 모든 것에 해법을 줄 수 있는 만능열쇠는 아니다. 그러나 인간 언어를 분석하기 위한 새로운 도구로서 실효성을 가진다는 점에서 앞으로 그 활용 여지가 크다. 관심있는 연구자의 편의를 위해 라이브러리를 함께 공개한다. |