인공지능 시대를 위한 인문데이터의 역사와 과제
김바로 (HK연구교수, 중앙대학교 인문콘텐츠연구소)
본 논문은 지금까지의 인문 데이터의 발전 과정을 살펴보고, 4차 산업 혁명 시대의 인문 데이터의 미래 발전 방향에 대해서 검토하였다. 처음에는 컴퓨터에서 문자를 인지하는 문자 인코딩의 발전사를 아스키코드부터 유니코드까지 살펴보고, 문자 인지의 본질에 대해서 고민하였다. 그 다음에 인간가독형 데이터와 기계가독형 데이터의 개념을 살펴보고, 초보적인 단계의 기계가독형 데이터인 말뭉치(코퍼스) 구조에 대해서 살펴보았다. 그 이후, 기계에 의한 데이터 의미 부여 방법인N-gram과 Word2Vec을 살펴보고, 그 장단점을 논의하였다. 그리고 이와 반대항인 인간에 의한 주동적인 데이터 의미 부여 방법인 시맨틱웹을 탐색하였다. 마지막으로 이러한 데이터 발전을 바탕으로 미래의 인문 데이터의 양상에 대해서 살펴보았다
주제어:인공지능인문학, 인문데이터, 시맨틱웹, 인간가독형 데이터, 기계가독형 데이터 |