딥러닝을 활용한 비윤리 텍스트 데이터 분석Analysis of Unethical Text Data Using Deep Learning
COVID-19의 유행으로 가속화된 웹 언어의 변화 속에서 웹 언어소통이 더욱 활발해졌다. 웹 언어소통에서 나타나는 비윤리적 표현 확산과 더불어 AI 챗봇의 윤리 문제가 사회적인 주목을 받으면서 이를 해결하기 위한 대책이 필요해졌다. 본 연구에서는 비윤리 텍스트에서 나타나는 어휘적 특성이 일반 텍스트와는 다름을 딥러닝을 활용하여 살펴보았다. 이를 실현하기 위해 전처리를 거친 비윤리 텍스트 데이터를 분포의미론 기반의 Word2Vec 모델로 학습시켜 계량적으로 분석하였다. 그 결과 비윤리 문장에서 고빈도로 사용되는 어휘가 무윤리 문장에서 사용되는 양상과 비교했을 때, 비윤리 문장에서 고빈도로 사용되는 어휘가 더 높은 빈도의 비윤리성을 내포하고 있음을 단어 임베딩을 활용하여 유사어 비교 분석을 통해 확인할 수 있었다. 이 연구는 비윤리 텍스트에서 나타나는 어휘적 특성을 객관적으로 분석하고 향후 비윤리 텍스트 탐지 연구에 기여할 수 있다는 데에서 의의가 있다. |