온라인 댓글의 주제 분석을 위한 토픽 모델링 : 이슈 포착과 분류에 활용 가능한 LDA와 BTM의 비교와 검증Topic Modeling for Analyzing Online Comments : Comparing and Validating LDA and BTM for Capturing and Classifying Issues
토픽 모델링은 컴퓨터를 이용해 빠르고 쉽게 방대한 양의 정보를 구성하거나 파악하는 모델을 추정하는 비지도 기계학습 방법으로 문서를 비슷한 토픽별로 묶어내거나 토픽의 내용과 분포를 파악하고자 할 때 활용된다. 그런데 토픽 모델링을 미디어 연구에 활용함에 있어 이론적으로 정의된 개념을 타당하고 신뢰할 수 있는 측정하는 방법으로써의 고민이 부족했다는 지적이 최근 제기되고 있다. 대단위 텍스트 자료를 탐색하고 요약하는 도구인 토픽 모델링을 미디어 연구에 활용하기 위해서 방법적 타당성 검증과 신뢰성 확보가 필요하다는 것이다. 더욱이, 온라인 플랫폼을 통해 거대한 규모로 빠르게 발생하고 있는 댓글을 ‘이슈’에 따라 분류하고 그 주요 주제를 요약하는 방법은 사회적 쟁점을 즉각적으로 파악하고 담론 양상을 통시적으로 추적하는데 유용하다. 이러한 이유에서 댓글의 주제를 분석하기 위한 토픽 모델링의 방법적 타당성을 진단하는 시도는 그 의의가 크다고 할 수 있다. 이에 본 연구는 온라인 댓글의 주제 분석을 위한 토픽 모델링 방법을 제시하고 그 성능과 타당성을 다음과 같이 검증했다. 우선, 온라인 댓글의 맥락에서 다뤄지는 ‘이슈’에 대한 개념화를 통해 댓글의 주제 분석이 왜 필요하고 어떠한 함의가 있는 것인지에 대해 논의했다. 그리고 토픽 모델링이 텍스트의 주제를 추정하는 원리와 주제 추정에 영향을 미치는 통계 모델로써의 가정들에 대해 Latent Dirichlet Allocation(LDA) 모델을 중심으로 살펴봤다. 또한 댓글의 주제를 포착하고 ‘이슈’별로 분류하기 위한 토픽 모델링을 제안하고자 LDA와 Biterm Topic Model(BTM)의 성능과 한계를 비교했다. 이상의 이론적 논의를 토대로 9개의 사회적 이슈를 다루고 있는 기사에 달린 9,000건의 온라인 뉴스 댓글을 토픽 모델링으로 분석해 주제를 추정하고 이에 따라 댓글이 뉴스의 ‘이슈’에 따라 분류되는지를 모델별로 비교 검증했다. 그 결과는 다음과 같다. 첫째, BTM에 비해 LDA는 초모수 에 많은 영향을 받았는데 값이 낮아질수록 모델의 성능이 좋아졌다. 둘째, BTM과 LDA 모두 최적의 주제의 개수(K)를 추정할 수 있었으나, BTM이 K값 선정에 따른 성능 변화가 LDA보다 적었고 K값이 최적의 값보다 클 때보다 낮을 때 성능 저하가 심해졌다. 셋째, BTM과 LDA 모두 분석 단어 목록에 단일 형태소와 함께 바이그램(bigram)을 추가할 때 성능이 좋아졌으나 그 차이는 LDA에서 더욱 뚜렸했다. 이러한 검증 결과를 토대로 댓글의 주제 분석을 위한 토픽 모델링의 활용 가능성을 진단하고 그 함의를 논의했다. |