중앙대학교 인문콘텐츠연구소

HK+인공지능인문학

아카이브칼럼

칼럼

글보기
딥러닝을 통해서 본 남북한 언어 이질화
Level 10조회수351
2021-11-16 16:01

언어는 시공간에 따라 끊임없이 변화한다. 19세기 구조주의 언어학자 소쉬르(F.de Saussure)는 공시태(synchony)와 통시태(diacrony)를 구분하였다. 당시 언어 연구란 언어 자체에 초점을 두고 언어 현상에서 규칙을 발견하고 언어의 구조와 체계를 규명하는 것이었다. 바야흐로 우리는 4차 산업 혁명의 인공지능 시대를 맞이하였고 빠르게 변화하는 시대적 요구에 맞게 인간과 기계가 소통할 수 있는 언어 연구가 필요하게 되었다. 머지않아 일상에서 인공지능과 소통이 자유롭게 될 만큼 자연언어처리 기술은 신속하게 발전하고 있다. 아이러니하게도 인공지능과 소통하게 될 한국어는 여전히 남과 북으로 나뉘어 70여 년 분단을 지속한 채로 남북이 각기 다르게 변화하고 있으니 안타까운 일이 아닐 수 없다. 

  우리는 북한의 언어사회를 북한 관련 영화나 드라마에서 나오는 배우들의 대사를 통해서나 북한이탈주민이 방송에 나와 하는 이야기를 통해서 일부 짐작할 수 있다. 이 역시 우리나라 방송 사정에 적절하도록 가공된 말이므로 자연스러운 북한말이라 하기에 다소 의문이다. 따라서 북한의 언어사회를 알고 싶어도 제대로 알기란 쉬운 일이 아니다. 

  이러한 제한된 환경에서나마 우리가 이미 알고 있는 북한말은 어떠한 것들이 있을까? ‘동무’라는 말은 원래 남북한 분단 이전에는 ‘어깨동무’와 같이 친근한 사이를 지칭할 때 쓰던 어휘이다. 북한에서 ‘혁명적 대오를 같이하는 무리’로 ‘동무’가 사용되면서 자연스레 남한에서는 고유어 ‘동무’ 대신 한자어 ‘친구(親舊)’라는 말이 이를 대신하게 되었다. ‘동무’라는 단어가 이념화된 것이다. 남북한 언어가 얼마만큼 어떻게 이질화되었는지를 딥러닝 알고리즘을 통해 그 양상을 객관적이고도 신속하게 추출해 볼 수 있다.

  이처럼 인공지능은 자연언어처리에 다각도로 활용되기에 용이하다. 우리가 사용하는 문어, 구어, 웹언어는 모두 대규모의 말뭉치가 된다. 딥러닝을 활용하여 대규모 말뭉치를 분석하면 인간이 미처 발견하지 못한 언어사회의 양상을 찾아볼 수 있다. 인간의 언어를 기계가 처리하는 방법으로 딥러닝 단어임베딩의 하나인 워드투벡(Word2Vec)이 있다. 워드투벡 모델은 단어를 기계가 이해하기 쉬운 벡터로 변환하는 방식으로 작동한다. 실제로 워드투벡 알고리즘이 산출한 코사인 유사도를 통해 다른 단어의 벡터값과 비교할 수 있고 특정 단어의 벡터와 가장 비슷한 벡터로 표현되는 단어를 찾아낼 수 있다.

  필자는 북한 빅데이터 연구에서 조선일보와 노동신문에서 벡터로 표상된 단어들의 유사도를 기준으로 형태가 같은 단어가 서로 다른 문맥에서 쓰여 다른 의미로 해석되는 의미 변이어를 추출해 보았다. 흥미롭게도 ‘한없이’, ‘곧바로’, ‘오르내리다’, ‘유감’과 같은 단어들에서 의미 변이가 일어나고 있음을 발견할 수 있었다. 인간이 미처 발견하지 못했던 다양한 어휘들에서조차 남북한 어휘의 의미 변이가 진행되고 있다.
 


 
조선일보에서 ‘한없이’는 ‘마음’, ‘분노’, ‘책임감’과 자주 나타나며 긍정적인 서술과 부정적인 서술이 모두 가능했다. 노동신문에서의 ‘한없이’는 ‘도량’, ‘고결’, ‘인품’, ‘사랑’과 같은 단어들과 실현되면서 ‘북한 최고지도자 김정은’을 수식하는 긍정적인 서술에만 고정되어 사용되고 있다. ‘경애하는’, ‘위대한’과 같은 부사어도 이와 마찬가지로 ‘백두혈통’을 수식하는 데에만 고정화되어 나타났다. 이는 ‘한없이’, ‘경애하는’, ‘위대한’ 등과 같은 어휘가 남북에서 서로 다른 문맥에서 쓰이며 의미 변이를 보인다는 근거가 된다.  
 

(https://www.hani.co.kr/arti/politics/politics_general/705917.html)

단어 ‘유감’의 경우, 남한에서는 ‘표명’, ‘사과’, ‘송구’와 같이 ‘사과하다’의 의미를 지니는 데에 비해 북한에서는 ‘변명’, ‘뻔뻔’, ‘처사’와 같이 단지 변명의 표현으로 해석된다. 남북한이 ‘유감’이라는 단어에 대한 의미 해석의 차이가 있으므로 오해를 불러일으킬 수 있다. 실제로 남북한 협상문에서 의미 변이가 일어난 어휘가 전략적으로 사용되기도 한다. 

  대규모 신문 자료를 딥러닝을 통해서 들여다보면 남북 어휘의 의미 변이가 우리가 흔히 알던 ‘동무’와 같은 ‘명사’에서뿐만 아니라 ‘부사’, ‘서술어’까지 다양하게 일어나고 있다. 인공지능 딥러닝을 통해서 남북한 언어사회가 그동안 얼마나 달라졌으며 앞으로는 어떻게 변화해갈지 예측할 수 있다. 딥러닝은 물리적으로 갈 수 없는 북한의 언어사회를 들여다보고 파악하는 데에 효과적이다. 딥러닝을 활용하여 남북 분단의 시공간을 뛰어넘어 앞으로 한국어의 변화 양상을 빠르고 객관적으로 들여다볼 수 있을 것으로 기대한다. 

정유남 (중앙대학교 인문콘텐츠연구소 HK연구교수)  

* 본 칼럼은 정유남·왕규현‧송상헌,‘딥러닝을 활용한 의미 변이어 탐침 방법론(upcoming)’의 일부를 수정한 내용임을 밝힌다.  


중앙대학교 인문콘텐츠연구소
06974 서울특별시 동작구 흑석로 84 중앙대학교 310관 828호  TEL 02-881-7354  FAX 02-813-7353  E-mail : aihumanities@cau.ac.krCOPYRIGHT(C) 2017-2023 CAU HUMANITIES RESEARCH INSTITUTE ALL RIGHTS RESERVED