빅데이터로 보는 우리 사회의 민낯

중앙대학교 인공지능인문학연구소

HK+인공지능인문학

글보기
빅데이터로 보는 우리 사회의 민낯 aihumanities 조회수330 2022-01-31 23:19
언어는 우리의 정서와 사고를 담아내는 그릇이다. 인간의 사고를 전달하는 수단은 ‘말’에서 ‘글’로, ‘글’에서 ‘미디어’로 발전되어 왔다. ‘웹(web)’은 전형적인 멀티미디어의 한 형태이다. ‘웹’의 진화와 함께 우리의 생각을 전달하는 방식과 형태도 많이 달라졌으며, 우리는 ‘웹’을 통하여 불특정 다수와 좀더 자유롭게 소통할 수 있게 되었다. 그러나 익명성이 보장되는 ‘웹’의 특성 때문에 현실 사회에서는 구현될 수 없는 비난이나 욕설, 혐오 표현들이 아무런 거리낌없이 자연스럽게 실현되는 것도 부정할 수 없는 사실이다. 물론 과거에도 누군가에 대한 욕설이나 특정 대상에 대한 비난이 없었던 것은 아니지만, 그러나 그러한 언행은 비교적 단편적이고 은밀한 것이었다. 또한 폄하하려는 대상에 따라 표현 자체를 감히 입 밖으로 꺼내기조차 어려운 시절도 있었다고 한다. 그러나 오늘날 언어사회의 현실은 그렇지 않다. 익명성이 보장된 환경에서는 상대가 누구인지는 중요하지 않다. 오롯이 자신의 감정에만 몰입하여 자신의 생각을 쏟아내면 그뿐인 사회가 이미 되어 버렸다. 그런데 문제는 그러한 표현들은 개인의 의지와는 상관없이 하루가 다르게 빅데이터로 축적되고 있으며, 혐오 표현에 대한 파급력이 갖는 위력은 우리의 상상을 초월할 수도 있다는 사실이다. 화자는 어떤 의도를 가지고 발화를 수행하기 마련이다. 누구나 어떤 대상에 대해서 차별, 비난, 혐오의 감정을 느낄 수 있으며, 그러한 감정이 표현되는 순간, 발화의 효력은 작동하게 된다. 그렇기 때문에 너무 심각한 경우 법적 규제가 가해지기도 한다. 하루에도 수십 번씩 드나들며 웹 상에서 주고받는 언어 표현은 특별한 제재가 없으므로 그 민낯을 적나라하게 드러내는 경우가 허다하다. 특히, ‘댓글’, ‘채팅’을 통하여 그 정도가 아주 심한 표현들을 마치 경쟁이라도 하듯 생성해 내기도 한다. 최근 필자는 비윤리적 텍스트를 검증하는 연구팀에서 그와 관련된 빅데이터 자료를 검토한 바 있다. 정말이지 다양하고도 심각한 혐오 표현들이 웹 상에서 오르내리고 있음을 알 수 있었다. 문장들을 유형화하고 라벨링한 것을 보는 것만으로도 우리 사회의 비뚤어진 언어 현실을 실감할 수 있었다. 아이러니하게도 필자는 빅데이터를 통하여 우리 사회가 몇몇 특정 대상을 상대로 긍정적 가치보다는 부정적 가치를 부여하기 위해 다양한 방식으로 언어 표현을 생성해 내고 있음을 알 수 있었다. 우리 사회는 특정 개인이나 집단, 특정 대상이나 문화에 대해 감정적 혹은 이성적 절제 없는 다양한 표현들을 생성해 내고 긍정적 의미보다는 부정적 의미를 부여하는데 너무나 익숙해져 있다. - {한남들은} 돈 많으면 예쁜 여자를 만나잖아. - 그냥 늙은 {한녀일} 뿐인데 왜 저렇게 설쳐대는지 몰라. - 저런 {빠순이들은} 몇 대 맞아야 정신 차릴려나? - 어휴… 우리 개그맨 {빠돌이들} 어떡해. 위의 예문에서 보듯 ‘한남(韓男)’에 대해 ‘한녀(韓女)’라는 대응어가 나타나고, ‘빠순이’에 대하여 대응어 ‘빠돌이’가 나타난다. ‘한남’은 ‘한국 남자’의 줄임말로 한국 남자를 비하하여 이르는 말이다. 또한 ‘빠순이’는 아이돌이나 특정 대상에 심하게 빠져 타인에게 불쾌감이나 피해를 주는 사람을 비하하여 부르는 말이다. 남녀에 붙이는 언어 형식(양, 군, Miss, Mr. 등)은 범언어적으로 존재한다. 다만 이러한 성별에 대한 비하의 의미가 부여되고 그에 대한 대응 표현이 생성되면서 점차 성별에 대한 부정적 차별화가 가속화되고 있는 것이 우리 사회의 현실이다. 비난이나 차별의 대상은 성별, 나이, 종교, 직업, 이주민, 장애인, 성적 소수자 등 아주 다양하게 존재한다. 오늘날 우리 사회의 단면을 오롯이 드러내는 어휘나 표현들이 속출하고 있으며 익명성이 보장되는 웹은 이를 공유하며 소통할 수 있는 최적화된 환경을 제공한다. 결국에는 이렇게 축적된 비윤리적 빅데이터가 ‘이루다’ 사태를 가져오게 된 것이다. 인간들이 매일같이 사용하는 언어 표현의 자유를 규제하는 것은 쉬운 일이 아닐 것이다. 그럼에도 불구하고 비윤리적 문장을 인공지능이 학습하지 못하도록 걸러내는 일은 어쩌면 당위일지도 모른다. 빅데이터에 축적된 우리의 언어 현실 속에 나타나는 비난과 차별, 혐오의 대상들은 그로 인해 낙인이 찍혀 버리기 때문이다. 혐오 표현을 포함한 비윤리적 문장들은 어떤 대상에 대하여 그것이 무엇이든 우리의 생각을 고착화시키고 동시에 사회 공동체의 갈등과 분열을 조장할 수 있다. 앞으로 우리가 추구해야 하는 언어사회는 갈등과 분열보다는 자유로운 소통과 긍정적 가치를 최우선으로 하며 ‘행복한 언어’를 꿈꿀 수 있는 그런 공동체이었으면 하는 소담한 꿈을 가져본다. 정유남 (중앙대학교 인문콘텐츠연구소 HK연구교수)

이전	메타버스 분류	aihumanities	2022-02-08
-	빅데이터로 보는 우리 사회의 민낯	aihumanities	2022-01-31
다음	관계 문맹, 연결되어 있다는 착각	aihumanities	2022-01-24