AI와 한국어의 맥락

중앙대학교 인공지능인문학연구소

HK+인공지능인문학

글보기
AI와 한국어의 맥락 aihumanities 조회수765 2022-11-01 11:10
의사소통 상황에서 화자는 의도를 지니고 전달하고자 하는 화자의 메시지를 상대방에게 전달한다. 의사소통에서 나타나는 언어 메시지에는 맥락도가 높은 고맥락 언어와 저맥락 언어가 존재한다. 고맥락 언어(high context language)는 한국어와 일본어가 대표적인데 언어의 표면적 의미로 해석되기 보다는 상대방이나 관계, 주변 상황적 문맥에서부터 그 메시지의 속뜻이 드러나게 된다. 저맥락 언어(low context language)로는 영어와 독일어가 대표적으로 직설적이고 표면적 의미로 해석되는 언어이다. (1) ㄱ. 다들 고생 많았어요. 다음에 같이 밥 한번 먹어요. ㄴ. 다음에 더 잘할 테니 이번 한번만 봐 주세요. 제발요. ㄷ. 오래전부터 너에 대해 친구 이상의 감정을 느껴왔었어. 위의 예문(1)은 우리 일상생활에서 흔히 볼 수 있는 메시지이다. 아마 저맥락 언어의 화자들이 이러한 예문을 본다면 메시지의 의도를 이해하지 못할 가능성이 높다. 실제로 외국어로 한국어를 배우는 학습자들도 (1ㄱ)과 같이 ‘다음에 밥 한번 먹자’라는 메시지를 곧이곧대로 받아들였다면 이내 밥을 같이 먹을 약속 시간과 장소를 물어보게 될 것이다. 예문 (1ㄴ)은 실수가 과오에 대해 용서를 해달라는 메시지이지만 저맥락 언어 사용자들은 ‘무엇을 봐 달라’는 것인가 의문을 품을 수 있다. 예문 (1ㄷ)은 직접적으로 고백을 하기가 부끄러워 애매하게 돌려서 말하는 메시지인데 저맥락 언어 사용자는 ‘친구 이상의 감정’이라는 것이 정확하게 무엇을 말하는 것이냐고 되짚어 물을 수 있게 된다. 이렇듯 상황에 의존적인 고맥락 언어의 특성을 제대로 이해하고 상대방과 원활하게 의사소통을 하려면 그 언어를 둘러싼 사회문화적인 맥락을 잘 이해해야 한다. 한국어의 고맥락성은 단순하게 언어 숙달도 및 유창성이 좋다고 해서 한순간에 얻어지는 것은 아닐 것이다. 한국의 언어문화에 대한 이해를 바탕으로 하여, 다양한 한국 사람들과의 문화적 접촉과 다양한 경험이 쌓이면서 자연스럽게 학습되게 된다. 그렇다면 과연 한국어의 고맥락성을 AI가 제대로 이해해서 의사소통할 수 있을 것인가? 특히나 한국 언어문화에서는 부탁이나 요청, 거절이나 금지 화행이 간접적으로 나타나는 특성이 있어 AI가 한국어의 특성을 잘 이해하기 위해서는 언어 표현 자체의 의미 해석뿐만 아니라 그 숨은 의도를 파악하려는 함축성이 고려되어야 한다. AI의 자연어 이해(Natural Language Understanding, NLU) 분야에서는 인간의 언어뿐만 아니라 사용자의 실제로 의도하는 바를 추론하는 단계로 나아가고 있다. NLU는 AI가 신속 정확하게 사용자의 의도를 이해하고 사용자의 의사결정에 유용한 정보를 추출하는 능력을 발휘하는 핵심 기술로 발전하고 있다. 그렇다면 NLU 기술에서 한국 사용자의 고맥락성을 잘 이해할 수 있도록 데이터를 구축하고 모델을 개발하는 것이 핵심적인 도전 과제라 할 수 있다. AI 모델은 앞뒤 맥락과 상황, 도메인 지식을 모두 망라하여 사용자의 의도를 잘 파악해 내도록 개발되어야 한다. (2) 대화 상황: 출근길에서 추돌 사고가 일어난 상황 대화 참여자: A 50대 후반 남성, B 30대 초반 남성 A: (큰 소리로) 이봐! 운전 똑바로 좀 해! B: 아저씨, 너무 급하게 선 거 아닙니까? <하십시오체> A: 이 사람, 지금 뭐라고 하는 거야? 안전거리를 확보했으면 이런 일 없잖아. B: 그건 내가 잘못했다 치고, 당신이 뭔데 자꾸 반말해요? <해요체> A: 뭐라고? 너는 집에 부모도 없어? B: 당신이 내 부모야? <해체> 위의 예문 (2)에서는 동일한 주제에 대해서도 문장을 끝맺는 어미가 ‘하십시오체’, ‘해요체’, ‘해체’까지 다양하게 나타난다. 상대를 지칭하는 말도 ‘이 사람’, ‘아저씨’, ‘당신’, ‘너’로 실현되고 있다. 한국어 모어 화자들은 위의 대화를 보면, 자동차 추돌 사고로 기분이 언짢아 서로 옥신각신하고 있는 상황임을 금세 추론해 낼 수 있다. 인간은 상대가 나오는 것에 따라 말을 높였다가 낮추기도 하는 것에 익숙한데 과연 AI는 이러한 상황을 어떻게 이해해서 의사소통할 수 있을 것인가. 영어에서는 상대가 누구이든 간에 상관없이 ‘You’로 상대방을 지칭하는 반면, 한국어에서 2인칭 대명사는 주로 구어 상황에서는 생략되는 경우가 빈번하고 ‘너’, ‘당신’으로 실현되면 오히려 무례하다고 인식된다. 위의 대화에서처럼 ‘당신이 뭔데’처럼 실현되면 부정적인 맥락에서만 나타난다. 이러한 맥락이 주어지지 않는다면 AI는 ‘당신’에 대해 문어체에서 상대편을 높여 이르는 2인칭 대명사로 인식하고 ‘당신이 무엇인데’로 표현할 수도 있다. 그뿐만 아니라 한국어는 화계(speech level)에 따라 문장에서 주체, 상대, 객체 등을 고려하여 높임의 양상이 달라진다. 한국어는 화자를 낮추는 겸손법, 직접 존경과 간접 존경, 어휘적 높임 등이 다양하게 있어서 높임 표현에 대한 맥락을 잘 이해해야만 한다. 한국어의 고맥락성을 AI에게 제대로 학습시키기 위해서는 의사소통이 이루어지는 맥락을 반드시 고려해야 한다. 물론 데이터의 규모가 크면 유리하겠지만 데이터 구축에서 단순하게 문장 실현 패턴, 연어 관계, 빈도만으로는 정확한 학습이 이루어지지 않을 가능성이 높다. 그러므로 한국어 문법적 지식 및 사회문화적 배경지식이 고려되어 학습데이터를 구축해야 한다. 언어 표현이 가리키는 내용을 직설적으로 이해하기 어려운 고맥락적 언어일수록 여러 변인을 고려하여 데이터 구축을 시도해야 할 것이다. 물론 다양한 변인을 고려한 데이터 구축이 쉬운 일은 아니겠지만 맥락을 고려한 데이터를 구축하기 위한 체계를 마련하고 데이터 구축의 지침및 라벨링을 고려해야 한다. 한국어다운 데이터를 구축하기 위해서는 한국어 연구자들의 한국어 지식과 한국어 데이터 구축을 위한 노력이 함께 반영되어야 할 것이다. 머지않아 AI를 활용하여 한국어다운 문장을 발화하고 한국어의 고맥락적 표현을 자유자재로 이해할 수 있는 AI와 소통할 수 있길 바란다. 나아가 한국어 맥락을 이해하는 AI가 다양한 분야에 활용하게 될 수 있기를 기대해 본다. 정유남 (중앙대 인문콘텐츠연구소 HK연구교수)

이전	NFT는 플랫폼의 미래일까	aihumanities	2022-11-08
-	AI와 한국어의 맥락	aihumanities	2022-11-01
다음	군사로봇과 분산된 책임	aihumanities	2022-10-18