AI와 방언

중앙대학교 인공지능인문학연구소

HK+인공지능인문학

글보기
AI와 방언 aihumanities 조회수424 2022-06-13 16:17
“야야~ 퍼뜩 안 갈켜주고 뭐하노!” (경상도) “아따~ 시장이 뽁작뽁작 부푼디 얼렁 집이 가세” (전라도) “여기 어떤 게 맛 좋아 마심?” (제주도) 방언에서 느껴지는 구수한 말투나 정겨움이야말로 우리말의 고유한 맛을 잘 나타내 준다. 우리가 사용하는 말은 역사와 전통을 이어오며 살아 숨 쉬는 자연어이다. 이러한 자연어로서의 방언은 한 지방이나 언어사회 공동체에서 쓰이며 저마다의 언어 체계를 지닌다. 표준어도 서울 방언을 토대로 하여 이루어진 것이므로 일종의 방언이다. 다만, 표준어라는 인공어의 개념을 부여하여 대표성의 위상을 주었을 뿐 현실에 실재하는 언어들은 각각이 개별 방언이라 할 수 있다. 최근 AI 기술은 인간의 감정을 읽어내면서 인간처럼 의사소통하는 단계로까지 발전해 왔다. AI 스피커, AI 챗봇, AI 통번역기, AI 비서, AI 면접 등에서 보듯이, 인간과 소통하는 AI는 점차 그 비중이 높아지고 있다. 이러한 AI 언어가 표준어만을 이해한다면 방언 화자들은 AI와 소통 자체가 불가하게 된다. AI를 위한 데이터 구축은 표준어 중심으로 이루어져 왔다. 이러한 이유는 데이터 수집, 정제, 가공과 같은 절차와도 관련이 있겠지만 더 근본적으로는 AI 기술 발전의 목표와도 연관이 깊다고 본다. AI는 인간의 삶을 이롭게 하기 위해서 발전되어야 하는데 빠른 기술 속도를 맞추려다 보니 제한된 표준어 중심으로만 데이터를 구축하고 이에 맞춰 AI 모델 개발이 이루어지고 있는 실정이다. 한국어 데이터는 표준어만 있는 것이 아니라 다양한 권역별 방언이 살아 숨 쉬고 있다. 진정한 한국어 데이터는 방언 속에 오롯이 녹아 있다. 따라서 자연어로서의 방언은 AI 학습데이터로 구축되어야 한다. 그도 그럴 것이 방언이야말로 우리 인간 생활에서 실재하고 있는 살아있는 생생한 자연어이자 지역사회의 사회문화적 양상을 반영하고 있는 고유성을 지니고 있기 때문이다. 다행스럽게도 최근 AI 학습데이터 구축에서 방언에 대한 수요와 관심이 높아지고 있다. 지난 2021년에 ‘과학기술정보통신부’와 ‘한국지능정보화진흥원’은 ‘AI 허브(aihub.or.kr)’를 통해 디지털 뉴딜 ‘데이터 댐’ 구축 프로젝트의 일환으로 한국어 방언 발화 데이터를 공개한 바 있다. 네이버도 초대규모 AI ‘하이퍼클로바’를 선보여 사투리까지 척척 알아듣는 AI를 개발해 냈다. KT는 방언 데이터를 학습시켜 ‘AI 시니어 돌봄서비스’를 마련해 내기도 했다. AI 기술은 모든 인간이 더욱 인간답게 살기 위해 발전되어야 한다. 인간이 편리성과 효율성을 위해서 AI 모델이 개발되어야 한다. 표준어를 중심으로 AI 학습 데이터가 구축되면 한국어를 발화하는 일부 노장년층, 소외계층, 도서 산간 지역 화자들은 AI 기술로부터도 차별과 소외를 당하게 될 것이다. AI는 4차 산업혁명을 주창하며 5G 최첨단 기술로 연결되는 제한된 사람들을 위한 특권이 아니다. 모든 사람들이 일상생활에서 AI를 편리하게 사용할 수 있고 인간사회의 소통만큼이나 활발하게 AI를 활용할 수 있어야 한다. AI 기업 ‘솔트룩스’에서는 사투리로 말하는 AI를 개발(JARU)하여 1인 가구 홀몸어르신의 정서적 단절과 고독 문제 해결을 위하여 노력 중이다. AI 돌봄인형은 통영시의 20.18%를 차지하는 초고령 지역사회에 노인 고독 해결을 위해 활용될 수 있다는 기사를 발견한 적이 있는데¹⁾, 참으로 반가운 소식이 아닐 수 없다. 새로운 제품과 기술은 더 이상 ‘얼리 어답터’²⁾의 몫이 아니다. 그뿐만이 아니다. 이제 AI는 다양한 지역의 사람들을 위해 두루 활용되어야 한다. 도서 산간 지역에 거주하는 사람들은 의료 및 교육 혜택이 도시에 비해 낙후되어 있다. 몸이 아파도 의료 시설이 멀어 치료를 받지 못하는 경우는 AI를 통해 재택 치료를 할 수 있도록 적극적으로 AI 의료 데이터를 구축해야 한다. 또한 학생들이 교육을 받고 싶어도 적절한 교육을 받지 못할 때, AI가 학습을 도와주고 새로운 형태의 교수학습 도구가 되어야 할 것이다. 이렇듯 AI를 통한 인간과의 소통은 모두 언어를 기반으로 이루어질 수밖에 없다. 표준어 중심의 AI는 지역사회의 고령 계층과 소통이 어렵게 될 것이다. 도서 산간 지역 학생들도 그들의 방언으로는 AI와 소통이 불가능하여 실질적으로 교수학습에 도움을 받지 못할 수도 있다. 따라서 적절하게 구현된 방언으로도 교수학습이 이루어지도록 해야 한다. AI가 요구되는 다양한 지역의 사람들에게 또 다른 차별과 소외가 발생하지 않도록 AI가 개발되어야 할 것이다. AI 학습데이터는 더욱 더 다양한 방언 데이터 형태로 구축되어야 한다. 목적에 맞는 데이터를 구축해야 하는데 나이, 성별, 지역, 계층, 교육 수준 여부와 같은 사회언어학적 요소들까지를 모두 고려해야 한다. 다문화 인구가 많은 지역사회를 위해서는 한국어뿐만 아니라 그 지역사회에 공존하고 있는 다문화적 요소가 함께 고려되어야 할 것이다. 그동안 AI 학습데이터는 신속하고 정확하게 AI 기술 개발을 도모하기 위하여 많은 노력을 들여왔다. 대규모의 표준어 데이터의 성과를 바탕으로 하여 인간 사회에 실재하는 자연어로서의 방언 데이터를 질적, 양적으로 확보해야 할 것이다. 다양성을 존중하여 AI가 지역사회에 맞춤형으로 활용될 수 있도록 좀 더 관심을 기울여야 할 때다. 이로써 AI는 일부 계층의 특권이 아닌 모든 사람들이 두루 누릴 수 있는 소통 창구이자 다양한 인간 사회의 거울로써 톡톡히 자리를 잡게 될 것이다. 중앙대 인문콘텐츠연구소 HK연구교수 정유남 ---------------------------------- 1) https://www.donga.com/news/article/all/20210628/107671461/1(검색일: 2022.3.26.) 2) ‘얼리 어답터’는 새로운 제품에 대한 정보를 다른 사람보다 먼저 알고 신제품을 구매하여 사용한 뒤, 이에 대한 평가를 주변 사람에게 알려 주는 소비자군을 이르는 말(우리말샘)

이전	인공지능 면접의 학습과 편향	aihumanities	2022-06-21
-	AI와 방언	aihumanities	2022-06-13
다음	가상현실과 삶의 의미	aihumanities	2022-06-07