물설고 말 선 타국생활에서 본인이나 가족이 잠깐이라도 병원 신세를 질 경우 해당 국가의 언어가 능숙하지 않다면 고충이 가중될 것이다. 특히 의료진과 환자 간 의사소통이 여의치 않다면 환자는 양질의 의료 서비스를 제공받을 수 없을뿐더러 촌각을 다투는 응급환자의 경우 위중한 상황을 초래할 수 있다. 2019년 세계 최고 의학저널의 하나인 JAMA에 게재된 캐나다 토론토 대학의 연구 결과는 이를 여실히 반영한다[1]. 연구에 따르면 토론토의 대학 병원 두 곳에서 2008년에서 2016년 사이 심부전과 만성 폐쇄성 폐질환 입원 이력이 있는 사람가운데 제한적인 영어 능력을 가진 사람이 능숙한 영어 구사력을 가진 사람에 비해 퇴원 후 30일 이내 재입원율의 위험성이 높았다. 전자는 후자에 비해 90일 이내 재입원율의 위험성 또한 높았고, 의료진의 지시사항에 대한 이해도가 낮고 약물 복용 이행이 저조하였다.
숨 가쁘게 발전하는 인공지능 기술에 힘입어 기계번역은 제한적인 언어 구사력과 문해력을 가진 외국인과 이민자에 대한 의료 서비스 불균형 해소에 기여할 것으로 기대되고 있다. 이러한 기대심리만큼 의료부문에서 기계번역의 정확도에 대한 검증도 꾸준히 진행되고 있다. 2019년 미국 샌프란시스코 캘리포니아대학교 연구에 따르면 응급실 퇴원 후 주의사항을 언급한 647개 영어 문장을 기계번역의 대표주자인 Goolge Translate(이하 GT)를 사용해 스페인어와 중국어로 번역한 결과 전자와 후자의 정확도는 각각 92%와 81%에 달했다[2]. 이러한 높은 정확도와 달리 일부 오번역은 임상적으로 심각한 위험을 초래할 수 있는 것으로 나타났다. 영어와 스페인어의 경우 전체 오역의 28% 그리고 영어와 중국어의 경우 전체 오역의 40%가 그러하였다.
필자는 영어와 한국어 간 번역 정확도를 알아보고자 캘리포니아대학교 연구진이 사용한 문장 하나를 네이버 기계번역 파파고와 GT에 적용해 보았다[3].
You were seen in the ED today for your weakness and difficulty speaking. 파파고: 당신은 오늘 ED에서 당신의 약점과 말하기 어려움으로 목격되었습니다. GT: 당신은 오늘 ED에서 당신의 약점과 말하기 어려움으로 나타났습니다. 한국어를 영어로 번역한 결과는 비록 의학적으로 심각한 위험을 초래하지는 않겠으나 필자의 지난 8월 10일자 칼럼에서 예로 든 ‘임금의 앞인 어전(御前)과 생선전 어전(漁煎)’에서처럼 기계번역은 문맥 파악에서 고전을 면치 못하고 있다. 문장에서 weakness는 ‘약점’ 외 ‘무기력’의 뜻도 있으나 기계번역은 이를 분별하지 못했다. 또한 응급실 Emergency Department의 약자인 ED를 고유명사로 취급하였다. 그뿐만 아니라 두 기계번역 모두 ‘were seen’을 ‘목격되다’와 ‘나타나다’로 번역해 어떤 증상으로 병원에 왔다는 의미를 전달하기에는 다소 부자연스럽다.
한편 서양에서 들어온 의술, 즉 양방(洋方)이라 일컫는 의료분야만큼 외래어를 많이 사용하는 분야도 드물 것이다. 주지하다시피 초콜렛, 초컬렛, 초콜릿, 쵸콜릿에서와 같이 외래어 표기나 발음은 사람마다 다르다. 여기서 필자의 호기심이 발동하여 파파고와 GT를 사용해 “내 오른쪽 다리에 기부스를 했다.”와 “내 오른쪽 다리에 깁스를 했다.”에 대한 영어 번역을 확인해보았다. ‘기부스’의 경우 파파고는 “I donated to my right leg.”로, GT는 “I made a donation on my right leg.”로 번역했다. ‘깁스’의 경우 파파고는 “I put a cast on my right leg.”로, GT는 “I had a cast on my right leg.”로 번역했다. 이처럼 석고나 백회 모르타르를 뜻하는 독일어 gips에서 유래한 외래어 표기 ‘깁스’는 제대로 번역한 반면 ‘기부스’는 ‘기부’로 우스꽝스럽게 번역하였다.
앞서 소개한 2019년 기계번역 정확도에 대한 연구에서 나타났듯이 기계번역 정확도에서 언어 간 격차가 존재한다. 해당 연구에서는 상대적으로 영어와 보다 유사한 스페인어가 중국어에 비해 번역 정확도가 높았다. 2021년 발표된 영어로 작성된 응급실 퇴원 후 주의사항에 대한 GT의 스페인어, 아르메니아어, 중국어, 베트남어, 한국어, 타갈로그어(필리핀어) 그리고 페르시아어(이란어) 번역 결과를 비교한 연구에서도 언어 간 격차가 뚜렷하였다[4]. 이들 7개국어 가운데 스페인어의 정확도가 94%로 가장 높았고, 타갈로그어는 90%, 한국어는 82.5%, 중국어는 81.7%, 페르시아어는 67.5% 그리고 아르메니아는 55%로 정확도가 가장 낮았다. 해당 연구에서 언급한 터무니없는 오번역의 예시 가운데 하나는 “Your Coumadin level was too high today. Do not take any more Coumadin until your doctor reviews the results.”로 중국어로 “Your soybean level was too high today. Do not take anymore soybean until your doctor reviews the results.”로 번역한 것이다. 즉 경구용 항응고제인 쿠마딘(Coumadin)이 중국어에서 콩, 대두(soybean)로 탈바꿈되었다.
이상 살펴본 바와 같이 의료부문에서 기계번역 의존의 현실화는 아직 넘어야 할 산이 많다. 필자가 언급한 번역 사례에서 알 수 있듯이 무엇보다 기계번역은 아직 인간 번역가처럼 문맥에 따라 융통성 있게 판단하지 못한다. 따라서 특정한 문맥에 의존하는 단어 및 특정한 영역에 의존하는 용어에 대한 신뢰할만한 수준의 정확도를 성취하기까지는 상당한 험로가 예상된다. 물론 최첨단 인공신경망 기계번역의 등장이후 기계번역의 전반적인 정확도는 상당한 수준에 달한 것은 분명하다. 그러나 의료분야에서는 사소한 단어 하나의 오번역이 환자의 생명을 위태롭게 할 수 있기에 비교적 혹은 상대적으로 높은 정확도가 아닌 ‘절대적’ 정확도가 담보되어야 할 것이다. 이러한 측면을 고려한다면 의료부문에서 기계번역 활용이 보편화될지언정 인간 번역가의 검수 과정을 거칠 필요가 있지 않나 생각된다. [1] Rawal, S., Srighanthan, J., Vasantharoopan, A., Hu, H., Tomlinson, G., & Cheung, A. M. (2019). Association between limited English proficiency and revisits and readmissions after hospitalization for patients with acute and chronic conditions in Toronto, Ontario, Canada. Jama, 322(16), 1605-1607. [2] Khoong, E. C., Steinbrook, E., Brown, C., & Fernandez, A. (2019). Assessing the use of Google Translate for Spanish and Chinese translations of emergency department discharge instructions. JAMA internal medicine, 179(4), 580-582. [3] 파파고와 GT 번역은 2021년 10월 10일 검색 결과이다. [4] Taira, B. R., Kreger, V., Orue, A., & Diamond, L. C. (2021). A Pragmatic Assessment of Google Translate for Emergency Department Instructions. Journal of General Internal Medicine, 1-5.
남영자 (중앙대학교 인문콘텐츠연구소 HK연구교수)
|