토크 포인트(Talk Points) 초거대 언어모델은 현재 인공지능(AI)계에서 가장 핫한 트렌드 중 하나다. GPT-3 등장 이후 글로벌 기업은 물론, 국내에서도 언어모델 규모 경쟁이 한창인 요즘이다. 올해 네이버는 한국어 기반 대규모 언어모델 ‘하이퍼클로바’를 선보였다. 이외 카카오, SKT, LG AI연구원 등 국내 대기업들이 앞다퉈 초거대 AI 모델을 핵심 과제로 선언했다. 대학가에 새로운 산학협력 방식을 불러온 주인공이기도 하다. 서울대, KAIST와 같은 대학들은 기업과 공동연구소를 세워 초거대 AI 모델 연구를 진행 중이다. 반면 허탈감을 느끼는 자연어 연구자도 적지 않다. 규모 경쟁 상황에서 대기업 수준 데이터·컴퓨팅 인프라를 갖추지 못한 경우에는 어떤 일을 할 수 있을까? 자연어 기술의 대표적인 한계인 윤리 문제도 빼놓을 수 없다. 개인정보 유출, 혐오 발언, 틀린 정보 제시 등의 문제는 이루다와 같은 AI 챗봇 뿐만 아니라 언어모델의 문제이기도 하다. 개발해야할 AI 모델 규모가 커지면서 데이터 레이블링 작업도 어마어마하게 늘어났다. 기술 구현을 위한 비용 측면 이외 레이블링 인력의 노동권도 생각해봐야할 시점이다. AI를 비롯한 기술 목표는 결국 보다 나은 인간 삶을 만드는 것이다. AI 시대가 성큼 다가온 지금, 사람으로 돌아가야할 때다. [칼럼] “화자(話者)가 누구인가?”가 중요해진 세상 조희련 중앙대 인문콘텐츠연구소 HK교수 심층학습(deep learning) 기반 언어모델(language model)이 조만간 우리의 일상을 바꿔 놓을 전망이다. 언어모델이란 단어의 배열에 확률을 할당하여 자연스러운 단어의 배열을 유추하는 모델로, 질의응답, 기계번역, 문서요약, 텍스트 분류 등에 활용될 수 있으며, 근본적으로는 특정 단어들이 주어졌을 때 다음에 올 단어를 예측한다든지, 주어진 양쪽의 단어들로부터 가운데에 위치할 단어를 예측하는 등의 작업을 수행할 수 있다. 작년에 OpenAI가 발표한 GPT-3라는 거대 언어모델이 놀라운 영어 문장 생성 능력으로 화제가 되었는데, 올들어 네이버도 HyperCLOVA라는 초대형 한국어 언어모델을 공개해 상업화에 뛰어 들었고, 구글도 조 단위의 파라미터를 갖는 Switch Transformer라는 언어모델과, 오픈도메인(즉, 특정 주제에 국한되지 않는) 대화형 시스템을 위한 LaMDA (Language Model for Dialogue Applications: 람다)라는 언어모델을 공개해 다양한 상업적 활용을 꾀하고 있다. 언어모델은 인공지능(AI) 시스템이 사람과 자연스러운 의사소통을 하는데 도움을 주는 기술이다. “자연스러운 의사소통”이 어떤 것인가에 대한 정의는 다양하겠지만, 가장 기초적인 부분에 초점을 맞춘다면 문장을 자연스럽게 완성하는 기술이라 말할 수 있다. 가령 필자가 지금 이 글을 읽고 있는 독자에게 “나는 연필로 편지를 ____.”라는 문장을 완성해달라고 요청하면, 많은 분들이 “쓴다/썼다”로 빈 칸을 채울 것이다. 언어모델의 경우에는 제시된 문장을 “나/는/연필/로/편지/를” 등의 문자열 단위로 쪼개, 이들의 배열을 고려하여 수 만 개의 단어들 중 문장 끝에 올 확률이 가장 높은 단어를 선택하는 것으로 문장을 완성한다. 그리고 어마어마한 양의 우리말 말뭉치를 잘 학습한 고성능 언어모델이라면 사람처럼 “쓴다/썼다”로 문장 끝 빈 칸을 채울 것이다. 이처럼 쓸모가 많은 언어모델은 그 규모가 클수록 더 높은 성능을 가지는 것으로 확인되고 있다. ‘초대형’, ‘대규모’, ‘초거대’라는 수식어에서 알 수 있듯이 최근의 언어모델 연구개발 트렌드는 “더 크게! 더 크게!”를 지향한다. 여기서 말하는 언어모델의 크기는 언어모델을 구성하는 인공신경망의 가중치(흔히 파라미터라고 부른다)의 개수를 가리키며, OpenAI의 GPT-3는 1,750억 개의 파라미터를, 네이버의 HyperCLOVA는 이보다 많은 2040억 개의 파라미터를, 그리고 구글의 Switch Transformer는 1조7000억개의 파라미터를 가진다. 파라미터의 개수가 천 억 단위, 조 단위라는 것이 막연하게 느껴질 수 있지만, 개수를 화폐 단위인 원으로 바꿔 생각하면 조금 더 실감이 난다. 심층신경망(deep neural network) 기반 언어모델은 크게 노드(node)와 엣지(edge)로 구성되는데, 앞서 말한 가중치(파라미터)는 노드와 노드를 잇는 엣지에 붙어 있는 소수점 값을 가리킨다. 이러한 소수점 값 수 천 억 개, 수 조 개가 언어모델에 뿌려져 있다는 것인데, 이러한 언어모델을 만질 수 있는 대상에 빗댄다면 필자는 냄비를 닦을 때 쓰는 철 수세미에 비유하고 싶다. 철 수세미의 철실이 엣지라고 가정하고, 가상의 노드들이 철 수세미 전반에 촘촘하게 박혀 있다고 그려보는 것이다. 매우 단순한 언어모델이라면 설거지용 철 수세미에 수 천 개의 소수점 값들이 촘촘하게 박혀 있는 모습을 그리고, 사람과 자연스럽게 대화할 수 있는 고성능 언어모델이라면 집채만 한 철 수세미에 수 천 조 개의 소수점 값이 빼곡하게 박혀 있는 모습을 상상하는 것이다. 이러한 언어모델은 방대한 양의 말뭉치를 이용하여 가중치를 갱신하는 방법으로 만들어 지는데, 말뭉치의 문장들을 뒤섞은 후 언어모델로 하여금 문장을 하나씩 ‘읽게’ 하여 언어모델이 문장의 구성을 ‘파악’하게 한 다음 가중치를 경신하게 하고, 한 번에 딱 맞는 가중치를 찾기는 어렵기 때문에, 읽고, 파악하고, 가중치를 경신하는 작업을 무수히 반복하게 한다. 결국 언어모델은 여러 차례 말뭉치 속 문장들을 ‘참조’하면서 말뭉치의 ‘말투’를 잘 흉내 내는 방향으로 가중치를 수정함으로써 궁극적으로는 사람과 비슷한 문장 완성 능력을 습득하게 된다. 언어모델이 엄청난 양의 문장을 파악하기 위해 오랜 시간 동안 수 천 억 개, 수 조 개의 소수점 값을 반복적으로 경신하는 모습을 그리자니 그 까마득함에 정신이 아득해진다. 이렇게 구축된 언어모델은 언어에 대한 지식을 내재하고 있어 언어를 이용한 작업의 자동화에 도움을 준다. 필자는 요즘 동료 연구자와 함께 다양한 한국어 딥러닝 언어모델을 활용한 혐오 발언 자동 분류 연구를 진행하고 있는데, 이 연구에서는 위키피디아를 주로 학습한 KoBERT라는 한국어 딥러닝 언어모델과, 뉴스 댓글을 학습한 KcELECTRA라는 또 다른 한국어 딥러닝 언어모델을 사용하고 있다. 그런데 혐오 발언 분류 실험에서는 KcELECTRA가 조금 더 높은 분류 정확도를 나타내, 댓글로 학습한 언어모델이 위키피디아로 학습한 언어모델 보다 혐오 발언 검출에 더 적합하다는 사실을 확인할 수 있었다. 결국 딥러닝 언어모델은 사람의 말투를 흉내 내는 기술로, 학습 대상 말뭉치에 따라 결과 모델이 달라질 수 있다. 그렇기 때문에 언어모델은 질의 응답 등의 유용한 활용도 많겠지만 악용될 소지도 있을 것이다. 가령 우리나라의 대표적인 N포털과 D포털에서 뉴스 댓글을 수집한 후 언어모델N과 언어모델D를 구축하고, 어떤 의도에 따라 특정 언어모델을 선택한 후 댓글 생성기를 만들어 마구잡이로 댓글을 유통시킨다면 어떻게 될까? 이처럼 언어모델을 통해 대량의 텍스트를 손쉽게 양산할 수 있는 시대가 되면서 글쓴이가 누구인지를 각별히 신경 써야 하는 세상이 되었다. 의견의 홍수 속에서 “화자(話者)는 누구인가?”를 의식하는 습관이 그 어느 때보다도 필요한 시점이다.
비하인드 인터뷰 칼럼을 읽은 후 칼럼니스트에게 질문 혹은 반문하는 것은 다소 귀찮거나 힘든 일이다. 독자를 대신해 AI타임스가 여전히 남은 궁금증을 풀어봤다. 조금은 매울지도. Q. 대규모 언어모델 언제쯤 본격 상용화될까? 의외로 빨리 실현될 것 같다. 올 연말에도 당장 가능하지 않을까 한다. 특히 질의응답 시나리오가 어느 정도 정해진 분야에서 유용하게 활용될 것으로 예상한다. Q. 대규모 언어모델 유행을 이끈 GPT-3, 성과에 비해 상용화가 더딘 이유는? 언어모델은 사람이 아니라 ‘말뭉치에 있는 내용을 재조립해 뱉어내는 기계 앵무새’다. 자연스러운, 그럴듯한 대답을 하는 것이 최선이다. 사람과 같은 AI로 오해하는 경우가 많은데 이는 GPT-3 개발에 비용이 많이 들어간 만큼 오픈AI가 그러한 뉘앙스로 홍보해서이기도 하다. 예를 들어, GPT-3는 소설처럼 보이는 결과물을 내놓을 수는 있지만 논리적 전개, 감동 요소까지 넣어 전체 소설을 구성할 수는 없다. Q. 이외 개인정보 유출, 혐오 발언, 틀린 정보 제시 등 문제도 있다. 이러한 한계를 지닌 대규모 언어모델을 어떻게 사용할 수 있을까? 모델을 적용하고자 하는 문제를 특정하고 훈련 데이터에 정확한 정보만을 넣도록 설계하면 된다. 사람처럼 자유자재로 말하는 것을 목표로 하기보다 먼저 제한된 범위, 정해진 시나리오에서 언어모델이 문제 없이 작동하는 일부터 하나씩 이뤄가면 좋겠다. 오픈채팅 서비스보다는 구매물품 환불 ARS에 초점을 맞추는 식이다. Q. 대규모 모델 개발에 데이터와 컴퓨팅 인프라가 엄청나게 드는데, 어느 정도인지? 한 연구실은 물론 한 개 대학 규모에서도 불가능하다. 이외 파라미터를 미세하게 조정하는 스킬도 필요한데 이는 연구자 역량이다. 오픈소스 결과물에서도 이것까지는 공개하지 않는 경우가 있기에 재현하는 작업도 쉽지 않다. Q. 모델 규모를 늘리는 일 이외 자연어 분야를 혁신할 연구 주제는 없을까? ①규모가 작지만 거대한 언어모델에 근접한 성능을 내는 모델을 개발하는 것 ②기존 언어모델 활용방법(문장생성, 질의응답, 자동분류, 문장요약, 기계번역 등) 이외 활용방법(기술 응용)을 생각하는 것 ③언어모델을 어떻게 조절(tweak)할 수 있는지에 대한 방법을 생각하는 것 3가지를 들 수 있겠다. 규칙 기반 AI를 딥러닝과 함께 쓰는 것도 방법이다. Q. 대규모 언어모델 유행이 초래하는 사회적 문제가 있다면? 최근 레이블링 노동 환경에 주목하고 있다. 레이블링 작업은 전문성이 강하지 않으면서 대표적인 언어모델 개발이 끝나면 일감이 크게 줄어드는 일회성 성격이 강하다. 물론 일자리 창출 효과는 있지만 노동의 질을 개선시킬 필요가 있어 보인다. Q. 바야흐로 AI 시대, 이과생들의 시대다. 문과생들은 어떤 일을 할 수 있을까? 인문대 소속 학생들이 요즘 코딩 학원을 다니거나 프로그래밍 수업을 듣는 경우가 많다. 미적분과 선형대수를 꼭 알아야 프로그래밍이 가능한 것은 아니다. 링크드인을 보면 컴퓨터공학과 이외 영문학과와 같은 문과 출신들도 상당하다. 다양한 색을 지닌 사람들이 유입돼야 보다 건강한 생태계가 조성될 것이다. Q. 칼럼에서 화자 중요성을 강조했다. AI 화자에 대해서는 어떤 자세를 가져야 할까? 물품 환불 AI 접수 시스템과 같이 우리 편의를 위한 AI는 적극 활용하되, 의견을 피력하는 AI 화자는 경계할 필요가 있다. 일상에서 우리는 화자가 누구인지에 따라 발언 내용을 판단한다. 반면 딥러닝이 제시하는 의견은 어떤 데이터, 알고리즘을 통해 나온 것인지 추적하기 어렵다. Q. 대규모 언어모델을 넘어 고도로 발달한 멀티모달 AI가 나온다면 이야기는 달라질 것 같다. 그렇다. 그 시점에서 AI가 하는 일은 또 달라진다. 무엇보다 AI가 대부분 노동을 담당하면서 우리 사회에서는 노동 없는 삶에 대해 고민해야 한다. 기본소득에 대한 논의가 필요할 수밖에 없는 이유다. “노동하지 않는 시대에 무엇을 할 것인가?”라는 질문은 지금 생각해봐도 좋다.
[기사원문보기] +PDF 전문 다운로드 : '화자가 누구인가'가 중요해진 세상 '화자가 누구인가'가 중요해진 세상 |