중앙대학교 인문콘텐츠연구소

HK+인공지능인문학

아카이브칼럼

칼럼

글보기
AI를 통해 과거를 연구하기
Level 10조회수185
2023-02-06 12:36

AI와 관련하여 가장 먼저 떠오르는 이미지는 인공지능 기술이 가져올 미래사회에 대한 모습일 것이다. 자율주행 자동차를 타고 집으로 돌아와 로봇이 준비해둔 식사를 하고 가상현실을 통해 사람들을 만나는 일상 등, AI 기술은 자연스럽게 “미래”라는 개념과 연결되어 왔다.
AI 기술은 미래에 대한 상상의 재료가 될 뿐 아니라 과거를 되돌아보고 이를 재구성하는 도구로도 활발하게 사용되고 있다. 무엇보다AI 기술의 도입은 기록 보관소에 소장된 사료들을 “읽어야 할 텍스트text to be read”에서 “채집할 데이터data to be mined”로 바꾸어 놓으며 역사 연구 방식을 통째로 변화시키고 있다. 오늘날 기록 보관소에서 사용하는 AI는 단순히 사료를 디지털화하는 것을 넘어, 사료를 분석하고 평가하는 영역까지 그 활용범위가 확대되었다. 미래가 아닌 과거를 향한 AI 기술 활용의 몇 가지 사례를 살펴보자. 

오늘날 자연어 처리natural language processing(NLP) 기술은 기존의 광학 문자 인식Optical Character Recognition(OCR) 혹은 필기 텍스트 인식Handwritten Text Recognition(HTR)에서 한 단계 진화하여 텍스트를 데이터화 할 뿐 아니라 이를 스스로 처리하고 해석하는 수준에까지 이르렀다. 또한 머신러닝과 결합하여 자료에 포함된 인명, 조직명, 지명, 시간 등을 구분할 수 있는 개체명 인식Named Entity Recognition을 통해 민감한 정보를 삭제하거나 주제별로 데이터를 카테고리화 할 수도 있다. 한 예로, 자연어 처리 기술은 방대한 이메일 자료를 분석하는 데에 활용되기도 하는데, 이 때 AI는 이메일에 포함된 정보, 즉 이름, 시간, 장소, 이벤트 등의 데이터를 구분하여 메타데이터 속성을 추출하고 주제를 식별한 후 지식 그래프로 구성하여 사용자에게 제공한다 (그림 1). 이메일을 하나하나 읽지 않아도 이메일의 내용과 패턴을 파악하여 키워드를 도출하고 시각화하여 이메일에 내포된 맥락을 파악할 수 있는 것이다.

(그림 1) 자연어 처리를 활용한 이메일 데이터 맥락화 과정. (Decker et al. 2022)

자연어 처리 기술을 활용한 또 다른 예는 독일 아롤센 기록보관소Arolsen Archives에서 진행 중인 홀로코스트 희생자를 위한 디지털 기념관 건립이다. 아롤센 기록보관소에는 수용소 이송 목록 등 나치 자체의 자료 뿐 아니라, 지난 80년간 희생자의 가족과 지인으로부터 수집한 270만건의 문서를 포함하여 나치 박해와 관련된 약 1억 천만 건의 자료를 소장 중이다. 아롤센 기록보관소는 누구나 홀로코스트 희생자에 대한 기록과 소수자 박해 및 강제 노동에 대한 자료에 접근 가능하도록 #everynamecounts라는 크라우드 소싱 프로젝트를 진행하며 모든 문서를 검토하고 데이터화하는 작업을 실시하고 있다. 이를 위해 AI 솔루션을 활용하여 사료에 포함된 필드(예를 들면 성, 종교, 지역 등)에 신뢰도를 부여한 뒤 낮은 신뢰도의 자료, 즉 읽기 어려운 문서는 사람이 직접 피드백을 줌으로써 AI가 문서를 더욱 잘 해석할 수 있도록 학습시키는 과정이 진행 중이다. 자원봉사자와 기계가 함께 작업함으로써 AI의 정확성과 속도는 지속적으로 향상되었으며, 한 문서당 15분씩 걸리던 작업이 AI 기술 도입 후 20초 만에 마무리될 수 있게 되었다. 현재는 6개 대륙의 950명 이상의 자원봉사자가 #everynamecounts 프로젝트에 참여하며 과거를 재구성하는 데에 힘을 모으고 있다 (그림 2).  


(그림 2) 아롤센 기록보관소에 소장된 자료와 아우슈비츠 죄수 ID카드. 

(아롤센 아카이브 홈페이지 https://media.arolsen-archives.org/fotoweb/albums/YanAH08gbxTktCM6/) 
 

AI 기술은 텍스트 뿐 아니라 이미지와 비디오 자료의 처리 및 해석에도 활용된다. 컴퓨터 비전과 이미지 처리를 이용한 객체 탐지object detection기술을 사용하면, 이미지 내 물체의 위치와 종류를 파악한 뒤 이를 해석하여 이미지의 맥락을 제공하는 방식이다. 예를 들어, 이미지에 컵, 의자 책상 등이 탐지되면 실내로, 자동차, 기차, 배 등이 탐지되면 실외로 인식할 뿐 아니라, 특정 물건이 사용된 시대와 장소를 파악하여 이미지의 맥락을 제시한다. 
한 예로, Eycon(Early Conflict Photography and Visual AI) 프로젝트는 1890년과 1918년 사이의 식민지와 제국 전쟁에 관한 이미지를 발굴하고 분석하여 식민지 역사 연구에 중요한 사료를 제공한다. 이를 위해 이미지 임베딩과 토픽 모델링, 클러스터 분석을 활용한 방대한 이미지 자료의 데이터화가 진행 중이며, 더 나아가 얼굴 감지와 표정 분석, 성별 추적 및 무기 감지 기능이 추가될 예정이다 (그림3).
로이터 역시 AI 기술을 활용하여 1896년부터 제작한 약 100만개의 비디오 클립을 비디오 아카이브인 로이터 커넥트Reuters Connect에 등록하는 프로젝트를 진행 중이다. AI와 머신러닝을 통해 영상에 나타나는 역사적 인물을 추출할 뿐 아니라 영상 내 연설문을 11개 국어로 번역하여 제공함으로써 사용자가 더욱 쉽고 빠르게 자료를 검색할 수 있도록 돕는 것이 로이터 커넥트의 목표이다 (그림4). 특히 노이즈가 심하거나 오디오가 고르지 못한 오래된 영상을 분석하기 위해 다양한 변수를 설정하고 반복적으로 학습을 시킴으로써 완전히 자동화된 시스템을 구축하여 현재 서비스 제공 중이다. 
 


그림3) 객체 탐지 기술을 활용한 사료 분석의 예 (EyCon 홈페이지 https://eycon.hypotheses.org/category/posts) 

(그림4) 로이터의 비디오 아카이브 (로이터 홈페이지 https://www.reuters.com/article/rpb-lavita-video-archive-idUSKCN2591VO) 

 기록 보관소에서 사용되는 AI 기술은 자료에 대한 정합성 판단 및 사료 간 맥락 해석, 민감한 정보의 보호 등 여전히 풀어가야 할 숙제가 많다. 또한 기존 데이터를 기반으로 스스로 학습하는 시스템인 점을 고려할 때 웹에서 사용되는 주요 언어가 아닌 소수의 언어로 기록된 자료는 오히려 점점 소외되는 결과를 낳을 우려도 제기된다. 기록 보관소 내의 방대한 사료를 더욱 효과적으로 접근 가능하게 하고 학술적으로 유의미한 자료로 활용하기 위한 AI솔루션의 설계와 개발을 위해서는 컴퓨터공학자, 통계학자, 데이터과학자 뿐 아니라 기록보관담당자와 인문사회학자 간 학제간 교류가 필요할 것이다. 
과거를 향한 AI 기술은 과거를 이해하고 현재를 해석하여 미래를 준비한다는 점에서 또한 미래를 향하고 있다. 

신지은 (삼성전자 종합기술원) 

---------
참고 문헌 

Decker, S., Kirsch, D.A., Kuppili Venkata, S. et al. “Finding light in dark archives: using AI to connect context and content in email.” AI & Society 37 (2022): 859–872
van der Werf, Titia, and Bram van der Werf. "Will archivists use AI to enhance or to dumb down our societal memory?" AI & Society 37 (2022): 1-4.
Colavizza, Giovanni, et al. "Archives and AI: an overview of current debates and future perspectives." Journal on Computing and Cultural Heritage 15.1 (2021): 1-15.
Gupta, Abhishek, and Nikitasha Kapoor. "Comprehensiveness of archives: A modern AI-enabled approach to build comprehensive shared cultural heritage." in Workshop Datafication and Cultural Heritage — Provocations, Threats, and Design Opportunities. arXiv preprint arXiv:2008.04541 (2020).
#everynamecounts 관련 영상 https://youtu.be/iGrOozqLqtM
EyCon 홈페이지 https://eycon.hypotheses.org/ 
Reuters Connect 홈페이지 https://www.reutersconnect.com 


중앙대학교 인문콘텐츠연구소
06974 서울특별시 동작구 흑석로 84 중앙대학교 310관 828호  TEL 02-881-7354  FAX 02-813-7353  E-mail : aihumanities@cau.ac.krCOPYRIGHT(C) 2017-2023 CAU HUMANITIES RESEARCH INSTITUTE ALL RIGHTS RESERVED