중앙대학교 인문콘텐츠연구소

HK+인공지능인문학

아카이브칼럼

칼럼

글보기
디지털 인문학에서 연구 데이터 공유가 왜 중요한가?
Level 10조회수249
2023-08-14 16:22

1. 데이터로 논증하는 인문학
디지털 인문학(Digital Humanities, 이하 DH)의 정의와 범위를 어떻게 설정할 것인가는 여전히 갑론을박이 많고 앞으로도 계속 다뤄져야 할 주제이다. 하지만 DH 연구에서 (디지털) 데이터가 큰 비중을 차지한다는 것에는 이견이 없을 것으로 생각한다. 전통적인 인문학 연구가 사료와 선행연구에 연구자의 치밀한 논리가 엮인 것이라고 한다면, DH 연구는 거기에 디지털 형태의 자료가 사료와 선행연구만큼 중요한 것으로 다뤄진다. 여기서 디지털화된 자료는 정량화할 수 있는 숫자, 연구자가 정성적으로 태깅한 것 등 디지털화할 수 있는 거의 모든 것을 포함한다. 즉 DH에서 연구자가 자신의 주장을 논증하는데 데이터는 꼭 필요하다. 하지만 기존의 인문학 연구에서 사료나 선행연구가 아닌 (디지털) 데이터를 공유하는 일은 거의 없었기 때문에 여전히 많은 DH 연구에서 연구 데이터를 공유하지 않고 있다. 이는 두 가지 문제를 낳는데 하나는 연구 재현성의 부족이며 또 다른 하나는 다른 연구로 파생할 수 있는 DH의 장점을 막는 문제이다.

2. 연구 재현성의 문제
연구 재현성(Reproducibility/Replicability)이란 과학에서 “독립적으로 얻은 결과와 결론을 다른 연구에서 확인하는 것(The confirmation of results and conclusions from one study obtained independently in another)”1)이다. 즉 A 연구의 과정을 또 다른 연구자가 똑같이 실행하면 같은 결과가 나와야 한다는 것이다. 자연과학이나 공학에서는 연구가 대형화, 복잡화되면서 연구 재현성이 쟁점 사항이 되었다. 이공계만큼이나 대형의 데이터를 사용하는 사회과학에서도 연구 재현성의 문제는 마찬가지로 중요하다. 인문학의 경우 연구 재현성보다는 연구 대상이나 사료 자체의 진위성 문제가 중요했지만, DH가 도입되고 대량의 데이터를 인문학 연구에도 다루게 되면서 연구 재현성이 마찬가지로 중요해졌다. 예컨대 수만 건의 텍스트 데이터를 거시적으로 분석하는 텍스트 마이닝(Text Mining) 방법론은 분석 과정이나 연구자가 정해야 할 여러 입력 변수에 따라 아예 다른 결과가 나오기도 한다. 즉 연구자가 논문에서 연구 과정을 아무리 자세히 적는다 해도 그 과정을 다른 연구자가 따라 해서 똑같은 결과가 나온다는 보장이 없다. 또한 연구자가 자신의 원하는 결과가 나올 때까지 여러 번의 반복 시행을 하는 행위도 충분히 나올 수 있다. 해외에서는 이런 행위를 regression monkey라고 조롱하기도 한다. 원하는 결과가 나올 때까지 생각 없이 회귀분석(regression) 여러 변수를 바꿔 넣는 원숭이와 같다는 것이다.

3. PDF를 넘어 다른 연구로의 파생
데이터 공유를 하지 않거나 못함으로써 생기는 두 번째 문제는 DH 연구의 확장성을 제한한다는 것이다. DH 연구가 전통적인 인문학 연구와 비교했을 때 큰 장점은 연구자가 만든 연구 성과물인 데이터가 디지털 환경에서 쉽게 공유될 수 있고, 더 나아가 다른 연구자들이 기존 연구를 파생해 더 좋은 연구로 발전시킬 가능성이 더 크다는 점이다. 인문학 연구에서, 특히 특정 시대를 연구하는 연구자에게 사료가 표준화되지 않고 PDF 형태로만 공유되는 것은 큰 비극이다. 연구자가 해당 PDF 파일을 보고 다시 디지털화하거나 정제하는 행위를 반복해야 하기 때문이다. 설사 자신이 구축한 데이터를 텍스트 파일 같은 형태로 공유한다고 해도 표준화가 되지 않은 데이터 형식이기 때문에 DH 연구를 위해 기계가 읽을 수 있는(Machine readable) 자료 형태인 XML, JSON 등으로 다시 바꾸어야 한다. 
 

4. 데이터 공유 플랫폼 소개
연구 재현성과 다른 연구로의 파생이라는 두 가지 아젠다를 동시에 달성하는 방법은 온라인 데이터 공유 플랫폼을 인문학 연구에 적극적으로 활용하는 것이다. 이미 이공계 연구에서는 자신의 연구 데이터와 연구에 활용한 프로그래밍 코드를 공개하지 않으면 논문으로 받아들여지지 않고 있다. 여기서는 총 세 가지 플랫폼을 소개한다. 첫째, 깃허브(github)2)는 개발자들이 자신의 코드를 공유하고 협동 개발을 하는 플랫폼이다. 개발자가 아닌 연구자들도 자신의 연구 데이터와 코드를 깃허브를 통해 공유하고 있으며, 필자 또한 논문에 쓰인 자료를 저작권 등이 문제가 되지 않는 선에서 최대한 공개3)하고 있다. 둘째는 OSF(Open Science Framework)4)이다. 이름에서 알 수 있듯 연구의 공개를 최우선으로 하는 오픈 사이언스 정신으로 시작된 플랫폼이다. 코드를 공유하는 데 최적화된 깃허브보다는 연구 데이터 자체를 공유하는 데 최적화된 플랫폼이다. 셋째는 Harvard Dataverse5)로 하버드 대학교에서 운영하는 연구 데이터 공유 플랫폼이다. 일부 해외 저명 학술지는 논문 투고 및 게재 시에 Harvard Dataverse에 연구 데이터와 코드를 올려주길 권하거나 의무화하기도 한다.

김병준(KAIST 디지털인문사회과학센터 연구교수)

_____________________________
1. Jasny, B. R., Chin, G., Chong, L., & Vignieri, S. (2011). Again, and Again, and Again …. Science, 334(6060), 1225–1225. https://doi.org/10.1126/science.334.6060.1225 
2. https://github.com/ 
3. 김병준의 깃허브 https://github.com/ByungjunKim 
4. https://osf.io/
5. https://dataverse.harvard.edu/ 

중앙대학교 인문콘텐츠연구소
06974 서울특별시 동작구 흑석로 84 중앙대학교 310관 828호  TEL 02-881-7354  FAX 02-813-7353  E-mail : aihumanities@cau.ac.krCOPYRIGHT(C) 2017-2023 CAU HUMANITIES RESEARCH INSTITUTE ALL RIGHTS RESERVED