중앙대학교 인문콘텐츠연구소

HK+인공지능인문학

아카이브칼럼

칼럼

글보기
생성 인공지능과 사진
Level 10조회수75
2023-12-04 14:12
2010년대 중반 이후 급속도로 발전한 인공지능 기술은 이미지 생성에서도 놀라운 성취를 보여주고 있다. 특히 사진과 시각적으로 구분이 어려울 만큼 사실적인 이미지를 생성하는 ‘적대적생성신경망(Generative Adversarial Nets, 이하 GAN)은 이미지 치환과 합성, 수정, 변형 등 복잡한 과업을 수행하면서 다양한 분야에 활용되는 추세다. 나아가 최근에는 텍스트 기반 이미지 생성 인공지능이 등장하면서 Dalle·e, MidJourney, Stable Diffusion 등과 같은 이미지 생성 플랫폼도 늘고 있다. 챗GPT 열풍도 그와 맥을 같이 한다.
인공지능이 이미지를 생성한다는 것은 무슨 의미일까? 인류가 제작한 최초의 이미지는 손으로 그린 그림이었다. 수만 년 동안 지속되어 온 이 이미지 생산 방식은 19세기에 등장한 사진술로 혁신적인 변화를 맞았다. 인공지능이 산출하는 생성 이미지는 다시 중요한 변곡점을 만들어 내고 있다. 그 변화의 요지는 다음과 같다. 
첫째, 인공지능의 생성 이미지는 자동으로 산출된다. 요컨대 생성 이미지는 프로그램의 기획에 따라 이미지 사용자의 의도와 상관없이 무작위로 생성된다. 사용자는 단지 기계가 산출한 이미지를 선택할 뿐이다. 그림은 철저하게 인간의 의도에 따라 제작되며, 사진의 경우 촬영자의 관점이나 시각에 따라 개입의 가능성이 열려있다. 그러나 생성 이미지의 생산에 인간이 관여할 수 없다. 둘째, 생성 인공지능이 만들어 내는 이미지의 ‘지시대상’은 존재하지 않지만 마치 실재처럼 보인다. GAN 알고리즘이 딥 페이크에 활용되는 이유다. 생성 이미지는 존재하지 않는 대상을 보여주나 사진과 흡사해 실재와 가상의 경계는 더욱 희미해지고 있다. 
GAN은 예술작품의 생산에도 관여하고 있다. 대표적인 예는 캐나다 작가 다니엘 보샤트(Daniel Voshart)의 <포토리얼 로마황제 프로젝트(Photoreal Roman Emperors Project)>(2020)다. 이 작업에서 작가는 인공신경망 툴을 사용하는 인터넷 플렛폼 아트브리더(Artbreeder)를 활용하여 고대 로마황제 54명의 얼굴사진을 합성해 냈다. BC 27년부터 AD 285년까지 존재했던 역사 속 인물들이 사진으로 ‘복원’된 셈이다. 여기에 활용된 학습데이터는 그들이 살아생전에 제작됐던 흉상 조각을 비롯하여 주화에 새겨져 있던 초상 약 800장의 이미지다. 보샤트는 시대별로 로마황제들의 연대기를 분류, 정리하고 각 인물의 초상을 아트브리더에 업로드하여 이미지를 얻어낸 후 이를 다시 사진으로 인화했다. 최종적으로 인화된 사진에는 일반적인 예술사진의 관례에 따라 에디션을 부여하여 예술작품으로 판매했다. 
그가 활용한 아트브리더는 SyleGAN과 BigGAN을 기반으로 사용자가 사진을 업로드하고 원하는 파라미터를 선택하면 그에 부합하는 이미지를 자동으로 생성해주는 플렛폼, 즉 어플리캐이션이다. StyleGAN은 얼굴의 특질을 단계별로 구분하여 특정 스타일대로 조합하는 생성모델이며, BigGAN은 학습데이터의 배치(batch) 크기를 확장시켜 이미지의 리얼리티를 증강시킨 생성모델이다. BigGAN은 GAN의 성능을 측정하는 지표 IS(Inception Score)와 FID(Fréchet Inception Distance)에서 가장 높은 점수를 받은 모델로, 이 지표는 생성이미지의 리얼리티를 수학적으로 평가하는 기준이다.
네델란드 사진가 바스 우테르비크(Bas Uterwijk)도 아트브리더를 활용하여 가상의 인물사진을 만들어낸다. 그는 AI의 생성 이미지를 포스트 포토그래피로 분류하면서 고전적인 사진 개념을 확장시키다. GAN 기반의 아트브리더를 통해 그가 제작한 ‘포스트 포토그래피’의 특징은 보샤트의 경우에서처럼 인물들이 실제 카메라로 촬영된 적이 없었다는 사실에 있다. 그의 작품에 등장하는 인물은 엘리자베스 1세에서부터 나폴레옹 1세, 고대 이집트의 왕녀 네페르타리, 예수, 카이사르, 킹 알렉산더에 이르기까지 사진술이 발명되기 이전에 존재했던 이들이다. 그는 엘리자베스 1세의 ‘사진’을 제작하는 방식에 대해 인터뷰에서 다음과 같이 밝히고 있다. “엘리자베스 1세의 초상화는 매우 많다. 나는 10장의 초상화를 (아트브리더에) 업로드한 후 평균에 근거하여 그녀의 얼굴과 가장 닮았다고 생각하는 이미지를 만들어냈다.” 다른 인물들도 유사한 방식으로 제작됐다. 예수의 사진은 유럽 각지의 성당에 있는 이콘화를, 네페르타리나 카이사르는 그들의 조각상을 사진으로 촬영하여 학습 데이터로 활용했다. 이 인물들이 실재와 얼마나 닮았는지 ‘과학적으로’ 평가할 수는 없다. 학습 데이터는 어쨌든 그림과 조각, 말하자면 인간이 ‘주관적으로’ 생산한 이미지에 기초하기 때문이다. 그러나 StyleGAN은 이 얼굴 이미지의 ‘특질(feature)’을 평균값으로 환산하고, BigGAN의 대규모 배치(batch)는 그 픽셀의 조합을 사진의 IS값에 가깝게 변환시켜 제공한다. 그 결과 그림을 바탕으로 제작된 이미지는 시각적으로 사진과 거의 구분되지 않는다. 보샤트나 우테르비크의 ‘사진’은 과거의 인물, 요컨대 예전에 존재했으나 촬영 순간에 없었던 역사 속 인물을 보여준다는 점에서 사진의 ‘전통적인’ 개념을 전복시킨다. 
 

GAN의 생성 이미지는 원본 사진의 숫자 데이터가 바뀌었다는 점에서 분명 디지털 사진과 다른 이미지다. 그리고 그 차이는 알고리즘의 계산에서 비롯됐다. 이미지의 역사에서 이 점이 의미하는 바는 무엇일까? 기술 이미지의 생산을 지배하는 프로그램은 점차 인간 배제를 가속화하면서 완전 자동성을 지향한다. GAN의 생성모델은 현재까지는 그 극단에 위치한다. 장치의 자동화가 진행 중이던 단계에서는 인간이 비록 프로그램의 ‘의도’를 따라야 했지만 최소한의 개입은 가능했다. 카메라 프로그램이 제안하는 수많은 조합 중의 하나를 선택해야 사진이 생산됐기 때문이다. 비록 그 선택이 프로그램의 결정 구조 속에 예정돼 있었다 할지라도 말이다. 그러나 이제 GAN에 와서는 그 선택조차도 생성자의 주도로 이루어지며, 그 선택의 ‘통제’ 역시 판별자의 몫이다. 인간은 이미지의 생산 과정에서 할 일이 없으며, 나아가 아무 것도 할 수 없다. 
‘생성 이미지’는 생산의 속도와 질의 측면에서 놀라울 성능을 보여주지만 다음과 같은 부정성 또한 내포하고 있다. 본래 생성모델의 ‘계산’은 새로운 정보를 생산하기 위해 적용된 수단이다. 그리고 컴퓨터의 계산은 새로운 정보의 산출에 적합하게 프로그램 됐다. ‘사전(pro) 문자(gram)’로서의 프로그램은 비록 결정 구조를 갖고 있지만 ‘확률게임’에 따라 ‘비개연적인’ 정보를 산출하는 셈이다. 그런 점에서 프로그램은 앞으로 나올 문자를 뜻하며, 결국 ‘미래문자’이기도 하다. 여기서 인간은 자신의 의도를 충분히 관철시켰을까? GAN을 설계한 프로그래머들은 예컨대 높은 IS와 FID지수를 근거로 그렇다고 답할 수 있다. 프로그램이 인간의 의도를 충실히 따랐다는 것이다. 그러나 우리는 GAN이 왜 바로 그 이미지를 생산했는지 알지 못한다. 계산을 수행하는 각 레이어는 문자 그대로 ‘은닉층’이며, 많은 프로그래머들이 GAN의 생성자는 블랙박스임을 지적하고 있다. 그 점이 문제다. 플루서는 프로그램의 자동성에 대해 언급하면서 그 위험성을 지적한 바 있다. 요컨대 “자동화 속에 도사리고 있는 위험은 장치가 의도했던 결과를 달성한 이후에도 의도하지 않았던 결과를 계속 산출”하는 데 있으며, 그것이 “기술 이미지의 생산자에게 주어진 심각한 도전”이라는 것이다. 이 지점에서 인간의 의도와 프로그램의 의도가 충돌할 수 있다. 말하자면 프로그램이 인간의 의도에 역행할 수 있다. 그러나 그 방향을 되돌릴 수는 없다. 프로그램의 ‘결정구조’는 내재적이기 때문이다. 이 ‘결정구조’가 산출하는 ‘비결정성’이 프로그램의 또 다른 얼굴인 이상 위에서 언급한 위험은 잠복해 있다. 
‘전통 이미지’는 인간의 의도를 충실히 반영해 왔다. 의도를 거스르는 어떠한 매개변수도 없기 때문이다. 장치가 이미지 생산에 개입하면서 인간은 자신의 의도를 희생해야 했으나 장치의 의도를 거스르지 않는 한 타협은 가능했다. 인간과 프로그램의 암투가 벌어졌던 것이다. 그런데 이제 장치가 고도화됨에 따라 인간은 이미지 생산에 자신의 의도를 반영할 수 없는 지경에 이르렀다. ‘생성 이미지’는 점진적으로 진행된 인간의 이 ‘자기배제’ 과정에서 탄생한 최근의 결과다. 새로운 정보의 생산과 생산 공정의 자동화를 얻어낸 대가로 이미지 생산의 장에서 소외당하는 값비싼 희생을 치룬 셈이다.

박평종 (중앙대학교 인문콘텐츠연구소 HK연구교수)

중앙대학교 인문콘텐츠연구소
06974 서울특별시 동작구 흑석로 84 중앙대학교 310관 828호  TEL 02-881-7354  FAX 02-813-7353  E-mail : aihumanities@cau.ac.krCOPYRIGHT(C) 2017-2023 CAU HUMANITIES RESEARCH INSTITUTE ALL RIGHTS RESERVED