인공지능이 정보 처리와 관련된 모든 분야에서 혁신을 주도하고 있다. 이미지 생성에서도 예외가 아니다. 불과 수년 사이에 생성 인공지능은 급속한 발전을 거듭하여 쉽고 빠르게 이미지를 만들 수 있게 됐다. 또한 시각적으로 사진과 구분할 수 없을 만큼 ‘사실적인’ 이미지를 생성함으로써 사진과 가상 이미지의 경계를 무너뜨리고 있다. 생성 인공지능이 수행하는 과업도 매우 다양하여 기존의 방식으로는 불가능했던 놀라운 이미지 생성 능력을 보여준다. 이미지 생성 분야에서 혁신을 주도하고 있는 알고리즘은 ‘적대적생성신경망(Generative Adversarial Network, 이하 GAN)’으로, 2014년에 처음 원리가 발표된 이후 개량을 거듭하여 수많은 후속 모델로 분화했다. GAN이 수행하는 과업은 사진 같은 고해상도 이미지 생성을 비롯하여 존재하지 않는 가상의 얼굴 합성, 그림-사진의 치환, 특정 화가의 화풍에 따른 사진 합성 등 매우 다양하다. 나아가 초상화와 같은 이미지 데이터를 학습하여 역사 속 인물의 사진을 합성할 수도 있고, 한 인물의 미래 얼굴을 만들어 낼 수도 있다. 예컨대 캐나다 작가 다니엘 보샤트(Daniel Voshart)는 <포토리얼 로마황제 프로젝트(Photoreal Roman Emperors Project)>(2020)에서 고대 로마 황제들의 흉상 조각을 학습 데이터로 삼아 그들의 초상사진을 합성한 바 있다. 여기에 활용된 인공지능이 GAN 알고리즘이다. 네델란드의 바스 우테르비크(Bas Uterwijk) 역시 같은 방법으로 엘리자베스 1세를 비롯하여 나폴레옹, 이집트의 파라오 람세스 2세, 카이사르 등 사진 찍힌 적 없는 과거 인물들의 얼굴을 복원해 냈다. 기술력의 발전으로 이제 초상화 데이터를 학습하여 사진 같은 이미지를 만들어 내는 것은 더 이상 놀랍지도 않고 그리 어려운 과업도 아니다. 그만큼 발전 속도가 빠르다는 뜻이다. 한편 인공지능이 생성한 이미지에 예술작품의 지위를 부여할 수 있는가에 대해서 많은 논란이 있어 왔지만 예술 제도는 인공지능 예술을 빠르게 수용하는 양상이다. 단적인 예로 뉴욕현대미술관(MoMA)은 2022년에 레픽 아나돌(Reffic Anadol)의 <비지도-환각기계(Unsupervised-Machine Hallucinations)>를 전시함으로써 인공지능이 ‘자동으로’ 생성하는 이미지를 작품으로 수용했다. 이 작품은 모마의 컬렉션에 대한 메타데이터 13만여 점을 인공지능이 학습한 후 스스로 새로운 이미지를 생성해 나가는 방식으로 제작됐다. 기계학습에 사용된 알고리즘은 GAN의 후속 모델인 StyleGAN2-ADA로 학습 데이터의 평균치에 해당하는 스타일을 랜덤하게 생성한다. 작가는 이 작품을 통해 ‘데이터 미학’을 개척하고 싶었다고 밝힌다. 이미지 생성의 혁신을 주도해 온 GAN 알고리즘은 자연어 처리의 혁명을 가져온 GPT 모델과 결합하면서 다시 한번 도약한다. 텍스트(프롬프트)를 입력하면 그에 부합하는 이미지를 자동으로 산출하는 모델이 등장한 것이다. 오픈AI가 2022년에 공개한 Dalle·e와 Dalle·e2를 시작으로 이후 Midjourney, Stable Diffusion과 같은 플랫폼이 개발되면서 텍스트-이미지 생성 분야는 빠르게 성장하고 있다. 이제 누구나 텍스트만 입력하면 원하는 이미지를 빠르고 쉽게 얻어낼 수 있게 됐다. GPT(Generative Pre-trained Transformer)는 사전 학습한 문자 언어의 확률분포를 추산하여 가장 그럴듯한, 요컨대 가장 가능성이 높은 단어들의 배열을 통해 텍스트를 생성하는 알고리즘이다. 여기에 GAN을 결합하여 텍스트로부터 직접 이미지를 생성할 수 있게 되면서 이제 문자와 이미지의 코드 변환이 가능하게 됐다. 이 방법을 작품 제작에 활용하는 작가들도 점차 늘어나는 추세다. GAN 알고리즘의 경우 이미지의 생성 방향을 작가가 직접 통제할 수 없지만 텍스트-이미지 생성 모델에서는 부분적인 개입이 가능하다. 프롬프트를 바꿈으로써 이미지 생성에 영향을 미칠 수 있기 때문이다. 인공지능의 생성 이미지가 비록 사진처럼 보일지라도 그 생성 원리는 다르다. ‘전통적인’ 사진 개념에 따르면 사진은 피사체에서 반사된 빛과 감광판의 상호 작용에 따라 형성된다. 요컨대 피사체는 반드시 카메라 앞에 존재해야 한다. 사진이 탁월한 인증의 수단인 이유다. 그런데 인공지능의 생성 이미지는 전혀 다른 방식으로 만들어진다. GAN은 학습 데이터의 픽셀값을 바꿔 가짜 데이터를 산출함으로써 이미지를 합성한다. 그렇게 생성된 이미지는 현실에 존재하지 않는 대상을 보여줄 따름이다. GAN이 합성한 인물의 얼굴은 사진과 다를 바 없지만 어디에도 존재하지 않는다. 그런 점에서 이미지 생성 인공지능은 ‘고전적인’ 사진 개념에 도전하고 있다. 비록 생성 원리에 차이가 있지만 생성 인공지능은 기존의 사진술로는 상상조차 할 수 없었던 놀라운 과업을 수행할 수 있다. 기계와의 협업으로 인간의 시각 경험이 확장되는 셈이다. 실상 사진술 발명 이후 카메라의 눈은 인간의 시각을 보완하여 가시 세계의 영역을 꾸준히 넓혀 왔다. 이제 인공지능의 데이터 학습과 연산 능력이 그 역할을 물려받고 있다. 인공지능의 기획은 1956년 다트머스 컨퍼런스에서 공식화됐지만, 그 실질적 영향력이 미치기 시작한 지는 그리 오래되지 않았다. 또한 생성 인공지능의 상징으로 자리 잡은 챗GPT가 공개된 지 불과 일 년 남짓밖에 되지 않았음에도 그 발전 속도는 가늠하기 어려울 정도로 빠르다. 이미지 생성 인공지능이 어떤 또 다른 놀라운 혁신을 가져올지 주목해야 하는 이유가 여기에 있다. 박평종 (중앙대학교 인문콘텐츠연구소 HK연구교수) |