중앙대학교 인문콘텐츠연구소

HK+인공지능인문학

아카이브칼럼

칼럼

글보기
타짜가 나타났다!
Level 10조회수588
2021-02-19 10:15



“묻고 더블로 가!”, 영화 <타짜>에 나오는 대사다. 주인공 ‘고니’가 소위 ‘큰 판’을 만들기 위해 짜놓은 책략에 ‘곽철용’이 걸려드는 장면인데, 오래 전 영화지만 이 대사가 최근에 다시 회자됐던 모양이다. 기백일 수도, 무모함일 수도 있다. 그런데 이런 상황은 돈 넣고 돈 먹는 게임, 말하자면 도박판에서 흔히 나올 수 있다. 어차피 운이 좌우하니까. 도박에서 운 좋은 놈을 이길 수는 없는 노릇이다. 그러나 진정한 고수들의 세계에서 운이 승패를 좌우하지는 않는다. <포커의 이론(The Theory of Porker)>을 저술한 프로 포커플레이어 데이빗 스클랜스키(David Sklansky)는 “훌륭한 포커 플레이어들은 운을 용납하지 않으며, 가능한 한 운을 최소화하기 위해 기술을 사용한다”고 언급한 바 있다. 운이 없어도 이길 수 있다는 뜻일까?

2019년 포커 AI ‘플루리버스’가 텍사스 홀덤 게임에서 인간 갬블러들을 ‘제압’한 사건이 <사이언스>지에 실렸다. 결과만 놓고 얘기하자면 이제 알파고의 경우처럼 포커게임에서도 인간이 AI를 이길 수 없는 시대가 왔다. ‘플루리버스’ 개발 연구진은 게임에서 승리하기 위해 최선의 전략을 찾고자 했다. 연구의 초기 단계에서 관건은 ‘내쉬 균형(Nash Equilibrium)’을 찾아내는 문제였다. 내쉬 균형은 다수가 참여하는 비협조적 게임에서 항상 균형이 유지되는 조건을 규정하는 이론이다. 핵심은 모두가 자신의 전략을 고수하고, 그 전략을 바꾸지 않는 한 게임의 균형이 유지된다는 데 있다. 말하자면 상대의 ‘예측 가능한’ 결정을 고려하여 나도 최선의 선택을 하며, 그 역도 마찬가지라는 것이다. 이 이론은 정부의 정책 결정이나 기업의 투자 결정 등 다양한 분야에 적용되며, 게임에서도 유효하다. 

내쉬 균형의 가장 유명한 예는 이른바 ‘죄수의 딜레마(Prisonner’s Dilemma)’로 불리는 이론이다. 상황과 가설은 다음과 같다. 공범 관계인 두 명의 용의자 A와 B가 체포되어 각각 따로 심문을 받는데, 그들에게는 네 가지 선택이 있다. 첫째, A가 범죄를 자백하면 그는 풀려나고 B는 10년 형을 받는다. 둘째, A가 침묵하고 B가 자백을 하면 반대로 A가 10년형을 받고, B는 방면된다. 셋째, 둘 다 자백하면 모두 5년형을 받는다. 넷째, 둘 다 침묵하면 둘 다 6개월을 받는다. 여기서 A는 상대가 침묵할 것으로 예상되는 경우 자백을 하는 편이 유리하다.(방면과 6개월) 상대가 자백할 것으로 예측되는 경우에도 자백이 유리하다.(5년형과 10년형) B의 경우도 사정은 같으므로 모두 자백을 선택하여 둘 다 5년형을 받게 되며, 이 지점이 바로 내쉬 균형 상태다. 냉정히 보면 둘 다 침묵하여 6개월을 받을 수 있으나 개인은 항상 자신의 이익을 극대화하기 위한 선택을 내리므로 결국 자백을 하게 된다는 것이다. 뭐 드물게도 이타적인 선택을 통해 딜레마에서 벗어나는 경우가 없지는 않으나 이 ‘괴이한’ 인간은 대개 비웃음거리가 되곤 한다.



플루리버스는 이 내쉬 균형이론에 바탕을 두고 최선의 전략을 찾아내기 위한 게임이론을 접목시킨 AI다. 여기에 사용된 개념은 홀덤 게임에서 최선의 전략으로 평가받는 GTO(Game Theory Optimal) 이론이다. 대부분의 프로 갬블러들은 홀덤에 이 전략을 활용한다. 원리는 간단하다. 매 판마다 최대의 기댓값 EV(Expected Value)를 찾아내는 것이다. 물론 수많은 경우의 수를 고려해야 하고 상대의 전략을 예측해야 하므로 EV를 찾아내기란 만만치 않다. 그럼에도 대 원칙은 있다. 요컨대 가위바위보 게임에서처럼 셋 중 하나를 무작위로 내야 한다는 것이다. 만약 내가 항상 가위만 낸다면 상대는 주먹을 냄으로써 쉽게 나를 이길 수 있기 때문이다. 따라서 원리를 따지자면 무작위로 내는 것이 최선의 전략인 셈이다. 이것이 GTO 전략의 핵심이다. 억수로 운이 없을 경우 무작위 전략은 최악이 될 수도 있다. 사지선다형 문제를 풀 때 1번으로만 찍으면 25점이 ‘보장’되나 무작위로 찍을 경우 ‘답 사이로 막 가’서 빵점을 맞는 경우처럼 말이다. 그러나 확률은 적어도 운보다 정확하다.  

플루리버스는 인간 갬블러들과의 게임에서 자신이 ‘학습’한대로 GTO에 충실한 플레이를 했으나 때로 예측을 어렵게 만드는 ‘비상식적인’ 배팅을 통해 상대의 실수를 유도하기도 했다. 사람이 ‘뻥카’를 치면 대체로 읽히나 이 AI ‘타짜’의 속은 알 수가 없었다는 것이 게임에 참가했던 인간 고수들의 얘기다. 진정한 포커 페이스라고나 할까. 그러나 그 또한 플루리버스에게는 EV를 찾기 위한 최선의 전략이었을 뿐이라는 점이 중요하다. 사람의 세계에서도 ‘뻥카’는 드물지만 먹힐 때가 있으니까. 

어쨌든 노리미트 게임에서(플루리버스가 참여했던 텍사스 홀덤은 베팅 액수에 제한이 없었다) “묻고 더블로 갈” 수 있는 인간이 얼마나 있을까. 판돈의 액수가 천문학적으로 클 때 배짱 튀길 수 있는 인간은 영화 속에서는 존재하지만 현실에서는 글쎄다. 영화 속 ‘곽철용’은 조폭두목에다가 게임에서도 졌지만 이 ‘나쁜 놈’에’ 사람들이 주목했던 이유가 무엇일지 생각해볼 일이다. 맥락은 다르지만 어쨌든 베팅에 사랑을 걸고, 목숨을 거는 <지존무상> 같은 영화 속 인물을 플루리버스는 돌았다고 판단할 것이 틀림없다. 그래도 인간은 이 ‘낭만적인’ 인간, AI의 눈에는 ‘바보 같은’ 인간 없이 살지 못한다. 그 때는 기계 같은 인간들만 남을 테니까.

박평종 (중앙대학교 인문콘텐츠연구소 HK+연구교수)

중앙대학교 인문콘텐츠연구소
06974 서울특별시 동작구 흑석로 84 중앙대학교 310관 828호  TEL 02-881-7354  FAX 02-813-7353  E-mail : aihumanities@cau.ac.krCOPYRIGHT(C) 2017-2023 CAU HUMANITIES RESEARCH INSTITUTE ALL RIGHTS RESERVED