구글 딥마인드가 꺼내놓은 새로운 버전의 바둑 인공지능은 다시 한 번 세상을 놀라게 했다. 올해 10월 18일 구글 딥마인드는 과학학술지 네이처에 ‘Mastering the game of Go without human knowledge’라는 논문을 실어 알파고 제로의 탄생을 알렸다. 이 논문에 따르면 알파고 제로는 이세돌과 대결했던 알파고(AlphaGo lee) 버전을 36시간 만에 뛰어넘었고, 72시간 이후에는 100번 겨뤄 100번 이기는 기록을 세웠다. 알파고 제로는 각종 언론에서 ‘인공지 능의 신기원’이라는 찬사를 받으며 뛰어난 학습 속도와 성능을 과시했다.
알파고 제로, 무엇이 특별한가?
영국 일간 텔레그래프와의 인터뷰에서 구글 딥마인드의 CEO 데미스 허사비스는 “우리는 이제 인간의 지식에 구속받지 않아도 된다”며 알파고 제로가 이전 버전과 달리 인간의 데이터를 전혀 쓰지 않는다는 점을 강조했다.
그의 말처럼 알파고 제로는 바둑에 대한 규칙을 제외하면 인간의 데이터라곤 아무것도 없는 백지상태(tabula rasa)에서 출발한다. 알파고 제로는 오로지 자기 자신의 움직임과 승리를 예측하며 스스로 바둑을 깨우친다. 이전 버전의 알파고는 ‘바둑 고수들의 기보’라는 해답지를 가지고 학습했다면, 알파고 제로는 독학을 한 셈이다. 이는 명확한 규칙이 갖춰진 특정 조건에서는 인간의 도움 없이 인공지능이 인간을 넘어설 수 있음을 보여줬다고 평가할 수 있다.
알파고 제로가 간소화된 구조로 이뤄졌다는 점 또한 주목할 필요가 있다. 구글 딥마인드는 공식 홈페이지를 통해 “수많은 아마추어 선수들의 답보다 프로 선수 한 명의 조언이 낫다”며 간단한 구조로 높은 시스템 속도를 구현한 것을 강조했다. 이전 버전의 알파고는 정책망(policy network)을 통해 상대방이 선택할 움직임을 확률을 나타내고, 가치망(value network)을 통해 현재 상황에서 이길 확률을 나타냈다. 그러나 알파고 제로는 기존의 2개 신경망을 하나로 통합하고 더 단순한 트리 탐색(tree search)1)을 이 용해 학습시켰다.
데미스 하사비스는 알파고 제로에서 쓰인 기술이 바둑뿐만 아니라 신약개발이나 재료공학 등 더 넓은 분야에서 이용될 수 있음을 내비쳤다.
알파고 제로, 과연 혁신인가?
알파고 제로가 현재 가장 발전된 형태의 바둑 인공지능이며 순수한 강화학습의 주요한 진보를 이끈 것은 부정할 수 없다. 하지만 ‘이것이 엄청난 혁신인가’에 대해서는 비판적인 시선도 존재한다. MIT 테크놀로지 리뷰에 따르면 워싱턴대학교 교수 페드로 도밍 구스는 “알파고 제로는 이세돌(인간)과 달리 수백만 번의 바둑 대국을 통해 학습했다”는 것을 지적했다. 그는 “이세돌이 챔피언의 자리에 오르기까지 치른 대국과 비슷한 횟수를 경험하고 알파고 제로가 그를 이겼다면 정말로 놀라웠을 것”이라고 말했다.
구글 딥마인드는 인간의 정보를 전혀 쓰지 않는 순수한 강화학습으로도 ‘바둑’이라는 영역에서 인공지능이 인간을 상회하는 능력을 가질 수 있음을 증명했다. 하지만 명확한 규칙이 주어지고 변수가 통제된 바둑과 달리 현실의 많은 문제는 다양한 이해관계가 복잡하게 얽혀있다. 알파고가 이런 문제를 넘어서 바둑 외에 다른 분야에서도 엄청난 성능을 보여줄지에 대해서는 기대와 회의가 공존하고 있다.
==========================================================================
1)트리 탐색(tree search) : 오셀로, 체스, 연주, 바둑 등에서 컴퓨터 가 인간과 대전하는 프로그램을 만들 때, 인간의 사고 방법을 바탕으 로 경우의 수를 미리 읽음으로써 최고의 선택을 구하는 방법.
육태경 기자
taekyeong@gist.ac.kr