[사이언스 핫트렌드]바둑기사 이세돌과 AI 대국, 전문가 승부예측은

<12>향상된 알고리즘 컴퓨터 vs 세기의 실력자

심재율 사이언스타임즈 객원기자  |  2016.02.03 13:25  |  조회 18697
미래에는 어떤 분야가 유망할까? 미래 주도권의 열쇠가 될 원천기술은 무엇일까? 사물인터넷(IoT), 소셜미디어, 3D 생산, 바이오신약 등 모든 산업분야의 게임 규칙을 확 바꿀 새로운 R&D 트렌드를 짚어봅니다.
바둑에서 경우의 수가 얼마나 많은지를 보여주는 개념도/사진=딥 마인드 유튜브&lt;br&gt;
바둑에서 경우의 수가 얼마나 많은지를 보여주는 개념도/사진=딥 마인드 유튜브<br>
오는 3월 열리는 이세돌 9단과 컴퓨터 프로그램 '알파고'와의 대국에 많은 관심이 쏠려있다. 알파고는 특히 지난해 10월 중국 태생의 유럽바둑챔피언인 판후이 2단을 5대 0으로 물리쳤기 때문에 더욱 관심이 높아진 상태이다.

과연 이세돌9단과 알파고, 누가 이길까?

알파고는 구글이 2014년에 인수한 자회사인 딥마인드(Deep Mind)가 개발한 범용의 컴퓨터 프로그램으로, 이 프로그램이 프로기사를 꺾음에 따라 세계적인 두각을 나타냈다.

심정적으로는 이세돌9단이 압도적으로 이길 것이라고 말하고 싶지만, 컴퓨터에 대한 이해도가 높은 사람들은 대체로 알파고가 우세할 것이라는 의견을 보인다.

◇"실수를 하지 않는 컴퓨터가 유리하다"

소프트웨어정책연구소(SPRI)의 김석원 박사는 "만약 이번 바둑을 놓고 내기를 건다면 나는 큰 돈을 걸지는 않겠다"고 말했다. 승부가 근소하리라는 예측이다. '구글의 바둑인공지능 AlphaGo, 인간 챔피온을 꺾다'는 보고서를 작성한 김석원 박사는 "그렇지만 이세돌9단이 질 수도 있을 것 같다"고 말했다.

김 박사는 그 근거로 판후이 2단이 알파고와의 대국에서 크게 완패했다. 판후이가 알파고와 대국을 하면서 '큰 벽을 느낀다'고 이야기한 것처럼, 컴퓨터는 너무나 침착하게 두기 때문에 사람이 스트레스를 느낀다는 점을 들었다. 김 박사는 "많은 기사들이 실수 없는 바둑을 두고 싶다고 말하는 것을 보듯이 사람은 언젠가는 실수를 한다"면서 "이세돌 9단이 2대3으로 지지 않을까 싶다."고 조심스럽게 전망했다.

이상지 카이스트 연구교수도 역시 "알파고가 3대2로 이길 것"이라고 전망했다. 이 교수는 "아마도 한 달에 한 판씩 둘 텐데, 첫 판은 이세돌9단이 이길 것으로 본다"고 말했다. 그러나 다음 대국이 열리는 한 달 사이 재빨리 대응수단을 마련한 알파고가 2,3,4국을 이기고, 이에 자극받은 이세돌을 비롯한 프로기사들이 컴퓨터 바둑을 연구해서 마지막 판은 알파고를 꺾을 것이라고 판세를 분석했다.

이와는 반대로 김인중 한동대 전산전자공학부 교수는 "외부에서 정확히 평가하기는 힘들지만, 구글에서 자체적으로 평가하기는 알파고가 프로 5단 수준이라고 얘기했으니, 그것을 토대로 생각하면 이번에는 이세돌이 이길 것으로 본다"고 전망했다.

그러나 김 교수도 컴퓨터 바둑이 결국은 프로기사를 물리칠 것으로 전망했다. 김 교수는 "바둑이나 체스 같이 규칙이 일정한 것은 컴퓨팅 속도가 빨라지면 컴퓨터가 훨씬 유리한 부분이 있다”고 말하고 “이런 점에서 보면 장기적으로 사람이 컴퓨터보다 유리하다고 보기 어렵다"고 말했다.

◇'딥 러닝' 활용한 알파고 바둑실력 크게 늘어

알파고가 예전의 컴퓨터 바둑과는 달리 프로기사를 완전히 물리친 것은 더욱 향상된 알고리즘을 활용했기 때문이다. 최근 몇 년간 세계적으로 큰 각광을 받는 딥 러닝(Deep Learning) 인공지능 기술을 적극 활용했다.

딥 러닝은, 컴퓨터가 물체를 인식하고 판단을 내릴 때 사람의 뇌에서 일어나는 현상을 모방한 인공지능 기술이다. 뇌에 대한 연구가 활발해지면서, 사람의 뇌에서 어떤 정보를 가지고 판단을 내릴 때 여러 단계의 정보처리 과정을 거친다는 사실을 알게 됐다.

이는 마치 회사에서 중요한 결정을 내릴 때 사원이 수집한 정보를 대리와 과장 및 부장과 임원을 거쳐 사장으로 올라가면서 추려지고 또 추려져서 최종적으로는 한 두가지 핵심으로 요약된다는 것과 비슷하다.

알파고는 기존에 사용하던 강화학습(Reinforced Learning) 몬테 카를로 트리서치(MCTR Monte Carlo Tree Search)같은 것을 최대한 활용한 바탕위에 정책망(Policy Network)과 가치망(Value Network)등의 기법을 추가했다.

몬테 카를로 트리 서치(MCTS)는 모든 경우의 수를 전부 방문해서 결과를 얻는 대신, 샘플링해서 나온 결과를 가지고 대략적인 근사치를 내는 기술이다. 바둑에서는 일종의 수읽기 기술이라고 할 수 있다. 프로기사들이 바둑알을 놓을 때 완전한 수읽기를 하는 대신 경험과 직관에 의해 수를 놓는 것과 비슷하다.

강화학습(RL)은 전문가가 없는 상태에서 컴퓨터가 스스로 학습해서 배우는 기능을 말한다.

정책망은 어느 돌이 어느 위치에 놓일 때, 바둑의 프로고수들은 이렇게 놓았다는 식의 결정을 돕는 프로그램이다. 가치망은 돌을 이렇게 놓았을 때, 승률이 몇 %가 된다는 것을 측정하는 기술이다.

알파고가 이같이 복잡한 프로그램을 총동원한 것은 바둑에서 발생할 수 있는 경우의 수가 너무나 많기 때문이다. 관점에 따라 수치는 다르지만 구글은 바둑을 둘 때 발생하는 경우의 수를 250의 150승으로 추정했다.

이번 대국의 결과와 상관없이 마케팅 홍보 측면에서는 이미 구글이 승자라는 분석이 나온 것도 흥미롭다. 대회 상금으로 구글은 100만 달러를 걸었지만, 대회 발표를 놓고 벌어지는 언론의 관심도와 앞으로 대국이 열릴 때 마다 쏟아지는 매스컴의 보도 예상량만 따져도 그 이상의 홍보효과를 보았다는 것이다.

구글이 바둑프로그램의 이름을 알파고(AlphaGo)라고 한 것도 지난해 구글의 지주회사로 설립한 ‘알파'를 알리기 위한 수단의 하나이다.

※본 콘텐츠 저작권은 사이언스타임즈(http://www.sciencetimes.co.kr)에 있습니다.
  • 페이스북
  • 트위터
  • 프린트

읽어볼 만한 기사

  • image
  • image
  • image
  • image