Ddanggle in Ml minutes

알파고는 AI의 해결책이 아닙니다.

이 글은 저명한 마이크로소프트의 머신러닝 연구자인 John Langford의 허락을 받아 AlphaGo is not the solution to AI의 글을 번역한 것입니다. 원문도 꼭 읽어보셨으면 합니다. 그리고 그의 허락을 받아 앞으로 종종 그의 블로그에 있는 글들을 번역해서 올릴 계획입니다.


바둑 마스터를 개발한 구글 딥마인드식구들께 축하의 말씀을 전합니다.

그러나, 이 대결에 관한 논의 몇몇을 보면 심히 과열되어 보입니다. 와이어드는 기계가 마지막 게임에서 종지부를 찍었다라고 했고, 슬래시도트는 진짜 인공지능에 도달하기까지 더 이상 새로운 돌파구가 필요없다는 것을 알아야한다고 했습니다. 사실은 근접하지도 못했는 데 말이죠.

바둑 자체를 살펴보면, (랜덤적으로 실행하며 가치를 가정하는) 몬테카를로 트리검색가 특이하게 바둑에 효율적이라는 것은 지난 10여년동안 잘 알려진 사실입니다. 이런 것을 고려해보면, 알파고 알고리즘을 좀 더 응용해서 몬테카를로 트리검색이 그리 좋은 성능을 발휘하지 않는 다른 보드게임에서 잘 작동할지는 불확실합니다. 아마요? 앞으로 흥미롭게 볼 만합니다.

현존하는 컴퓨터게임들을 살펴보면, 딥마인드의 아타리 게임들 결과(3번째 그림을 보세요)를 보면 매우 흥미롭지만, 게임의 1/4정도에서는 인상적이지 못합니다. 왜 그런 지에 대한 제 가정은 솔루션이 전역탐색이 아닌 지역(epsilon-greedy style)탐색에만 기반해있어서 오직 매우 작은 신뢰할당문제(credit assignment problems) 혹은 게걸스럽게 접근 가능한 관계(greedily accessible polices)를 설명하는 방법들만 배울 수 있습니다. 일반적으로 전역탐색과정은 결정의사과정(deterministic decision process)(1993), 마르코프결정과정(Markov Decision Processes)(1999),모델링없는 MDP(MDPs without modeling)들이고 전형적으로 더 효율적인 방법으로 결과를 내놓는 것으로 알려져있습니다.

이런 방법들이 사용되지 않은 이유는, 함수피팅보다는 tabular learning에 기반합니다. 그게 제가 2006년 논문 이후 Contextual Bandit 연구로 방향을 전환한 이유입니다. 여기서 꽤 많은 것들을 배울 수 있었고, Contextual Deterministic Decision Process에 이의를 제기한 것으로 충분하지만, 여전히 솔루션은 현실과는 동떨어져 있습니다. 효율적으로 전역 탐색에 착수하려면, 우리가 현재 잘 알고 있는 것과 진짜 인공지능를 고려하기위해 무엇이 필요한 지 간의 매우 큰 도전 하나가 남아있습니다.

이것들이 이 분야에서 일하는 사람들이 일반적으로 이해하고 있는 것이지만, 미디어들을 보면 이런 전달이 이루어지지 않는 것 같습니다. 이런 일들은 실망을 이끌어내기 때문에 위험합니다. 필드는 지나친약속/무너지는 사이클 없이 더 나아갈 수 있기에 사람들께 AI성공의 관점과 확장에 대해 균형있게 정보를 접하길 바랍니다. 알파고는 정말 뛰어난 성취이지만, 모든 것에 비하면 보잘 것 없습니다.

+ 뒤이은 논의들은 얀 르쿤의 페이스북에서.

+ +몬테카를로 트리검색에 관해서 좀 더 알고싶다면 어제 박부성 교수님이 올리신 알파고vs이세돌을 보시면 매우 쉽게 이해할 수 있습니다.


댓글