AI테크

딥마인드, 강화학습 유연성 살리는 통합 가상훈련 ‘XLand’ 개발

AI타임스 2021. 8. 9. 09:40
보상 극대화 통해 스스로 학습하는 강화학습
한 가지 태스크에만 뛰어난 성능이 최대 단점
개별적 환경 배제하고 통합 시뮬레이션 제작
4천개 시뮬레이션 안에 70만개 게임(훈련) 포함

 

(사진=셔터스톡).

 

“대세는 강화학습이다!”

딥마인드가 ‘강화학습 대세론’을 뒷받침하는 3D 가상훈련 플랫폼 XLand(X랜드)를 개발했다. 딥마인드는 X랜드 개발에 앞서 지난 5월, ‘보상이면 충분하다(Reward is Enough)’는 제목의 논문을 발표하며 머지않은 미래에 강화학습이 범용인공지능(AGI) 수준으로 발전하고, 일상을 지배할 것이라고 예견한 바 있다.

X랜드는 이같은 자사 주장이 실현될 수 있다는 것을 증명하는 새로운 강화학습 훈련법이다. 연구진은 지난달 27일(현지시간) 공식 블로그에 X랜드 개발 배경과 에이전트 훈련 방법에 대해 자세히 설명했다.

 강화학습의 결정적 단점

강화학습 핵심은 인간처럼 주어진 환경에서 상호작용을 통해 행동(훈련)하고, 피드백(보상)을 줌으로써 성장한다는 데 있다. 딥마인드가 개발한 알파고를 비롯한 AI 모델 발전 중심에는 강화학습과 심층 신경망의 결합이 있었다.

그러나 강화학습은 유연성이 부족하다는 치명적인 단점이 존재한다. 예를 들어 프로 게이머 수준으로 스타크래프트를 플레이할 수 있는 강화학습 모델은 그 외 게임은 젬병이다. 알파고가 바둑, 체스, 장기 등에서 이기려면 그에 맞춰 처음부터 다시 학습해야 한다. 한 가지 태스크만 수행하도록 훈련받고 설계된 이후 다른 비슷한 유형 앞에서는 성능이 크게 저하되는 것이다.

딥마인드 연구진은 블로그에서 “강화학습 에이전트는 부여받은 훈련 바운더리 안에서만 행동한다”며 “훈련 시 목표치 달성을 위해 고안된 프로그램 안에서만 그 지식을 이용한다. 이 점이 현재까지 강화학습의 고질적 문제였다”고 밝혔다.

 XLand, 한 번에 하나씩이 아닌 통합하는 방법

 

딥마인드가 X랜드에서 다단계 매커니즘을 사용해 다양한 강화학습 에이전트를 훈련하는 방식을 설명한 자료. (사진=deepmind.com). 

 

연구진은 강화학습이 다시 공부(훈련)하지 않아도 한 번 습득한 지식을 인간처럼 여러 영역으로 전달하는 방법에 대해 고민했다. 그 방법은 개별적 훈련환경이 아닌 통합된 곳에서 플레이어가 다양한 방식으로 객체를 사용하는 플랫폼 개발이었다.

 

X랜드는 쉽게 말해 ‘멀티플레이어 게임 플랫폼’이다. X랜드에서는 프로그램 규칙을 사용해 자동으로 방대한 게임 환경을 조성한다. 현재까지 X랜드에는 약 4000개의 고유한 시뮬레이션 세계 안에 70만개 게임이 있다. 각각의 게임은 일종의 수행평가 역할을 하며 강화학습 모델의 훈련을 지켜본다. 간단하게는 숨바꼭질부터 미로찾기, 블록 쌓기, 지도 만들기, 집 짓기 등 게임은 제한 없이 생성을 반복하며 학습 역량을 키우는 데 주력한다.

 

연구진에 따르면 X랜드 내 모든 게임은 “동적 작업 생성을 통해 에이전트의 교육 작업 배포를 지속적으로 변경할 수 있다”고 설명했다. 모든 작업이 실시간마다 너무 어렵지도, 쉽지도 않게 훈련에 적합하도록 생성된다는 뜻이다. 연구진은 훈련 결과에 따라 적합성에 기반한 동적 작업 생성의 매개변수(파라미터)를 미세하게 조정해 보상을 극대화한다. 다음으로 이전 태스크를 통과한 강화학습 모델이 또다른 레벨의 교육을 실행할 수 있도록 연결한다.

 

X랜드 플랫폼에서 다양한 시뮬레이션 속 게임을 통해 강화학습 모델이 훈련 중이다. (출처=DeepMind 공식 유튜브 채널).

 

 혁신이다 vs. 그저 ‘개선’에 불과

 

X랜드가 강화학습이 AGI에 도달하는 데 지름길이 될 수 있을까. 전문가들 의견은 각양각색이다.

 

패스마인드(전문적 지식이 없더라도 실제 환경에서 강화학습을 적용하는 SaaS 플랫폼 제공업체)의 크리스 니콜슨 CEO는 테크톡스와의 인터뷰에서 “딥마인드가 내놓은 X랜드는 단일 강화학습 에이전트가 기존과 달리 하나 이상의 목표 달성을 위한 지능 개발이 가능하다는 것을 보여준 혁신”이라고 말했다.

 

니콜슨은 이어 “한 가지를 배우고, 성취한 강화학습 기술은 이제 일반화 되어 다른 목표를 위해 유연하게 가동할 수 있을 것”이라고 전망했다. 또 “강화학습 에이전트는 이제 가상세계에서 인간처럼 구체화된 지능을 개발하는 단계까지 왔다”고 덧붙였다.

 

그러나 서던 캘리포니아대 세스 라그하바차리 교수는 “강화학습 에이전트가 높은 수준의 구조를 이해할 수 있다면 애초부터 최적의 결과를 얻기 위해 4000개 시뮬레이션이 필요하지 않았을 것”이라고 지적했다. 딥마인드가 주장하는 것만큼 기업의 강화학습 모델이 뛰어나다는 데 이견이 있다는 것.

 

라그하바차리 교수는 “전반적으로 X랜드는 강화학습 기능을 조금 개선한 ‘갈음’에 불과하다”며 “몇 천, 몇 억개 이상의 시뮬레이션을 제작해도 현실 세계의 복잡한 부분을 간과할 수 있다는 사실을 염두에 둬야 한다”고 강조했다.

 

AI타임스 박혜섭 기자 phs@aitimes.com

 

Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.com/)
무단전재 및 재배포 금지

 

 

딥마인드, 강화학습 유연성 살리는 통합 가상훈련 ‘XLand’ 개발 - AI타임스

“대세는 강화학습이다!”딥마인드가 ‘강화학습 대세론’을 뒷받침하는 3D 가상훈련 플랫폼 XLand(X랜드)를 개발했다. 딥마인드는 X랜드 개발에 앞서 지난 5월, ‘보상이면 충분하다(Reward is Enough

www.aitimes.com