보상 극대화 통해 스스로 학습하는 강화학습 한 가지 태스크에만 뛰어난 성능이 최대 단점 개별적 환경 배제하고 통합 시뮬레이션 제작 4천개 시뮬레이션 안에 70만개 게임(훈련) 포함 “대세는 강화학습이다!” 딥마인드가 ‘강화학습 대세론’을 뒷받침하는 3D 가상훈련 플랫폼 XLand(X랜드)를 개발했다. 딥마인드는 X랜드 개발에 앞서 지난 5월, ‘보상이면 충분하다(Reward is Enough)’는 제목의 논문을 발표하며 머지않은 미래에 강화학습이 범용인공지능(AGI) 수준으로 발전하고, 일상을 지배할 것이라고 예견한 바 있다. X랜드는 이같은 자사 주장이 실현될 수 있다는 것을 증명하는 새로운 강화학습 훈련법이다. 연구진은 지난달 27일(현지시간) 공식 블로그에 X랜드 개발 배경과 에이전트 훈련 방법에 ..