AI기업인터뷰

[인터뷰] 김승환 LG AI연구원 비전랩장 상무 "초거대 멀티모달 엑사원이 그리는 미래는"

AI타임스 2022. 3. 16. 17:41

엑사원, 양방향 소통 가능한 세계 첫 초거대 멀티모달
텍스트와 이미지 이해해 사람에게 새로운 영감 제공
AI 휴먼 '틸다'는 아티스트, 아트 분야 활용 가능성 높아
초거대 AI로 불거진 양극화 문제 "LG가 해결 앞장설 것"

 

김승환 LG AI연구원 비전랩장 상무. (사진=김동원 기자)

LG AI연구원이 지난해 12월 공개한 초거대 인공지능(AI) '엑사원(EXAONE)'. 이 초거대 AI 모델은 다른 AI 기술과 사뭇 다르다. 사람의 언어를 이해해 이미지를 만들어주는가 하면 이미지를 인식해 텍스트로 설명을 해준다. 기존에 텍스트만 이해했던 초거대 AI 모델과는 확연한 차이점이다.

 

사람과 비교하면 모범생 중의 모범생, 흔히 말하는 '사기 캐릭터'라고 볼 수 있다. 보통 초거대 AI는 모범생으로 비유된다. 수많은 정보를 빠르게 이해할 수 있고 하나를 알면 열을 알 수 있다. 뿐만 아니라 스스로 사고하고 판단하는 것이 가능하다. 그런데 지금까지 이 모범생들은 대부분 글에 머물러 있었다. 책을 보고 관련 정보를 스스로 공부해 더 좋은 답안을 내놓는 학생들이 많았다.

 

그런데 엑사원은 다르다. 글도 잘 알고 그림도 잘 그린다. 그림을 보고 감상평 등을 쓸 수 있고 글을 보고 이미지를 상상할 수 있다. 기존 모범생들이 글에서 영감을 얻어 소설, 에세이, 칼럼 등 텍스트로 된 콘텐츠를 창작했다면 엑사원은 글에서 영감을 얻어 디자인 창작을 할 수 있다. 반대로 디자인에서 영감을 얻어 텍스트 콘텐츠를 창작하는 것도 가능하다. 엑사원은 세계에서 처음으로 선보여진 텍스트와 이미지 양방향 소통이 가능한 '초거대 멀티모달'이기 때문이다.

 

멀티모달 AI는 다양한 모달리티를 동시에 받아들이고 사고할 줄 아는 AI 모델을 뜻한다. 여기서 양방향 소통이 가능하다는 것은 텍스트와 이미지, 이미지와 텍스트 등 모달리티 간 양방향 사고가 가능하다는 것을 의미한다. 카카오가 선보인 초거대 멀티모달 '민달리'와 비교하면 이해하기 쉽다. 민달리는 텍스트를 이미지로 만드는 것은 가능하지만, 이미지를 텍스트로 만드는 것은 못 한다. 하지만 엑사원은 양방향 작업을 할 수 있다.

 

최근 LG AI연구원이 선보인 AI 휴먼 '틸다'가 멀티모달의 대표 사례다. 틸다는 엑사원을 두뇌로 탑재한 가상 인간이다. 이 AI 휴먼은 2월 열린 'F/W 뉴욕 패션위크'에서 박윤희 디자이너와 협업해 '금성에서 핀 꽃'을 모티브로 디자인한 의상들을 선보였다.

 

협업은 틸다가 기존에 보지 못한 새로운 이미지를 창작하면 이에 영감을 받은 박 디자이너가 디테일을 더해 의상을 제작하는 방식으로 진행됐다. 틸다는 '무엇을 그리고 싶니?', '금성에 꽃이 핀다면 어떤 모습일까?'라는 질문에 사람처럼 다각도로 생각해 새로운 이미지를 창작했다.

 

이 사례는 엑사원이 언어를 넘어 비전(Vision) 모델을 통해 시각 분야로 창작 범위를 확대했다는 것을 보여준다. 그렇다면 엑사원은 어떻게 만들어졌고 어떤 역할을 할 수 있을까? 이 궁금증을 풀어보고자 엑사원 개발을 주관한 김승환 LG AI연구원 비전랩장 상무를 만나 자세한 얘기를 들어봤다.

 

김승환 LG AI연구원 상무는 엑사원이 가진 차별점으로 ▲양방향 멀티모달 ▲퀄리티 ▲해상도 ▲사용자 편의를 꼽았다. (사진=김동원 기자)

 

엑사원이 다른 초거대 AI 모델과 차별된 부분은?


"틸다를 통해 엑사원이 의상 디자인을 창작할 수 있다는 것을 보여준 건 아주 작은 사례에 불과해요. 엑사원이 할 수 있는 일은 저조차 쉽게 말하기 어려울 정도로 무궁무진하죠." LG AI연구원 사옥에서 만난 김승환 상무는 엑사원에 대한 기대감과 확신에 가득 차 있었다.

 

김 상무는 엑사원을 개발하며 다른 초거대 AI 모델과 차별점을 둔 점에 대해 ▲양방향 멀티모달 ▲퀄리티 ▲해상도 ▲사용자 편의 등 4가지를 꼽았다. 

 

그는 "기존 초거대 AI는 언어를 입력하면 언어로 출력되는 것이 대부분이었다"면서 "오픈AI의 경우 언어를 입력하면 이미지가 출력하는 모델을 만들었지만 언어 외 다른 것을 입력하는 모델은 아직 없었다"고 말했다. 이어 "언어든 이미지든 모두 입·출력을 할 수 있는 모델을 만들면 어떨까 싶어 양방향 트랜스포머로 접근해 엑사원을 개발하게 됐다"고 밝혔다.

 

엑사원이 이미지를 보여주는 만큼 퀄리티적인 부분도 중요했다. 사람처럼 이미지를 표현할 수 있어야 실제 상용할 수 있는 영역이 넓기 때문이다. LG는 이를 위해 이미지를 하나 하나 레이블링하는 방식이 아닌, 이미지 전체를 텍스트로 묘사하는 학습 방법을 진행했다. 그 결과 일반 사람들이 사람이 그린 그림과 AI가 그린 그림을 분간하기 어려울 정도로 기술 퀄리티를 높일 수 있었다.

 

실제로 김 상무가 엑사원이 2022년 임인년(壬寅年)을 맞아 그렸다고 보여준 호랑이 그림은 사람이 그렸는지 AI가 그렸는지 분간하기 어려웠다. 그는 "실제 상용 수준에 올라갈 수 있는 퀄리티 부분에 많은 고민을 했다"면서 "초거대 AI인 만큼 다른 AI와 차별화를 두고 싶었다"고 말했다.

 

엑사원이 호랑이 텍스트를 기반으로 만들어낸 이미지 중 하나. 엑사원은 실제 사진과 구별이 어려울 정도로 이미지를 제작했다. (사진=LG AI연구원 제공)

엑사원이 기존 AI와 대조되는 또 다른 차별점은 해상도다. 엑사원이 제작한 이미지는  2048x2048 해상도까지 가능하다. 오픈AI의 달리와 비교하면 상당히 큰 사이즈다. 김 상무는 "의상 디자인으로 이미지를 사용하거나 TV, 지면 등에 이미지를 제대로 선보이기 위해선 해상도 향상이 큰 과제였다"면서 "현재 2048까지 생성할 수 있는 기술을 1차로 개발했고 지금도 계속 발전시켜나가고 있다"고 설명했다.

 

LG는 엑사원을 개발하면서 사용자 편의성도 고려했다. 사용자가 실제로 원하는 이미지를 엑사원이 생성할 수 있게끔 기술을 개발했다. AI가 사용자가 텍스트를 입력하는 의도가 무엇인지 제대로 이해하고 이를 이미지로 잘 표현할 수 있도록 하는 기술을 구축했다.

 

실제로 엑사원 데모버전을 체험한 결과 AI는 텍스트를 입력하는 의도에 맞춰 많은 이미지를 보여줬다. 텍스트는 상세히 입력할수록 좋았다. 예를 들어 '꽃이 핀 산'이라고 쓰기보단 '노란색 꽃과 분홍색 꽃이 피어있고 나무가 무성한 봄의 산 풍경'이라고 텍스트를 입력했을 때 이에 따른 이미지를 정확히 보여줬다.

 

김 상무는 "사용자가 원하는 텍스트를 많이 쓸수록 의도한 이미지가 잘 생성된다"며 "사용자가 진정으로 원하는 이미지가 무엇인지 AI가 찾아내기 위해 텍스트를 이해하는 기술을 고도화했다"고 밝혔다.

 

엑사원 두뇌로 탑재한 AI 휴먼 '틸다'가 할 수 있는 일은?


엑사원 두뇌를 탑재한 AI 휴먼 틸다는 LG AI연구원이 보여준 엑사원 상용화 첫 사례다. 틸다와 협업한 박윤희 디자이너는 "틸다와 함께 작업한 결과 4개월 걸리던 작업을 1.5개월로 단축할 수 있었다"고 밝혔다.

 

틸다는 이번 디자인 작업에서 조력한 부분은 '영감'이다. 수많은 이미지를 학습한 틸다가 '금성에서 핀 꽃'을 상상해 그린 이미지를 생성하면 박윤희 디자이너가 이를 적용해 의상을 디자인했다. 박 디자이너는 행사에서 "뉴욕 패션위크와 같은 큰 무대에 서기 위해 가장 중요한 것은 상상력"이라며 "새로운 디자인과 영감을 찾기 위해서 몇 달 전부터 수십 명의 디자이너와 컬렉션을 준비해야 했는데, 이번에 틸다와 함께 작업하며 한 달 반 만에 모든 준비를 끝낼 수 있었다"고 밝힌 바 있다.

 

틸다가 창작한 패턴 이미지(배경)를 그대로 확장해 의상으로 제작한 사례. (사진=LG AI연구원, 편집=김동원 기자)

틸다는 2억 5000만 장의 이미지와 텍스트를 학습했다. 보통 이미지를 많이 학습한다고 했을 때 보는 이미지는 약 10만 장 정도다. 무려 2500배 차이가 난다. 학습한 양이 많은 만큼 틸다는 사람이 상상할 수 없는 규모의 지식을 갖고 있다고 볼 수 있다.

 

알파고 사례와 비슷하다. 알파고는 바둑을 두면서 사람이 생각할 수 없는 수를 두면서 이세돌과의 경기에서 이겼다. 김 상무는 "알파고는 바둑 경기에서 기존 틀을 깬 다양한 수를 표현했다"면서 "엑사원을 탑재한 틸다도 보통 디자이너들이 생각하지 못했던 새로운 디자인을 선보이며 디자이너 분들을 놀라게 했다"고 말했다.

 

인터뷰에 화상으로 참여한 임재호 LG AI연구원 AI휴먼컴퍼니 섹터장은 "처음 틸다를 뉴욕위크에 선보인 것은 남들과 분명히 다른 것을 전달할 수 있다는 자신감이 있었기 때문"이라며 "실제로 틸다는 디자인 작업에서 기존 디자이너가 접근하지 못했던 새로운 패턴과 상상력을 자극할 수 있는 요소를 보여줬다"고 밝혔다.

 

LG AI연구원은 틸다에 대해 'AI 아티스트'라고 표현했다. 의상 디자인뿐 아니라 다양한 예술 작업을 할 수 있다는 것을 상징하는 표현이었다. 김 상무는 의상 디자인 외 구체적으로 할 수 있는 영역에 대해선 인테리어를 꼽았다. 

 

그는 "엑사원을 활용해 실내 인테리어 디자인과 건축 설계를 할 수 있는 가능성을 보고 있다"며 "사람의 역할을 대신하는 것이 아니라 사람에게 창의적인 영감을 줄 수 있는 부분에 포커스를 맞춰 연구를 진행하고 있다"고 설명했다.

 

틸다가 '현대의 세련된 거실 인테리어'라는 키워드로 생성해낸 이미지 모습. 모두 실제 이미지가 아닌 엑사원이 만들어낸 이미지다. (사진=LG AI연구원 제공)

LG AI연구원은 데모 버전을 통해 엑사원이 할 수 있는 인테리어 디자인을 실제로 보여줬다. 엑사원이 '현대의 세련된 거실 인테리어'를 키워드로 보여준 이미지에서는 실제로 적용할 수 있는 수많은 디자인이 있었다.

 

임 섹터장은 "아트라는 영역에는 그림과 미디어아트 등 다양한 분야가 존재한다"면서 "틸다의 다음 작업으로는 아마 '파인 아트' 영역이 되지 않을까 조심스럽게 생각하고 있다"고 밝혔다.

 

초거대 AI로 붉어지는 양극화 문제, LG는 어떻게 대처할까


사실 초거대 AI는 대기업이 아니라면 도전하기 쉽지 않은 영역이다. 입장료만 1000억원이라는 소리가 있을 정도로 구축 비용이 비싸고 운영단가가 높다. 기술을 구축한다고 해도 상용화 가능성이 불분명해 투자 대비 효과가 명확하지 않다. 따라서 AI 업계에선 초거대 AI를 구축한 대기업 위주로 AI 양극화 현상이 발생할 수 있다는 우려가 있는 것도 사실이다.

 

LG AI연구원은 이 양극화 문제를 없앨 수 있는 방향으로 사업을 전개할 예정이라고 밝혔다. 엑사원을 기반으로 파트너십 구축을 확대하고 누구나 서비스를 사용할 수 있도록 AI 개발을 진행할 계획이라고 설명했다.

 

2월 22일 발족한 '엑스퍼트 AI 얼라이언스(Expert AI Alliance)'는 엑사원 기반 파트너십의 대표 모델이다. 이번 얼라이언스에는 ▲구글 ▲우리은행 ▲셔터스톡 ▲엘스비어 ▲EBS ▲고려대의료원 ▲한양대병원 ▲브이에이코퍼레이션 ▲LG전자 ▲LG화학 ▲LG유플러스 ▲LG CNS 등이 참가했다. 참가 기업들은 LG AI연구원과 엑사원을 활용해 기업 경쟁력을 높이는 연구를 진행할 계획이다.

김승환 상무는 "LG AI연구원은 한국의 AI 발전을 위해 많은 것을 공유하고 기여하겠다"며 밝게 웃었다. (사진=김동원 기자)

김 상무는 "앞으로 협력 파트너사는 계속 확대할 예정"이라고 밝혔다. 이어 "초거대 AI를 개발하기 위해서는 엄청난 인프라가 필요한 것은 사실인데 우리는 누구나 서비스를 원하면 사용할 수 있도록 API를 정의해서 AI를 개발하고 있다"고 덧붙였다.

 

LG AI연구원은 초거대 AI를 활용한 연구를 넓히기 위해 우수 인재를 대상으로 한 인턴십 프로젝트도 진행하고 있다. 또 대학 연구소에 협력하는 등 다양한 노력도 병행 중이다. 지난 2월 28일에는 서울대 공과대학과 AI 공동연구센터 설립을 위한 업무협약(MOU)를 체결하며 차세대 AI 응용 기술 연구 추진 등에 협력하기로 했다.

 

김 상무는 "기업은 선행 연구들을 하다 보니 자원과 데이터가 풍부하고 대학은 인력이 많은 장점이 있다"며 "인프라를 함께 공유하고 연구진과 아이디어 회의 등을 할 수 있는 환경이 조성되면 국가 차원에서 AI 발전이 이뤄지지 않을까 생각한다"고 말했다. 이어 "LG AI연구원에서는 한국의 AI 발전을 위해 많은 것을 공유하고 기여하겠다"고 강조했다.

 

AI타임스 김동원 기자 goodtuna@aitimes.com

 

Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.co.kr/)
무단전재 및 재배포 금지

 

 

[인터뷰] 김승환 LG AI연구원 비전랩장 상무 "초거대 멀티모달 엑사원이 그리는 미래는" - AI타임스

LG AI연구원이 지난해 12월 공개한 초거대 인공지능(AI) \'엑사원(EXAONE)\'. 이 초거대 AI 모델은 다른 AI 기술과 사뭇 다르다. 사람의 언어를 이해해 이미지를 만들어주는가 하면 이미지를 인식해 텍

www.aitimes.com