클레온, 다국어 자동 더빙 AI 솔루션 '클링' 소개
인물 음성 맞게 입모양까지 합성 가능..."실감나"
영상 2시간 분량을 더빙하는 데 3일정도 소요
실시간 기능 갖추면 향후 여러 분야 확장 가능
영상 속 입모양에 맞춰 자연스럽게 더빙하는 기술이 나왔다. 인물의 목소리를 인공지능(AI)이 학습해 다국어로 자동 더빙하는 방식이다. 국내 AI 스타트업 ‘클레온(KLleon)’이 만들었다. 실시간 더빙이 가능해지면 향후 국제 컨퍼런스, 해외지사 온라인 미팅 등에 유용할 전망이다. 해당 기업은 그동안 딥러닝 기반 ‘딥휴먼’ 기술로 가상인간 분야뿐만 아니라 새로운 플랫폼까지 지속적으로 개발해왔다.
클레온이 3일 공개한 솔루션 '클링(klling)'은 영상 속 인물의 목소리를 학습해 다국어로 자동 더빙하는 기술이다. 인물의 목소리 그대로 더빙할 수 있다. 특히 언어별 발음에 맞게 입모양까지 합성해 어색함을 덜었다. 현재 한국어·중국어·일본어·영어·스페인어 더빙이 가능하다. 출시는 올 상반기로 예정돼있다.
해당 솔루션 원리는 간단하다. '디노이징'으로 영상 속 인물 음성을 배경 소음과 분리한다. 그 과정에서 나온 인물 목소리를 AI가 딥러닝으로 학습한다. 음성은 30초 이상이어야 한다. AI는 인물의 말투와 억양, 빠르기, 발음, 음성의 높낮이 등을 분석하고 배운다. 최종적으로 학습된 인물의 목소리 특성이 다른 언어로 어떻게 표현될지 다듬으면 하나의 언어 모델이 만들어지는 방식이다.
다국어 음성은 더빙할 언어로 대사를 번역하고 TTS(Text to Speech) 기술을 활용해 대사를 생성한다. 만들어진 다국어 음성을 원본 영상에 넣어 인물의 입모양과 맞추는 작업을 진행한다. 디노이징을 통해 분리한 배경 소음을 다시 삽입하면 같은 목소리로 더빙된 다국어 영상이 나온다.
클링은 영상 2시간 분량을 더빙하는 데 3일이 소요 된다. 기존 더빙 기술에 비해 간단하고 신속하다. 예를 들어 비슷한 AI 더빙 솔루션 ‘딥덥(Deepdub)’ 경우 분 단위의 목소리 데이터가 필요하고 2시간 영화 더빙에 4주 이상 걸린다. 클레온 측은 “번역·더빙이 가능한 전문 인력을 찾고 외주 맡기는 복잡한 과정 없이도 다국어 콘텐츠를 제작할 수 있다”고 강조했다.
해외 강의·국제 컨퍼런스·해외지사 미팅 활약 기대
![](https://blog.kakaocdn.net/dn/sWChh/btruTEHUMJI/9Fk2aaQIHvEbOJbVRb79LK/img.png)
클링이 실시간 더빙까지 가능해지면 외국어 강의·국제 컨퍼런스·비대면 미팅 분야까지 확장할 수 있다. 강의 분야에서는 이해하기 쉬운 언어로 더빙함으로써 학습 내용에만 집중할 수 있다는 게 큰 장점이다. 강의를 청각적 형태로 제공하는 더빙의 경우 학습 내용을 들으면서 동시에 자료까지 볼 수 있어 효율적이다.
클레온 측은 테드(TED) 등 국제 컨퍼런스를 가장 기대되는 분야로 꼽았다. 전 세계 사람들이 참가하는 컨퍼런스에서 실시간 자동 더빙이 도입되면 참가자 모두 시간차 없이 내용을 공유하고 소통할 수 있어서다. 자막을 읽는데 불편한 장애인, 어린이, 노인의 접근성까지 높일 수 있다.
국제 컨퍼런스뿐만 아니라 해외 바이어·해외지사와 온라인 미팅을 할 때도 쓸 수 있다. 클레온 관계자는 “코로나19로 비대면 미팅이 보편화됐다”며 “부담 없이 각자 편한 언어로 대화할 수 있어 효용이 높을 것으로 기대된다”고 말했다.
클레온, 그동안 어떤 기술 내놨나
![](https://blog.kakaocdn.net/dn/cCgGKD/btruXTrGhKH/qzQ6Z0bKwugPwJWJSMSbkK/img.jpg)
클레온은 사진 1장과 음성 데이터 30초 만 있으면 가상인간을 만들 수 있는 딥러닝 기반 딥휴먼 기술을 개발한 기업이다. 딥휴먼은 AI 딥러닝 기반 영상생성 기술이다. 이미 만들어진 영상에 나온 얼굴을 다른 사람 얼굴과 목소리로 바꾼다.
목소리를 입히면 영상 속 인물이 목소리에 맞춰 입모양을 바꾸는 것이 가능하다. 우리말로 녹음한 목소리를 탑재해도 자체 개발한 음성통역(STS) 기술로 영어, 중국어, 일본어로 변환할 수 있다.
클레온의 영상생성 기술 핵심은 '경량화'다. 한 장의 사진이라는 적은 데이터와 실시간에 가까운 속도로 해당 기술들을 구현할 수 있다. 대량의 데이터와 많은 시간이 소요되는 타 기업 서비스와 차별된다. 진승혁 클레온 대표는 "우리는 '적은 데이터'와 '실시간'이라는 키워드를 목표로 3년 넘게 연구해왔다"고 작년 <AI타임스>와의 인터뷰에서 강조한 바 있다.
클레온은 작년 새로운 SNS 플랫폼인 '카멜로'도 출시했다. 페이스북이 텍스트, 인스타그램이 이미지, 제페토가 애니메이션, 클럽하우스가 사운드를 기반으로 한다면 카멜로는 영상을 기반으로 한다. 사용자는 터치 한 번으로 얼굴을 변환하는 등 다양한 영상을 무료로 만들고 공유할 수 있다.
클레온 기술은 다양한 경로를 통해 사용자에게 공급되고 있다. CJ ENM과는 멀티채널네트워크(MCN)인 다이아TV에서 다국어 더빙 사업을 진행하고 있다. 웅진씽크빅 등 교육업체와는 실감형 콘텐츠를 제작하고 있다. 책을 읽어주는 서비스에 학습자 본인의 목소리나 부모, 지인의 목소리를 입히는 서비스를 공급 중이다.
AI타임스 김미정 기자 kimj7521@aitimes.com
Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.com/)
무단전재 및 재배포 금지
"인물 음성에 맞는 입모양 합성"...클레온, 다국어 자동 더빙 솔루션 개발 - AI타임스
영상 속 입모양에 맞춰 자연스럽게 더빙하는 기술이 나왔다. 인물의 목소리를 인공지능(AI)이 학습해 다국어로 자동 더빙하는 방식이다. 국내 AI 스타트업 ‘클레온(KLleon)’이 만들었다. 실시간
www.aitimes.com
'AI산업' 카테고리의 다른 글
지라프에이아이랩스, 티맥스메타버스 플랫폼으로 개방형 AI 금융 서비스 추진 (0) | 2022.03.08 |
---|---|
메타-버라이즌 파너트십 체결…메타버스와 5G 융합 (0) | 2022.03.08 |
글로벌 빅테크 기업들 “우크라이나 돕겠다” 지원 이어져 (0) | 2022.03.03 |
퀄컴, 5G 모뎀 ‘스냅드래곤 X70’ 공개…세계 최초 AI 프로세서 탑재 (0) | 2022.03.03 |
MWC2022에 '한국판 AI·메타버스' 떴다 (0) | 2022.03.03 |