AI테크

구글 AI, 대규모 다국어 음성-음성 번역 말뭉치 공개

AI타임스 2022. 4. 6. 14:24

21개 언어에서 영어로 음성-음성 번역 쌍으로 구성된 데이터 세트 ‘CVSS’ 공개
음성-텍스트 번역 단계 없이 직접 음성에서 음성으로 번역하는 시스템에 활용
190만 시간 분량의 표준 음성 버전(CVSS-C)과 원본 음성 버전(CVSS-T)을 제공

 

구글이 21개 언어에서 영어로 문장 수준의 음성-음성 번역 쌍으로 구성된 데이터 세트를 공개했다.(사진=셔터스톡)

구글이 음성을 듣고 다른 언어의 음성으로 통역하기 위한 음성 대 음성 번역 말뭉치를 공개했다. 21개 언어에서 영어로 문장 수준의 음성-음성 번역(S2ST) 쌍으로 구성된 CVSS(Common Voice-based Speech-to-Speech Translation Corpus) 데이터 세트는 별도의 처리없이 직접 S2ST 모델을 훈련하는데 사용할 수 있다.

 

한 언어에서 다른 언어로 음성을 자동으로 번역하는 S2ST는 다른 언어를 사용하는 사람들 간의 의사 소통 장벽을 허무는 데 중요하다. 일반적인 기존 S2ST는 ASR(자동 음성 인식), MT(음성-텍스트 번역) 및 TTS(텍스트-음성 변환) 기능이 순차적으로 실행되는 3단계의 음성-텍스트-음성 변환 시스템이다. 

 

최근에는 음성-텍스트 번역 단계 없이 직접 음성-음성 변환하는 다이렉트(direct) S2ST 시스템이 기존 S2ST 모델에 비해 번역 지연을 줄일 수 있을 뿐 아니라 음성, 감정, 어조 등의 원래 음성에서 비언어적인 정보를 보다 잘 보존할 수 있는 잠재력을 가지고 있기 때문에 주목을 받고 있다. 그러나 다이렉트 S2ST 모델은 음성-음성 번역 쌍으로 구성된 데이터 세트에 대해 학습해야 하지만 이러한 데이터 세트를 찾기가 극히 힘들다.

 

구글은 이러한 새로운 세대의 S2ST에 대한 연구와 인공지능 음성 변환 애플리케이션의 개발을 촉진하기 위해 음성 대 음성 변환 쌍을 포함하는 음성-음성 번역 말뭉치인 '대규모 다국어 음성-음성 번역 코퍼스’ CVSS를 지난 1일 오픈소스로 공개했다. 

 

CVSS는 메타의 다국어 음성-텍스트 번역 데이터 세트인 'CoVoST 2 ST(음성-텍스트) 번역 코퍼스'에서 직접 파생됐다.

CoVoST 2는 21개 언어에서 영어로, 영어에서 15개 언어로 음성-텍스트 번역 쌍을 제공한다. CVSS는 CoVoST 2에서 제공하는 음성-텍스트 번역 쌍을 최첨단 TTS(텍스트 대 음성) 시스템을 사용해 번역 음성으로 합성한다. CVSS는 21개 언어에서 영어로 문장 수준의 병렬 음성-음성 번역 쌍을 제공한다. 

 

CVSS에서 각 언어(X)와 영어(En) 쌍의 원본 음성(source)과 번역 음성(target)의 양(시간).(사진=구글)

특히 구글의 CVSS는 서로 다른 초점을 가진 연구를 용이하게 하기 위해 CVSS-C와 CVSS-T 두 가지 버전의 영어 번역 음성을 제공한다. 

 

CVSS-C는 모든 번역 음성을 한 명의 합성 음성으로 제공한다. 이러한 속성은 대상 음성의 모델링을 용이하게 하고 음성 품질이 더 중요한 일반 사용자 애플리케이션에 적합한 고품질 번역 음성을 생성할 수 있도록 한다.

 

CVSS-T는 원본 음성에서 캡처한 목소리로 번역 음성을 제공한다. 각 S2ST 쌍은 다른 언어임에도 불구하고 양쪽에서 비슷한 목소리를 가지게 된다. 이 때문에 데이터 세트는 영화 더빙과 같이 정확한 음성 보존이 필요한 모델을 구축하는 데 적합하다.

 

CVSS는 원본 음성과 함께 두 개의 S2ST 데이터 세트에는 각각 1,872시간 및 1,937시간의 음성이 포함되며, 번역 음성 외에도 번역 음성의 발음과 일치하는 정규화된 숫자, 통화, 줄임말 등 번역 텍스트도 제공한다. 예를 들어 ‘100%’는 ‘one hundred percent’로, ‘King George II’는 ‘king george the second’로 정규화된다. 모델 교육과 평가 표준화에 도움이 될 수 있다.

 

CVSS는 구글 라이선스(저작자 표시 4.0 국제-CC BY 4.0)에 따라 배포되며 누구나 무료로 내려 받을 수 있다.

 

AI타임스 박찬 위원 cpark@aitimes.com

 

Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.com/)
무단전재 및 재배포 금지

 

 

구글 AI, 대규모 다국어 음성-음성 번역 말뭉치 공개 - AI타임스

구글이 음성을 듣고 다른 언어의 음성으로 통역하기 위한 음성 대 음성 번역 말뭉치를 공개했다. 21개 언어에서 영어로 문장 수준의 음성-음성 번역(S2ST) 쌍으로 구성된 CVSS(Common Voice-based Speech-to-

www.aitimes.com