AI산업

바이두, AI 수화 플랫폼 출시…”어디서나 수화 가능해”

AI타임스 2022. 3. 8. 13:15

몇 분 만에 수화 번역 및 실시간 통역이 가능한 AI 수화 플랫폼 출시
다양한 장소에서 광범위한 사용을 위한 일체형 AI 수화 번역기 출시
음성 인식의 명확성, 수화 번역의 정확성, 수화 동작의 능숙함을 해결
수화 서비스로의 접근성을 향상시켜 청각 장애인의 의사 소통 지원

 

바이두의 AI 수화 플랫폼이 생성한 수화 디지털 아바타.(사진=바이두)

바이두(Baidu)가 몇 분 내에 수화 번역과 실시간 통역을 위한 디지털 아바타를 생성할 수 있는 AI 수화 플랫폼을 출시했다. 이 플랫폼은 수화 서비스에 대한 접근성을 향상시켜 청각 장애인이나 난청인의 의사 소통에 도움을 주는 것을 목표로 한다. 플랫폼을 사용해 개발된 AI 수화 통역사는 2022 베이징 동계 패럴림픽 기간 동안에도 임무를 수행한다.

 

또한 플랫폼과 함께 일체형 AI 수화 번역기가 출시되어 오프라인으로 간소화된 설정 프로세스와 플러그 앤 플레이 기능을 갖춘 원스톱 솔루션을 제공한다. 일체형 AI 수화 번역기는 대규모 배포가 가능하기 때문에 병원, 은행, 공항, 버스 정류장이나 기타 공공 장소와 같은 광범위한 사용 시나리오에 맞게 설계됐다.

 

바이두의 부사장인 티안 위(Tian Wu)는 “AI로 인해 디지털 아바타의 생산 및 운영 비용이 크게 감소해 AI 수화를 확산하고 더 많은 청각 장애인에게 서비스를 제공할 수 있게 됐다”고 말했다. 이어 “오늘날 중국에는 2,780만 명의 청각 장애인 및 난청인이 있지만 그들의 요구에 부응할 자격을 갖춘 전문가가 10,000명도 되지 않는다. 이러한 격차는 의료 및 법적 환경에서 특히 분명하다”고 덧붙였다. 

 

AI 수화 플랫폼과 일체형 AI 수화 번역기는 온라인 및 오프라인 환경에서 청각 장애인들이 직면한 이러한 심각한 격차를 메우고 의사 소통의 어려움을 해결하도록 설계됐다. 온라인으로 공부하거나 교류하려는 청각 장애인을 위해 플랫폼은 일반적으로 사용되는 모바일 응용 프로그램, 웹 사이트 및 미니 프로그램에 통합돼 몇 시간 내에 수화 비디오 합성 및 라이브스트림 합성, 텍스트 대 텍스트 변환, 수화 번역 및 오디오-수화 번역과 같은 기능을 수행할 수 있다. 

 

바이두의 일체형 AI 수화 번역기.(사진=바이두)

일체형 AI 수화 번역기는 공공 서비스의 접근성을 향상시키기 위해 오프라인 시나리오에 맞게 설계된다. 일체형 AI 수화 번역기는 오프라인 버전 V3와 클라우드 연결 버전 P3의 두 가지 모델로 제공된다. 둘 다 AI 수화 플랫폼의 핵심 기능이 내장돼 ASR 음성 인식, 음성 번역 및 인물 렌더링을 구현할 수 있다. 이 기능은 청각 장애인의 자율성을 강화할 수 있는 놀라운 잠재력을 제공한다. 예를 들어 청각 장애인은 별다른 도움 없이 병원을 방문해 등록, 상담, 수납 및 약품 수령의 복잡한 프로세스를 쉽게 관리할 수 있다. 앞으로 청각 장애인이 독립적으로 여행하고, 식사하고, 일하는 것도 가능하게 될 것이다..

 

구어간 번역와 달리 수화 번역은 말을 단어별로 번역하지 않기 때문에 더 복잡하다. 대신 문장의 실제 의미를 표현하기 위해 언어를 정제하거나 어순을 조정해야 한다. 상대적으로 거의 사용되지 않는 언어이기 때문에 기계 학습에 사용할 수 있는 수화 데이터는 매우 제한적이다. 또한 이해를 돕기 위해 입술 언어와 표정이 필요하다. 

 

AI 수화를 이해할 수 있도록 하기 위해 바이두의 연구진들은 음성 인식의 명확성, 수화 번역의 정확성, 수화 움직임의 능숙함이라는 세 가지 주요 과제를 해결해야 했다.

 

음성 인식의 명확성을 해결하기 위해 바이두의 자체 개발 SMLTA 음성 인식 모델을 사용해 음향과 언어를 통합한 종단간 모델링 음성 인식을 구현했다. 바이두가 자체 개발한 딥러닝 알고리즘을 기반으로 하는 타겟 훈련은 관광, 의료, 소송 등 다양한 분야에서 단어 정확도를 향상시킨다. 

 

수화 번역의 정확성과 세련미 측면에서 바이두는 미세 조정 가능한 최초의 신경망 기반 수화 번역 모델을 구축했다. 수화 번역 모델을 통해 난청인의 습관에 맞는 자연스러운 수화를 생성하기 위한 어순 조정, 단어 매핑 및 길이 제어 등의 수화 번역 지식을 실제 데이터에서 자동으로 학습할 수 있다. 

 

수화 번역의 정확성을 보장하기 위해 바이두는 중국의 500명 이상의 청력 손실 학자와 학생을 초대해 수화 자료를 확대하고 조사했으며 많은 사람들이 자원 봉사자로 프로젝트에 참여했다. 텐진 공과대학의 청각 장애인 기술 대학 부학장인 텐텐 유안(Tiantian Yuan)은 “지역 사회를 위한 이러한 격차를 메우기 위해 바이두와 협력하는 데 기여한 것을 매우 영광스럽게 생각한다”고 말했다.

 

수화 동작의 유창함을 보장하기 위해 AI 수화 플랫폼은 국립 수화 사전을 기반으로 거의 11,000 동작을 ‘동작 융합 알고리즘’을 이용해 분류했다. 그 결과 모든 디지털 수화 제스처가 사람과 같은 일관성과 표현 수준을 갖게 됐다. 또한 4D 스캐닝 기술의 도움으로 입 모양 생성의 정확도가 최대 98.5%까지 최적화됐다.

 

AI타임스 박찬 위원 cpark@aitimes.com

 

Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.com/)
무단전재 및 재배포 금지

 

 

바이두, AI 수화 플랫폼 출시…”어디서나 수화 가능해” - AI타임스

바이두(Baidu)가 몇 분 내에 수화 번역과 실시간 통역을 위한 디지털 아바타를 생성할 수 있는 AI 수화 플랫폼을 출시했다. 이 플랫폼은 수화 서비스에 대한 접근성을 향상시켜 청각 장애인이나 난

www.aitimes.com