"더 똑똑한 'AI 비서' 온다"...메타, 사람 말 더 정확히 듣는 언어모델 소개

AI테크

"더 똑똑한 'AI 비서' 온다"...메타, 사람 말 더 정확히 듣는 언어모델 소개

AI타임스 2022. 1. 11. 15:25

자체 감독(Self-supervised) 프레임워크 'AV-HuBERT' 소개
음성·입술 움직임 동시에 훈련하는 최초 언어모델 시스템
연구진 "스마트폰·AR 안경에 탑재하면 효과 극대화"

AV-HuBERT는 시각적 입술 움직임과 말소리 데이터를 통합해 여러 명이 동시에 말하거나 인파로 가득한 환경에서도 사용자 말을 정확히 잡아 알아듣는다. (출처=메타플랫폼)

사람 말을 기존 언어모델보다 더 정확히 이해하는 시스템이 나왔다. 입술 움직임과 음성 데이터로 학습해 여러 명이 동시에 말하거나 인파로 붐빌 때도 사용자 말만 정확히 잡아 알아듣는다. 이 기술을 스마트폰이나 증강현실(AR) 안경에 탑재하면 더 똑똑한 '인공지능(AI) 비서'가 탄생할 전망이다.

메타플랫폼(이하 메타, 구 페이스북)이 7일 시청각 데이터로 훈련해 사람 말을 더 정확히 이해하는 최첨단 자체 감독(Self-supervised) 프레임워크 'AV-Visual Hidden Unit BERT(AV-HuBERT)'를 소개했다. 라벨링 하지 않은 비디오 데이터에서 음성·입술 움직임을 동시에 사용해 훈련하는 최초 언어모델 시스템이다. 인간이 사용자 말을 이해할 수 있는 수준이다.

메타 연구진은 "해당 모델은 공개적으로 사용할 수 있는 'LRS3(Lip Reading Sentences 3)'과 '복스첼렙(VoxCeleb)' 데이터 세트로 훈련했다"고 말했다. LRS3은 테드(TED)와 테드엑스(TEDx) 강연에서 수집한 음성을 모아둔 데이터 셋이다. 복스첼렙은 언어 시청각 대규모 데이터다. 이를 통해 사람이 말할 때 내는 목소리와 입술 움직임 조합을 통해 언어를 인식할 수 있다.

적은 데이터로 기존 모델보다 높은 정확도, 낮은 오류율

AV-HuBERT를 스마트폰이나 AR 안경에 탑재된 AI 비서에 적용하면 사용자가 무엇을 말하는지 더 잘 이해할 수 있다. 예를 들어, 클럽이나 공항 같은 소음이 큰 장소에서도 사용자가 명령을 내리면 AI 비서가 명확히 알아들을 수 있다. (출처=메타플랫폼)

AV-Hubert는 현재 기존 음성 인식 시스템보다 75% 더 정확하다. 기존 레이블 1/10 데이터 양만 사용해도 기존 시스템을 훨씬 능가한다. 이 기술이 스마트폰이나 증강현실(AR)안경에 탑재된 AI 비서에 적용하면 우리가 무엇을 말하고 있는지 더 정확히 이해할 수 있다.

연구진은 ▲말소리와 배경 소음이 동일한 경우 ▲말소리가 다른 사람들 목소리와 섞인 시나리오를 만들어 기존 모델 'AV-ASR'과 AV-HuBERT 기능을 비교했다.

말소리와 배경 소음이 똑같이 클 때, 기존 모델 AV-ASR은 25.5%의 오류율을 기록했다. 동일한 조건에서 AV-HuBERT는 3.2%를 보였다.

말소리가 다른 목소리와 섞인 경우, AV-Hubert 모델은 자신에게 명령하는 사람을 빨리 포착하고 그에 집중했다. 언어오류율(WER)은 2.9%을 기록했다. 기존 모델은 오류율 37.3%을 보였다.

시청각 정보가 결합한 AV-HuBERT는 훨씬 적은 양의 비디오 데이터로도 기존 모델보다 효율성이 높다. 메타 연구진은 “세계 대부분 언어에서는 라벨링 된 빅데이터를 얻기 어렵기 때문에, 적은 양으로 더 많은 언어와 더 많은 응용 분야에서 소음 방지 자동음성인식(ASR) 시스템을 구축하는 데 도움 될 것이다”고 설명했다.

연구진은 "이 기술이 스마트폰이나 AR 안경에 탑재된 AI 비서에 적용하면 우리가 무엇을 말하고 있는지 기존보다 더 정확히 이해할 수 있다"고도 말했다. 예를 들어, 클럽이나 공항 같은 소음이 큰 장소에서도 사용자가 명령을 내리면 AI 비서가 명확히 알아들을 수 있다.

AI타임스 김미정 기자 kimj7521@aitimes.com

"더 똑똑한 'AI 비서' 온다"...메타, 사람 말 더 정확히 듣는 언어모델 소개 - AI타임스

사람 말을 기존 언어모델보다 더 정확히 이해하는 시스템이 나왔다. 입술 움직임과 음성 데이터로 학습해 여러 명이 동시에 말하거나 인파로 붐빌 때도 사용자 말만 정확히 잡아 알아듣는다. 이

www.aitimes.com

저작자표시

'AI테크' 카테고리의 다른 글

한국전자통신연구원, 초정밀·고효율 기술로 지난해 큰 성과 (1)	2022.01.13
AI와 IoT 융합한 지능형 사물인터넷, 초지능 시대 연다 (0)	2022.01.11
[위드AI] ⑬ 인공지능이 미래 의료 바꿀까 (0)	2022.01.03
"사람 형체 정확히 골라 생명 불어넣어"...메타, 아동용 애니메이션 SW 소개 (0)	2021.12.30
[CES 2022] "韓 AI 기술력 알린다"…솔트룩스·나무기술·세이프웨어, 출격 채비 (0)	2021.12.29

현재글"더 똑똑한 'AI 비서' 온다"...메타, 사람 말 더 정확히 듣는 언어모델 소개

AI타임스는 인공지능 시대를 독자와 함께 깊이 있게 준비하는 인공지능(AI) 전문 미디어입니다. AI, IOT, 로봇, 딥러닝, 머신러닝, 빅데이터 등 관련 기술과 동향을 정확하고 자세히 전달합니다.

자율주행, ai, 클라우드, 서울대, 반도체, 카카오, 인공지능, KAIST, 의료AI, 초거대AI, 메타버스, AI윤리, 엔비디아, CES2022, 네이버, AI타임스, 과기정통부, 카이스트, KT, 로봇,

Today :
Yesterday :

AI타임스