AI테크

맥도날드가 시작한 자동음성주문 ... 나날이 일상 속으로 깊숙이 파고드는 음성 인식 기술

AI타임스 2021. 11. 2. 16:10

세계 최초의 음성 인식 기술은 1950년대 벨 연구소의 오드리
자연어 처리(NLP)에 의한 머신 러닝 적용해 음성 정보 처리
맥도널드, AI 챗봇 이용해 드라이브 스루에서 음성 주문 구현

 

(출처=셔터스톡)

혼자 사는 변호사 정숙희(36) 씨는 오늘도 재판 때문에 매우 바쁜 하루를 보내고, 퇴근해 집에 왔다. 피곤한 몸이지만, 겨울에 김장만큼은 직접 담가 먹던 그는 기어코 재료를 벌려놓고, 김치를 담그기 시작했다.

 

한창, 시뻘겋게 범벅이 된 손으로 김장 양념을 버무리던 차에 초인종이 울렸다. 밥하기 힘들 것 같아 미리 주문했던 양념치킨이 배달된 것이다. 시간을 재촉하는 배달원의 목소리는 그를 순간 당황스럽게 만들었다.

 

하지만, 그는 문에 대고 누군가를 불렀다. “배달 아저씨야, 문 좀 열어줘!” 마치 열려라 참깨처럼 문은 저절로 열렸다. 하지만 카드를 꺼내서 계산을 치러야 한다. 이 역시 문제가 없다.“구피! 카드를 아저씨에게 갖다 줘!”

 

마치 반려견처럼 가정용 AI 비서 구피가 카드를 배달원에게 갖다 주고, 계산을 끝낸다. 한창 김장을 담그느라, 보일러 켜는 것을 잊은 그녀는 한기를 느꼈다. 하지만 양념 묻은 손으로 리모컨을 찾아서 누르는 일은 번거롭기 짝이 없다. 이 역시도 간단하게 해결된다. “주방 온도 좀 올려줘!”

 

거짓말처럼 보일러 온도조절기가 그의 말을 알아듣고, 주방 온도에 맞게 실내 온도를 조절한다. 한참 만에 김장을 끝낸 그는 허기진 배를 채우기 위해 거실에서 양념치킨을 뜯기 시작했다. 시간은 마침 그가 좋아하는 TV 드라마가 시작할 시간이다. 하지만 손은 다시 한번 양념치킨으로 범벅이다.

 

그는 “전등! 빛 좀 줄여줘, 그리고 TV는 켜줘!” 정말 신기하게도 전등은 알맞게 줄여지고, 자동으로 켜진 TV는 그가 좋아하는 드라마에 맞춰서 채널을 조정해준다.

 

가상의 스마트홈 시대가 서서히 그 모습을 드러내고 있다. 현재 구글 홈은 자동 음성 인식 기술을 기반으로 어느 정도 스마트홈의 리얼한 모습을 구현하고 있다.

 

리모컨 등의 원격제어장치는 직접 걸어가 손으로 눌러야 하는 불편함을 해결했다. 하지만 4차 산업혁명의 시대엔 리모컨의 다이얼 키를 눌러야 하는 번거로움마저 사라지고 있다. 자연어 처리에 의한 자동 음성 인식 기술이 초연결 시대를 펼치고 있기 때문이다.

 

자연어 사용해 음성에 반응

 

음성 인식 소프트웨어는 전화, 컴퓨터, 태블릿 및 기타 기계들이 사람의 말을 수신, 인식 및 이해할 수 있게 한다.

 

지난 6월 18일 다국어 언어 지원 솔루션 개발 기업 ‘수마 링귀 테크놀로지(Suma Linguae Technologies)’는 음성 인식 소프트웨어 기술의 과거, 현재 그리고 미래에 대해 정리하는 글을 블로그에 올렸다.

 

수마 링귀에 따르면, 음성 인식 기술은 동작을 촉발하기 위한 입력으로 자연 언어를 사용해 장치들이 사람의 음성 명령에 반응할 수 있게 한다.

 

음성 기술은 타이핑, 문자 메시지, 클릭 등과 같은 입력 방법을 대체하기 위해 사용되고 있다. 기기와 대화할 수 있는 능력은 일상생활에서 사용하는 대부분 기술을 포함하도록 확장됐다는 것이다.

 

현대의 음성 인식 기술의 첫 번째 공식 사례는 1950년대에 벨 연구소가 설계한 시스템인‘오드리’(Audrey)였다. 방 전체를 차지할 정도로 커다란 오드리는 개발자가 말하는 9자리(숫자 1~9)만 인식할 수 있었지만, 90%의 놀라운 정확도로 인식했지만, 다양한 목소리를 인식할 수 없는 것이 한계이었다.

 

이후 12년이 더 걸려서 1962년 세계 박람회에서 초연된 IBM의 쇼우박스(Shoebox)는 16개의 단어를 인식하고, 구별할 수 있었다.

 

이후, IBM 엔지니어들은 기계들이 각 음소의 소리와 음높이를 어떤 단어를 말하는지를 결정하는 단서로 사용하도록 프로그래밍을 시작했다. 이에 시스템은 미리 프로그램된 성조 정보와 가능한 한 가깝게 소리를 맞추는 쪽으로 진화했다. 사용자는 기계가 말하는 것을 확실히 인식하기 위해 잠시 멈추고 천천히 말해야 했다.

 

1970년대 들어 미 국방성은 음성 인식 기술의 가치를 인정하고, 컴퓨터가 자연스러운 인간 언어를 처리하는 기술을 군사 및 국방 분야에 도입하기 시작했다. 그들은 음성 인식 역사상 가장 큰 프로그램 중 하나인 DARPA의 음성 이해 연구 프로그램에 5년을 투자했다.

 

여기서 유명한 발명품 중 하나인 ‘하피’(Harpy)가 개발됐고, 평균적인 유아들의 어휘인 1,000개 이상의 단어를 인식할 수 있었다.

 

1980년대부터 음성 인식 시스템은 매우 보편화하기 시작해 어린이 장난감으로 진출했다. 1978년, 스피치 칩을 사용하는 스피크앤 스펠(Speak & Spell)이 아이들의 철자 이해를 돕기 위해 도입됐고, 1987년, 월드 오브 원더스의 줄리 인형이 출시됐다.

 

이후, 음향학에서 언어학으로 연구 방향이 바뀌면서, 화자를 구별하는 능력이 발전하기 시작했다. 과학자들은 자연어 처리 (NLP)를 이용해 영어의 규칙으로 시스템을 프로그래밍하는 알고리즘을 발전시켰는데 올바른 구문, 의미론, 그리고 톤 규칙 등을 알아듣는 도구가 나오기 시작했다.

 

드래곤의 첫 음성 인식 시스템인‘드래곤 크립트’(Dragon Crypt)가 출시됐고, 비슷한 시기에 AT&T는 고객 서비스 호출을 처리하기 위해 전화 음성 인식 소프트웨어를 사용했다. 이후, 음성 인식 기술은 자동 주문처리 수준으로 발전하기 시작했다.

 

ASR의 근간은 합성곱 신경망(CNN)

 

올해 5월 24일 다국어 번역 통합 서비스 기업 ‘레브’(Rev)는 블로그 글을 통해 ‘자동 음성 인식 기술 가이드’를 소개했다.

 

음성 인식 도구는 음성신호가 입력되면, 디지털 신호 및 텍스트로 변환 후, 데이터베이스 내 일치하는 제어 명령 존재 여부를 확인하고, 일치하는 명령이 있으면 홈 어플라이언스 내의 각 장치를 제어한다. 이는 자연어 처리에 의해 가능하며, 매우 높은 연산량이 요구된다.

 

자동 음성 인식(ASR)은 인공지능(AI)의 한 형태인 머신러닝(ML) 영역에 속한다. ASR은 음성 입력을 텍스트 출력으로 변환하기 위한 규칙을 코딩하는 일반 음석 인식 기술과 달리 대규모 데이터 세트를 인간 뇌의 아키텍처를 모방하는 합성곱 신경망(Convolutional Neural Network, CNN)과 같은 알고리즘에 공급해 머신러닝(ML) 모델을 훈련하는 것이다.

 

이로써, 모델은 입력을 출력으로 변환하거나, 음성을 텍스트로 변환하는 프로세스인 추론을 점진적으로 더 잘하게 된다

는 것이 전문가들의 설명이다.

 

이런 측면에서 ASR은 음성 데이터를 텍스트 데이터로 변환하는 것과 관련이 있는 반면, 자연어 처리(NLP)는 언어를 이해해 다른 행동을 하게 만든다.

 

예를 들면, 스마트 스피커는 ASR을 사용해 음성 명령을 사용 가능한 형식으로 변환하고, NLP는 사용자가 무엇을 요청하는지 알아내기 위해 사용된다. 따라서, NLP는 ASR보다 의미에 더 신경을 쓴다.

 

대부분의 ASR은 오디오 신호와 단어의 기본 구성 요소 사이의 관계를 나타내는 음향 모델로 시작한다. 디지털 온도계가 아날로그 온도 측정값을 숫자 데이터로 변환하듯이, 음향 모델은 음파를 컴퓨터가 사용할 수 있는 비트로 변환한다.

 

여기서부터 언어와 발음 모델은 그 데이터를 취해서 컴퓨터 언어학을 적용하고, 각 소리를 순서에 따라 그리고 문맥에 맞게 고려하여 단어와 문장을 만든다.

 

선임 스피치 과학자 중 한 명인 미셸 황(Michelle Huang)은 “우리가 지금 연구하고 있는 한 가지 흥미로운 기술은 종단 간 음성 인식으로 새 모델을 쉽게 교육할 수 있어서 더 많은 비영어 언어로 빠르게 확장할 수 있다”고 밝혔다.

 

또 다른 핵심적인 기술로 스피커 분리가 있다. 이는 ASR 컴퓨터가 어떤 스피커가 언제 말하고 있는지 확인할 수 있게 하는 기술이다. 이것은 여러 명의 스피커와의 전화 회의 사용 시에 중요하며, 두 명의 스피커의 동시 연설 시에 혼동을 방지한다.

 

오프라인 ASR의 경우, 영화, 텔레비전, 비디오 게임 또는 기타 미디어 등에서 미리 정확하게 캡션을 생성해 시청자의 이해를 돕고, 청각 장애인이 미디어를 더 쉽게 이용할 수 있도록 만든다.

 

반대로 라이브 ASR을 사용하면, 실시간으로 자막을 몇 초의 대기 시간으로 스트리밍할 수 있다. 따라서 라이브 TV, 프레젠테이션 또는 화상 통화 시에 이상적인 기술이 바로 ASR이다.

 

와튼 고객 분석 백서에 따르면, 의료계에서 물리학자들은 음성으로 지시된 임상 기록을 기계가 이해할 수 있는 전자 의료 기록으로 변환하고, 암, 신경학, 심장학과 같은 질병 영역의 진단 영상 분석과 결합하는 등 관련 정보를 AI 지원 기술에 점점 더 많이 의존하고 있다.

 

수많은 콜센터도 ASR을 도입해 서비스 성과를 높이고 있다. 완전 자동화된 챗봇을 사용하는 문의 센터가 있는가 하면, 고객 지원 상호 작용 모니터링, 문제 해결을 위한 초기 컨택터 분석, 직원 교육 개선 등에도 ASR이 사용된다.

 

사물인터넷(IoT) 기술은 음성 기술과 상호 작용해 온도조절기와 스피커 등과 같은 스마트홈 장치를 최적화하고, 향상된 자동화를 추진하는데 가장 좋은 방법이 되고 있다. 단순히“불을 켜라”라거나,“온도 좀 올려라”라고 말하는 것만으로 실시간 환경을 제어할 수 있기 때문이다.

 

자동 주문처리에 챗봇 이용

 

ASR 기술을 이용해 주문을 처리하는 기업 중의 하나가 바로 글로벌 패스트 푸드 기업 맥도날드다.

 

지난 6월 2일 맥도날드가 시카고 식당 10곳에서 자동 드라이브 스루 주문을 시험하고 있다고 CNBC가 보도했다.

 

이 뉴스를 보도한 레스토랑 전문 리포터 아멜리아 루카스(Amelia Lucas)에 따르면, 시카고의 맥도날드 10개 매장에서 직원들이 맥 너깃과 감자튀김을 주문하는 고객들의 주문을 받지 않고 있다는 것이다.

 

이에 대해 맥도널드 CEO 크리스 켐친스키(Chris Kempczinski)는 “음성 주문 기술을 사용하는 식당들이 약 85%의 주문 정확도를 보이고 있다”고 전했다.

 

맥도널드의 자동주문처리 기술(automated order technology, AOT)은 AI 챗봇을 이용하는 것이다. 고객들이 차에서 내리지 않고, 드라이브 스루에서 음성으로 챗봇에 주문을 하면, 서비스가 제공되는 시스템이다.

 

이를 위해 맥도날드는 시카고, 일리노이즈 등의 매장 10곳에서 자연어 처리(NLP) 기술을 기반으로 실리콘밸리의 스타트업 맥디 테크 랩스(McD Tech Labs)에서 개발한 AI 챗봇을 시험한 바 있다.

 

크리스 사장은 얼라이언스 번스타인에서 열린 전략적 결정 회의에서 “이 지역에서 사람이 받은 주문은 5분의 1만 있으면 된다”고 말했다.

 

한편, 지난달 27일 맥도날드가 IBM에 자동화된 주문 기술 개발 연구소인 맥디테크 랩스를 매각하고 있다고 레스토랑 비즈니스 매거진이 전했다.

 

이 매거진에 따르면, 맥도날드는 다른 레스토랑들에 음성 인식 자동 주문(Automatic Order Taking)을 도입하기 위해 IBM에 매각을 추진하고 있다는 것이다.

 

두 회사는 공동 성명에서 “이 협정이 더 많은 레스토랑에 그 기술을 통합하는 속도를 높이려는 맥도날드의 노력을 가속화할 것”이라고 말했다.

 

맥도날드는 인공지능 회사인 어프렌드를 인수한 후, 지난 2019년에 맥도날드 테크 랩스를 만들었다. 그러나 켐진스키 회장은 “14,000개의 레스토랑에 다양한 메뉴를 제공하고, 새로운 언어를 추가하는 것은 우리의 핵심 역량을 넘어선다”며, 분사를 암시한 바 있다.

 

IBM이 음성 인식 기술과 인공지능에 대한 상당한 전문성을 가지고 있는 왓슨 부서를 통해 이 기술을 확장하기 위해 더 많은 일을 할 수 있을 것으로 믿는다고 그는 주장했다.

 

AI타임스 조행만 객원기자 chohang5@kakao.com 

 

Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.com/)
무단전재 및 재배포 금지

 

 

맥도날드가 시작한 자동음성주문 ... 나날이 일상 속으로 깊숙이 파고드는 음성 인식 기술 - AI타

혼자 사는 변호사 정숙희(36) 씨는 오늘도 재판 때문에 매우 바쁜 하루를 보내고, 퇴근해 집에 왔다. 피곤한 몸이지만, 겨울에 김장만큼은 직접 담가 먹던 그는 기어코 재료를 벌려놓고, 김치를

www.aitimes.com