MS, 감각을 클라우드화하는 코그니티브 서비스...감정 인식 서비스로 진화
보이저X 오토ML 모델 ‘브루’, 영상 속 목소리 텍스트화, 이를 바탕으로 영상 편집, 자막입혀
중요한 건 인식된 정보를 바탕으로 어떤 경험을 만들 것인지에 달려 있어
클라우드 자동화된 ML모델들 고도화...ML기술 직접 개발 줄어들 것
[편집자주] 스마트폰이 없이 살았던 적이 있었을까, 하는 생각이 문득 들 때가 있다. 생각해보면, 세상에 나온 지 10년을 갓 넘었다. 기술이 세상을 바꿔왔듯, 인공지능으로 인한 변화는 여기저기서 많이 감지된다. 알파고나 GPT-3까지 가지 않아도 얼마든지 활용되고 있는 AI 기술들이 많다. 이번 기획에서는 사회적인 이슈로 주목받기도 하지만, 새로운 일상을 제시하는 우리 곁의 AI 기술을 함께 들여다보기로 하자. |
인공지능 기술은 생각보다 가까이에 있다. 머신러닝 기술을 일찌감치 도입한 실리콘밸리 기업들은 이 기술의 놀라움과 함께 가장 먼저 ‘대중화’를 언급했다. 이 기술이 누군가에게 독점되어서 권력처럼 쓰이지 않고 원하는 사람들은 누구나 쉽게 활용할 수 있도록 해야 한다는 것이다.
실제로 구글은 머신러닝(ML)을 쉽게 적용할 수 있는 프레임워크인 ‘텐서플로’를 발표와 함께 오픈소스로 공개했고, 누구나 이를 활용할 수 있도록 문을 열었다. 그리고 이에 화답하듯 아마존 웹서비스, 마이크로소프트 애저를 비롯한 클라우드 서비스들도 텐서플로를 쉽게 활용할 수 있도록 클라우드에 다양한 서비스를 제공하고 있다.
하지만 텐서플로나 파이토치 등 쉽게 머신러닝 모델을 만들고 학습을 할 수 있는 환경이 제공되는 것과 별개로 여전히 모델을 만들고 좋은 데이터를 바탕으로 학습시키는 것은 어려운 일이다. PaaS(서비스로서의 플랫폼)형태의 서비스로 시장 확장을 노리는 클라우드 기업들에게 학습된 모델을 판매하는 것은 자연스러운 흐름일 수 있다.
마이크로소프트는 인공지능과 클라우드의 접목을 내다보고 일찍부터 사람의 감각을 클라우드화하는 코그니티브 서비스를 운영해 왔다. 2015년에는 나이와 성별을 맞추는 ‘하우올드닷넷’을 통해 얼굴에서 보편적인 정보를 판단하는 가능성을 보여주었다. 이후 2016년부터 감정을 읽어내는 ‘페이스 API(Face API)’를 공개하고 표정을 통해 기쁨, 슬픔, 놀람, 화 등의 감정을 인식하는 서비스로 진화했다. 이를 통해 상점들이 고객의 만족도를 파악하거나, 학생이 수업에 집중하고 있는지 알 수 있도록 하는 서비스를 고민해볼 수 있도록 했다.
이 코그니티브 서비스는 지금도 계속해서 진화하고 있다. 감정 뿐 아니라 글자를 읽고, 사진 속 내용을 분석하기도 한다. 대화의 맥락을 읽어내는 챗봇 서비스도 이 코그니티브 서비스에서 출발한다. 사람처럼 말을 알아듣고, 사물을 바라보고, 글자를 읽는 등 ‘인지’ 능력에 대해 누구나 쉽게 접근할 수 있게 되는 것이다.
구글 클라우드 플랫폼의 오토ML(AutoML)도 인공지능의 대중화에 직접적으로 활용되고 있다. 당근마켓은 정책적으로 맞지 않는 게시물을 골라내기 위해 텍스트를 분석하는 텐서플로 기반의 머신러닝 모델을 만들어 썼다. 여기에 오토ML의 비전 API를 이용해 이미지 분석을 더해 정확도를 높였다.
보이저X는 오토ML의 언어 모델을 통해 서비스를 개발하고 있다. 이 회사의 대표 서비스인 ‘브루(vrew)’는 이용자가 올린 영상 속의 목소리를 인식해서 글자로 만들어주고, 이 텍스트를 바탕으로 영상을 편집하고, 자막을 붙일 수 있다. 따로 모델을 만들고 학습을 시키지 않아도 지속적으로 언어 모델이 업데이트되고, 거의 전세계 언어를 다룰 수 있기 때문에 빠르게 서비스를 만들어낼 수 있었다는 것이 보이저X의 설명이다. 비슷한 예로 책의 내용을 스캔해서 텍스트 파일로 만들어주는 ‘브이플랫(vFlat)’ 역시 오토ML의 OCR 기술을 이용해서 카메라로 인식되는 글자들을 텍스트로 읽어낸다. 보이저X는 오토ML을 쓰면서 이미지를 빠르고 정확하게 인식할 수 있는 기술에 집중할 수 있었다.
무엇보다 이 기술들의 특징은 지금 이 순간에도 쉴 새 없이 학습하고 진화하고 있다는 점이다. 과거에는 음성을 인식하고, 텍스트를 알아보는 기술이 이 서비스를 만드는 데에 핵심 기술로 꼽혔고, 해당 기술이 ‘엔진'으로 불릴 만큼 중요한 역할을 했다. 당연히 기업의 ‘기술력’과도 연결된다.
하지만 중요한 것은 인식 그 자체가 아니라, 인식된 정보를 바탕으로 어떤 경험을 만들 것인지에 달려 있다. OCR을 통해 얻어지는 텍스트의 결과는 기업이 직접 만든 것과 구글이 뽑아낸 것, 마이크로소프트가 뽑아낸 것이 서로 다르지 않다. 기업이 집중해야 하는 것은 뽑아낸 정보가 어떻게 가공되고, 서비스와 맞물려서 이용자에게 어떤 경험을 주느냐다. 선택과 집중에 대한 결정이 이뤄지는 셈이다.
특히 개발 인력과 자본이 부족한 스타트업들이 빠르게 차별점을 보일 수 있는 분야가 바로 인공지능인데, 인프라와 모델, 학습에 대한 부담을 덜고 개발하고자 하는 제품의 본질에 집중할 수 있다는 점은 직접적인 비용 절감과 빠른 서비스 개발, 그리고 무엇보다 높은 완성도를 얻어낼 수 있는 기회가 될 수 있다.
오토ML은 현재 많은 기업들이 인공지능에 대한 경험을 쉽게 시작해볼 수 있는 기회로 활용되고 있다. 실제로 적지 않은 상황에서 직접 개발한 인공지능 모델보다 좋은 성능을 낼 뿐 아니라, 필요하다고 판단되면 몇 시간 내에 기존 서비스에 인공지능 기술을 맞붙여 고도화하는 것도 가능하기 때문이다.
이 때문에 전문적인 인공지능 관련 기술을 확보하는 것이 필요 없다는 이야기가 나오기도 한다. 점차 클라우드에 자동화된 머신러닝 모델들이 늘어나고 고도화되면서 직접 머신러닝 관련 기술을 개발할 필요가 사라진다는 것이다. 하지만 아직 인공지능 관련 기술은 초기 단계라고 할 수 있다. 머신러닝의 활용도가 높아지면서 더 높은 수준, 그리고 더 세밀하게 최적화된 인공지능 기술을 이용하려면 직접 모델을 설계하고 학습하는 과정이 뒤따를 필요도 늘어난다. 오토ML은 그 출발점에 있는 서비스인 셈이다.
동시에 오토ML은 모델과 학습이라는 진입장벽을 낮추고 더 많은 사람들이 인공지능을 접할 수 있도록 돕는 가장 현실적인 접근 방법이기도 하다. 우리는 여러 서비스들에 적용되는 간단한 머신러닝 도구의 결과물을 활용할 뿐 아니라 필요에 따라서 직접 머신러닝을 활용해 각자의 문제를 풀어낼 수도 있기 때문이다. 워드프로세서를 써서 문서를 만들고 스프레드 시트로 복잡한 수식을 직접 다루는 것처럼 머신러닝 역시 우리의 데이터와 아이디어에 가치를 만들어주는 도구가 되어야 한다.
AI타임스 최호섭 객원 기자 work.hs.choi@gmail.com
Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.com/)
무단전재 및 재배포 금지
[스페셜리포트]③ 오토ML, 더 많은 사람들이 AI를 접할 수 있도록 돕는 현실적인 접근 방법 - AI타
[편집자주] 스마트폰이 없이 살았던 적이 있었을까, 하는 생각이 문득 들 때가 있다. 생각해보면, 세상에 나온 지 10년을 갓 넘었다. 기술이 세상을 바꿔왔듯, 인공지능으로 인한 변화는 여기저기
www.aitimes.com
'AI테크' 카테고리의 다른 글
'논문만 보고 실제 코딩 구현해' 상 받은 별난 AI팀... 양서연·이승현씨 인터뷰 (0) | 2021.09.02 |
---|---|
[스페셜리포트]④ 패턴화, 정형화된 일상을 깊숙이 파고든 AI...스마트폰, PC 운영체제들 (1) | 2021.08.31 |
질병 진단에 혁신을 가져오는 AI, 진료의 통찰력을 높인다 (0) | 2021.08.30 |
세레브라스가 여는 120조(兆)개 신경망 파라미터 세상..."인간의 뇌 수준급 시스템" (0) | 2021.08.27 |
IBM 금융사기 실시간으로 탐지하는 AI 반도체 내년 출시...삼성전자 7나노 공정에서 생산 (0) | 2021.08.25 |