AI테크

EMNLP 2021 결산, "한국 언어 AI 연구, 세계 5위 달성...네이버가 하드캐리"

AI타임스 2021. 11. 12. 10:45

EMNLP 2021 채택 자연어처리 논문수 한국이 5위...작년까지 10위
국내 연구팀 논문 총 33편 중 10편은 네이버에서 나와...하이퍼클로바 소개
카카오·서울대 공동 연구 성과, 상위 1% 성적으로 평가받아

 

(사진=EMNLP 2021)

우리나라의 자연어처리(NLP) 분야 연구 역량이 전세계 5위 수준에 도달했다.

 

11일(현지시간) 막을 내린 자연어처리(NLP) 분야 최고 국제학술대회 ‘EMNLP 2021’에 소개된 한국 연구팀 논문수가 세계 5위를 기록한 것.

 

특히 이번 학회에서는 기업이 대학보다 많은 수의 논문을 발표하면서 한국의 자연어처리 연구 역량을 증명하는데 앞장섰다.

 

하정우 네이버 AI연구소장에 따르면 올해 EMNLP에 채택된 국내 연구팀 논문수는 총 33편이다. 이는 전세계에서 5번째로 많은 수치다.

 

이번 EMNLP에 가장 많은 논문을 발표한 국가는 미국이다. 다음으로 학회에 많은 연구 성과를 공개한 국가는 중국, 영국, 독일, 한국 순이다.

 

(사진=네이버 클로바)

하정우 연구소장은 “작년까지 우리나라는 EMNLP 채택 논문수로 10위에서 12위 수준에 머물렀었다. 올해 성과가 더욱 의미있는 이유”라고 강조했다.

 

네이버 클로바 관계자는 “컴퓨터 비전 분야는 CVPR이나 ICCV등에서 이미 한국이 3-4위를 하고 있는데 이제 NLP에서도 최상위권으로 올라왔다. 한국의 NLP 연구 역량이 세계 수준까지 성장했다는 것을 보여주는 부분”이라고 전했다.
 

◆하이퍼클로바 보유한 네이버, 국내 기업·대학 중 최다 논문 발표

 

국내 기업과 대학을 통틀어 EMNLP 2021에 가장 많은 논문을 발표한 곳은 네이버다. 네이버가 이번 학회에서 발표한 자연어처리 논문은 총 9개. 자연어이해 분야 논문까지 합하면 10개다.

 

한국 연구팀 성과 중 약 30%는 네이버에서 나왔다는 의미다. 연구의 질적인 면에서도 좋은 평가를 받았다.

 

네이버 논문 중 5편은 메인 세션, 나머지 5편은 파인딩스(Findings)에서 소개됐다. 메인세션에 채택된 논문은 상위 20%, 파인딩스의 경우 상위 30~35% 성적으로 평가받은 것을 의미한다.

 

네이버가 메인 세션에서 발표한 논문 중 하나는 하이퍼클로바 연구 성과다. 해당 논문 제목은 ‘대규모 언어모델이 불러올 변화는? 하이퍼클로바에 대한 심화 연구(What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers)다.

 

논문에서는 하이퍼클로바가 다양한 한국어 과제(task)에 대해 제한된 예제만으로도 뛰어난 학습 성능을 보인다는 것을 증명했다. 초거대 언어모델에서의 프롬프트 최적화, 데이터 토큰화 등에 대한 논의를 발전시켰다는 것이 네이버 설명이다.

 

'하이퍼클로바 스튜디오'를 통해 '노 코드 AI' 등 초대규모 AI가 가져올 AI 서비스 개발 방법론에 대한 혁신적인 변화와 같은 내용도 포함됐다.

 

자연어이해(NLU) 분야 논문 1편도 메인세션에 초대됐다. 논문 이름은 ‘다국어 뉴럴 기계 번역을 위한 효율적인 추론(Efficient Inference for Multilingual Neural Machine Translation)’.

 

해당 논문 집필에 네이버 AI 번역기인 파파고가 네이버랩스 유럽과 함께 참여했다는 점도 주목할 만하다.

 

하정우 연구소장은 “네이버랩스 유럽과 파파고는 오랫동안 번역기 성능 향상을 위해 공동 연구를 진행해왔다. 이번에 소개한 논문이 그 결과물”이라고 말했다.

 

네이버 클로바 관계자는 “이번 EMNLP 파인딩스에는 저희 클로바가 주도하는 베트남 AI 연구센터인 HUST-NAVER AI Center 연구도 포함되어 있다. 동남아로의 AI 연구 저변 확대 성과가 나왔다는 측면에서 큰 의미가 있다”고 전했다.
 

◆총 3건 논문 발표한 카카오...서울대와의 공동 연구 성과 상위 1% 채택

 

카카오에서는 총 3건 논문을 올해 EMNLP에 발표했다. 이 중 2건은 카카오엔터프라이즈, 1건은 카카오브레인 연구 성과다.

 

특히 카카오엔터프라이즈가 이번 학회에 발표한 논문 중 1편은 서울대 윤성로 교수팀과의 공동 연구 성과로 상위 1% 성적을 의미하는 오럴 세션(oral session)에 초대됐다.

 

해당 논문 제목은 ‘얼라인먼트 추정과 번역을 위한 연계학습 활용 비자기회귀 뉴럴 기계 번역(AligNART: Non-autoregressive Neural Machine Translation by Jointly Learning to Estimate Alignment and Translate)’다.

 

신경망 기계번역 방법론에 대한 내용으로, 단어의 얼라인먼트(alignment) 정보를 활용해 비자기회귀(Non-autoregressive) 모델이 가진 멀티모달리티(multi-modality) 문제를 개선했다.

 

한편, 카카오는 올해 EMNLP 워크샵으로 진행된 국제 기계번역 대회 ‘WMT21’에서 수상하는 성과를 거두기도 했다.

카카오엔터프라이즈 관계자는 “이번 WMT21 terminology task의 English-French 분야에서 공동 1위를 달성했다”고 밝혔다.

이어 “해당 태스크는 번역에서 특정 도메인의 단어와 구문 단위 용어를 잘 반영하기 위한 과제다. 이 중 가장 많은 시스템이 참가한 English-French에서 공동 1위를 했다”고 전했다.
 

◆서울대·KAIST서 약 8편 논문 소개...윤성로·주재걸 교수팀이 리드

 

국내 AI 연구계를 이끄는 대표적인 대학인 서울대와 KAIST에서는 올해 EMNLP에 약 8편 논문을 발표했다. 서울대 AI연구원에서는 5편, 카이스트 김재철AI대학원에서는 3편 논문이 EMNLP 2021에 채택된 것.

 

서울대에서는 앞서 언급한 카카오엔터프라이즈와 윤성로 교수팀의 공동 연구 논문이 대표적인 성과다. 이외 김건희, 장병탁, 정교민, 황승원 교수 연구팀 논문이 이번 EMNLP에 소개됐다.

 

KAIST 김재철AI대학원에서는 이번 학회에서 메인 세션에 2편, 파인딩스에 1편 논문을 발표했다. 3편 논문 중 주재걸 교수팀 연구 논문이 2편, 서민준 교수팀이 1편이다.

 

주재걸 교수팀이 발표한 논문 제목은 ▲‘다중 입력 표현을 통한 프로그램 코드의 새로운 자연어 요약(Novel Natural Language Summarization of Program Code via Leveraging Multiple Input Representations)’ ▲‘다운스트림 영역에 어휘를 적용하기 위한 전략(AVocaDo: Strategy for Adapting Vocabulary to Downstream Domain)’이다.

 

AI타임스 박성은 기자 sage@aitimes.com

 

Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.com/)
무단전재 및 재배포 금지

 

 

EMNLP 2021 결산, "한국 언어 AI 연구, 세계 5위 달성...네이버가 하드캐리" - AI타임스

우리나라의 자연어처리(NLP) 분야 연구 역량이 전세계 5위 수준에 도달했다.11일(현지시간) 막을 내린 자연어처리(NLP) 분야 최고 국제학술대회 ‘EMNLP 2021’에 소개된 한국 연구팀 논문수가 세계 5

www.aitimes.com