AI테크

“인간보다 더 잘 본다”…픽셀까지 식별하는 AI

AI타임스 2022. 4. 27. 17:45

수동 레이블 없이 객체를 발견하고 분할
의미론적 분할 기반의 학습 모델 개발
이미지의 모든 픽셀에 레이블을 지정

 

STEGO 알고리즘을 사용하여 비전 모델을 괴롭히는 대규모 라벨링 문제를 해결하려고 시도했다. STEGO는 사람의 레이블 없이 픽셀까지 개체를 공동으로 발견하고 분할할 수 있다.(사진=MIT CSAIL)

 

사람이 라벨을 붙일 필요 없이 개별 픽셀까지 이미지를 식별할 수 있는 AI 알고리즘이 나왔다. MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL) 연구팀이 마이크로소프트 및 코넬 대학과 협력해 의미론적 분할(Semantic Segmentation)이라는 방법을 기반으로 이미지의 모든 픽셀에 클래스 레이블을 지정하는 알고리즘인 STEGO(Self-Supervised Transformer with Energy-based Graph Optimization)를 개발했다.

 

데이터 라벨링은 사물, 사람 등의 객체를 인식하기 위한 컴퓨터 비전 모델 학습에 매우 중요하다. 또한 컴퓨터 비전 데이터 세트의 모든 이미지와 개체에 레이블을 지정하는 것은 어려운 작업이 될 수 있다. 특히 사람이 직접 데이터 레이블 지정을 수행할 경우 오랜 시간이 걸린다.

 

일반적으로 컴퓨터 비전 학습 데이터를 생성하려면 인간이 이미지 내의 특정 객체 주위에 경계 상자(bounding box)를 그리고 그  경계 상자에 내부에 있는 것으로 레이블을 지정해 AI가 훈련할 수 있도록 한다. 예를 들어 잔디밭에 앉아 있는 고양이 주위에 상자를 그리고 상자 안에 있는 것을 ‘고양이’라고 표시한다. 이 경우 경계 상자에는 '고양이’ 개체외에도 ‘잔디’와 같은 다른 개체의 픽셀도 포함되지만 ‘고양이’에 대한 레이블만 지정한다.

 

의미론적 분할 기술은 고양이를 구성하는 모든 픽셀에는 ‘고양이’ 레이블을 지정하고 잔디를 구성하는 픽셀에는 ‘잔디’ 레이블을 지정한다. 포토샵(Photoshop) 용어로 직사각형 선택(Rectengular Marquee) 도구가 아닌 객체 선택(Object Selection) 도구를 사용하는 것과 같다. 이 방법은 데이터 세트의 모든 픽셀에 정확하게 레이블을 지정할 수 있지만 사람이 레이블이 지정된 학습 데이터를 생성해야 한다. 예를 들어 이미지를 분할하는 것은 경계 상자를 분류하거나 그리는 것보다 100배 이상 더 오래 걸릴 수 있다.

 

의미론적 분할 기반으로 이미지의 모든 픽셀에 클래스 레이블을 지정하는 알고리즘, ‘STEGO’.(영상=MIT CSAIL)

STEGO는 사람의 도움 없이 객체를 식별하기 위해 데이터 세트 전체에 존재하는 유사한 객체를 찾고 이러한 유사한 객체를 함께 연결해 클러스터를 형성시켜 모든 이미지를 일관되게 학습한다.

 

‘볼 수 있는 기계’는 자율 주행 자동차 및 의료 진단을 위한 예측 모델링과 같은 새로운 기술에 매우 중요하다. STEGO는 레이블 없이 학습할 수 있기 때문에 인간이 아직 완전히 이해하지 못하는 영역을 포함하여 다양한 영역에서 물체를 감지할 수 있다. 

 

MIT CSAIL의 마크 해밀턴(Mark Hamilton)은 “종양학적 스캔, 행성 표면 또는 고해상도 생물학적 이미지를 보고 있다면 전문 지식 없이는 어떤 물체를 찾아야 하는지 알기 어렵다. 새로운 영역에서는 때로는 인간 전문가조차도 무엇인지 알지 못한다”며 "과학의 경계에서는 기계가 수행하기 전에 인간이 그것을 알아내도록 의존할 수 없다"고 덧붙였다.

 

STEGO는 일반 이미지, 주행 이미지 및 고고도 항공 사진에 이르는 다양한 시각적 영역에서 테스트되었다. 각 영역에서 STEGO는 인간의 일치되게 객체를 식별하고 분류할 수 있었다. STEGO의 테스트는 실내에서 운동 하는 사람들, 나무와 소에 이르기까지 전 세계의 다양한 이미지로 구성된 COCO-Stuff 데이터 세트를 이용했다. 대부분의 경우 이전의 최첨단 시스템은 장면의 저해상도 요점을 캡처할 수 있었지만 사람을 얼룩으로 인식하거나 오토바이를 사람으로 인식하는 등 세부적인 세부 사항에는 어려움을 겪었다. 같은 장면에서 STEGO는 이전 시스템의 성능을 두 배로 늘리고 동물, 건물, 사람, 가구 및 기타 여러 개념을 발견했다.

 

최첨단 컴퓨터 비전 알고리즘은 이미지를 픽셀까지 식별한다.(사진=MIT CSAIL)

STEGO는 COCO-Stuff 벤치마크에서 이전 시스템의 성능을 두 배로 늘렸을 뿐만 아니라 다른 시각적 영역에서도 유사한 성능을 보였다. 무인 자동차 데이터 세트에 적용했을 때 STEGO는 이전 시스템보다 훨씬 더 높은 해상도와 세분화로 도로, 사람 및 도로 표지판을 성공적으로 분할했다. 우주의 이미지에서 시스템은 지구 표면의 모든 단일 평방 피트를 도로, 식물 및 건물로 분해해냈다.

 

해밀턴은 "복잡한 데이터 세트를 이해하기 위한 일반적인 도구를 만들 때 이러한 유형의 알고리즘이 이미지에서 물체를 발견하는 프로세스를 자동화할 수 있기를 바란다"라고 말했다. 이어 “인간의 라벨링이 엄청나게 비싸거나 인간이 특정 생물학적 및 천체 물리학적 영역과 같이 특정 구조조차 모르는 영역이 많이 있다. 향후 작업을 통해 매우 광범위한 데이터 세트에 적용할 수 있기를 바란다. 사람의 레이블이 필요하지 않으므로 이제 ML 도구를 더 광범위하게 적용할 수 있다"고 설명했다.

 

이전 시스템보다 뛰어난 성능에도 불구하고 STEGO에는 한계가 있다. 예를 들어 파스타와 밀가루를 모두 "식품"으로 식별할 수 있지만 잘 구별하지 못한다. 또한 수화기 위에 있는 바나나와 같은 무의미한 이미지로 인해 혼란스러워진다. 

 

현실 세계에서는 하나의 사물이 동시에 여러 사물을 의미할 수 있다. 따라서 연구팀은 픽셀을 특정 수의 클래스로 분류하는 것보다 STEGO를 보다 유연하게 만들 계획이다. 팀은 이것이 알고리즘이 더 많은 불확실성, 절충 또는 추상적인 추론을 처리할 수 있게 해줄 것이라고 믿는다.

 

AI타임스 박찬 위원 cpark@aitimes.com

 

Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.com/)
무단전재 및 재배포 금지

 

 

“인간보다 더 잘 본다”…픽셀까지 식별하는 AI - AI타임스

사람이 라벨을 붙일 필요 없이 개별 픽셀까지 이미지를 식별할 수 있는 AI 알고리즘이 나왔다. MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL) 연구팀이 마이크로소프트 및 코넬 대학과 협력해 의미론

www.aitimes.com