AI테크

AI 학습에 데이터 세트 없어도 되나?...MIT, 합성 데이터 생성 모델 개발

AI타임스 2022. 3. 17. 17:35

실제 데이터 세트를 사용하는 대신 합성 데이터를 생성하는 모델 개발
자기 지도 표현 학습을 기반으로 동일한 이미지에 대해 여러 뷰를 생성
사전 훈련된 생성 모델과 대조 학습 모델을 연결해 대상 이미지를 분류
실제 데이터를 사용해 훈련된 모델 보다 우수한 시각적 표현 학습 가능

 

MIT 연구원들이 이미지 분류를 위해 다른 모델을 훈련하는 데 사용할 수 있는 합성 데이터를 생성하는 생성 모델을 개발했다. (사진=MIT)

합성 데이터를 사용해 훈련된 이미지 분류 모델이 실제 데이터에서 훈련된 모델 보다 더 우수하다는 연구 결과가 나왔다. MIT(Massachusetts Institute of Technology) 대학의 연구진이 실제 데이터 세트를 사용하는 대신 합성 데이터를 생성하는 모델을 사용해서 머신 러닝 모델을 훈련하는 방법을 개발했다.

 

자연 재해 후 위성 사진에서 피해를 식별하기 위해 이미지 분류를 수행하는 머신 러닝 모델을 훈련시키려면 엄청난 양의 데이터가 필요하다. 그러나 이러한 데이터를 항상 쉽게 얻을 수 있는 것은 아니다. 사용 가능한 데이터가 존재하더라도 데이터 세트를 생성하는 데 막대한 비용이 들 수 있으며 최상의 데이터 세트에도 모델 성능에 부정적인 영향을 미치는 편향이 포함되어 있는 경우가 많다.

 

데이터 세트가 제기하는 몇 가지 문제를 피하기 위해 MIT 연구진은 데이터 세트를 사용하는 대신 다른 모델을 훈련할 수 있는 합성 데이터를 생성하는 특별한 생성 모델(Generative Model)을 개발했다. 이 연구 결과는 생성 모델이 합성 데이터만을 사용해 훈련하는 대조 표현 학습(Contrastive Representation Learning)을 할 경우 실제 데이터에서 학습할 때보다 우수한 시각적 표현할 수 있음을 보여준다.

 

이 생성 모델은 데이터 세트보다 훨씬 적은 메모리가 필요하다. 합성 데이터를 사용하면 실제 데이터를 사용할때 제기되는 개인 정보나 사용 권한에 대한 우려를 피할 수 있다. 또한 생성 모델을 편집해 인종이나 성별과 같은 특정 속성을 제거할 수도 있기 때문에 기존 데이터 세트에 존재하는 편향 문제를 해결할 수도 있다.

 

생성 모델이 실제 데이터만을 사용해서 학습되면 실제와 거의 구별할 수 없을 정도로 사실적인 합성 데이터를 생성할 수 있다. 훈련 프로세스에는 특정 클래스(예: 자동차 또는 고양이)의 개체가 포함된 수백만 개의 이미지를 생성 모델에 보여준 다음 유사한 개체를 생성할 수 있도록 자동차 또는 고양이가 어떻게 생겼는지 학습하는 자기 지도 표현 학습(self-supervised representation learning)이 포함된다.

 

사전 훈련된 생성 모델을 사용해 훈련 데이터 세트에 있는 이미지를 기반으로 고유하고 사실적인 이미지의 스트림을 출력할 수 있다. 그러나 생성 모델은 학습된 기본 데이터를 변환하는 방법을 배우기 때문에 훨씬 더 유용하다. 모델이 자동차 이미지로 훈련되면 훈련 중에 보지 못한 상황에서 자동차가 어떻게 보일지 ‘상상’한 다음 고유한 포즈, 색상 또는 크기로 자동차를 보여주는 이미지를 출력할 수 있다.

 

생성 모델이 동일한 이미지에 대해 여러 뷰를 만드는 다양한 방법.(사진=MIT)

연구진은 생성 모델에 대상에 대한 다양한 뷰(views)를 생성하도록 지시한 다음 여러 각도에서 해당 대상을 식별하는 방법을 학습하기 위해 사전 훈련된 생성 모델과 대조 학습 모델을 연결했다. 레이블이 지정되지 않은 많은 이미지들 중에서 어떤 쌍이 비슷하거나 다른지 학습하는 대조 학습이라는 기술에서는 같은 이미지에 대한 여러 형태의 뷰를 갖는 것이 중요하다. 생성 모델은 동일한 것에 대해 다른 관점을 제공할 수 있기 때문에 대조 방법이 더 나은 표현을 학습하는 데 도움이 될 수 있다.

 

연구원들은 그들의 방법을 실제 데이터를 사용해 훈련된 여러 다른 이미지 분류 모델과 비교하고 그들의 방법이 잘 수행되며 때로는 더 우수하다는 것을 발견했다. 생성 모델은 사전에 훈련된 모델을 사용하기 때문에 온라인 저장소에서 찾아 누구나 사용할 수 있다. 그러나 경우에 따라 이러한 모델은 개인 정보가 담긴 소스 데이터를 드러낼 위험이 있으며 훈련된 데이터 세트의 편향을 증폭시킬 수 있다. 연구진은 향후 작업에서 이러한 문제들을 해결할 계획이다. 

 

또한 이 기술을 사용해 머신 러닝 모델을 개선할 수 있는 '코너 케이스'를 생성할 예정이다. 코너 케이스는 실제 데이터에서 학습할 수 없는 경우가 많다. 예를 들어 자율주행차용 컴퓨터 비전 모델을 훈련할 때 실제 데이터에는 주인과 개가 함께 타고 고속도로를 달리는 예가 포함되지 않으므로 모델은 이러한 상황에서 수행할 작업을 결코 배우지 못할 것이다. 이 경우 '주인과 개가 함께 타고 있다'는 코너 케이스 데이터를 생성하면 일부 고위험 상황에서 머신 러닝 모델의 성능을 향상시킬 수 있다.

 

이 연구는 MIT-IBM Watson AI Lab, 미 공군 연구소, 미 공군 AI Accelerator의 지원을 받았으며, 연구 결과는 학습 표현에 관한 국제 회의(International Conference on Learning Representations)에서 발표될 예정이다.

 

AI타임스 박찬 위원 cpark@aitimes.com

Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.com/)
무단전재 및 재배포 금지

 

 

AI 학습에 데이터 세트 없어도 되나?...MIT, 합성 데이터 생성 모델 개발 - AI타임스

합성 데이터를 사용해 훈련된 이미지 분류 모델이 실제 데이터에서 훈련된 모델 보다 더 우수하다는 연구 결과가 나왔다. MIT(Massachusetts Institute of Technology) 대학의 연구진이 실제 데이터 세트를

www.aitimes.com