AI테크

카이스트, 머신러닝으로 유전체 정렬하는 소프트웨어 개발

AI타임스 2022. 4. 13. 13:59

기존 인덱싱보다 3.4배 빨라
BWA-MEM2와 정확도 비슷
해당 SW, 오픈소스로 공개해

 

(왼쪽) 한동수 카이스트 전기및전자공학부 교수, (오른쪽) 이번 연구에 참여한 정영목 전기및전자공학부 박사과정생. (사진=KAIST)

머신러닝(ML)에 유전체 정렬 소프트웨어(SW)을 접목한 기술이 나왔다. 기존 유전체 SW보다 더 빠르게 연산이 가능하고 정확하다. 정렬해야 하는 유전체 조각 양이 많고 길이도 길어 작업하는 데 걸렸던 시간이 획기적으로 단축된 셈이다.

 

카이스트(총장 이광형, KAIST)가 머신러닝(ML)에 기반한 유전체 정렬 소프트웨어(SW)를 개발했다고 12일 밝혔다. KAIST 전기및전자공학부 한동수 교수 연구팀이 만들었다. 한동수 교수는 "다양한 분야 전문가들이 사용할 수 있도록 '깃허브'뿐만 아니라 '바이오콘다'에 오픈소스로 공개했다고 <AI타임스>와의 통화에서 밝혔다. 

 

차세대 염기서열 분석 방법(NGS) 과정. NGS 장비로 분석하고자 하는 샘플 DNA를 잘라 DNA 수 억개 조각을 만든다. 생성된 DNA 조각들은 유전체 정렬 소프트웨어(SW)로 참조 유전체에 맞춰 정렬이 이뤄진다. 전처리 작업이 완료된 시퀀싱 데이터는 다양한 유전체 분석 작업에 사용 된다. (사진=KAIST)

최근 유전체 정렬 작업에는 많은 연산이 들어갈 뿐만 아니라 속도를 높이고 비용을 낮추는 기술 개발이 활발하다. 해당 SW는 차세대 염기서열 분석으로 만든 유전체 조각 데이터를 온전한 유전체 정보로 조립할 수 있다. 머신러닝(ML) 기반 색인 기법(learned-index)을 유전체 정렬 SW에 적용한 사례는 이번이 처음이다.

 

유전체 정렬은 유전체 조각 양이 많고 참조 유전체 길이도 긴 만큼 연산량이 많이 필요한 작업이다. 또 유전체 정렬 SW에서 정렬 결과의 정확도는 추후 유전체 분석 정확도에 큰 영향을 미친다. 정확하면서도 빠른 연산이 중요한 이유다.

 

기존 유전체 분석은 하버드 브로드 연구소(Broad Institute)에서 만든 '유전체 분석 도구 키트(GATK, Genome Analysis Tool Kit)'를 이용한 데이터 처리 방법을 표준으로 쓴다. 그중 'BWA-MEM'은 GATK에서 표준으로 채택한 유전체 정렬 SW다. 2019년 하버드 대학과 인텔(Intel)이 공동으로 연구해 'BWA-MEM2'가 개발됐다. 카이스트 연구팀이 이번에 만든 머신러닝 기반 유전체 정렬 SW는 연산량을 대폭 줄였다. 또 표준 유전체 정렬 SW인 BWA-MEM2와 정확도가 같았다.

 

이번 SW에 사용한 머신러닝 기반 인덱싱 기법은 주어진 데이터 분포를 머신러닝 모델이 학습함으로써 데이터 분포에 최적화된 인덱싱을 찾는 방법이다. 데이터에 적합한 인덱싱 방법을 사람이 정하던 기존 방법과 다르다.

 

ML 모델로 유전체 조각 위치를 예측하는 과정 모식도. 색인 기법(learned-index) ML 모델에 유전체 조각을 입력하면 유전체 조각 위치를 ML 모델이 예측한다. 예측된 위치와 에러 값을 이용해 이전 탐색 범위를 설정한다. 유전체 조각과 참조 유전체를 비교하며 이전 탐색을 진행해 유전체 조각 위치를 정확히 찾는다. 찾은 위치를 기반으로 유전체 정렬을 한다. (사진=KAIST)

BWA-MEM과 BWA-MEM2에서 사용하는 인덱싱 기법(FM-index)은 유전자 조각 위치를 찾기 위해 유전자 조각 길이만큼 연산이 필요하다. 연구팀이 제안한 알고리즘은 머신러닝 기반 인덱싱 기법(Learned-index)을 활용해 유전자 조각 길이와 상관없이 적은 연산량으로 유전자 조각 위치를 찾을 수 있다. 기존 인덱싱 기법보다 3.4배 빠르고, 유전체 정렬 SW는 1.4배 빨라졌다.

 

한동수 KAIST 교수는 “머신러닝을 접목해 전장 유전체 빅데이터 분석을 기존 방식보다 빠르고 적은 비용으로 할 수 있다”며 “앞으로 인공지능(AI) 기술로 전장 유전체 빅데이터 분석을 고도화할 수 있을 것이다”고 말했다.

 

정영목 KAIST 전기및전자공학부 박사과정생이 제1 저자로 참여한 이번 연구는 국제 학술지 ‘옥스퍼드 바이오인포메틱스(Oxford Bioinformatics)’에 지난달 게재됐다. 논문명은 ‘BWA=MEME: BWA-MEN emulated with a machine learning approach’다.

 

이번 연구는 과학기술정보통신부 재원으로 한국연구재단 지원을 받아 데이터 스테이션 구축·운영 사업으로 수행됐다. 

AI타임스 김미정 기자 kimj7521@aitimes.com

 

Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.com/)
무단전재 및 재배포 금지

 

 

카이스트, 머신러닝으로 유전체 정렬하는 소프트웨어 개발 - AI타임스

머신러닝(ML)에 유전체 정렬 소프트웨어(SW)을 접목한 기술이 나왔다. 기존 유전체 SW보다 더 빠르게 연산이 가능하고 정확하다. 정렬해야 하는 유전체 조각 양이 많고 길이도 길어 작업하는 데 걸

www.aitimes.com