미 워싱턴대 베이커 교수랩 백민경 박사, 로제타폴드 개발 과정 공개
AI 엔지니어 없이 생물학·화학 연구자만으로 성공...MS서 컴퓨팅 지원
한양대 개최 ‘제1회 한양 바이오 국제미니심포지움’서 발표
올해 7월 15일(현지시간)은 인공지능(AI)과 생물학 연구자 모두에게 뜻깊은 날이었다. 딥마인드는 이날 단백질 구조 예측 AI 알파폴드2 개발 과정을 담은 논문을 발표했다. 재미있는 점은 같은 날 공개된 로제타폴드(RoseTTAFold)도 알파폴드2와 비슷한 원리로 작동하고 근접한 성능을 보이는 단백질 구조 예측 AI라는 점이다.
로제타폴드를 만든 곳은 알파폴드2와 달리 기업이 아닌 학교다. 단백질 구조 예측 연구로 유명한 미국 워싱턴대 데이비드 베이커 교수 연구실에서 나온 성과다. 해당 연구실에서 로제타폴드 프로젝트를 이끈 주역은 한국인 백민경 박사다.
12일 한양대 생명과학과가 주최한 '제1회 한양 바이오 국제미니심포지움'에서는 백민경 박사가 직접 참여해 로제타폴드 개발 과정을 공개했다.
◆알파폴드2 논문 언제 공개될 지 몰라 로제타폴드 프로젝트 시작
알파폴드2 논문이 언제 나올지 몰라 직접 재현해봤습니다.
로제타폴드가 등장할 수 있었던 것은 딥마인드가 알파폴드2 논문 공개일을 확정하지 않은 덕분이라고도 할 수 있다.
2020년 11월 알파폴드2는 단백질 구조 예측 능력 평가 대회인 CASP에 처음 등장해 압도적인 1위를 기록했다.
[관련기사]딥마인드 “50년 묵은 과제 해결했다”...알파폴드2로 코로나19 바이러스 단백질 구조 예측
알파폴드2가 대회에서 보여준 성능에 생물학계가 발칵 뒤집혔지만 딥마인드는 당시 논문 공개일을 확정하지 않았다. 이에 많은 생물학자들이 기업의 연구 독점을 우려하는 목소리를 냈다.
[관련기사]딥마인드 알파폴드2 쇼크 이후 학계 비판 쇄도... “과잉 보도다”
백 박사팀은 기술 독점을 걱정하기보다 자신들만의 노하우로 알파폴드2를 재현해보기로 했다. 딥마인드가 설령 논문 공개를 하지 않더라도 학계에서 알파폴드2를 재현한다면 연구자들도 최신 기술 혜택을 받을 수 있기 때문.
백민경 박사는 “90점 정도면 기존 인간 실험 정확도와 다를 바 없다는 의미인데 알파폴드2가 평균 92.4점을 냈다. 당시 기존 모델 최고점은 82점이었다”며 알파폴드2 성과 의미를 강조했다.
당시 심정으로 그는 “몇 년간 열심히 했던 연구가 쓸모없어진 것 같고 일자리를 잃을 지도 모르겠다고 걱정했다”고 전했다.
백 박사는 “알파폴드2를 어떻게 구현했는지 자세한 내용을 담은 논문이 언제 나올지 장담할 수 없는 상황이었다. 일단 공개된 내용만을 토대로 모방 연구를 시작하기로 했다”며 당시 연구를 시작한 계기를 설명했다.
이렇게 시작된 로제타폴드 프로젝트 성과가 지난 7월 15일(현지시간) 발표됐다. 공교롭게도 같은 날 딥마인드는 알파폴드2의 자세한 개발 과정을 담은 논문과 소스코드를 공개했다.
나아가 1주 후에는 알파폴드2로 만든 단백질 구조 예측 DB 사이트를 오픈해 연구자들을 놀라게 했다. 해당 DB에서는 인간 단백질 구조 98.5%에 대한 3D 예측 모델을 제공한다.
이전까지 인간 연구자가 밝혀낸 인간 단백질 구조가 1%인 것을 감안하면 엄청난 성과다. 구글 검색창과 같이 편리한 UI를 사용하는 만큼 전문가 외 일반 사용자들도 이용 가능하다.
[관련기사]딥마인드, 단백질 구조 초거대 데이터베이스 공개...인간 단백질 98.5% 담아내
◆구글급 AI 인력·컴퓨팅 없이 유사 알파폴드2 개발 성공
로제타폴드는 생물학, 화학 전문가들의 힘으로 이뤄낸 것입니다.
알파폴드2가 있음에도 로제타폴드에 주목하는 이유는 구글 수준의 AI 전문가와 컴퓨팅 인프라 없이도 알파폴드2 수준의 단백질 구조 예측 AI 개발이 가능함을 증명했기 때문이다.
백민경 박사에 따르면 로제타폴드 개발에 참여한 연구진 전공은 대부분 생물학, 화학 분야로 AI 엔지니어링 전문가는 없다.
백 박사는 "로제타폴드 연구진 대부분은 생물학, 화학 연구자들이다. AI 엔지니어링 전문가 도움을 받았다면 좀 더 효율적인 모델 개발을 할 수는 있었을 것"이라고 말했다.
대용량 데이터를 다루는 AI 연구에 필수적이며 학계 최대 고민거리라고 할 수 있는 컴퓨팅 인프라는 MS에게 지원받았다.
백민경 박사는 “MS에서 GPU를 지원해줬다. AI 모델 학습에만 GPU 8장을 사용했고 한 달 정도 걸렸다. MS가 100만 크레딧 정도를 제공했는데 모자라서 좀 더 요청했다”고 말했다.
사용 데이터 규모는 800GB 정도로 단백질 데이터뱅크 내 정보를 주로 사용했다.
◆CNN 대신 트랜스포머 일종인 어텐션 도입...성능 대폭 개선
알파폴드2와 로제타폴드가 여타 단백질 구조 예측 모델보다 뛰어난 성능을 보이는 비결은 트랜스포머(Transformer) 일종인 어텐션(Attention)을 도입했다는데 있다.
알파폴드2 등장 전 대부분 연구자들은 이미지 프로세싱 기술, CNN(Convolutional Neural Networks)을 단백질 구조 예측 연구에 사용했다.
백민경 박사 연구팀은 로제타폴드 개발을 위해 기존 모델과 차별화되는 알파폴드2 특징에 주목했다.
연구진이 꼽은 알파폴드2 주요 메커니즘은 ▲단백질 시퀀스-아미노산 엣지(Sequence-Residue edges)와 아미노산-아미노산 엣지(Residue-Residue edges) 간 상호작용으로 인한 단백질 쌍(Pair) 업데이트 ▲시퀀스 지속 업데이트와 함께 반복적 특징 추출(Iterative feature extraction) ▲CNN 대신 어텐션 사용이다.
CNN이 아닌 어텐션을 활용했을 시 성과가 좋은 이유는 시신경 세포가 정보를 처리하는 법이 단백질 메커니즘과 다르기 때문이다.
백민경 박사는 “CNN에서는 바로 옆 픽셀만이 중요한 정보를 담기에 여기에 비중을 둔다. 반면 단백질 구조 파악을 위해서는 멀리 떨어진 곳의 정보도 필요하다. 어텐션을 활용하면 전체 투입정보(input)를 보고 연관도에 따라 정보를 가져오는 양을 조절할 수 있다. 이것이 단백질 구조 예측에 필요한 부분”이라고 설명했다.
그러면서 “어텐션 대신 CNN을 사용해 로제타폴드를 돌려봤더니 훨씬 성능이 안 좋았다. 단백질 서열상 멀리 있어도 구조적으로 관련 있는 아미노산을 가져오는 것이 중요하기 때문”이라고 강조했다.
이외 특징에 대해 그는 “기존 연구에서는 다중서열정렬(MSA)로부터 2D 이미지 인풋 만들고 나면 다시 들여다보지 않았다. 알파폴드2에는 MSA 정보를 다시 확인하는 트랙이 포함됐다”고 말했다.
2D 이미지 예측에 머물지 않고 나아가 3D 좌표값을 예측해 3D 형태로 단백질 예측 구조를 제시하는 것도 주목할 만한 성과다.
연구팀이 자체적으로 추출한 알파폴드2 주요 메커니즘을 모방한 결과, 처음에는 목표 성능에 크게 못 미치는 결과가 나왔다. 알파폴드2와 근접한 성능을 내기 위해 백민경 박사 연구팀은 뒷 부분에만 배치했던 3차원 좌표 학습 과정을 앞으로 가져왔다.
백 박사는 “중간 과정에서부터 3차원 구조를 만들어가면서 서열정보와 2D 이미지 상호작용 정보를 업데이트했다. 단백질 서열과 구조 정보 간 타이트한 커넥션을 학습했다”고 설명했다.
즉, 성능 개선을 위한 결단으로 1, 2, 3차원 정보 간 연결을 강화한 것이다. 로제타폴드 이름인 ‘RoseTTA(Three-Track Attention)’도 여기에서 나왔다.
◆현장에 로제타폴드 보급, 실용성 증명...멀티스테이트 단백질 연구 목표
로제타폴드의 다른 성과로는 정확도가 높은 AI 기반 단백질 구조 예측 기술이 실제 연구 현장에 사용 가능한지 실험을 거쳤다는 점을 꼽을 수 있다.
로제타폴드 연구진은 개발 모델을 실제 현장 연구자들에게 보급해 실사용이 가능한지 평가했다. 백민경 교수는 "단백질 구조 결정 연구에 실제로 활용이 가능한 지 검증하기 위해 교수들에게 모델 사용 후 피드백을 달라고 메일을 보냈다"고 말했다.
그는 "신약 개발에 활용 가능한 타겟 단백질 구조 예측 성능을 검증했다. 멀티스테이트 모델링과 정확한 구조 만들기가 가능한지 실험했다. 인액티브 혹은 액티브 구조에서 유사도가 굉장히 높은 모델을 만들어내는 것을 확인했다. 여러 단백질 간 상호작용 여부 파악도 가능하다"고 강조했다.
향후 로제타폴드 연구팀은 단백질 간 상호작용 이해, PPI 네트웨크 예측 연구에 집중할 예정이다.
백 교수는 "잘 페어링 된 MSA가 없는 경우에도 작동할 수 있어야 한다. 두 단백질 간 상호작용 여부를 파악하고, 이에 따라 복합체 예측 모델을 만드는 것도 주요 연구 주제다. 상호작용을 방해하거나 도와주는 분자 설계가 가능해지만 신약 개발에 도움될 것"이라고 말했다.
단백질 구조 예측 관련 학계 전체적으로 주목하는 주제는 cryoEM 데이터 활용을 통한 단백질 멀티스테이트 구조 예측이다. 백민경 교수는 "단일 상태 단백질을 연구하는 시대는 지났다"고 강조했다.
알파폴드2와 같이 일반인 대상 DB를 구축하는 일에 대해서는 아직 결정된 바가 없다. 백 교수는 "인터랙티브 스크리닝 결과를 본 후 가능하다면 진행하려 한다. 딥마인드처럼 세련된 UI로 제공하진 못하더라고 일반 사용자들이 다운로드 가능하도록 제공할 것"이라고 전했다.
AI타임스 박성은 기자 sage@aitimes.com
Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.com/)
무단전재 및 재배포 금지
'AI테크' 카테고리의 다른 글
테슬라 AI 데이, "테슬라봇" 공개... 자율주행·슈퍼컴 등 핵심 기술 총망라 (0) | 2021.08.20 |
---|---|
[메타버스 하나] 메타버스에서 촉각, 후각, 미각도 경험한다고?...'리얼 메타버스'에서는 가능해져 (0) | 2021.08.18 |
영국 헤리오트-와트대, 악천후 안전 자율주행 위한 레이더 데이터셋 개발...라이다 뛰어넘나 (0) | 2021.08.12 |
인간 생존을 위협하는 ‘기후변화’, 인공지능(AI)을 긴급투입한다 (1) | 2021.08.10 |
[컨퍼런스 현장리뷰] 막 내린 ACL-IJCNLP 2021...아시아 NLP 개발 발전 가능성 확인 (0) | 2021.08.10 |