포커스

의료 AI 데이터 편향 심각하다…미국과 중국 데이터가 절반 이상 차지해

AI타임스 2022. 4. 11. 16:29

미국과 중국 비롯한 고소득 국가의 환자 데이터가 대부분 차지
편향된 환자 데이터를 AI가 사용할 때 결과적으로 위험을 초래
소수 부유한 국가에서 수행된 연구와 실험 결과로 임상 일반화
장기적인 데이터 수집과 국제 데이터 저장소 구축 필요성 제기

 

의료 AI에 사용되는 데이터의 절반 이상이 미국과 중국에서 온다.(사진=셔터스톡)

임상 AI에 사용되는 데이터 세트의 절반 이상이 미국이나 중국에서 온 것이라는 연구 결과가 나왔다. AI가 알고리즘을 훈련하고 검증한 결과는 데이터가 사용된 집단 이외의 집단에선 제대로 일반화되지 않는다는 점을 감안할 때 데이터가 풍부한 지역의 인구는 데이터가 부족한 지역에 비해 훨씬 더 많은 혜택을 누리게 되어 의료 격차를 심화시킬 수 있다.

 

국제학술지인 'PLoS 디지털 헬스(Digital Health)'에 게재된 논문을 보면 2019년에 발표된 7,000개 이상의 임상 AI 논문을 검토한 결과 연구에 사용된 데이터베이스의 절반 이상이 미국과 중국에서 온것이며 나머지도 고소득 국가 환자 데이터가 차지하는 것으로 나타났다. (논문 제목 : Sources of bias in artificial intelligence that perpetuate healthcare disparities—A global review)

 

이 논문의 제1저자인 레오 앤서니 셀리(Leo Anthony Celi)는 "이러한 AI 알고리즘을 생성하고 검증하는 데 사용하는 데이터 세트는 훨씬 더 다양해야 한다"고 지적했다. 이어 “지금 가장 큰 우려는 우리가 구축하고 있는 알고리즘이 데이터 세트에 기여하는 인구에게만 혜택을 줄 것이라는 점이다. 그리고 나머지 사람들에게는 아무 가치도 없을 것이다”고 덧붙였다.

 

기계 학습 인프라 및 연구 분야에서 중국과 미국이 우세하다는 점을 고려할 때 환자 데이터의 왜곡은 예기치 못한 것이 아니다. 공동 저자이자 안과의사인 윌리엄 미첼(William Mitchell)은 "데이터 세트를 생성하려면 전자 건강 기록, 클라우드 스토리지, 컴퓨터 속도, 컴퓨터 성능이 필요하다. 따라서 미국과 중국이 사실상 가장 많은 데이터를 저장하는 국가라는 것이 이치에 맞다"고 밝혔다. 이 조사는 또한 중국과 미국 연구자들이 제1저자와 마지막 저자의 국적으로 임상 AI 논문의 40% 이상을 차지한 것으로 나타났다.

 

연구자들이 가장 접근하기 쉬운 환자 데이터에 관심을 갖는 것은 놀라운 일은 아니다. 그러나 이러한 경향이 환자 데이터의 글로벌 편향을 부추기고 결과적으로 위험을 초래할 수 있다고 저자들은 주장한다. 의료 AI 알고리즘에 입력되는 편향된 데이터가 시간이 지남에 따라 미국과 중국을 비롯한 주요 국가를 제외한 지역에서 정확도가 급락하여 AI가 더 많은 해를 끼칠 수 있다는 전망이 나온다. MIT 컴퓨터 생리학 연구소를 이끌고 있는 셀리는 "상파울루의 의료  기관과 보스턴의 의료 기관 간의 차이가 훨씬 더 커질 것이라고 생각한다"며 "잠재적으로 오류의 규모가 더 커질 것이다"라고 주장했다.

 

각 국가의 데이터를 사용한 AI 논문의 비율.(사진=PLoS 디지털 헬스)

임상의 지침은 이미 자원이 풍부한 국가에 맞게 조정되었으며 다양한 환자 데이터의 부족은 전 세계 의료 불평등을 확대할 뿐이다. 셀리는 "대부분의 의학 연구는 소수의 부유한 국가에서 수행되며 이러한 연구와 실험에서 우리가 배운 것은 무엇이든 나머지 세계에 일반화될 것이라는 가정이 있다"고 문제점을 지적했다. 이어 "건강 관리를 위한 AI 생성과 관련하여 방향을 바꾸지 않으면 문제가 될 것이다"고 덧붙였다.

 

자원이 부족한 국가는 데이터도 부족할 가능성이 높기 때문에 답은 간단하지 않다. 자원이 부족한 환경에서 활용할 수 있는 임상 AI 중 하나는 안과 질환을 자동으로 진단하는 연구다. 휴대용 안구 카메라를 사용해 눈을 이미지화하거나 스마트폰 카메라를 사용해 당뇨병성 망막병증과 같은 징후를 조기에 식별할 수 있다. 그러나 35억 인구를 차지하는 172개국에는 이용할 수 있는 공개된 안과 데이터가 없다. 데이터 사막은 종종 다른 의학 분야에도 영향을 미친다.

 

그렇기 때문에 대표성이 낮은 국가에서 데이터 수집 및 기계 학습 리소스 풀링(pooling)을 장려하는 프로그램을 개발할 필요가 있다.  또한 임상 데이터에 액세스할 수 있는 사람들이 이를 상업적 목적을 위해 쌓아만 두지 말고 지역 및 국제 연구를 위해 데이터를 공개하는 것이 중요하다. 이러한 노력은 장기적인 데이터 수집과 국제 데이터 저장소의 궁극적인 성장을 위한 토대를 마련하는 시작점이 될 수 있다.

 

셀리는 “AI 연구의 국제적 편향을 정량화함으로써 이것이 개선을 측정하는 기준으로 사용되기를 희망한다”고 강조했다.

 

AI타임스 박찬 위원 cpark@aitimes.com

 

Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.com/)
무단전재 및 재배포 금지

 

 

의료 AI 데이터 편향 심각하다…미국과 중국 데이터가 절반 이상 차지해 - AI타임스

임상 AI에 사용되는 데이터 세트의 절반 이상이 미국이나 중국에서 온 것이라는 연구 결과가 나왔다. AI가 알고리즘을 훈련하고 검증한 결과는 데이터가 사용된 집단 이외의 집단에선 제대로 일

www.aitimes.com