인사이트

[김동원의 Eye-T] AI 면접, 정말 공정하고 객관적이라고 생각해?

AI타임스 2022. 4. 6. 10:21

일상에 편의 가져온 AI, 사람까지 평가한다?
채용과 근무, 신용대출 평가에 AI 기술 쓰여
사람보다 AI가 객관적이고 공정하다는 이유
AI가 사람 평가했을 때 발생한 문제점 많아
빠른 기술 도입보단 안전장치 확보가 우선

 

[편집자 주] [김동원의 Eye-T]는 IT 소식을 직접 눈(Eye)으로 보는 것처럼 생생하게 전달하는 것을 목적으로 합니다. 다양하고 재미있는 IT 기술과 솔루션을 쉽고 자세하게 보여드리겠습니다.

 

AI 기술 발전에 따라 'AI 면접'과 같이 AI가 사람을 평가하는 시스템이 많아지고 있다. (사진=셔터스톡, 편집=김동원 기자)

인공지능(AI) 기술이 일상에 많은 편의를 가져오고 있습니다. AI가 업무상 대화를 녹음해 자동으로 텍스트로 작성해주기도 하고요. 번역을 해주기도 하죠. 카메라로 촬영한 영상을 판독해주는 역할도 해요. MRI나 CT 영상을 판독해 건강 이상 여부를 알려주기도 하고 공항 출국 시 물품 검사를 대신하기도 합니다.

 

AI가 일상에 접목돼 긍정적인 역할을 하는 사례는 많아요. 하지만 염려되는 부분도 있습니다. 이 AI가 사람을 평가하기 시작했거든요. 신용 평가나 채용, 업무 평가에 AI 기술이 사용되기 시작했어요. AI 면접이 대표 사례지요. 채용 솔루션 공급 업체에 따르면 2021년 AI 채용 솔루션을 활용한 기업과 기관은 약 450곳에 달한다고 합니다.

 

AI가 사람을 평가한다는 건 기존에 AI를 사용하는 것과는 다른 이야기입니다. 기존에는 AI를 활용하는 사용자만 있었어요. 하지만 AI 평가시스템에는 사용자와 함께 평가를 받는 대상자도 있습니다. 사용자는 AI가 분석한 리포트를 참고해서 평가만 하면 됩니다. AI가 분석한 자료로 쉽고 빠른 결정을 할 수 있겠죠. 

 

하지만 대상자는요? AI가 평가한 내용을 그대로 수용해야 할까요? 여러분이라면 AI가 결정한 결과에 그대로 승복하실 수 있으십니까? 채용에서 평가하는 부분은 지금까지 여러분이 살아온 인생일 텐데요.

 

데이터 많이 학습한 AI가 정말 공정할까?


기업들과 기업은 왜 AI 면접을 하는 걸까요? 한 업체는 "사람보다 공정하고 객관적이기 때문"이라고 말합니다. 사람이 평가하면 주관적인 감정이 들어가는데 AI는 감정에 영향을 받지 않고 객관적인 평가가 가능하다는 이유죠. 

 

여기서 객관성은 많은 데이터를 학습했다는 점에서 찾을 수 있습니다. 보통 면접에선 다수의 면접관이 있는 경우가 많습니다. 사람은 각자 생각하는 기준이 있으니 여러 사람을 면접관으로 배치해 그 기준의 타협점을 찾는 것이죠.

 

예를 들어 A라는 면접관은 알게 모르게 외모를 중시하고 B 면접관은 여자보다 남자를 더 선호한다고 했을 때 이 면접관이 혼자서 면접을 본다면 자신들이 선호하는 기준에 따라 사람을 채용할 겁니다. 객관성과는 거리가 멀어지는 것이죠. 그래서 A와 B, C, D 등의 면접관을 배치해 객관성을 더하는 겁니다.

 

AI는 이러한 데이터를 상당히 많이 학습합니다. 무수히 많은 면접관의 데이터를 취합해놓은 결정체라고 볼 수 있습니다. 면접관이 많으면 많을수록 객관적인 평가가 가능하니 AI를 공정하고 객관적이라고 본 것이죠. 그런데 정말 많은 데이터를 학습한다고 좋은 결과가 나올까요?

 

아마존은 채용프로그램에 AI를 적용해 사용하려다가 실패한 사례가 있습니다. 아마존은 과거에 이력서를 리뷰하고 인재를 판단하는 AI 소프트웨어(SW)를 개발했습니다. 취업 대상자를 1~5개 별점으로 평가하는 SW였지요. 판매자를 평가하는 것처럼요. 하지만 이 SW는 곧 문제를 일으켰습니다. 여대생, 여고 등 '여성'이라는 단어가 들어간 이력서에 벌점을 부과한 것이죠.

 

그 이유는 데이터 학습에 있었습니다. 기존 지원자들의 이력서를 바탕으로 알고리즘을 학습했는데 IT 직군 종사자 중 여성 지원자가 적어 이를 감점 요소로 보았던 것이죠. 이 사례에서 보듯이 편향된 데이터를 학습할 경우 AI는 편향된 결과를 가져왔습니다. 결국엔 어떤 데이터를 사용하느냐가 중요했던 것이죠.

 

그렇다면 채용에 사용되는 데이터가 공정한지를 봐야 하는데요. 과거 우리 채용이 공정하게 이뤄졌다면 공정한 데이터가 있을 것이고 편향적이었다면 편향적인 데이터가 많겠죠. 그러면 한국의 과거 채용은 정말 공정했을까요? 아니면 학연, 지연, 성별에 따라 불공정한 채용이 많이 이뤄졌을까요?

 

한상기 테크프론티어 대표는 "AI의 가장 큰 단점은 과거 데이터를 이용한다는 것"이라고 밝혔습니다. 그러면서 "과거 우리는 여자보다 남자를 선호하거나 학연·지연을 중시하는 상당한 차별이 있었다"며 "그 데이터를 그대로 접목했을 때 과연 면접이 제대로 이뤄질지는 미지수"라고 지적했습니다.

 

AI 면접 체험 결과 "공정성 의심 돼"


사실 AI 면접이 공정한지는 직접 해보는 것이 가장 좋다는 생각이 들었습니다. 백문불여일견(百聞不如一見)이라는 말처럼요. 

 

AI 면접이 과연 공정한지 알아보기 위해 서울시 서초구청에서 진행하는 AI 면접 프로그램을 직접 체험했다. (사진=김동원 기자)

그래서 실제로 서울시 서초구청에서 진행하는 AI 면접 프로그램을 체험해보았는데요. 이 면접은 2시간 가까운 시간 동안 ▲기본 질문(자기소개, 지원 동기, 장단점) ▲인·적성 검사 ▲전략 게임 ▲심층 질문으로 진행됐습니다. 면접에 적성평가와 게임이 함께 있는 느낌이었죠.

 

면접을 보는 내내 카메라는 제 모습을 녹화했습니다. 이 모습을 보고 저를 평가한다고 했죠. 실제로 AI 면접은 수만 개의 빅데이터, 자료, 패턴을 학습한 AI가 응시자의 얼굴, 감정 표정, 안면 색상 변화 등을 분석해 평가를 진행한다고 합니다.

음성인식 기반인 STT(Speech-To-Text) 기술로 목소리 높낮이, 음색, 동일한 어휘 사용 횟수 등도 검토한다고 하네요.

 

신기하기도 하고 결과가 궁금했죠. 하지만 결과표를 받아본 순간 당황했습니다. 어떤 점수를 받든 왜 그런 평가를 했는지 설명이 있을 줄 알았는데 단순히 결과표만 있었거든요. 공급사 측에 "왜 이런 점수가 나왔느냐"라고 물어봤지만 "많은 데이터를 학습한 AI가 평가한 결과"라는 답만 들을 수 있었죠.

 

AI 면접 평가표는 결과만 나올 뿐 왜 이러한 결과를 도출했는지 설명하지 못했다. (사진=김동원 기자)

평가한 점수에 대해 납득할 수 있는 설명을 못 하는데 과연 공정한 평가라고 할 수 있을까라는 의문이 들었습니다.

 

AI 면접이 공정하지 못한 이유는 또 있습니다. 사람은 저마다의 개성이 있습니다. 하지만 AI는 사람이 가진 개성을 이해하지 못합니다. 많은 데이터를 학습해 얻은 하나의 기준으로만 대상자를 평가하죠.

 

이러한 문제점은 인사담당자 통계로도 그대로 드러납니다. 취업 포털 인크루트의 2018년 조사에 따르면 기업 297곳 인사담당자 중 72.2%는 AI 채용 절차 도입에 반대하는 것으로 조사됐습니다. 반대하는 가장 큰 이유는 '다양한 개성을 갖춘 지원자들을 하나의 기준으로만 평가하게 될 우려가 있어서(33.6%)'였죠.

 

AI 평가시스템의 문제점들


AI가 공정하지 못한 결론을 내린 경우는 많습니다. 유럽 배달서비스인 딜리버루는 AI 평가시스템을 도입했다가 평가 대상에 손해 배상금을 지급하라는 판결을 받은 적이 있습니다. 딜리버루는 라이더의 근태를 평가할 수 있는 AI 평가시스템 '프랭크(Frank)'를 도입했는데요. 질병이나 파업에 따른 결근을 구별하지 않고 평점에 반영해 페널티를 줬습니다. 

 

라이더들은 당연히 문제를 제기했고 이탈리아 노동총연맹은 법원에 노동자의 파업권 등을 침해한다고 소송을 냈습니다.

법원은 딜리버루에게 노동자 1인당 5만유로(약 665만원)의 손해 배상금을 지급하라고 판결했죠.

 

한국에도 비슷한 사례가 있습니다. 문화사회 실현운동 단체인 문화연대는 2021년 2월 '플랫폼 배달노동과 국내 알고리즘 기술 통제 경향'을 주제로 포럼을 열었습니다. 이 포럼에서 박정훈 라이더유니온 위원장은 배달 앱 기업의 AI 배차시스템이 라이더에게 사실상 노동을 강제한다고 주장했는데요. 알고리즘이 라이더의 '수락률'과 배달 '평점'으로 배차를 결정해 라이더들이 배차를 거절할 수 없는 '자기통제' 구조를 만들었다고 밝혔지요. 

 

박 위원장의 말에 따르면 한 라이더는 배달 중 사고로 눈 밑이 찢어지는 사고를 당했지만 배송을 계속해야 했어요. 배송을 중단하면 AI가 평점을 낮게 평가하고 평점이 낮아지면 배차가 제한되기 때문이었죠.

 

공정하고 안전한 AI 위한 안전장치 필요


그렇다면 AI가 내리는 평가를 공정하게 만들기 위해선 어떤 노력이 있어야 할까요? 문혜진 중앙대 교수는 AI 편향성에 대한 지속적인 경계가 필요하다고 말합니다. 

 

문혜진 중앙대 교수는 "컴퓨터라고 무조건 믿기보단 체계적인 오류를 범하고 있지 않은지 지속해서 평가하고 검증해야 한다"고 말했다. (사진=김동원 기자)

문 교수는 "공급사나 기업에서 편향적인 문제에 대해 계속 주의를 기울여야 한다"며 "사용하는 프로그램이 혹시 특정한 편향에 의해 누군가 나쁜 평가를 받고 있지 않은지 예민하게 반응해야 한다"고 말했습니다. 또 "컴퓨터라고 무조건 믿기보단 체계적인 오류를 범하고 있지 않은지 지속해서 평가하고 검증해야 한다"고 조언했습니다.

 

다행스러운 건 AI 편향성을 교정하고 진단하는 시스템이 계속 나오고 있다는 것인데요. 대표적으로는 IBM의 'AIF360', 마이크로소프트의 'Fairlearn', 구글의 'What ifTool' 등의 AI 공정성 시스템이 있습니다. 최근 카이스트 인공지능 공정성 연구센터는 이 3개의 SW보다 높은 성능의 진단시스템 'MSIT AI FAIR 2022(MAF 2022)'를 선보이기도 했지요.

 

MAF 2022는 IBM과 MS의 시스템보다 더 많은 알고리즘을 제공한다. (자료=카이스트)

유창동 카이스트 인공지능 공정성 연구센터장은 "MAF 2022는 오픈소스로 공개된 AI 공정성 진단시스템 중 가장 높은 성능을 자랑한다"면서 "이 시스템에서 AI 공정성을 테스트하면 시스템이 제시하는 범위 안에서는 AI가 편향적이지 않고 공정한 결과를 내릴 수 있다고 볼 수 있다"고 말했습니다.

 

유창동 카이스트 교수는 "MAF 2022에서 AI 공정성을 테스트하면 시스템이 제시하는 범위 안에서는 AI가 편향적이지 않고 공정한 결과를 내릴 수 있다고 볼 수 있다"고 말했다. (사진=김동원 기자)

AI는 우리가 손에 들고 있는 칼과 같아요. 이 칼로 요리를 하거나 조각을 한다면 멋진 음식과 작품이 나오겠죠? 하지만 사람을 해친다면 그 칼은 아무리 좋아도 차라리 없는 게 낫습니다. AI도 비슷합니다. 이 기술을 사용해 피해를 보는 사람이 있다면 없는 것이 낫습니다. 이를 방지하기 위해선 안전하게 사용할 수 있는 장치와 지속적인 감시가 필요하겠죠.

 

과거 한 기업 면접에는 '관상가'가 있었다는 유명한 일화가 있죠. 진짜인지는 밝혀지지 않았지만요. 그 당시에는 이상할 문제가 아니었을 수 있지만 지금 생각하면 상식적으로 이해가 되지 않는 처사죠. 공정하지 않고 편향적인 결과를 낼 수 있는 AI를 당장 사람을 평가하는데 사용하는 것도 이와 같을 수 있습니다. 미래에선 "아니 이 기술 수준으로 사람을 평가했다고?"라고 충분히 생각할 수 있으니깐요.

 

AI타임스 김동원 기자 goodtuna@aitimes.com

 

Copyright © '인공지능 전문미디어' AI타임스 (http://www.aitimes.com/)
무단전재 및 재배포 금지

 

 

[김동원의 Eye-T] AI 면접, 정말 공정하고 객관적이라고 생각해? - AI타임스

[편집자 주] [김동원의 Eye-T]는 IT 소식을 직접 눈(Eye)으로 보는 것처럼 생생하게 전달하는 것을 목적으로 합니다. 다양하고 재미있는 IT 기술과 솔루션을 쉽고 자세하게 보여드리겠습니다.인공지

www.aitimes.com