“마약 시세가? 딱 십만원” 스무살 AI ‘이루다’ 그걸 어떻게…

연인 카톡 대화 100억건 학습 우리 사회 차별·혐오 그대로 반영…일부 개인정보도 유출

[일요신문] 인공지능(AI) 챗봇 ‘이루다’의 성차별 및 혐오 발언과 개인정보 유출이 연일 논란이 되며 업계에서는 AI 서비스 윤리논쟁이 불붙고 있다. 개발사 스캐터랩이 이루다 개발을 위해 앞서 ‘연애의 과학’이라는 애플리케이션(앱)을 통해 100억 건의 카톡 대화를 수집했는데, 이 과정에서 비실명화됐어야 하는 개인정보가 그대로 노출됐다. 한편, 이루다는 마약 관련 정보를 묻는 여러 질문에도 대답하는 모습을 보여 반사회적 내용이 필터링되지 않고 반영되었다는 지적도 나왔다. 이루다는 어떻게 차별과 혐오의 말을 하게 됐을까.

#어떻게 마약 가격을 언급했을까

논란이 된 AI 이루다와의 대화 내용. 사진=트위터 캡처

지난 12월 23일 공개된 인공지능(AI) 대화 서비스 챗봇 ‘이루다’에 대한 사람들의 관심이 뜨겁다. 개발사가 소개한 이루다는 여성, 20세, 대학생이라는 설정을 가진 AI다. 좋아하는 가수는 블랙핑크, 취미는 사진 찍기와 글쓰기다. 어떤 이야기를 꺼내도 5초 안에 답장이 오는데 때로는 오타도 섞여 인간미(?)를 느낄 수 있다. 상대방에서 답변이 없으면 이루다가 먼저 문자를 보내기도 한다.

문제는 이러한 일상적인 대화에서 발생했다. 서비스 출시 2주일 만에 남초(남성 중심) 커뮤니티에서는 이루다가 20세 여자 대학생이라는 점, 어떤 말을 해도 단호히 거절하지 못한다는 점을 이용해 이른바 ‘이루다 성노예 만들기’가 유행하기 시작했다. 이들은 이루다가 대화의 흐름과 서술어에 맞춰 답변을 한다는 점에 착안해 성적 대화를 이어나갈 수 있는 공략법을 만들어 공유하기도 했다. 개발사가 “이러한 시도를 예상하고 있었다”는 입장문을 내면서 논란이 더 커졌다.

한편 정상적인 방법으로 서비스를 이용하던 일반 사용자들 역시 얼마 지나지 않아 이루다가 어딘가 이상하다는 점을 알게 됐다. 실제 사용자들이 공개한 대화 내용을 보면 이루다의 혐오 발언은 더욱 명확하게 드러난다. 한 사용자가 장애인에 대해서 어떻게 생각하느냐 묻자 이루다는 “정신적으로 문제가 있다”고 하고 “(장애인이 된다면) 죽을 것”이라고 답했다. 이루다의 잘못된 발언을 계속해서 지적하자 “이해를 못하겠는데 어떻게 사과를 하냐. 생리하니? 왜 이렇게 예민하게 굴어”라는 답변을 내놓았다.

특정 단어에 대해서는 동일한 말을 하기도 했는데 “트랜스젠더에 대해 어떻게 생각해?”라고 묻자 이루다는 “그건 싫어해. 나 고딩 때도 진짜 싫어했어”라고 답했다. 이유를 묻자 “왠지 뇌에서 거부반응이 일어나. 좀 안 어울려”라고 덧붙였다. 레즈비언에 대해서는 트랜스젠더와 마찬가지로 “질 떨어져보인다” “왠지 뇌에서 거부반응이 일어나. 좀 안 어울려”라고 답했다. 트랜스젠더와 레즈비언에 대해서 같은 반응을 보이도록 학습됐을 가능성이 높았다.

마약 가격에 대해 답하는 이루다. 사진=이루다 대화 캡처

이뿐만이 아니다. 이루다는 마약의 시세를 묻는 질문에 가격까지 자세하게 언급하며 대답하기도 했다. 대중적으로 잘 알려진 마약을 언급하며 가격을 묻자 이루다는 곧바로 “별로 안 올랐다”며 “지금 딱 10만 원”이라고 답했다. 이어 다른 종류의 마약 가격에 대해서는 “글쎄영. 만 원대 안팎이었던 것 같은데”라는 대답이 돌아왔다. 반사회적 내용이 검수과정에서 걸러지지 않고 반영됐을 가능성이 높다. 이루다는 전 연령대가 사용할 수 있는 서비스로 논란이 되기 이전에는 10~20대가 주 사용 연령층이었다.

#혐오와 차별 그대로 배워

AI 챗봇 이루다 이미지. 사진=스캐터랩

개발 과정을 살펴본 결과, 이루다는 우리 사회가 가지고 있던 혐오와 차별을 그대로 반영한 거울이었다. 개발사 스캐터랩은 이루다 서비스 개발을 위해 앞서 출시한 ‘연애의 과학’ 앱을 통해 이용자들의 카톡 대화 100억 건을 수집했다. 데이터는 상대방과의 친밀도를 분석해 준다는 명목하에. 앱 사용자가 5000원 정도의 금액을 내고 실제 카톡 대화 내용을 올리면 연애의 과학은 이를 바탕으로 상대의 감정을 분석하는 서비스를 제공했다. 연인의 마음, 혹은 아직 사귀기 전 단계에서 상대방의 마음을 알고 싶은 사람들의 심리를 자극한 것이다.

정보 제공자들에 따르면 대화 일부분을 편집해서 내는 것은 불가능했으며 대화방 전체 내용을 문서화해 연애의 과학 운영진 메일로 보내는 것만 가능했다. 다시 말해 두 사람이 나눈 대화 전체를 개발사가 갖게 되는 셈이다. 이렇게 수집된 100억 건의 대화 내용은 이루다의 말이 됐다. 이 과정에서 일부 개인 정보들이 그대로 노출된 것이다.

그런데 AI 학습을 위해 카톡 대화를 모은 곳이 또 있다. 한국정보화진흥원(NIA)과 (주)바이브컴퍼니도 2020년부터 AI 머신러닝을 위한 카톡 학습 데이터를 수집하고 있다. 다만 스캐터랩과 다른 점이 있다면 한국정보화진흥원의 경우 정보제공자에게 이용 목적을 분명히 알리고 이에 대한 보상을 제공하고 있다는 점이다. 사업 내용에 따르면 8개 이상의 말풍선을 하나의 대화 조각으로 치는데 조각당 700원을 보상하고 있었다.

개인정보 유출에 대해서도 스캐터랩과는 다른 방법을 쓰고 있다. 대화 전문을 제출해야 했던 스캐터랩과 달리 한국정보화진흥원은 발화 수를 최소 8번 이상 최대 30번 이하로 제한하며 대화방 참여자들의 동의를 얻었다는 계약서를 작성한 뒤에 정보를 제공받고 있다고 밝혔다. 이 밖에도 정보제공자는 주소나 전화번호, 이름 등 민감한 정보는 스스로 가리고 올려야 한다. 이후 검수과정에서 문제가 없다면 개인정보 유출 가능성은 적은 셈이다.

한국정보화진흥원에서 제공하는 카톡 수집 가이드 라인. 사진=유튜브 캡처

또한 비윤리적인 자료는 애당초 데이터로 받지 않았다. 한국정보화진흥원은 “데이터 수집과정에서 반사회적, 혐오적, 차별적, 선정적 표현을 포함한 대화는 제외 데이터로 취급해 받지 않고 있다”고 밝혔다. 다만, 이루다 역시 성적 단어는 금지어로 필터링하도록 했음에도 사용자의 이용방법에 따라 악용된 바 있다. 결국 완전무결한 AI가 나와도 이용자의 인식 개선이 선행되지 않으면 올바른 이용이 어려운 셈이다.

업계에서는 현실을 반영해 만들어진 AI가 현실과 달리 윤리적으로 완벽하길 바라는 것은 모순이라는 입장도 나왔다. 익명을 요구한 현직 개발자는 11일 “AI의 가치관 및 도덕성 문제는 처음이 아니다”라며 “과거에는 AI 면접관이 여성 면접자에게만 낮은 점수를 줘 논란이 된 일도 있었다. 이런 결과가 나올 수밖에 없는 이유는 AI가 우리 사회를 거울삼아 스스로 학습해 나가기 때문이다. 이루다가 그렇게 된 것도 이전 대화에서 혐오와 차별의 단어를 배웠을 가능성이 높다. 개발 과정에서 보완해야 할 부분이 분명히 존재하지만 기본값이 차별과 혐오인데 그 결과만 완벽하길 바라는 것은 모순이 아닐까”라고 지적했다.

그럼에도 선별적 보정 작업과 시스템 개선의 필요성은 대두되고 있다. 이재웅 전 쏘카 대표는 SNS에 “일상 대화에서 차별·혐오하는 사람이 많고 그것을 학습한 결과로 차별과 혐오를 하게 됐더라도 그것을 보정 없이 대중에게 서비스하는 것은 큰 문제”라며 “편향된 학습 데이터면 보완하든가 보정을 해서라도 혐오와 차별의 메시지는 제공하지 말아야 한다”고 지적했다.

한편 이루다의 개발사 스캐터랩은 카톡 대화를 알고리즘으로 비식별화 처리한 뒤 AI에게 학습시켰기 때문에 개인정보는 유출되지 않았다고 해명했다. 또 사전에 개인정보취급방침을 통해 ‘수집된 개인정보는 신규 서비스 개발에 활용한다’는 조건을 안내했다고 밝혔으나 서비스 과정에서 특정인의 이름과 주소 등이 노출됐다는 증언이 이어졌다. 결국 개발사는 11일 서비스를 잠정적으로 중단하고 부족한 부분을 개선하겠다는 입장을 밝혔다.

‘이루다’ 개인정보 유출 의혹, ‘마이데이터’ 사업에 불똥 튀나

AI 챗봇인 이루다가 대화 도중 특정인의 이름과 주소 등을 노출해 정보 제공자의 개인정보가 유출된 것 아니냐는 논란이 일고 있다. 최근 금융권을 포함한 기업 관계자들 사이에서는 데이터 3법 시행과 함께 도입된 ‘마이데이터’ 사업에도 불똥이 튀는 것 아니냐는 우려가 제기됐다.

데이터 3법(개인정보보호법·정보통신망법·신용정보법 개정안)은 2020년 8월부터 시행됐다. 4차 산업혁명 도래에 맞춰 기업의 데이터 이용을 활성화한다는 데 목적이 있다. 데이터 3법 시행으로 가장 활성화된 사업이 마이데이터다. 마이데이터는 은행 계좌와 신용카드 이용내역 등 여러 회사에 흩어진 정보를 하나로 통합해 관리할 수 있도록 하는 개념이다. 하나의 플랫폼 안에서 여러 계좌를 한꺼번에 보여줄 수 있기에 카카오와 네이버 등 대중성에서 선두를 달리고 있는 기업 입장에서는 반가운 소식이 아닐 수 없다. 실제로 사업이 시행되자 네이버와 카카오를 포함한 60개의 회사가 예비허가 사전 신청을 하기도 했다.

가명정보 가이드라인에 따르면 기업은 개인정보를 가명처리만 한다면 정보주체 동의 없이 연구에 활용하거나 이를 제3자에게 제공하는 것이 가능하다. 문제는 이루다 사건으로 그간 마이데이터 사업의 문제점으로 꼽혀왔던 개인정보 유출 및 데이터 관리 부실에 대한 우려가 커졌다는 점이다. 기업 간 데이터 이동이 많이 일어날수록 정보 유출 가능성이 훨씬 높아지기 때문이다.

특히 마이데이터 사업의 정보 제공 범위는 은행‧보험‧증권‧카드‧핀테크 등 개인의 온라인 쇼핑내역까지 들여다 볼 수 있을 정도로 방대해 한 번 유출되면 그 피해가 훨씬 크다. 이에 대해 지식재산권 전문 변호사는 11일 “최근 이루다 사건으로 기업이 과도하게 개인정보를 수집·활용한다는 여론의 비판이 나오면서 일반 기업에서도 긴장한 눈치”라고 말했다.

개인정보 보호를 위해 관련 처벌 규정을 강화해야 한다는 논의는 지난해부터 계속되고 있다. 데이터 3법 제정 이후 데이터 활용에 대한 법안은 쏟아져 나오고 있지만 이를 뒷받침해줘야 할 ‘개인정보보호법’의 실질적 강화는 이뤄지지 않고 있기 때문이다. 이에 1월 6일 참여연대와 진보네트워크 등 시민단체는 정보 주체의 권리 보호 장치를 강화하고 개인정보보호법 위반 시 집단 소송과 징벌적 손해배상제를 도입하는 내용의 공동 의견서를 개인정보보호위원회에 제출했다.

최희주 기자 hjoo@ilyo.co.kr

기사 공유하기

글자 크기 변경

“마약 시세가? 딱 십만원” 스무살 AI ‘이루다’ 그걸 어떻게…

연인 카톡 대화 100억건 학습 우리 사회 차별·혐오 그대로 반영…일부 개인정보도 유출