정기구독 회원 전용 콘텐츠
『창작과비평』을 정기구독하시면 모든 글의 전문을 읽으실 수 있습니다.
구독 중이신 회원은 로그인 후 이용 가능합니다.
촌평
캐시 오닐 『대량살상수학무기』, 흐름 2017
당신의 프로파일을 팝니다
양승훈 梁承勳
경남대 사회학과 교수 submania@kyungnam.ac.kr
올 초 런던의 서점에서 『대량살상수학무기』(Weapons of Math Destruction, 2016, 한국어판 김정혜 옮김)를 발견했을 때 깜짝 놀라 책을 들추어보았다. 내가 아는 그녀(Cathy O’Neil)는 업계의 실상을 폭로하기엔 ‘너무 잘나가는’ 데이터과학자였기 때문이다. 사회학과 대학생들에게 ‘데이터 분석’을 가르치고, 분석가들의 근거지 캐글(kaggle)을 돌아다니고, 분석기법을 더듬더듬 따라할 수 있게 된 최근에야 책을 다시 읽었다. 최근 유행하는 미드 「마인드헌터」의 프로파일러들에게 추적당하는 듯한 공포가 왔다. 드라마의 프로파일러들은 얼굴이 있지만, 프로파일러 컴퓨터는 얼굴이 없다. 유령에게 짓눌린 기분이었다. 책을 읽던 중 데이터가 세상을 지배하는 세상에서 벌어질 일들을 다룬 한편의 소설 구상이 떠올랐다.
서울 변두리에 사는 조인성씨(27, 취업준비생)는 여러차례 입사지원서를 기업에 넣지만 매번 떨어진다. 지원하는 기업들은 서류심사 때 ‘신원조회’를 하는데, 범죄율이 기준치보다 높은 지역의 우편번호를 쓴 지원자들을 자동으로 탈락시키는 기능을 프로그램이 탑재하고 있기 때문이다. 자취를 하던 조씨는 생활비를 벌려고 M식당과 S까페 알바에 지원하지만 그마저 떨어진다. 면접 후 심리검사 비슷한 것을 풀었는데 몇 분야가 ‘비정상’이 의심되는 상태로 나왔기 때문이다. 조씨는 벌이가 없었기에 기초생활수급자로 지내고 있다. 쌀 신청과 전기, 휴대폰 요금 할인 신청을 위해 집에서 인터넷을 검색하던 중, 이런 신청을 대행해주는 사이트를 발견한다. 가입을 하려니 복잡한 신상명세를 넣은 다음 ‘개인정보 활용에 대한 동의’를 세차례나 체크해야 했다. 며칠 후부터 ‘○○사이버대학’에서 전화가 오기 시작한다. 대행업체가 개인정보를 사이버대학에 팔았기 때문이다. “취업하려면 기업이 원하는 학위를 취득하셔야 해요!” 상담사의 소개였다. 조씨는 점차 상담사의 말에 귀를 기울이게 된다. 등록금은 일년에 천만원. 신용등급도 낮고 현금도 없다고 하자, 정부가 보증하여 등록금을 낮은 이자로 대출해준다고 한다. 사이버대학에 입학한 조씨는 ‘번듯한 정규직’이 되고 가난의 굴레에서 벗어날 수 있을까? 사실 그가 정규직이 될는지의 여부보다 더 흥미로운 것은 조인성씨가 어떻게 체계적으로 구직시장에서 배제되고, 어떻게 사이버대학 시장의 먹잇감이 되는지다. 거기에 캐시 오닐이 주장하는 WMD(대량살상수학무기)가 있다.
WMD는 “(방대한) 데이터를 통해 인간의 욕구와 행동, 그리고 소비력을 조사(…)할 뿐만 아니라 개개인의 신뢰성을 예측하고 학생, 노동자, 연인, 범죄자로서의 잠재력까지 계산”(15면)함으로써 발생하는 사회현상을 의미한다. 사람들의 행동과 생각의 확률을 축적된 (대리)데이터를 통해 자동으로 추산하는 것이다. 대리데이터란 상관없어 보이는 것에서 얻은 추정치라는 점에서 일반적인 데이터와는 다른데, 금융기관이 누군가의 신용등급 같은 개인정보에 접근할 수 없을 때 거주지나 학력 등을 동원하는 것이 그 예다. 이게 어때서 싶기도 하다. 데이터에 기반한 알고리즘 덕택에 우리는 편리를 누리잖나. 인터넷 쇼핑몰은 ‘고객님과 취향이 비슷한 분들이 사신 아이템’을 추천한다. 아마존은 아예 ‘A를 사세요’ 하고 추천한다. 오바마는 ‘무당파’ 개인들에게 딱 맞는 맞춤형 전략, 즉 ‘마이크로 타기팅’을 활용해 선거에서 승리했다. 빅데이터를 활용한 알고리즘의 효과는 상식이 됐다.
영화 「나, 다니엘 블레이크」(켄 로치 감독, 2016)를 떠올려보자. 주인공 다니엘 블레이크가 건강수당을 받지 못하는 이유는 ARS에 잘 적응하지 못해서다. 예전에는 노동청 방문 후 ‘면담’만을 통해 수급 여부가 결정됐다면, 데이터과학이 발전한 지금은 몇겹의 필터가 있다. 신용등급이 높은 수당신청자로부터 전화가 올 경우 담당자에게 직통으로 전화가 연결되고, 중간일 경우 간단한 ARS 입력 절차를 거치게 되며, 낮은 경우 3~5분 정도의 대기시간을 추가로 부과하는 식이다. 예전에는 몇시간 동안 줄을 설지언정 주무관과 대화를 통해서 내용을 안내받고 절차를 통보받을 수 있었다면, 지금은 알고리즘을 통해서 절차를 간소화하고 사람들을 신용등급 데이터를 통해 분류한다. 그런데 여기서 소외되는 사람들은 누구인가?
캐시 오닐이 지적하는 WMD는 불투명하고, 불공정하고, 확장성이 강하기에 치명적이다. 구글은 사람들이 두드리는 검색어를 통해 신종플루를 예측하고 맞춤형 검색서비스를 제공하지만, 검색어 데이터와 데이터 처리 방식을 공개하지 않는다. 삼성의 SSAT 같은 인적성검사는 개개인의 특징을 평가해 취업준비생들의 등급을 매기지만, 채점기준을 공개하지 않는다. 페이스북은 나와 비슷한 성향의 사람들이 읽는 기사를 내 타임라인에 띄우지만 그 방법은 ‘영업비밀’이고, 나는 성향이 다른 사람들이 어떤 생각을 하는지 알기 어렵게 된다. 투명하지 않고 공정하지 않다. 이런 모델들은 인건비를 줄이고 ‘수학적으로 합리적’이라는 이유로 히트상품이 되어 기업과 정부에 확산되고 있다. 데이터과학 업계는 내 행동과 선호를 예측할 개인정보와 이를 임의적으로 엮어 평가할 수 있는 모델을 양산한다. 일종의 자기완결적 시장이 탄생한 셈이다. 배제되는 것은 모르는 사이에 자신의 정보를 제공‘당하고’ 그에 따라 분류되는 사람들이다. 푸꼬(M. Foucault) 말마따나 분류는 역시나 권력이 된다.
이쯤에서 책의 주장이 ‘빅데이터 분석’의 편리를 포기하고 규제하자는 것인지 반문할 수 있다. 아니다. 저자는 외려 데이터과학의 불완전성을 공개와 공유를 통한 민주주의로 극복할 수 있다고 주장한다. 컴퓨터는 가치판단을 할 수 없기에 편견에 기초해 모델을 만들면 알고리즘은 은연중에 사람들을 차별한다. 편견과 혐오로 인해 오류와 차별이 발생할 때마다 시정은 사람만이 할 수 있다. 데이터과학자라는 ‘잘나가는’ 지식정보사회의 엘리트들뿐 아니라 뜻있는 시민들이 개입할 수 있어야 한다. 국가는 기업들이 ‘영업비밀’이라고 숨기고 있는 자료를 공개해서 시민들이 불이익을 당할 때마다 데이터와 알고리즘 모두를 투명하게 살펴 판단할 수 있게 해야 한다. 달리 말해 저자는 기계를 때려 부수던 러다이트운동이 아닌, 공장을 노동자가 통치하자던 노동자 자주관리의 입장에 선다. 기술적으로 볼 때도 최상의 데이터과학 모델은 오류가 발생할 때마다 이것을 다양한 데이터를 통해 수정하는 ‘동적(dynamic) 모델’이다. 정보 접근이 민주적이 되는 순간 기술적으로도 가장 합리적인 선순환이 창출된다. 유발 하라리(Yuval Harari)는 이 책을 읽고 흥미롭되 심란하다고 했지만, 나는 여전히 긍정적이다. WMD를 저격하는 저자 캐시 오닐은 지금도 오픈소스로 시민들에게 데이터과학과 수학 지식을 공유하며 적극적인 행동을 촉구하고 있다.