- 다양한 주제에 대해 자유롭게 글을 작성하는 게시판입니다.
Date 15/11/02 06:38:07
Name   눈부심
Subject   통계, 그 바이어스의 가면을 벗겨보자
출처 : http://www.slate.com/articles/news_and_politics/crime/2015/10/why_do_so_many_prisoners_end_up_back_in_prison_a_new_study_says_maybe_they.html
출처 : http://cad.sagepub.com/content/early/2014/09/26/0011128714549655.abstract

통계이야기가 나와서 어제 읽은 기사를 옮겨 보면..

미국법무부의 통계에 의하면 수감된 미국범죄자들의 68%가 출옥 후 3년 내 새로운 범죄를 저지르고 또 수감된다고 해요. 75%는 5년 내에 재수감되고요. 이 통계는 2005년에 40만명의 죄수들을 대상으로 조사한 자료에 근거한 거예요.

그런데 최근에 캠브리지정책연구소는 정 반대의 자료를 내놓았어요. 이들의 보고서에 의하면 죄수 중 2/3는 다시는 감옥에 돌아오는 법이 없었고 여러 번 수감되는 이는 고작 11%에 불과했어요.

재수감률을 파악하는 것은 정책결정에 있어서 매우 중요한데 어떻게 이런 정반대의 사실이 도출될 수 있는 걸까요?

미법무부는 한 그룹의 수감인들이 특정 한 해 동안 다른 범죄를 저지르고 다시 수감되는 비율을 조사했는데요. 이 자체를 가지고 도출한 수치는 정확했어요. 그렇다면 무엇이 문제냐.

예컨데 쇼핑몰에서 쇼핑하는 인구를 분석한다고 해봅시다. 우리는 보통 쇼핑몰에 가서 쇼핑하는 사람들을 무작위로 조사하겠죠. 이런 조사의 문제는 그 기간이 매우 짧아요. 한 일주일단위가 될까요? 자주 오는 사람은 자주 볼테지만 자주 오지 않는 사람은 자주 못 보게 되겠죠. 자주 보는 사람 중에는 물건을 구매하는 것보다 단지 쇼핑몰에 오는 것이 좋아서 일주일에 한 번 정도 오는 사람들일 수도 있구요. 조사자가 만나지 못하는 어떤 이들은 쇼핑을 자주 하지는 않지만 세탁기와 같은 큰 물건을 사러 오기도 해요. 따라서 조사기간이 짧을수록 쇼핑을 하는 다양한 인구를 포함하지 못하고 단지 어떤 이유에서건 쇼핑몰에 자주 나타나는 사람들만을 대상으로 조사가 이루어질 뿐이에요. [대표성이 떨어지죠.]

재수감률을 조사할 때에도 이런 대표성을 고려해야 해요. 미법무부가 실행한 재수감률조사는 처음부터 데이타를 비틀어보겠다고 작정하고 한 건 아니었을 거예요. 다시 범죄를 저지르고 수감된 이들의 숫자를 일 년 동안 지켜본 데이타를 통해 결론내린 재수감률은 그 자체로선 팩트를 담고 있어요. 다만 범죄를 저지르고 다시 수감되거나 수감되지 않는 모든 사람들의 경향을 담지는 못해요.

캠브리지정책연구소에서 실행한 조사는 이랬어요. 2000년에 미국 전역에 걸쳐 각 주에서 출소한 전과범들을 15년 동안 추적했더니 대부분의 전과범들은 다시 범죄를 저지르지 않는다는 결론이 나왔어요.

통계해석이 판이하게 다른데 둘의 데이타가 나름 맞는 거라면 이 둘의 데이타를 두고 어떻게 정책에 응용할 것인가라는 의문이 생겨요. 전과범이라고 해서 또 범죄를 저지르는가라는 질문에는 캠브리지정책연구소의 데이타결과에 따라 그렇지 않다라고 답하는 것이 옳아요. 특정기간 동안 재수감률을 방지하기 위해 어떤 프로그램을 적용했는데 그 정책의 실효성이 어떠했나를 가려내기 위해서라면 미법무부가 조사한 방법이 옳아요.

만약 미법무부의 데이타해석대로라면 전과범들에 대해 우리사회에 커다란 바이어스를 심어주게 돼서 위험할 거예요.  저런 통계치와 해석을 지난 15년간 학계에서 레퍼런스로 사용했을테니 사회적으로 부작용이 가히 적지 않았을 거란 생각이 드네요.  

*** 이 글은 도대체 분류가 몰까요? 기타가 맞나영.



1


    삼공파일
    꿀팁이라는 생각이 드네요...?
    눈부심
    꿀팁이라... \'재수감률 엄청 낮대. 꿀팁이다. 오 유용해.\'
    징짜로요..?
    그럼 바꿔놓을게요.
    삼공파일
    헐...ㅠㅠ 화내시는거에요?
    눈부심
    등짝 퍽! 부헬헬헬
    제가 화낼 이유가 없잖아요;;
    제가 막 아짐마대장부같고 그래요?
    우씽 OTL
    저 엄청 소심한데 웅...
    오오 저렇게 하면 바이어스를 심어줄 수 있구나. 꿀팁 감사합니다.
    눈부심
    읽어주셔서 대단히 감사합니다(_ _)
    레지엔
    표본 추출 문제죠 결국. 그래서 \'어떻게 추출했는가\'와 \'왜 그렇게 추출했는가\'를 잘 맞춰야 하는데... 어차피 다 속을 때는 다 속을 수 밖에 없고 시대가 지나봐야 어느 선지자께서 \'니들 이래서 틀림\'이라고 강의를 해주시게 되죠(..)
    눈부심
    \'표본 추출\' 오 네. 필기 샥샥.
    블랙비글
    딱히 바이어스라고 보기는 어려운거 같네요. 분석의 목적에 따라 가중치를 어디에 두냐에 따른 차이일 뿐이죠.
    눈부심
    저 기사에 대해 평한 어떤 이에 의하면 미법무부는 한 해 동안 수감자들을 대상으로 첫수감자냐 아니냐를 조사해서 대부분 첫수감자가 아니더란 결론을 내렸어요. 이렇게 조사하면 계속 수감되는 사람은 감옥에서 발견될 확률이 그만큼 높기 때문에 이렇게 하면 안 된다고 하네요(이 부분 머리가 지끈지끈). 캠브리지정책연구소는 오랜 세월에 걸쳐 개인 하나하나를 추적해서 범죄를 또 일으키고 또 수감되었는가를 밝혀냈다고 하고요. 전자에서 사용한 표본은 재수감자의 대표성이 과다하게 잡히는데 이건 아마도 insepction paradox하고 하는 녀석 ... 더 보기
    저 기사에 대해 평한 어떤 이에 의하면 미법무부는 한 해 동안 수감자들을 대상으로 첫수감자냐 아니냐를 조사해서 대부분 첫수감자가 아니더란 결론을 내렸어요. 이렇게 조사하면 계속 수감되는 사람은 감옥에서 발견될 확률이 그만큼 높기 때문에 이렇게 하면 안 된다고 하네요(이 부분 머리가 지끈지끈). 캠브리지정책연구소는 오랜 세월에 걸쳐 개인 하나하나를 추적해서 범죄를 또 일으키고 또 수감되었는가를 밝혀냈다고 하고요. 전자에서 사용한 표본은 재수감자의 대표성이 과다하게 잡히는데 이건 아마도 insepction paradox하고 하는 녀석 때문인 것 같아요. 이를테면,
    [“우물에 수많은 머리카락이 가라앉았습니다. 그 머리카락을 모두 끄집어내서 일일이 재어본다는 건 불가능합니다. 막대기로 물을 휘저었습니다. 그리고 떠돌아다니는 머리카락을 막대기로 건져 올렸습니다. 막대 위에 100개의 머리카락이 걸렸습니다. 이걸 표본(Sample)으로 잡았을 때, 어떤 문제가 일어납니까. 그 샘플은 모집단(universe)을 과장평가(Overestimate)한 것이겠습니까? 또는 축소평가(Underestimate)한 것이겠습니까? 과장평가한 것입니다. 머리카락의 길이가 길수록 막대기에 걸릴 확률이 그만큼 더 높지 않겠습니까?”] 이거는 출처가 웃기게도 지만원씨 책;;

    하여튼 이런 이유 때문에 재수감률을 조사하려면 표본추출을 미법무부처럼 하면 안된대요. 이 표본추출로는 질문에 대한 답이 나오지 않는데 이것을 토대로 답을 했다는 것이 문제인 것 같아요.
    세상의빛
    표본 추출 정말 어렵죠. \'내가 선정한 집단이 모집단을 얼마나 잘 대표하는가?\' 를 항상 고민하지만, 현실은 \'얼마나 잘 대표한다고 우길 수 있을까?\' 라서... 이상과 현실의 괴리를 매일 느끼며 살고 있죠 흑
    눈부심
    통계는 공부하면 공부할수록 더 모르겠고 미궁에 빠진다고 하더라고요. 전 다행히 한 번도 공부 안 해봤어요. 크크.
    난커피가더좋아
    일겅!
    레지엔
    공격당하는 기분이다...
    까페레인
    재수감률 recidivism 은 하나의 variable 인데 이런 자료는 대부분 법무부에서 자기들이 만든 통계 자료를 보내주고 그 자료 안에서 사회학자나 통계학자가 원하는 주제나 intervention 을 뽑아내어야 하는 것 같아요. 그래서 자료의 형성 자체가 오류/바이어스를 만드는 것인지도 몰라요. 사회학자가 본인이 데이타 주제를 정하고 샘플과 자료를 만드는 것이 아니기때문에요. 제가 볼 때는 이미 답은 정해져있는데 학자가 법무부 사람들에게 미묘한 차이를 알기쉽게 설명하는 것이 논문의 목적이되는 것이구요. 말씀처럼 표본추출로 답이 나오지 않지만 논문을 써야하기때문에 답을 만들어야하는 과정이 되풀이 되는 것이지요. 제가 읽고 있는 논문이랑 너무 비슷해서 깜놀했습니다.
    눈부심
    혹시 gmail계정 있으시면 구글플러스란 데서 저는 이 아저씨 따라댕기거든요. 아 아재가 통계 잘못됐다고 열을 내길래 정부가 뭐 큰 잘못했나부다 그래 생각을 흐흐흐흐...
    이 아재 말 참 잘 해요. 내용도 재밌고.
    https://plus.google.com/u/0/+YonatanZunger/posts
    의학이 과학이기도 하지만 예술이라고 하는 가장 큰 이유이기도 한 것 같아요. 논문을 보면 75세 이상의 환자는 나이 많다고 빼고, 심혈관 질환의 과거력 있는 사람 빼고..이래서 빼고 저래서 빼고.. 물론 다른 질환들을 같이 갖고 있으면 바이어스로 작용할 수 있으니 빼는게 맞을 것 같은데.. 그리고나서 통계 돌려서 이건 좋더라 저건 나쁘더라..

    그런데 막상 환자들을 보면 75세 이상.. 심혈관 과거력.. 실제로 애초에 스터디 대상으로 포함될만한 군은 거의 없어요. 연구할 때의 환자군과 실제 환자군과의 괴리감.. 때문에 아트(라고 끄고 감이라고 읽습니다 ?)라고 이야기 하는 것 같습니다. 문서로 보여주지 못하고 증명하기 어렵지만 실제 임상의의 경험을 무시못하죠..
    눈부심
    저 데이타를 던져주면 AI가 알아서 무슨 뜻인지 잘 얘기해주는지 궁금하기도 해요.
    Beer Inside
    75세 이상은 특정 질병이 아닌 다른 질병으로 죽을 가능성이 워낙 높아서...
    나쵸치즈
    대학와서 놀란게 통계학을 사회과학으로 위치시킨 대학이 있는가 하면 자연과학에 위치시킨 대학이 있다는 것이었는데, 글에 나타난 점을 보면 이해가 되네요.
    눈부심
    이런 간단한 일례같은 건 고등학교에서 선생님들이 얘기해주면 애들이 통계학에 관한 호기심도 가질테고 참 좋을 것 같다는 생각이 드네요. 저는 글 올릴 때 주로 청소년들이 많이 읽고 호기심을 키웠으면 하는 바람을 가지고 올려요.
    J_Square
    통계학은 분명 초등 교육과정부터 독립시켜서 가르쳐야 할 필요성이 있다고 생각합니다.
    variability의 특성을 알고 통계가 조작이네~ 라고 말하는 것이 아무것도 모르고 그냥 통계는 입맛 맞춤이야~ 하는 것보다 나을 거거든요.
    대부분의 사람이 통계학의 구조를 잘 모르니 통계로 장난치는 경우도 너무 많고…
    애초에 통계학이 수학이 아닌데, 수학 몇 글자 나온다고 수학에서 통계학을 맡아 가르친다는 게 말이 안되요.
    그럴거면 경제도 물리도 화학도 다 수학에서 가르쳐야죠.
    눈부심
    오.. 초등부터. 저는 통계학이 무척 어렵다는 선입견이 있어서 그게 가능한지도 몰랐어요.
    아이들 수준으로 가르칠 수 있는 방법이 있다면 참 좋겠네요.
    레지엔
    뭐 깊게 가면 어렵긴 하겠는데, 개인적인 경험에서 생각해도 통계의 기본 요소는 그 앞 챕터랑 상관이 크게 없더군요. 진짜 \'셀 줄 알면\' 시작할 수 있는 영역인데 이걸 교과서 뒤에 붙여놓으니 안그래도 수학에 흥미 떨어진 애들이 더 관심을 안 가지는게 아닌가... 그런 생각이 좀 들더군요. 한 초등학교 4-5학년부터 따로 떼서 가르치면 다른 분야의 이해에도 좋지 않을까 그런 생각을 합니다.
    damianhwang
    통계학과는 문과로, 경제학과는 이과로...읭?;;
    눈부심
    그러합니다.
    이러사우호
    이게 대표성의 오류가 맞나요?

    수감자중에 재수감자 비율이 70%라면, 나머지 30%는 초범이라는 얘기네요. 여기서 재수감율에 대해 얻을 수 있는 결론은 없습니다.

    만약 재수감자는 무조건 범죄를 저질러 또 수감되고, 초범으로 들어왔다 나간 사람들은 범죄를 아얘 안저지른다고 가정해보죠.
    그 70%는 계속 들락날락하겠죠? 초범으로 들어오는 사람은 또 나갈거고.
    첫 연차에 100명이 수감자라고 치면, 70명은 재수감자. 30명은 초범. 2번 째연차에 70명 재수감자, 30명 새로운! 초범.
    이렇게보면 130명중에 ... 더 보기
    이게 대표성의 오류가 맞나요?

    수감자중에 재수감자 비율이 70%라면, 나머지 30%는 초범이라는 얘기네요. 여기서 재수감율에 대해 얻을 수 있는 결론은 없습니다.

    만약 재수감자는 무조건 범죄를 저질러 또 수감되고, 초범으로 들어왔다 나간 사람들은 범죄를 아얘 안저지른다고 가정해보죠.
    그 70%는 계속 들락날락하겠죠? 초범으로 들어오는 사람은 또 나갈거고.
    첫 연차에 100명이 수감자라고 치면, 70명은 재수감자. 30명은 초범. 2번 째연차에 70명 재수감자, 30명 새로운! 초범.
    이렇게보면 130명중에 70명이 재수감되었으니, 재수감율은 70/130이 되겠죠.
    그냥 정말 단순하게 통계를 내야하는 대상 자체를 잘못 잡은 것 같습니다.
    눈부심
    대상을 잘못잡아서 overrepresented 되었기 때문에 저리 말한 게 아닌가 마 그리 생각합...
    통계에 능통한 사람들이 자료를 수집하고 분석을 했을텐데 오류가 상당히 큰지 저거 잘못됐다고 뭐라고들 하더라고요.
    목록
    번호 제목 이름 날짜 조회 추천
    1323 IT/컴퓨터인공지능, 고용 없는 성장 19 kpark 15/10/23 11758 1
    142 기타[과학철학] 과학이란 과학자들이 하는 것이다 6 삼공파일 15/06/01 11741 1
    150 기타치킨넷이어야했다.... 8 아저씨 15/06/01 11736 0
    45 기타홍차넷 사용 지침이 있어야 할까요? 21 化神 15/05/30 11734 0
    1426 꿀팁/강좌통계, 그 바이어스의 가면을 벗겨보자 28 눈부심 15/11/02 11692 1
    1375 영화우리 2017년에 만나요...가능하면 말이죠... 17 Neandertal 15/10/29 11689 0
    1428 기타베이즈 정리, 몬티홀의 문제, 삶과 죽음의 확률 25 Beer Inside 15/11/02 11674 7
    335 기타쥬라기 월드의 흥행에 적어보는 공룡이야기....왜 새가 공룡의 후예인가 13 개평3냥 15/06/15 11666 0
    479 기타이분 왜이러나요? 27 스파이크 15/06/30 11654 0
    562 역사피맛골, 사라진 골목에 대한 아쉬움 18 마르코폴로 15/07/10 11653 0
    1376 요리/음식라면 41 헬리제의우울 15/10/29 11652 25
    1669 역사러시아에서 푸틴의 인기에 대하여... 9 조홍 15/11/30 11641 6
    1404 정치비동시성의 동시성과 한국의 페미니즘 40 난커피가더좋아 15/10/31 11609 6
    1133 경제한국형 시장경제체제 6 MANAGYST 15/09/30 11607 1
    1414 음악Halloween을 맞이하여 Helloween을 소개합니다. 24 맥주만땅 15/11/01 11603 0
    1712 문화/예술니 꺼는 내 꺼, 땡큐 18 눈부심 15/12/05 11601 1
    6236 IT/컴퓨터아이패드 프로 12.9 2세대 2일차 사용후기 15 Leeka 17/09/06 11580 0
    4528 꿀팁/강좌이북리더(크레마 카르타) 싸게 구입하는 팁 (by 상품권) 9 기쁨평안 17/01/03 11577 0
    181 기타메르스 현 상황 44 Leeka 15/06/02 11570 0
    1516 문화/예술일렉트릭 기타 브랜드를 알아봅시다 - 1. Rickenbacker 4 Lionel Messi 15/11/10 11563 0
    1265 영화킹콩 : 원숭이만이 이해할 수 있는 위대함(스포일러) 2 구밀복검 15/10/15 11556 9
    136 기타[직장] 바쁜 지구대 경찰관의 몇가지 이야기 12 관중 15/05/31 11547 0
    3342 도서/문학보유 서적 중에 가장 소장가치 있다고 생각하는 책은 무엇입니까? 72 관대한 개장수 16/07/24 11535 1
    4790 도서/문학얼마전 "늑대와 향신료"를 읽었습니다. 15 키스도사 17/02/06 11523 0
    127 기타고딩 유저로서... 16 헤칼트 15/05/31 11502 0
    목록

    + : 최근 2시간내에 달린 댓글
    + : 최근 4시간내에 달린 댓글

    댓글