- 다양한 주제에 대해 자유롭게 글을 작성하는 게시판입니다.
Date | 15/11/02 06:38:07 |
Name | 눈부심 |
Subject | 통계, 그 바이어스의 가면을 벗겨보자 |
출처 : http://www.slate.com/articles/news_and_politics/crime/2015/10/why_do_so_many_prisoners_end_up_back_in_prison_a_new_study_says_maybe_they.html 출처 : http://cad.sagepub.com/content/early/2014/09/26/0011128714549655.abstract 통계이야기가 나와서 어제 읽은 기사를 옮겨 보면.. 미국법무부의 통계에 의하면 수감된 미국범죄자들의 68%가 출옥 후 3년 내 새로운 범죄를 저지르고 또 수감된다고 해요. 75%는 5년 내에 재수감되고요. 이 통계는 2005년에 40만명의 죄수들을 대상으로 조사한 자료에 근거한 거예요. 그런데 최근에 캠브리지정책연구소는 정 반대의 자료를 내놓았어요. 이들의 보고서에 의하면 죄수 중 2/3는 다시는 감옥에 돌아오는 법이 없었고 여러 번 수감되는 이는 고작 11%에 불과했어요. 재수감률을 파악하는 것은 정책결정에 있어서 매우 중요한데 어떻게 이런 정반대의 사실이 도출될 수 있는 걸까요? 미법무부는 한 그룹의 수감인들이 특정 한 해 동안 다른 범죄를 저지르고 다시 수감되는 비율을 조사했는데요. 이 자체를 가지고 도출한 수치는 정확했어요. 그렇다면 무엇이 문제냐. 예컨데 쇼핑몰에서 쇼핑하는 인구를 분석한다고 해봅시다. 우리는 보통 쇼핑몰에 가서 쇼핑하는 사람들을 무작위로 조사하겠죠. 이런 조사의 문제는 그 기간이 매우 짧아요. 한 일주일단위가 될까요? 자주 오는 사람은 자주 볼테지만 자주 오지 않는 사람은 자주 못 보게 되겠죠. 자주 보는 사람 중에는 물건을 구매하는 것보다 단지 쇼핑몰에 오는 것이 좋아서 일주일에 한 번 정도 오는 사람들일 수도 있구요. 조사자가 만나지 못하는 어떤 이들은 쇼핑을 자주 하지는 않지만 세탁기와 같은 큰 물건을 사러 오기도 해요. 따라서 조사기간이 짧을수록 쇼핑을 하는 다양한 인구를 포함하지 못하고 단지 어떤 이유에서건 쇼핑몰에 자주 나타나는 사람들만을 대상으로 조사가 이루어질 뿐이에요. [대표성이 떨어지죠.] 재수감률을 조사할 때에도 이런 대표성을 고려해야 해요. 미법무부가 실행한 재수감률조사는 처음부터 데이타를 비틀어보겠다고 작정하고 한 건 아니었을 거예요. 다시 범죄를 저지르고 수감된 이들의 숫자를 일 년 동안 지켜본 데이타를 통해 결론내린 재수감률은 그 자체로선 팩트를 담고 있어요. 다만 범죄를 저지르고 다시 수감되거나 수감되지 않는 모든 사람들의 경향을 담지는 못해요. 캠브리지정책연구소에서 실행한 조사는 이랬어요. 2000년에 미국 전역에 걸쳐 각 주에서 출소한 전과범들을 15년 동안 추적했더니 대부분의 전과범들은 다시 범죄를 저지르지 않는다는 결론이 나왔어요. 통계해석이 판이하게 다른데 둘의 데이타가 나름 맞는 거라면 이 둘의 데이타를 두고 어떻게 정책에 응용할 것인가라는 의문이 생겨요. 전과범이라고 해서 또 범죄를 저지르는가라는 질문에는 캠브리지정책연구소의 데이타결과에 따라 그렇지 않다라고 답하는 것이 옳아요. 특정기간 동안 재수감률을 방지하기 위해 어떤 프로그램을 적용했는데 그 정책의 실효성이 어떠했나를 가려내기 위해서라면 미법무부가 조사한 방법이 옳아요. 만약 미법무부의 데이타해석대로라면 전과범들에 대해 우리사회에 커다란 바이어스를 심어주게 돼서 위험할 거예요. 저런 통계치와 해석을 지난 15년간 학계에서 레퍼런스로 사용했을테니 사회적으로 부작용이 가히 적지 않았을 거란 생각이 드네요. *** 이 글은 도대체 분류가 몰까요? 기타가 맞나영. 1
이 게시판에 등록된 눈부심님의 최근 게시물
|
저 기사에 대해 평한 어떤 이에 의하면 미법무부는 한 해 동안 수감자들을 대상으로 첫수감자냐 아니냐를 조사해서 대부분 첫수감자가 아니더란 결론을 내렸어요. 이렇게 조사하면 계속 수감되는 사람은 감옥에서 발견될 확률이 그만큼 높기 때문에 이렇게 하면 안 된다고 하네요(이 부분 머리가 지끈지끈). 캠브리지정책연구소는 오랜 세월에 걸쳐 개인 하나하나를 추적해서 범죄를 또 일으키고 또 수감되었는가를 밝혀냈다고 하고요. 전자에서 사용한 표본은 재수감자의 대표성이 과다하게 잡히는데 이건 아마도 insepction paradox하고 하는 녀석 ... 더 보기
저 기사에 대해 평한 어떤 이에 의하면 미법무부는 한 해 동안 수감자들을 대상으로 첫수감자냐 아니냐를 조사해서 대부분 첫수감자가 아니더란 결론을 내렸어요. 이렇게 조사하면 계속 수감되는 사람은 감옥에서 발견될 확률이 그만큼 높기 때문에 이렇게 하면 안 된다고 하네요(이 부분 머리가 지끈지끈). 캠브리지정책연구소는 오랜 세월에 걸쳐 개인 하나하나를 추적해서 범죄를 또 일으키고 또 수감되었는가를 밝혀냈다고 하고요. 전자에서 사용한 표본은 재수감자의 대표성이 과다하게 잡히는데 이건 아마도 insepction paradox하고 하는 녀석 때문인 것 같아요. 이를테면,
[“우물에 수많은 머리카락이 가라앉았습니다. 그 머리카락을 모두 끄집어내서 일일이 재어본다는 건 불가능합니다. 막대기로 물을 휘저었습니다. 그리고 떠돌아다니는 머리카락을 막대기로 건져 올렸습니다. 막대 위에 100개의 머리카락이 걸렸습니다. 이걸 표본(Sample)으로 잡았을 때, 어떤 문제가 일어납니까. 그 샘플은 모집단(universe)을 과장평가(Overestimate)한 것이겠습니까? 또는 축소평가(Underestimate)한 것이겠습니까? 과장평가한 것입니다. 머리카락의 길이가 길수록 막대기에 걸릴 확률이 그만큼 더 높지 않겠습니까?”] 이거는 출처가 웃기게도 지만원씨 책;;
하여튼 이런 이유 때문에 재수감률을 조사하려면 표본추출을 미법무부처럼 하면 안된대요. 이 표본추출로는 질문에 대한 답이 나오지 않는데 이것을 토대로 답을 했다는 것이 문제인 것 같아요.
[“우물에 수많은 머리카락이 가라앉았습니다. 그 머리카락을 모두 끄집어내서 일일이 재어본다는 건 불가능합니다. 막대기로 물을 휘저었습니다. 그리고 떠돌아다니는 머리카락을 막대기로 건져 올렸습니다. 막대 위에 100개의 머리카락이 걸렸습니다. 이걸 표본(Sample)으로 잡았을 때, 어떤 문제가 일어납니까. 그 샘플은 모집단(universe)을 과장평가(Overestimate)한 것이겠습니까? 또는 축소평가(Underestimate)한 것이겠습니까? 과장평가한 것입니다. 머리카락의 길이가 길수록 막대기에 걸릴 확률이 그만큼 더 높지 않겠습니까?”] 이거는 출처가 웃기게도 지만원씨 책;;
하여튼 이런 이유 때문에 재수감률을 조사하려면 표본추출을 미법무부처럼 하면 안된대요. 이 표본추출로는 질문에 대한 답이 나오지 않는데 이것을 토대로 답을 했다는 것이 문제인 것 같아요.
재수감률 recidivism 은 하나의 variable 인데 이런 자료는 대부분 법무부에서 자기들이 만든 통계 자료를 보내주고 그 자료 안에서 사회학자나 통계학자가 원하는 주제나 intervention 을 뽑아내어야 하는 것 같아요. 그래서 자료의 형성 자체가 오류/바이어스를 만드는 것인지도 몰라요. 사회학자가 본인이 데이타 주제를 정하고 샘플과 자료를 만드는 것이 아니기때문에요. 제가 볼 때는 이미 답은 정해져있는데 학자가 법무부 사람들에게 미묘한 차이를 알기쉽게 설명하는 것이 논문의 목적이되는 것이구요. 말씀처럼 표본추출로 답이 나오지 않지만 논문을 써야하기때문에 답을 만들어야하는 과정이 되풀이 되는 것이지요. 제가 읽고 있는 논문이랑 너무 비슷해서 깜놀했습니다.
혹시 gmail계정 있으시면 구글플러스란 데서 저는 이 아저씨 따라댕기거든요. 아 아재가 통계 잘못됐다고 열을 내길래 정부가 뭐 큰 잘못했나부다 그래 생각을 흐흐흐흐...
이 아재 말 참 잘 해요. 내용도 재밌고.
https://plus.google.com/u/0/+YonatanZunger/posts
이 아재 말 참 잘 해요. 내용도 재밌고.
https://plus.google.com/u/0/+YonatanZunger/posts
의학이 과학이기도 하지만 예술이라고 하는 가장 큰 이유이기도 한 것 같아요. 논문을 보면 75세 이상의 환자는 나이 많다고 빼고, 심혈관 질환의 과거력 있는 사람 빼고..이래서 빼고 저래서 빼고.. 물론 다른 질환들을 같이 갖고 있으면 바이어스로 작용할 수 있으니 빼는게 맞을 것 같은데.. 그리고나서 통계 돌려서 이건 좋더라 저건 나쁘더라..
그런데 막상 환자들을 보면 75세 이상.. 심혈관 과거력.. 실제로 애초에 스터디 대상으로 포함될만한 군은 거의 없어요. 연구할 때의 환자군과 실제 환자군과의 괴리감.. 때문에 아트(라고 끄고 감이라고 읽습니다 ?)라고 이야기 하는 것 같습니다. 문서로 보여주지 못하고 증명하기 어렵지만 실제 임상의의 경험을 무시못하죠..
그런데 막상 환자들을 보면 75세 이상.. 심혈관 과거력.. 실제로 애초에 스터디 대상으로 포함될만한 군은 거의 없어요. 연구할 때의 환자군과 실제 환자군과의 괴리감.. 때문에 아트(라고 끄고 감이라고 읽습니다 ?)라고 이야기 하는 것 같습니다. 문서로 보여주지 못하고 증명하기 어렵지만 실제 임상의의 경험을 무시못하죠..
이게 대표성의 오류가 맞나요?
수감자중에 재수감자 비율이 70%라면, 나머지 30%는 초범이라는 얘기네요. 여기서 재수감율에 대해 얻을 수 있는 결론은 없습니다.
만약 재수감자는 무조건 범죄를 저질러 또 수감되고, 초범으로 들어왔다 나간 사람들은 범죄를 아얘 안저지른다고 가정해보죠.
그 70%는 계속 들락날락하겠죠? 초범으로 들어오는 사람은 또 나갈거고.
첫 연차에 100명이 수감자라고 치면, 70명은 재수감자. 30명은 초범. 2번 째연차에 70명 재수감자, 30명 새로운! 초범.
이렇게보면 130명중에 ... 더 보기
수감자중에 재수감자 비율이 70%라면, 나머지 30%는 초범이라는 얘기네요. 여기서 재수감율에 대해 얻을 수 있는 결론은 없습니다.
만약 재수감자는 무조건 범죄를 저질러 또 수감되고, 초범으로 들어왔다 나간 사람들은 범죄를 아얘 안저지른다고 가정해보죠.
그 70%는 계속 들락날락하겠죠? 초범으로 들어오는 사람은 또 나갈거고.
첫 연차에 100명이 수감자라고 치면, 70명은 재수감자. 30명은 초범. 2번 째연차에 70명 재수감자, 30명 새로운! 초범.
이렇게보면 130명중에 ... 더 보기
이게 대표성의 오류가 맞나요?
수감자중에 재수감자 비율이 70%라면, 나머지 30%는 초범이라는 얘기네요. 여기서 재수감율에 대해 얻을 수 있는 결론은 없습니다.
만약 재수감자는 무조건 범죄를 저질러 또 수감되고, 초범으로 들어왔다 나간 사람들은 범죄를 아얘 안저지른다고 가정해보죠.
그 70%는 계속 들락날락하겠죠? 초범으로 들어오는 사람은 또 나갈거고.
첫 연차에 100명이 수감자라고 치면, 70명은 재수감자. 30명은 초범. 2번 째연차에 70명 재수감자, 30명 새로운! 초범.
이렇게보면 130명중에 70명이 재수감되었으니, 재수감율은 70/130이 되겠죠.
그냥 정말 단순하게 통계를 내야하는 대상 자체를 잘못 잡은 것 같습니다.
수감자중에 재수감자 비율이 70%라면, 나머지 30%는 초범이라는 얘기네요. 여기서 재수감율에 대해 얻을 수 있는 결론은 없습니다.
만약 재수감자는 무조건 범죄를 저질러 또 수감되고, 초범으로 들어왔다 나간 사람들은 범죄를 아얘 안저지른다고 가정해보죠.
그 70%는 계속 들락날락하겠죠? 초범으로 들어오는 사람은 또 나갈거고.
첫 연차에 100명이 수감자라고 치면, 70명은 재수감자. 30명은 초범. 2번 째연차에 70명 재수감자, 30명 새로운! 초범.
이렇게보면 130명중에 70명이 재수감되었으니, 재수감율은 70/130이 되겠죠.
그냥 정말 단순하게 통계를 내야하는 대상 자체를 잘못 잡은 것 같습니다.
목록 |
|