- 새로운 뉴스를 올려주세요.
Date | 23/01/26 22:45:41 |
Name | 구밀복검 |
Subject | "지하철 이용자는 전장연 시위 지지하기 어렵다" 사실일까? |
https://premium.sbs.co.kr/article/MnZdmi2TPf?fbclid=IwAR0x_yzIs0FwlJ97mOXB8owPzLIwVBX086Nlvkgv44qgAMNygUZThA-K8eY ..이번 시위와 관련해 온라인에서 접하는 대표적인 의견 중 하나는 “평소에 지하철을 이용하지 않는 사람들만 지지하지, 지하철 타고 다니는 수도권 사람들이라면 솔직히 이번 시위 지지하기 어렵다”입니다... 우선 주요 교통수단이 지하철이라고 답한 사람들은 여타 유형의 응답자들에 대비해 전장연 시위 지지도가 5점 만점에 0.21점 더 낮게 나타났습니다. 지하철 이용 여부는 시위 지지도와 유의미한 상관관계를 보였습니다.(p<.01) 여기까지만 보면 꽤 직관적인 결과이고, 우리의 통념이 사실인 것도 같습니다. 다만 여기서 한 가지 주의해야 할 부분이 있습니다. 과연 ‘실제 불편함’을 겪고 있는 수도권의 지하철 이용객들이 부정적인 응답을 한 것일까요, 아니면 전장연 시위를 직접 경험하지 않는 비수도권의 지하철 이용객들 역시 ‘심리적인 공감’을 이유로 부정적인 입장을 보인 것일까요? ... 분석 결과, [서울시민들에게는 평소 지하철 이용 여부가 시위 여론에 전혀 영향을 주지 못했고(p-value 0.452), 경기도민들과 비수도권 응답자들에게만 약한 수준의 영향이 나타났습니다.(p<.1)] 경기도민은 서울까지 긴 통근·통학 시간을 겪는 경우가 많기에 그 피해가 응답에 반영되었다고 볼 수 있겠지만, 직접 시위에 영향을 받는 서울시민에게는 정작 그러한 경향이 전혀 없었다는 점, 또 반대로 시위 영향권에 전혀 포함되지 않는 비수도권 시민들에게 오히려 약하게나마 상관관계가 관찰된 점을 고려하면, 분명 직접적인 불편함 이외의 심리적인 무언가가 전장연 시위 여론에 영향을 주었을 것도 같습니다. 즉, 우리의 통념은 절반만 사실이었던 것이죠. ...흥미로운 심리적 요소는 바로 ‘정치적 신념’입니다....각 후보 지지자마다 지하철 이용 여부에 따라 서로 다른 패턴이 나타난다는 것을 알 수 있습니다. 이재명 후보에 투표한 응답자들은 평소 지하철 이용 여부와 전장연 시위에 대한 의견이 무관했지만, 윤석열 후보에 투표한 응답자들은 평소 지하철을 이용할수록 시위에 대한 비판 여론이 더 심했습니다. (p<.0 5)... ...스스로가 매우 진보적이라고 응답한 사람들은 지하철을 이용할수록 시위에 우호적이었지만, 그래프의 오른쪽 막대들로 이동할수록, 즉 정치 성향이 보수적일수록 지하철 이용 경험이 시위 여론에 부정적인 영향을 주었죠. [즉, 사람들은 이미 지니고 있는 각자의 정치 성향에 따라 이미 장애인 이동권이나 시위에 관한 의견을 사전에 정립해 둔 후, 지하철을 대상으로 하는 전장연 시위를 사후에 접하게 되면서 기존 신념을 각자의 방식으로 강화했을 가능성이 있습니다.] 연령, 성별, 소득, 학력, 직업, 결혼 여부 중 전장연 시위 지지와 통계적으로 유의미한 관계가 있는 요소는 무엇일까요? 놀랍게도 연령과 성별 간의 교차효과(interaction effect)를 제외하면, 그 어떤 요인들도 전장연에 관한 의견에 영향을 주지 못했습니다. 고등학교까지만 교육을 받았든, 서울 4년제 대학교를 졸업했든, 월평균 소득이 높든 낮든, 결혼을 했든 안 했든 전장연의 시위에 우호적인지, 아니면 비판적인지와는 전혀 관련이 없었죠.... ...연령과 성별 간의 교차 효과가 의미하는 바는...[고연령층에서는 성별에 따른 의견 차이가 없었으나, 연령대가 낮아질수록 남녀 간의 여론에 급격한 차이]가 나타났죠. 20대와 30대의 청년들의 경우, 남성들 중 51.7%가 이번 시위를 정당한 권리 행사가 아닌 사회적 민폐라고 평가했지만 여성들은 그보다 훨씬 적은 38.1%가 그렇다고 답했습니다.... 전장연 시위가 아니라 더 광범위한 [장애인 지원 정책과 예산을 소재로 질문했을 때에도 동일한 양상]이 나타났습니다. 참고로 지난해 6월에 서울신문·공공의창·우리리서치가 진행한 유사한 설문조사에서도 이와 비슷한 결과가 나타난 바 있습니다. 재미있는 연구가 나왔네요 ㅎㅎ https://minvv23.notion.site/SBS-9fa03cede9d34da4beeda0501a46bd0b [단순히 지하철을 평소에 이용하는지 보다도 어떠한 정치 성향을 지닌 사람이 지하철을 이용하는지가 훨씬 더 전장연 여론에 중요한 요소였음] 13
이 게시판에 등록된 구밀복검님의 최근 게시물
|
본문 안읽고 키워드 몇개만 본거죠 뭐...이미 지니고 있는 각자의 정치 성향에 따라 기사 내용에 대한 의견을 사전에 정립해 둔 후, 본문은 자세히 읽지 않고 기사 타이틀 키워드 몇개만 사후에 접하게 되면서 기존 신념을 강화한것이 아닌가...합니다.
링크를 보려니 회원가입해야해서 데이터를 보지는 못했지만 데이터가 저런 세분화된것들간의 비교까지 의미있을 정도로 N수가 많은지가 궁금하긴 한데...
진짜 피해유무에 따른 호불호가 있는지를 따져보려면 지하철 이용유무가 아니라 애초부터 전장연 시위로 불편을 직접적으로 겪어봤는지를 물어보는게 제일 정확하고 간단한거 아닐까요?
굳이 수도권거주와 서울거주만 가지고 직접영향이 있 니없니를 따지는건 과도한 해석같습니다.
우리나라 정치지지율상 상당한 수준으로 진보/보수나 지지경향이 연령에 따른 차이가 큰게 특징중 하나일텐데 진보보수는 차이가 있는데 연령에 따른 차이는 없다?는것도 좀 의문스러운 부분이 있구요.
진짜 피해유무에 따른 호불호가 있는지를 따져보려면 지하철 이용유무가 아니라 애초부터 전장연 시위로 불편을 직접적으로 겪어봤는지를 물어보는게 제일 정확하고 간단한거 아닐까요?
굳이 수도권거주와 서울거주만 가지고 직접영향이 있 니없니를 따지는건 과도한 해석같습니다.
우리나라 정치지지율상 상당한 수준으로 진보/보수나 지지경향이 연령에 따른 차이가 큰게 특징중 하나일텐데 진보보수는 차이가 있는데 연령에 따른 차이는 없다?는것도 좀 의문스러운 부분이 있구요.
[만 18세 이상 70세 미만의 전국 1,500명 시민들을 대상으로 지난 5월 설문조사를 진행]이라고 기사 초반에 나와있네요. 노션 링크를 보니 [성별·연령·지역별 인구비례를 고려한 표본 만 18~69세 1,500명]라고 나와있어 층화표집으로 설계된 듯하고요.
연구질문 자체가 “평소에 지하철을 이용하지 않는 사람들만 지지하지, 지하철 타고 다니는 수도권 사람들이라면 솔직히 이번 시위 지지하기 어렵다"라는 가설이 얼마나 전장연 이슈 관련 사람들의 태도... 더 보기
연구질문 자체가 “평소에 지하철을 이용하지 않는 사람들만 지지하지, 지하철 타고 다니는 수도권 사람들이라면 솔직히 이번 시위 지지하기 어렵다"라는 가설이 얼마나 전장연 이슈 관련 사람들의 태도... 더 보기
[만 18세 이상 70세 미만의 전국 1,500명 시민들을 대상으로 지난 5월 설문조사를 진행]이라고 기사 초반에 나와있네요. 노션 링크를 보니 [성별·연령·지역별 인구비례를 고려한 표본 만 18~69세 1,500명]라고 나와있어 층화표집으로 설계된 듯하고요.
연구질문 자체가 “평소에 지하철을 이용하지 않는 사람들만 지지하지, 지하철 타고 다니는 수도권 사람들이라면 솔직히 이번 시위 지지하기 어렵다"라는 가설이 얼마나 전장연 이슈 관련 사람들의 태도를 설명할 수 있는지를 확인해보기 위한거라, 기사와 노션 링크에 나와있는 설문 설계는 적절해보여요.
직접적인 피해여부를 물어보는 것이 정확하고 간단하다고 하시는데, 제가 설문 설계자라면 오히려 그건 사회적 바람직성 편향을 일으킬 수 있는지라 주저할 것 같네요. 조사/연구자들은 해당 설문조사가 전장연 시위에 대한 여론 조사라는 점을 숨기기 위해 링크한 그림처럼 다른 질문들을 섞어 넣었거든요.
연구질문 자체가 “평소에 지하철을 이용하지 않는 사람들만 지지하지, 지하철 타고 다니는 수도권 사람들이라면 솔직히 이번 시위 지지하기 어렵다"라는 가설이 얼마나 전장연 이슈 관련 사람들의 태도를 설명할 수 있는지를 확인해보기 위한거라, 기사와 노션 링크에 나와있는 설문 설계는 적절해보여요.
직접적인 피해여부를 물어보는 것이 정확하고 간단하다고 하시는데, 제가 설문 설계자라면 오히려 그건 사회적 바람직성 편향을 일으킬 수 있는지라 주저할 것 같네요. 조사/연구자들은 해당 설문조사가 전장연 시위에 대한 여론 조사라는 점을 숨기기 위해 링크한 그림처럼 다른 질문들을 섞어 넣었거든요.
저는 지하철 이용자는 전장연 시위 지지하기 어렵다라는 주제와 상관 없는 질문이었다고 생각합니다
질문 중에 지하철을 자주 이용하는가로 걸렀어야하고 피해가 가장 큰 4호선라인 이용객을 따로 분류했어야 했다고 봅니다
사람 입장마다 다르지만 이건 신뢰하기 힘든 데이터라고 보여집니다
질문 중에 지하철을 자주 이용하는가로 걸렀어야하고 피해가 가장 큰 4호선라인 이용객을 따로 분류했어야 했다고 봅니다
사람 입장마다 다르지만 이건 신뢰하기 힘든 데이터라고 보여집니다
제가 사회학적 통계 기법에 무지해서 잘 모르고 적는거긴 합니다만...
사회적 바람직성 편향을 위해서라면 민폐라는 자극적 단어보다 좀더 가볍게 지지여부를 묻는게 바람직했을것 같고
[지하철 타는 사람은 전장연을 지지하지 않는다. 피해를 받은 사람은 더 지지하지 않을것이다.]라는 가설을 검증하기 위해선
1500명중에 지하철 이용객 300명이었을테고, 300명중 직접 피해를 받은 사람이 몇명이나 될까요?
대여섯명은 될까요? 그걸 굳이 서울시민 150명 비서울시민 150명(대략 가정입니다)으... 더 보기
사회적 바람직성 편향을 위해서라면 민폐라는 자극적 단어보다 좀더 가볍게 지지여부를 묻는게 바람직했을것 같고
[지하철 타는 사람은 전장연을 지지하지 않는다. 피해를 받은 사람은 더 지지하지 않을것이다.]라는 가설을 검증하기 위해선
1500명중에 지하철 이용객 300명이었을테고, 300명중 직접 피해를 받은 사람이 몇명이나 될까요?
대여섯명은 될까요? 그걸 굳이 서울시민 150명 비서울시민 150명(대략 가정입니다)으... 더 보기
제가 사회학적 통계 기법에 무지해서 잘 모르고 적는거긴 합니다만...
사회적 바람직성 편향을 위해서라면 민폐라는 자극적 단어보다 좀더 가볍게 지지여부를 묻는게 바람직했을것 같고
[지하철 타는 사람은 전장연을 지지하지 않는다. 피해를 받은 사람은 더 지지하지 않을것이다.]라는 가설을 검증하기 위해선
1500명중에 지하철 이용객 300명이었을테고, 300명중 직접 피해를 받은 사람이 몇명이나 될까요?
대여섯명은 될까요? 그걸 굳이 서울시민 150명 비서울시민 150명(대략 가정입니다)으로 나눠서
서울시민은 피해를 봤을것이고 비서울시민은 피해를 안봤을것이다고 하는건 과도한 가정인것 같습니다.
저런 광범위한 데이터보다는
- 지하철 이용객 750명, 비이용객750명을 1:1비교하는것으로 전자를 확인
- 그중 4호선 이용객 혹은 삼각지역 이용객을 대상으로 후자를 확인
이 좀더 명확한 데이터 수집이 되었을것 같은데, 뭐 전국민대상을 굳이 해야겠다 하면 그정도는 이해가능합니다만 샤이지지를 걸러내기 위한다며 [피해받은 사람이 거의 없을 통계를 가지고
서울시민은 피해를 받았고 수도권시민은 피해를 받지 않았다]고 과도하게 가정하는것보다 명확한 데이터 선택이라고 생각됩니다.
그리고
-지하철 이용 여부는 시위 지지도와 유의미한 상관관계를 보였습니다.(p<.01)
-서울시민들에게는 평소 지하철 이용 여부가 시위 여론에 전혀 영향을 주지 못했고(p-value 0.452), 경기도민들과 비수도권 응답자들에게만 약한 수준의 영향이 나타났습니다.(p<.1)
두가지 결과값을 해석함에 있어서 하나의 집단을 나눴을때 상관관계가 떨어지려면 어떤 데이터가 있다는 얘기일까요?
[유의미한 상관관계를 가진 모집단(p<0.01)에서 의미없는 일부를 덜어냈는데 나머지도 상관관계가 없다(P<0.1?)
그런데 그 상관관계 없는 두가지 일부를 가지고 피해유무를 가정해서 결과를 도출한다?]
어떤 통계결과이기에 이런 내용이 생기는지 잘 모르겠지만
이 부분을 봤을때에도 의미있는 일부 결과를 추출하기 위해 데이터 마사지가 가미된게 아닌가 의심되는거구요.
사회적 바람직성 편향을 위해서라면 민폐라는 자극적 단어보다 좀더 가볍게 지지여부를 묻는게 바람직했을것 같고
[지하철 타는 사람은 전장연을 지지하지 않는다. 피해를 받은 사람은 더 지지하지 않을것이다.]라는 가설을 검증하기 위해선
1500명중에 지하철 이용객 300명이었을테고, 300명중 직접 피해를 받은 사람이 몇명이나 될까요?
대여섯명은 될까요? 그걸 굳이 서울시민 150명 비서울시민 150명(대략 가정입니다)으로 나눠서
서울시민은 피해를 봤을것이고 비서울시민은 피해를 안봤을것이다고 하는건 과도한 가정인것 같습니다.
저런 광범위한 데이터보다는
- 지하철 이용객 750명, 비이용객750명을 1:1비교하는것으로 전자를 확인
- 그중 4호선 이용객 혹은 삼각지역 이용객을 대상으로 후자를 확인
이 좀더 명확한 데이터 수집이 되었을것 같은데, 뭐 전국민대상을 굳이 해야겠다 하면 그정도는 이해가능합니다만 샤이지지를 걸러내기 위한다며 [피해받은 사람이 거의 없을 통계를 가지고
서울시민은 피해를 받았고 수도권시민은 피해를 받지 않았다]고 과도하게 가정하는것보다 명확한 데이터 선택이라고 생각됩니다.
그리고
-지하철 이용 여부는 시위 지지도와 유의미한 상관관계를 보였습니다.(p<.01)
-서울시민들에게는 평소 지하철 이용 여부가 시위 여론에 전혀 영향을 주지 못했고(p-value 0.452), 경기도민들과 비수도권 응답자들에게만 약한 수준의 영향이 나타났습니다.(p<.1)
두가지 결과값을 해석함에 있어서 하나의 집단을 나눴을때 상관관계가 떨어지려면 어떤 데이터가 있다는 얘기일까요?
[유의미한 상관관계를 가진 모집단(p<0.01)에서 의미없는 일부를 덜어냈는데 나머지도 상관관계가 없다(P<0.1?)
그런데 그 상관관계 없는 두가지 일부를 가지고 피해유무를 가정해서 결과를 도출한다?]
어떤 통계결과이기에 이런 내용이 생기는지 잘 모르겠지만
이 부분을 봤을때에도 의미있는 일부 결과를 추출하기 위해 데이터 마사지가 가미된게 아닌가 의심되는거구요.
음... 어떻게 답을 적어야 하나 고민고민 하기는 했는데, 제가 여태까지 뉴스게시판을 지켜보면서 이해했던 cummings님의 관련 지식 수준이 어느 정도 이상이시니 가감없이 걍 다 풀어볼게요.
완전히 분리되지는 않는다만 개념적인 편의를 위해 통계기법과 연구/조사방법을 구분하면서 이야기를 시작해야 할 것 같아요. 질문을 어떻게 구성하는가는 연구/조사방법이겠고, 통계기법은 얘기해주셨던 p값이나 상관관계 등에 이야기이겠지요. 해석을 둘러싼 이야기는 조사 결과를 바탕으로 주장을 펼치는 이론적인(현상의 체계적 설명이라는 점에서) 차원이... 더 보기
완전히 분리되지는 않는다만 개념적인 편의를 위해 통계기법과 연구/조사방법을 구분하면서 이야기를 시작해야 할 것 같아요. 질문을 어떻게 구성하는가는 연구/조사방법이겠고, 통계기법은 얘기해주셨던 p값이나 상관관계 등에 이야기이겠지요. 해석을 둘러싼 이야기는 조사 결과를 바탕으로 주장을 펼치는 이론적인(현상의 체계적 설명이라는 점에서) 차원이... 더 보기
음... 어떻게 답을 적어야 하나 고민고민 하기는 했는데, 제가 여태까지 뉴스게시판을 지켜보면서 이해했던 cummings님의 관련 지식 수준이 어느 정도 이상이시니 가감없이 걍 다 풀어볼게요.
완전히 분리되지는 않는다만 개념적인 편의를 위해 통계기법과 연구/조사방법을 구분하면서 이야기를 시작해야 할 것 같아요. 질문을 어떻게 구성하는가는 연구/조사방법이겠고, 통계기법은 얘기해주셨던 p값이나 상관관계 등에 이야기이겠지요. 해석을 둘러싼 이야기는 조사 결과를 바탕으로 주장을 펼치는 이론적인(현상의 체계적 설명이라는 점에서) 차원이 되겠고요.
연구/조사방법이라는 측면에서 얘기할 수 있는 건 일단 질문 설계나 조사 대상의 선정이 되겠지요? 제가 말씀드렸던 사회적 바람직성 편향 이야기는 말씀 듣고 보니까 부주의하게 개념을 언급한 것 같네요. 좀 더 자세하게 수정하자면, [응답자들에게 조사가 다른 것이 아니라 전장연에 대한 여론조사라는 신호를 주고 이 때문에 응답자들의 반응이 체계적으로 왜곡될 수 있다. 사회적 바람직성 편향은 그 중 하나이다] 정도라 할 수 있을 듯해요. 사회적 바람직성 편향이 대표적이기는 한데, 반대 방향으로 왜곡될 수도 있을테니까요.
민폐라는 단어가 다소 자극적이라는 점은 동의해요. 좀 더 심리(측정)학적 배경이 강한 연구라면 전장연만 관련해서 여러 질문을 던진 후 응답치를 묶어서 요인을 묶고 / 사람들이 개별 문항을 이해하는 방식의 차이에서 비롯되는 오류를 통제하는 방식으로도 갈 수 있을텐데 (요인분석; factor analysis), 이건 데이터 저널리즘이라 기존 기사들보다는 훨씬 무겁지만 연구논문보다는 가벼운 수준의 접근이라 생각해요. 시의성과 효율성을 잡는 것도 중요하니까요. 문항개발 또한 독립적인 연구가 될만한 장기적인 프로젝트거든요.
하지만 데이터 저널리즘 수준에서 지금 문항이 문제가 되는가?를 따지자면 별 문제없는 수준이에요. 위에 섞어둔 5개 질문들도 특정 정치적 방향으로 자극적인 문항들을 다 섞어두었기 때문에 (이를테면, '조국 전 법무부장관 딸의 의전원 입학은 정당했다' 처럼요) 응답하는 입장에서 특정 방향으로의 편향이 일어날 가능성은 적어요. 편향이 일어난다 음... 좀 더 정확한 용어를 찾고 싶은데, 잘 안 되네요. 이 부분은 혹시 납득이 잘 안 되신다면 표현방식을 다시 생각해볼게요. 아 물론 해당 질문을 통해 나온 점수를 '해석'할 때는 당연히 자극적으로 질문을 던졌었다는 걸 반영해야 해요.
완전히 분리되지는 않는다만 개념적인 편의를 위해 통계기법과 연구/조사방법을 구분하면서 이야기를 시작해야 할 것 같아요. 질문을 어떻게 구성하는가는 연구/조사방법이겠고, 통계기법은 얘기해주셨던 p값이나 상관관계 등에 이야기이겠지요. 해석을 둘러싼 이야기는 조사 결과를 바탕으로 주장을 펼치는 이론적인(현상의 체계적 설명이라는 점에서) 차원이 되겠고요.
연구/조사방법이라는 측면에서 얘기할 수 있는 건 일단 질문 설계나 조사 대상의 선정이 되겠지요? 제가 말씀드렸던 사회적 바람직성 편향 이야기는 말씀 듣고 보니까 부주의하게 개념을 언급한 것 같네요. 좀 더 자세하게 수정하자면, [응답자들에게 조사가 다른 것이 아니라 전장연에 대한 여론조사라는 신호를 주고 이 때문에 응답자들의 반응이 체계적으로 왜곡될 수 있다. 사회적 바람직성 편향은 그 중 하나이다] 정도라 할 수 있을 듯해요. 사회적 바람직성 편향이 대표적이기는 한데, 반대 방향으로 왜곡될 수도 있을테니까요.
민폐라는 단어가 다소 자극적이라는 점은 동의해요. 좀 더 심리(측정)학적 배경이 강한 연구라면 전장연만 관련해서 여러 질문을 던진 후 응답치를 묶어서 요인을 묶고 / 사람들이 개별 문항을 이해하는 방식의 차이에서 비롯되는 오류를 통제하는 방식으로도 갈 수 있을텐데 (요인분석; factor analysis), 이건 데이터 저널리즘이라 기존 기사들보다는 훨씬 무겁지만 연구논문보다는 가벼운 수준의 접근이라 생각해요. 시의성과 효율성을 잡는 것도 중요하니까요. 문항개발 또한 독립적인 연구가 될만한 장기적인 프로젝트거든요.
하지만 데이터 저널리즘 수준에서 지금 문항이 문제가 되는가?를 따지자면 별 문제없는 수준이에요. 위에 섞어둔 5개 질문들도 특정 정치적 방향으로 자극적인 문항들을 다 섞어두었기 때문에 (이를테면, '조국 전 법무부장관 딸의 의전원 입학은 정당했다' 처럼요) 응답하는 입장에서 특정 방향으로의 편향이 일어날 가능성은 적어요. 편향이 일어난다 음... 좀 더 정확한 용어를 찾고 싶은데, 잘 안 되네요. 이 부분은 혹시 납득이 잘 안 되신다면 표현방식을 다시 생각해볼게요. 아 물론 해당 질문을 통해 나온 점수를 '해석'할 때는 당연히 자극적으로 질문을 던졌었다는 걸 반영해야 해요.
다음 조사대상의 선정으로,
지하철 이용객 750명 vs 비이용객 750명을 1:1 비교한다고 하셨는데, 그럼 그 데이터는 어떤 방식으로 생산을 해야 하지요? 4호선 혹은 삼각지역 이용객 데이터는 어떻게 구하고요? 따지듯이 적기는 했는데, 직관적으로 떠오르시는 방법이 있다면 이를 수행하기 위해 들어가는 비용에 대해서 생각해보셨으면 해서 말씀드렸어요. 우리가 전수조사가 대신 샘플 데이터를 통한 추리통계를 활용하는 까닭 중 하나는 그 효율성에도 있으니까요.
기사에서 활용한 방식이 완전무결하다는 뜻이 아니에요. 말씀하셨던 것처럼 지하철 이용객은 약 328명 정도(1,500 * 21.9% =328.5... 더 보기
지하철 이용객 750명 vs 비이용객 750명을 1:1 비교한다고 하셨는데, 그럼 그 데이터는 어떤 방식으로 생산을 해야 하지요? 4호선 혹은 삼각지역 이용객 데이터는 어떻게 구하고요? 따지듯이 적기는 했는데, 직관적으로 떠오르시는 방법이 있다면 이를 수행하기 위해 들어가는 비용에 대해서 생각해보셨으면 해서 말씀드렸어요. 우리가 전수조사가 대신 샘플 데이터를 통한 추리통계를 활용하는 까닭 중 하나는 그 효율성에도 있으니까요.
기사에서 활용한 방식이 완전무결하다는 뜻이 아니에요. 말씀하셨던 것처럼 지하철 이용객은 약 328명 정도(1,500 * 21.9% =328.5... 더 보기
다음 조사대상의 선정으로,
지하철 이용객 750명 vs 비이용객 750명을 1:1 비교한다고 하셨는데, 그럼 그 데이터는 어떤 방식으로 생산을 해야 하지요? 4호선 혹은 삼각지역 이용객 데이터는 어떻게 구하고요? 따지듯이 적기는 했는데, 직관적으로 떠오르시는 방법이 있다면 이를 수행하기 위해 들어가는 비용에 대해서 생각해보셨으면 해서 말씀드렸어요. 우리가 전수조사가 대신 샘플 데이터를 통한 추리통계를 활용하는 까닭 중 하나는 그 효율성에도 있으니까요.
기사에서 활용한 방식이 완전무결하다는 뜻이 아니에요. 말씀하셨던 것처럼 지하철 이용객은 약 328명 정도(1,500 * 21.9% =328.5명. 소수 첫째 자리로 반올림하여 보고하는 과정에서 328명인지 329명인지 명확하지 않게 된 것 같네요. 복검님이 링크한 자료 참고)이고, 지역별 인구 비례를 고려하여 조사를 실시했다고 하니 2022년 12월 주민등록현황 자료를 그대로 적용해보자면 (https://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=DT_1B040A3) 서울 인구가 전체의 18.31% 정도 되어, 지하철을 주요 교통수단으로 사용하는 서울 응답자는 60명 정도 나오겠네요 (328 * 18.31%). 답변에서 가정해주셨던 것보다 훨씬 더 수가 적겠어요. 이건 사실 좀 무식한 접근이기는 해요. 전국 단위 평균치를 서울에 그대로 삽입한 거라 서울과 다른 지역의 지하철 인프라망 차이를 생각하면 논리적인 문제가 있거든요. 연구자들에게 불리하게 예상했을 때 60명 정도가 될거라 생각하면 될 거예요. 이런 불리한 시나리오를 따르면 설문에 응답한 서울/지하철 이용객 중에서 전장연의 시위에 직접적으로 영향받지 않은 사람이 더 많이 들어왔을 위험이 높아지기는 해요. 아래 먹이님이 지적해주셨듯이 온라인 설문조사(특정 생활양식을 지닌 사람들이 응답할 가능성이 더 높은)라는 점을 고려하면 더더욱 체계적 오차에 노출될 위험성은 커지고요. 설문 참여자들에게 연구목적에 대한 명확한 신호를 주지 않고, 전장연의 시위로 대중교통 활용에 차질을 겪었는지를 알 수 있다면 더 좋기는 했을 거예요.
하지만 아무리 60명 안팎으로 가정한다 하더라도 설문에 참여한 서울/지하철 이용객들 모두가 전장연의 시위에 직접적으로 노출되었거나 혹은 노출되지 않았을 극단적인 가능성은 낮아요. 일부는 전장연 시위에 직접적으로 노출이 되었겠고, 일부는 아니겠지요. 서울 응답자들은 그 직접적으로 노출된 사람들의 응답이 섞여있을 테지만, 다른 지역 응답자들은 논리적으로 전장연 시위에 대한 노출이 불가능해요. 이 점을 감안한다면 해당 기사의 조사대상 설계는 충분히 전장연 시위에 따른 지하철 지연경험이 관련 시위에 대해 어떤 태도를 지니는지, 장애인 지원 정책에 어떤 태도를 지니는지에 영향을 미치는지를 잡아낼 수 있어요.
확률적인 관점으로 접근한다면 첨부한 표, 그리고 기사에서 [이를 알아보기 위해 저희는 데이터를 지역별로 나누어 좀 더 자세히 살펴보았습니다. 분석 결과, 서울시민들에게는 평소 지하철 이용 여부가 시위 여론에 전혀 영향을 주지 못했고(p-value 0.452), 경기도민들과 비수도권 응답자들에게만 약한 수준의 영향이 나타났습니다.(p<.1)]라고 얘기한 것은 전장연 시위를 직접적으로 경험한 서울 + 지하철 이용객들의 응답이 섞여들어간 결과로 충분히 해석 가능하다는 것이지요. 독립표본 T-검정을 세 번 돌린 셈이지요. 서울의 경우 위의 불리한 시나리오를 따르자면 지하철 이용객 60명과, 지하철 비이용객 214명(1,500*18.31%-60)의 비교가 되겠고, 실제 데이터는 당연히 다르겠지요. 제가 얘기한 불리한 시나리오보다는 말씀처럼 엄대엄에 가까울 가능성이 더 높겠고요.
지하철 이용객 750명 vs 비이용객 750명을 1:1 비교한다고 하셨는데, 그럼 그 데이터는 어떤 방식으로 생산을 해야 하지요? 4호선 혹은 삼각지역 이용객 데이터는 어떻게 구하고요? 따지듯이 적기는 했는데, 직관적으로 떠오르시는 방법이 있다면 이를 수행하기 위해 들어가는 비용에 대해서 생각해보셨으면 해서 말씀드렸어요. 우리가 전수조사가 대신 샘플 데이터를 통한 추리통계를 활용하는 까닭 중 하나는 그 효율성에도 있으니까요.
기사에서 활용한 방식이 완전무결하다는 뜻이 아니에요. 말씀하셨던 것처럼 지하철 이용객은 약 328명 정도(1,500 * 21.9% =328.5명. 소수 첫째 자리로 반올림하여 보고하는 과정에서 328명인지 329명인지 명확하지 않게 된 것 같네요. 복검님이 링크한 자료 참고)이고, 지역별 인구 비례를 고려하여 조사를 실시했다고 하니 2022년 12월 주민등록현황 자료를 그대로 적용해보자면 (https://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=DT_1B040A3) 서울 인구가 전체의 18.31% 정도 되어, 지하철을 주요 교통수단으로 사용하는 서울 응답자는 60명 정도 나오겠네요 (328 * 18.31%). 답변에서 가정해주셨던 것보다 훨씬 더 수가 적겠어요. 이건 사실 좀 무식한 접근이기는 해요. 전국 단위 평균치를 서울에 그대로 삽입한 거라 서울과 다른 지역의 지하철 인프라망 차이를 생각하면 논리적인 문제가 있거든요. 연구자들에게 불리하게 예상했을 때 60명 정도가 될거라 생각하면 될 거예요. 이런 불리한 시나리오를 따르면 설문에 응답한 서울/지하철 이용객 중에서 전장연의 시위에 직접적으로 영향받지 않은 사람이 더 많이 들어왔을 위험이 높아지기는 해요. 아래 먹이님이 지적해주셨듯이 온라인 설문조사(특정 생활양식을 지닌 사람들이 응답할 가능성이 더 높은)라는 점을 고려하면 더더욱 체계적 오차에 노출될 위험성은 커지고요. 설문 참여자들에게 연구목적에 대한 명확한 신호를 주지 않고, 전장연의 시위로 대중교통 활용에 차질을 겪었는지를 알 수 있다면 더 좋기는 했을 거예요.
하지만 아무리 60명 안팎으로 가정한다 하더라도 설문에 참여한 서울/지하철 이용객들 모두가 전장연의 시위에 직접적으로 노출되었거나 혹은 노출되지 않았을 극단적인 가능성은 낮아요. 일부는 전장연 시위에 직접적으로 노출이 되었겠고, 일부는 아니겠지요. 서울 응답자들은 그 직접적으로 노출된 사람들의 응답이 섞여있을 테지만, 다른 지역 응답자들은 논리적으로 전장연 시위에 대한 노출이 불가능해요. 이 점을 감안한다면 해당 기사의 조사대상 설계는 충분히 전장연 시위에 따른 지하철 지연경험이 관련 시위에 대해 어떤 태도를 지니는지, 장애인 지원 정책에 어떤 태도를 지니는지에 영향을 미치는지를 잡아낼 수 있어요.
확률적인 관점으로 접근한다면 첨부한 표, 그리고 기사에서 [이를 알아보기 위해 저희는 데이터를 지역별로 나누어 좀 더 자세히 살펴보았습니다. 분석 결과, 서울시민들에게는 평소 지하철 이용 여부가 시위 여론에 전혀 영향을 주지 못했고(p-value 0.452), 경기도민들과 비수도권 응답자들에게만 약한 수준의 영향이 나타났습니다.(p<.1)]라고 얘기한 것은 전장연 시위를 직접적으로 경험한 서울 + 지하철 이용객들의 응답이 섞여들어간 결과로 충분히 해석 가능하다는 것이지요. 독립표본 T-검정을 세 번 돌린 셈이지요. 서울의 경우 위의 불리한 시나리오를 따르자면 지하철 이용객 60명과, 지하철 비이용객 214명(1,500*18.31%-60)의 비교가 되겠고, 실제 데이터는 당연히 다르겠지요. 제가 얘기한 불리한 시나리오보다는 말씀처럼 엄대엄에 가까울 가능성이 더 높겠고요.
이제 통계기법이 얽히는 부분으로 넘어와서,
이건 기사가 불명확하게 설명한 지점이 아닌가 싶은데요. 전체 데이터를 가지고 분석할 때는 다중회귀를 돌려서 (평소 지하철 이용을 1, 평소 지하철 미이용을 0으로 더미코딩) 영향력을 보고, 지역별 얘기를 할 때는 지역별로 그룹을 나누어서 독립표본 T-분석을 한 것처럼 보이거든요. 복검님이 링크해주신 노션에 나와있는 다중회귀 표를 보니 평소 지하철 이용의 p-value가 둘 다 p < .01이더라고요. 근데 또 기사에 삽입된 그래프는 독립표본 T-분석이더라고요. cummings님께... 더 보기
이건 기사가 불명확하게 설명한 지점이 아닌가 싶은데요. 전체 데이터를 가지고 분석할 때는 다중회귀를 돌려서 (평소 지하철 이용을 1, 평소 지하철 미이용을 0으로 더미코딩) 영향력을 보고, 지역별 얘기를 할 때는 지역별로 그룹을 나누어서 독립표본 T-분석을 한 것처럼 보이거든요. 복검님이 링크해주신 노션에 나와있는 다중회귀 표를 보니 평소 지하철 이용의 p-value가 둘 다 p < .01이더라고요. 근데 또 기사에 삽입된 그래프는 독립표본 T-분석이더라고요. cummings님께... 더 보기
이제 통계기법이 얽히는 부분으로 넘어와서,
이건 기사가 불명확하게 설명한 지점이 아닌가 싶은데요. 전체 데이터를 가지고 분석할 때는 다중회귀를 돌려서 (평소 지하철 이용을 1, 평소 지하철 미이용을 0으로 더미코딩) 영향력을 보고, 지역별 얘기를 할 때는 지역별로 그룹을 나누어서 독립표본 T-분석을 한 것처럼 보이거든요. 복검님이 링크해주신 노션에 나와있는 다중회귀 표를 보니 평소 지하철 이용의 p-value가 둘 다 p < .01이더라고요. 근데 또 기사에 삽입된 그래프는 독립표본 T-분석이더라고요. cummings님께서 의아함을 느끼신 건 당연해요. 어디서는 상관관계라고 하고, 어디서는 영향력이라고 하는 것도 혼란을 자아낼 수 있고요. 저도 바로 윗 댓글에서 [독립표본 T-검정을 세 번 돌린 셈이지요]라고 말했지만, 이 댓글을 적다보니 어 이거 서울인구만 잘라서 다중회귀분석했는데 p값이 0.452이 나왔다는거야? 헷갈릴 정도네요.
추가로 제가 헷갈렸던 점은 다중회귀 분석을 해놓고 상관관계 운운해서였는데요. 제시된 표에 나온 회귀계수가 표준화 회귀계수인가? 저자들이 공변량을 통제하기 위해 월평균 가구소득(로그) 등의 변수들을 넣기는 했지만 이론적으로 인과성을 정당화 할 배경은 약한건가? 등등 이런 저런 생각이 들었네요.
이건 기사가 불명확하게 설명한 지점이 아닌가 싶은데요. 전체 데이터를 가지고 분석할 때는 다중회귀를 돌려서 (평소 지하철 이용을 1, 평소 지하철 미이용을 0으로 더미코딩) 영향력을 보고, 지역별 얘기를 할 때는 지역별로 그룹을 나누어서 독립표본 T-분석을 한 것처럼 보이거든요. 복검님이 링크해주신 노션에 나와있는 다중회귀 표를 보니 평소 지하철 이용의 p-value가 둘 다 p < .01이더라고요. 근데 또 기사에 삽입된 그래프는 독립표본 T-분석이더라고요. cummings님께서 의아함을 느끼신 건 당연해요. 어디서는 상관관계라고 하고, 어디서는 영향력이라고 하는 것도 혼란을 자아낼 수 있고요. 저도 바로 윗 댓글에서 [독립표본 T-검정을 세 번 돌린 셈이지요]라고 말했지만, 이 댓글을 적다보니 어 이거 서울인구만 잘라서 다중회귀분석했는데 p값이 0.452이 나왔다는거야? 헷갈릴 정도네요.
추가로 제가 헷갈렸던 점은 다중회귀 분석을 해놓고 상관관계 운운해서였는데요. 제시된 표에 나온 회귀계수가 표준화 회귀계수인가? 저자들이 공변량을 통제하기 위해 월평균 가구소득(로그) 등의 변수들을 넣기는 했지만 이론적으로 인과성을 정당화 할 배경은 약한건가? 등등 이런 저런 생각이 들었네요.
그래서
"두가지 결과값을 해석함에 있어서 하나의 집단을 나눴을때 상관관계가 떨어지려면 어떤 데이터가 있다는 얘기일까요?
[유의미한 상관관계를 가진 모집단(p<0.01)에서 의미없는 일부를 덜어냈는데 나머지도 상관관계가 없다(P<0.1?)
그런데 그 상관관계 없는 두가지 일부를 가지고 피해유무를 가정해서 결과를 도출한다?]"
에 대해서는 저자들이 언급한 p값이 독립표본 T-검정에서 나온 것과 다중회귀에서 나온 것을 섞었는가, 아니면 다중회귀에서 나온 것들만을 비교했는가에... 더 보기
"두가지 결과값을 해석함에 있어서 하나의 집단을 나눴을때 상관관계가 떨어지려면 어떤 데이터가 있다는 얘기일까요?
[유의미한 상관관계를 가진 모집단(p<0.01)에서 의미없는 일부를 덜어냈는데 나머지도 상관관계가 없다(P<0.1?)
그런데 그 상관관계 없는 두가지 일부를 가지고 피해유무를 가정해서 결과를 도출한다?]"
에 대해서는 저자들이 언급한 p값이 독립표본 T-검정에서 나온 것과 다중회귀에서 나온 것을 섞었는가, 아니면 다중회귀에서 나온 것들만을 비교했는가에... 더 보기
그래서
"두가지 결과값을 해석함에 있어서 하나의 집단을 나눴을때 상관관계가 떨어지려면 어떤 데이터가 있다는 얘기일까요?
[유의미한 상관관계를 가진 모집단(p<0.01)에서 의미없는 일부를 덜어냈는데 나머지도 상관관계가 없다(P<0.1?)
그런데 그 상관관계 없는 두가지 일부를 가지고 피해유무를 가정해서 결과를 도출한다?]"
에 대해서는 저자들이 언급한 p값이 독립표본 T-검정에서 나온 것과 다중회귀에서 나온 것을 섞었는가, 아니면 다중회귀에서 나온 것들만을 비교했는가에 따라 얘기가 달라질 것 같아요. 전자면 서로 다른 분석이니 그럴 수 있는거고, 후자면 아주아주 약간 의심이 가지요. 그러나 이 경우에도 전체 집단을 가지고 다중회귀를 돌렸을 때는 지하철 이용 여부의 p값이 유의하게, 일부 집단만 분리해서 봤을 때는 p값이 유의하지 않을 수는 있어요. 서울을 제외한 수도권 그리고 비수도권 지역의 데이터 수가 더 큰 경우에요. 그리고 지역별 비례를 감안하여 샘플링을 했을 때 서울 인구가 18% 정도를 차지할테니 가능한 이야기이고요.
"두가지 결과값을 해석함에 있어서 하나의 집단을 나눴을때 상관관계가 떨어지려면 어떤 데이터가 있다는 얘기일까요?
[유의미한 상관관계를 가진 모집단(p<0.01)에서 의미없는 일부를 덜어냈는데 나머지도 상관관계가 없다(P<0.1?)
그런데 그 상관관계 없는 두가지 일부를 가지고 피해유무를 가정해서 결과를 도출한다?]"
에 대해서는 저자들이 언급한 p값이 독립표본 T-검정에서 나온 것과 다중회귀에서 나온 것을 섞었는가, 아니면 다중회귀에서 나온 것들만을 비교했는가에 따라 얘기가 달라질 것 같아요. 전자면 서로 다른 분석이니 그럴 수 있는거고, 후자면 아주아주 약간 의심이 가지요. 그러나 이 경우에도 전체 집단을 가지고 다중회귀를 돌렸을 때는 지하철 이용 여부의 p값이 유의하게, 일부 집단만 분리해서 봤을 때는 p값이 유의하지 않을 수는 있어요. 서울을 제외한 수도권 그리고 비수도권 지역의 데이터 수가 더 큰 경우에요. 그리고 지역별 비례를 감안하여 샘플링을 했을 때 서울 인구가 18% 정도를 차지할테니 가능한 이야기이고요.
전체 집단을 가지고 다중회귀를 돌렸을 때는 지하철 이용 여부의 p값이 유의하게, 일부 집단만 분리해서 봤을 때는 p값이 유의하지 않을 수도 있죠. 일부니까요.
그런데 유의하지 않는 그 일부 집단을 제외한 [나머지에서도 p값이 유의하지않게 나오는게 일반적인가요?]
<전장연 시위를 직접적으로 경험한 서울 + 지하철 이용객들의 응답이 섞여들어간 결과로 충분히 해석 가능하다는 것이지요.> 라고 해석해주셨으나, 서울지하철이용객의 N수가 적고 분산이 심해서 유의하지 않았을 수는 있습... 더 보기
그런데 유의하지 않는 그 일부 집단을 제외한 [나머지에서도 p값이 유의하지않게 나오는게 일반적인가요?]
<전장연 시위를 직접적으로 경험한 서울 + 지하철 이용객들의 응답이 섞여들어간 결과로 충분히 해석 가능하다는 것이지요.> 라고 해석해주셨으나, 서울지하철이용객의 N수가 적고 분산이 심해서 유의하지 않았을 수는 있습... 더 보기
전체 집단을 가지고 다중회귀를 돌렸을 때는 지하철 이용 여부의 p값이 유의하게, 일부 집단만 분리해서 봤을 때는 p값이 유의하지 않을 수도 있죠. 일부니까요.
그런데 유의하지 않는 그 일부 집단을 제외한 [나머지에서도 p값이 유의하지않게 나오는게 일반적인가요?]
<전장연 시위를 직접적으로 경험한 서울 + 지하철 이용객들의 응답이 섞여들어간 결과로 충분히 해석 가능하다는 것이지요.> 라고 해석해주셨으나, 서울지하철이용객의 N수가 적고 분산이 심해서 유의하지 않았을 수는 있습니다. 예를들어, 서울 지하철 이용객들 중 일부는 극심하게 반대했고, 일부는 극심하게 찬성했다. 라고 서울집단 내의 결과를 추측해 볼 수 있을것 같은데요.
그렇다면 통계집단내에서 직접적인 피해를 본 사람이 서울 전체 지하철 이용자중에 극히 적은 N수임을 감안했을때 피해를 본 일부가 실제로 극렬하게 반대했을 가능성도 생각 할 수 있지 않을까요?
아래 꿀래디에이터님이 달아주신 댓글처럼요.
결국 지하철 이용객은 전장연을 지지하지 않는다. 는 유효하나, 저자 스스로 제일 중요한 주장인 [실제로 피해를 본 지하철이용객이 전장연을 지지하지 않는다는건 아니다.]와 관련된 피해자 데이터 n수가 지나치게 작아서 그런게 아닌가? 라는 의문이 다시 들게 되구요.
저는 데이터를 손을 많이 대면 댈수록, 질문이 많고 통계가 복잡할수록 조사자 혹은 통계자의 자의가 개입될 여지가 많다고 생각해서 좀더 직접적인 조사가 일시적 현상 분석엔 더 낫지 않나 생각했거든요
그건 크로스섹션 스터디임에도 불구하고, 보수는 파업or시위를 싫어하고 진보는 파업or시위에 친화적이다. 같은 일반적인 상식이나 해석이 아니라 인과관계를 포함한 [사후에 강화했을 가능성] 까지 벌써 언급된건 성급한게 아닌가 싶었구요.
하지만 여러 댓글에 걸쳐 자세하게 설명해주신 덕분에 질문지에 관한 의문이나 이렇게 조사한 상황이 특이한게 아니라는건 잘 이해하였습니다.
뒷 댓글에 소요님이 적어주신 해석정도였다면 반론의 여지없이 수긍했을텐데 기사가 길어지고 제가 비판적인 관점에서 읽다보니 아쉬운 부분이 더 눈에띄는것 같습니다.
긴 시간을 들여 자세하게 설명해주셔서 너무 감사드립니다. 다시한번 차근차근 정독하겠습니다.
여러 생각해볼 여지를 만들어주신 구밀복검님께도 뒤늦게나마 감사를 표합니다.
그런데 유의하지 않는 그 일부 집단을 제외한 [나머지에서도 p값이 유의하지않게 나오는게 일반적인가요?]
<전장연 시위를 직접적으로 경험한 서울 + 지하철 이용객들의 응답이 섞여들어간 결과로 충분히 해석 가능하다는 것이지요.> 라고 해석해주셨으나, 서울지하철이용객의 N수가 적고 분산이 심해서 유의하지 않았을 수는 있습니다. 예를들어, 서울 지하철 이용객들 중 일부는 극심하게 반대했고, 일부는 극심하게 찬성했다. 라고 서울집단 내의 결과를 추측해 볼 수 있을것 같은데요.
그렇다면 통계집단내에서 직접적인 피해를 본 사람이 서울 전체 지하철 이용자중에 극히 적은 N수임을 감안했을때 피해를 본 일부가 실제로 극렬하게 반대했을 가능성도 생각 할 수 있지 않을까요?
아래 꿀래디에이터님이 달아주신 댓글처럼요.
결국 지하철 이용객은 전장연을 지지하지 않는다. 는 유효하나, 저자 스스로 제일 중요한 주장인 [실제로 피해를 본 지하철이용객이 전장연을 지지하지 않는다는건 아니다.]와 관련된 피해자 데이터 n수가 지나치게 작아서 그런게 아닌가? 라는 의문이 다시 들게 되구요.
저는 데이터를 손을 많이 대면 댈수록, 질문이 많고 통계가 복잡할수록 조사자 혹은 통계자의 자의가 개입될 여지가 많다고 생각해서 좀더 직접적인 조사가 일시적 현상 분석엔 더 낫지 않나 생각했거든요
그건 크로스섹션 스터디임에도 불구하고, 보수는 파업or시위를 싫어하고 진보는 파업or시위에 친화적이다. 같은 일반적인 상식이나 해석이 아니라 인과관계를 포함한 [사후에 강화했을 가능성] 까지 벌써 언급된건 성급한게 아닌가 싶었구요.
하지만 여러 댓글에 걸쳐 자세하게 설명해주신 덕분에 질문지에 관한 의문이나 이렇게 조사한 상황이 특이한게 아니라는건 잘 이해하였습니다.
뒷 댓글에 소요님이 적어주신 해석정도였다면 반론의 여지없이 수긍했을텐데 기사가 길어지고 제가 비판적인 관점에서 읽다보니 아쉬운 부분이 더 눈에띄는것 같습니다.
긴 시간을 들여 자세하게 설명해주셔서 너무 감사드립니다. 다시한번 차근차근 정독하겠습니다.
여러 생각해볼 여지를 만들어주신 구밀복검님께도 뒤늦게나마 감사를 표합니다.
"전체 집단을 가지고 다중회귀를 돌렸을 때는 지하철 이용 여부의 p값이 유의하게, 일부 집단만 분리해서 봤을 때는 p값이 유의하지 않을 수도 있죠. 일부니까요.
그런데 유의하지 않는 그 일부 집단을 제외한 [나머지에서도 p값이 유의하지않게 나오는게 일반적인가요?]"는 충분히 합리적인 문제제기라 생각해요,
이게 본문에서 보고하는 방식이 좀 의아한 점이에요. 그래서 제가 처음에 전체는 다중회귀로 돌리고, 서울/경기인천/비수도권은 집단을 나누어서 독립표본 T-검정 돌린 거 아닌가? 계속 헷갈... 더 보기
그런데 유의하지 않는 그 일부 집단을 제외한 [나머지에서도 p값이 유의하지않게 나오는게 일반적인가요?]"는 충분히 합리적인 문제제기라 생각해요,
이게 본문에서 보고하는 방식이 좀 의아한 점이에요. 그래서 제가 처음에 전체는 다중회귀로 돌리고, 서울/경기인천/비수도권은 집단을 나누어서 독립표본 T-검정 돌린 거 아닌가? 계속 헷갈... 더 보기
"전체 집단을 가지고 다중회귀를 돌렸을 때는 지하철 이용 여부의 p값이 유의하게, 일부 집단만 분리해서 봤을 때는 p값이 유의하지 않을 수도 있죠. 일부니까요.
그런데 유의하지 않는 그 일부 집단을 제외한 [나머지에서도 p값이 유의하지않게 나오는게 일반적인가요?]"는 충분히 합리적인 문제제기라 생각해요,
이게 본문에서 보고하는 방식이 좀 의아한 점이에요. 그래서 제가 처음에 전체는 다중회귀로 돌리고, 서울/경기인천/비수도권은 집단을 나누어서 독립표본 T-검정 돌린 거 아닌가? 계속 헷갈리는 점이기도 하고요. 각각을 독립표본 T-검정을 돌렸으면 해석 방식이 더 조심스러워야 하겠고요.
모두 다중회귀라고 가정하고 의문을 확장해보자면, [경기도민들과 비수도권 응답자들에게만 약한 수준의 영향이 나타났습니다 P <.1]이라고 하니 p값은 <.001 (전체집단)에서 <.01로 (경기도민+비수도권) 약화(?)된 것 같은데, 경계선에 아슬아슬하게 들어왔지만 통상적으로 받아들이는 p <.05보다는 1종 오류의 확률이 높아졌어요. 분명 일반적(직관적인 사고에 배치된다는 점에서)이지 않지요. 좀 더 생각을 해봐야겠지만, 지금까지는 말씀해주신 가설 [피해를 본 일부가 실제로 극렬하게 반대했을 가능성도 생각 할 수 있지 않을까요]을 검토해볼 필요는 있어보여요. 좀 더 유보적으로는 [전장연 시위를 통근 시간에 직접 경험한 집단의 의견 형성 과정이, 미디어를 통해 접한 집단의 의견 형성과 달랐을] 가능성을 봐야할 것 같고요.
해석의 차원으로 보자면, 전장연 시위에 직접적으로 출근경험이 영향을 받은 사람들 사이에 의견이 분극화 (극렬한 반대 뿐만 아니라 극렬한 찬성도 강해진) 혹은 다변화 (직접 경험한 사람들은 정치적 신념과는 별개로 의견이 다양해진) 되었을 가능성도 있어 보여요. 링크한 그래프의 가운뎃 선을 보면 '매우 진보'로 응답한 사람들의 신뢰구간이 되게 넓게 형성되어 있더라고요. '매우 보수'인 사람들도 그 다음으로 신뢰구간이 넓고요. 신뢰구간이 n값과 분산 모두의 영향을 받으니, 이 사람들의 수가 적어서인지 이 사람들의 분산이 커서 그런지는 모르겠어요. 원래 '진짜'들의 수는 적으니까... 하지만 분산이 컸다라는 해석을 채택한다면 [사후 강화]라는 얘기보다는 막상 사건을 접해보니(미디어를 통한 매개든 직접적인 경험이든), 양 극에 있던 사람들은 의견이 변화하더라는 이야기가 될 수도 있을 듯해요.
기사에서 [즉, 우리의 통념은 절반만 사실이었던 것이죠] 다음부터는 서울만 잘라서 본 게 아니라는 점을 좀 더 강조해줬으면 하는데, 아무래도 기사 제목을 '"지하철 이용자는 전장연 시위 지지하기 어렵다" 사실일까?'로 잡아두다보니 호도될 위험은 있어보여요. 미디어를 통해 매개되는 사회적 사건(social drama)을 바라보면서 기존에 형성되었던 태도가 강화되는 건 딱히 새로울 거 없는 주장이거든요. 예를 들어 O.J simpson 사건을 해석하면서 인종에 따라 어떻게 다르게 해석을 구성해나가는가 하는 연구처럼요. (Hunt, D. M. (1997). (Re) Affirming Race:“Reality,” Negotiation, and the “Trial of the Century”. The sociological quarterly, 38(3), 399-422.) 질적연구가 빛을 발하는 영역이지요 ㅋ_ㅋ
조사자 혹은 통계자가 입맛대로 취사선택할 수 있는 위험성이 크다는 점에는 십분 동의해요. 그래서 예상되는 반론이나 의문을 미리 다른 방식으로 검토하고 비교하는 강건성 검사를 하는 것이 더 바람직하고요. 그래도 전국 대상 조사에서 나온 [정치적 태도 X 지하철 사용 여부]의 교차관계는 매우 깔끔하고 강력해요.
결국 조심해야 할 것은, 특정 학문 공동체가 아니라 공중과 이해관계자를 대상으로 하는 미디어 저널리즘에서 어떤 식으로 데이터 결과를 활용하고, 책임/설명가능성(accountability)을 유지하는가 하는 문제인 것 같아요. cummings님께서 세세히 읽어주셨고, 또 제가 장황하게 떠드는 내용을 다 추적하고 확장하실 수 있을 정도로 선이해가 있으시니까 그나마 이렇게 의사소통이 되는건데. 전 쓰면서도 이거 댓글 다 읽을 사람도 적고 몇몇 분들에게는 지금 수준의 설명에서 전달이 안 될 수도 있다고 있다고 생각하거든요. 그럼에도 불구하고 현대사회에서 '데이터', '통계'가 들어가면 일단 근거로서의 지위가 너무 확고해져버려서, 자료를 둘러싼 모호하지만 뜨거운 찬성과 반대가 난립하거든요. 한국의 데이터 저널리즘이 막 확장되는 시기이니만큼 앞으로 관련 논의들도 이어지지 않을까 싶어요. 그리고 언더스코어의 작업은 그 중에서는 그래도 전반적인 수준이 높았었고요.
상세히 읽어주셔서 다시 한 번 감사합니다!
그런데 유의하지 않는 그 일부 집단을 제외한 [나머지에서도 p값이 유의하지않게 나오는게 일반적인가요?]"는 충분히 합리적인 문제제기라 생각해요,
이게 본문에서 보고하는 방식이 좀 의아한 점이에요. 그래서 제가 처음에 전체는 다중회귀로 돌리고, 서울/경기인천/비수도권은 집단을 나누어서 독립표본 T-검정 돌린 거 아닌가? 계속 헷갈리는 점이기도 하고요. 각각을 독립표본 T-검정을 돌렸으면 해석 방식이 더 조심스러워야 하겠고요.
모두 다중회귀라고 가정하고 의문을 확장해보자면, [경기도민들과 비수도권 응답자들에게만 약한 수준의 영향이 나타났습니다 P <.1]이라고 하니 p값은 <.001 (전체집단)에서 <.01로 (경기도민+비수도권) 약화(?)된 것 같은데, 경계선에 아슬아슬하게 들어왔지만 통상적으로 받아들이는 p <.05보다는 1종 오류의 확률이 높아졌어요. 분명 일반적(직관적인 사고에 배치된다는 점에서)이지 않지요. 좀 더 생각을 해봐야겠지만, 지금까지는 말씀해주신 가설 [피해를 본 일부가 실제로 극렬하게 반대했을 가능성도 생각 할 수 있지 않을까요]을 검토해볼 필요는 있어보여요. 좀 더 유보적으로는 [전장연 시위를 통근 시간에 직접 경험한 집단의 의견 형성 과정이, 미디어를 통해 접한 집단의 의견 형성과 달랐을] 가능성을 봐야할 것 같고요.
해석의 차원으로 보자면, 전장연 시위에 직접적으로 출근경험이 영향을 받은 사람들 사이에 의견이 분극화 (극렬한 반대 뿐만 아니라 극렬한 찬성도 강해진) 혹은 다변화 (직접 경험한 사람들은 정치적 신념과는 별개로 의견이 다양해진) 되었을 가능성도 있어 보여요. 링크한 그래프의 가운뎃 선을 보면 '매우 진보'로 응답한 사람들의 신뢰구간이 되게 넓게 형성되어 있더라고요. '매우 보수'인 사람들도 그 다음으로 신뢰구간이 넓고요. 신뢰구간이 n값과 분산 모두의 영향을 받으니, 이 사람들의 수가 적어서인지 이 사람들의 분산이 커서 그런지는 모르겠어요. 원래 '진짜'들의 수는 적으니까... 하지만 분산이 컸다라는 해석을 채택한다면 [사후 강화]라는 얘기보다는 막상 사건을 접해보니(미디어를 통한 매개든 직접적인 경험이든), 양 극에 있던 사람들은 의견이 변화하더라는 이야기가 될 수도 있을 듯해요.
기사에서 [즉, 우리의 통념은 절반만 사실이었던 것이죠] 다음부터는 서울만 잘라서 본 게 아니라는 점을 좀 더 강조해줬으면 하는데, 아무래도 기사 제목을 '"지하철 이용자는 전장연 시위 지지하기 어렵다" 사실일까?'로 잡아두다보니 호도될 위험은 있어보여요. 미디어를 통해 매개되는 사회적 사건(social drama)을 바라보면서 기존에 형성되었던 태도가 강화되는 건 딱히 새로울 거 없는 주장이거든요. 예를 들어 O.J simpson 사건을 해석하면서 인종에 따라 어떻게 다르게 해석을 구성해나가는가 하는 연구처럼요. (Hunt, D. M. (1997). (Re) Affirming Race:“Reality,” Negotiation, and the “Trial of the Century”. The sociological quarterly, 38(3), 399-422.) 질적연구가 빛을 발하는 영역이지요 ㅋ_ㅋ
조사자 혹은 통계자가 입맛대로 취사선택할 수 있는 위험성이 크다는 점에는 십분 동의해요. 그래서 예상되는 반론이나 의문을 미리 다른 방식으로 검토하고 비교하는 강건성 검사를 하는 것이 더 바람직하고요. 그래도 전국 대상 조사에서 나온 [정치적 태도 X 지하철 사용 여부]의 교차관계는 매우 깔끔하고 강력해요.
결국 조심해야 할 것은, 특정 학문 공동체가 아니라 공중과 이해관계자를 대상으로 하는 미디어 저널리즘에서 어떤 식으로 데이터 결과를 활용하고, 책임/설명가능성(accountability)을 유지하는가 하는 문제인 것 같아요. cummings님께서 세세히 읽어주셨고, 또 제가 장황하게 떠드는 내용을 다 추적하고 확장하실 수 있을 정도로 선이해가 있으시니까 그나마 이렇게 의사소통이 되는건데. 전 쓰면서도 이거 댓글 다 읽을 사람도 적고 몇몇 분들에게는 지금 수준의 설명에서 전달이 안 될 수도 있다고 있다고 생각하거든요. 그럼에도 불구하고 현대사회에서 '데이터', '통계'가 들어가면 일단 근거로서의 지위가 너무 확고해져버려서, 자료를 둘러싼 모호하지만 뜨거운 찬성과 반대가 난립하거든요. 한국의 데이터 저널리즘이 막 확장되는 시기이니만큼 앞으로 관련 논의들도 이어지지 않을까 싶어요. 그리고 언더스코어의 작업은 그 중에서는 그래도 전반적인 수준이 높았었고요.
상세히 읽어주셔서 다시 한 번 감사합니다!
자 이제 해석 차원으로 가보자면,
기실 데이터 저널리즘을 지향하는 많은 기사들에서 제가 가장 위험하게 생각하는 건 설계나 분석이 아니라 해석이에요. 티타임에 올렸던 [20대 남성 53% "키스는 성관계 동의한 것"] 기사의 맹점(https://redtea.kr/free/13022)처럼, 의도하는 큰 주장을 위해 세세한 디테일을 뭉개버리고 숫자는 정당화의 도구로만 삼는 경우가 많거든요.
하지만 이 기사에서는 티타임에서 짚었던... 더 보기
기실 데이터 저널리즘을 지향하는 많은 기사들에서 제가 가장 위험하게 생각하는 건 설계나 분석이 아니라 해석이에요. 티타임에 올렸던 [20대 남성 53% "키스는 성관계 동의한 것"] 기사의 맹점(https://redtea.kr/free/13022)처럼, 의도하는 큰 주장을 위해 세세한 디테일을 뭉개버리고 숫자는 정당화의 도구로만 삼는 경우가 많거든요.
하지만 이 기사에서는 티타임에서 짚었던... 더 보기
자 이제 해석 차원으로 가보자면,
기실 데이터 저널리즘을 지향하는 많은 기사들에서 제가 가장 위험하게 생각하는 건 설계나 분석이 아니라 해석이에요. 티타임에 올렸던 [20대 남성 53% "키스는 성관계 동의한 것"] 기사의 맹점(https://redtea.kr/free/13022)처럼, 의도하는 큰 주장을 위해 세세한 디테일을 뭉개버리고 숫자는 정당화의 도구로만 삼는 경우가 많거든요.
하지만 이 기사에서는 티타임에서 짚었던 기사만큼의 큰 오류는 느껴지지 않아요. 약간 의아한 점을 찾자면 마지막에 [20대 남성의 보수화] 운운하고서는 성별X연령의 교차효과와 정치성향 간의 관계를 보지 않았다는 것? 허나, 기사의 분석 초점이 아니니 그럴 수도 있다고 생각되요.
처음에 '해석을 둘러싼 이야기는 조사 결과를 바탕으로 주장을 펼치는 이론적인(현상의 체계적 설명이라는 점에서) 차원이 되겠고요'라고 했었는데, 이 이론적 논의 또한 차원성이 있어요. [단순히 지하철을 평소에 이용하는지 보다도 어떠한 정치 성향을 지닌 사람이 지하철을 이용하는지가 훨씬 더 전장연 여론에 중요한 요소였음] 같은 문장(링크한 노션 내)이 보다 낮은 차원의 이론적 논의라면, [전장연 시위가 정치적으로 첨예한 이슈임을 감안하면, 이는 지난 몇 년간 언론에서 자주 다루어진 ‘청년 남성의 보수화 현상’과도 무관하지 않은 것으로 보입니다]는 한 차원 더 높은 이야기이겠지요.
저는 데이터 저널리즘을 지향하는 여러 기사들(시사인에서 특히 여러차례 주목했던)을 보면서 대개 이 상위 차원의 이론적 논의에 의구심을 품고 있어요.
20-30 남성이 보수화가 되었다는데, 이게 보수화가 된 거야 아니면 여정연 보고서처럼 내부 분극화가 심한거야? 아니면 20-30 여성들의 진보화가 강한거야? 그냥 20-30 남성들은 학창시절 정권을 잡았던 정치집단의 테제에 대한 거부감이 심한 거 아니야? 다른 시기의 성별X연령 효과보다 지금의 성별X연령 효과가 더 뚜렷하다는 근거가 있나? 등등이지요. 더해서 진보/보수라는 명명으로 이를 설명하는 것이 맞나? 성별에 따른 사회적 바람직성 편향의 차이를 고려하면, 관찰 자료 및 소비 패턴 등 자료의 삼각화를 꾀하지 않은 채 자기보고식 설문에만 의존하는 게 맞나? 등등 뭔가 까끌까끌한 것들이 남아있단 말이지요. 그건 제가 20-30 남성에 포함되어서 이기도 하지만, 저 어렸을 때도 언론 권력을 소유하고 있지 못한 세대들에 대한 타자화를 느껴서이기도 해요.
기실 데이터 저널리즘을 지향하는 많은 기사들에서 제가 가장 위험하게 생각하는 건 설계나 분석이 아니라 해석이에요. 티타임에 올렸던 [20대 남성 53% "키스는 성관계 동의한 것"] 기사의 맹점(https://redtea.kr/free/13022)처럼, 의도하는 큰 주장을 위해 세세한 디테일을 뭉개버리고 숫자는 정당화의 도구로만 삼는 경우가 많거든요.
하지만 이 기사에서는 티타임에서 짚었던 기사만큼의 큰 오류는 느껴지지 않아요. 약간 의아한 점을 찾자면 마지막에 [20대 남성의 보수화] 운운하고서는 성별X연령의 교차효과와 정치성향 간의 관계를 보지 않았다는 것? 허나, 기사의 분석 초점이 아니니 그럴 수도 있다고 생각되요.
처음에 '해석을 둘러싼 이야기는 조사 결과를 바탕으로 주장을 펼치는 이론적인(현상의 체계적 설명이라는 점에서) 차원이 되겠고요'라고 했었는데, 이 이론적 논의 또한 차원성이 있어요. [단순히 지하철을 평소에 이용하는지 보다도 어떠한 정치 성향을 지닌 사람이 지하철을 이용하는지가 훨씬 더 전장연 여론에 중요한 요소였음] 같은 문장(링크한 노션 내)이 보다 낮은 차원의 이론적 논의라면, [전장연 시위가 정치적으로 첨예한 이슈임을 감안하면, 이는 지난 몇 년간 언론에서 자주 다루어진 ‘청년 남성의 보수화 현상’과도 무관하지 않은 것으로 보입니다]는 한 차원 더 높은 이야기이겠지요.
저는 데이터 저널리즘을 지향하는 여러 기사들(시사인에서 특히 여러차례 주목했던)을 보면서 대개 이 상위 차원의 이론적 논의에 의구심을 품고 있어요.
20-30 남성이 보수화가 되었다는데, 이게 보수화가 된 거야 아니면 여정연 보고서처럼 내부 분극화가 심한거야? 아니면 20-30 여성들의 진보화가 강한거야? 그냥 20-30 남성들은 학창시절 정권을 잡았던 정치집단의 테제에 대한 거부감이 심한 거 아니야? 다른 시기의 성별X연령 효과보다 지금의 성별X연령 효과가 더 뚜렷하다는 근거가 있나? 등등이지요. 더해서 진보/보수라는 명명으로 이를 설명하는 것이 맞나? 성별에 따른 사회적 바람직성 편향의 차이를 고려하면, 관찰 자료 및 소비 패턴 등 자료의 삼각화를 꾀하지 않은 채 자기보고식 설문에만 의존하는 게 맞나? 등등 뭔가 까끌까끌한 것들이 남아있단 말이지요. 그건 제가 20-30 남성에 포함되어서 이기도 하지만, 저 어렸을 때도 언론 권력을 소유하고 있지 못한 세대들에 대한 타자화를 느껴서이기도 해요.
무튼 아래에 SCV님께서 '출근시간대에 4호선 시위 때문에 지각해본 사람들 대상으로 인식변화를 물어봤어야지'라고 다셨고, 좋아요도 많이 눌리기는 했는데, 기사에서 실시한 연구가 당연히 한계는 있지만 신뢰성과 타당성을 방어하기에는 충분하다는 점은 재차 강조하고 싶어요. 일단 기사와 링크에 나와있는 보고를 신뢰한다는 전제 아래에서요 ㅎㅎ
인간이 사고의 인지적 효율성을 위해 이분적으로 접근하는 경우가 많은데, 연구의 신뢰/타당성 또한 연속체니까요. 이 연속체라는 이야기는 기사 연구의 의의에도 마찬가지로 적용되요. 저 연구에서 한 번... 더 보기
인간이 사고의 인지적 효율성을 위해 이분적으로 접근하는 경우가 많은데, 연구의 신뢰/타당성 또한 연속체니까요. 이 연속체라는 이야기는 기사 연구의 의의에도 마찬가지로 적용되요. 저 연구에서 한 번... 더 보기
무튼 아래에 SCV님께서 '출근시간대에 4호선 시위 때문에 지각해본 사람들 대상으로 인식변화를 물어봤어야지'라고 다셨고, 좋아요도 많이 눌리기는 했는데, 기사에서 실시한 연구가 당연히 한계는 있지만 신뢰성과 타당성을 방어하기에는 충분하다는 점은 재차 강조하고 싶어요. 일단 기사와 링크에 나와있는 보고를 신뢰한다는 전제 아래에서요 ㅎㅎ
인간이 사고의 인지적 효율성을 위해 이분적으로 접근하는 경우가 많은데, 연구의 신뢰/타당성 또한 연속체니까요. 이 연속체라는 이야기는 기사 연구의 의의에도 마찬가지로 적용되요. 저 연구에서 한 번 유의하게 몇몇 관계가 보였다고 기사의 이론적 해석이 반박의 여지없는 무조건적인 진리가 되는 것도 아니고, 케이크에 빵 한 층 쌓은 정도라 생각해요. 다 쌓고 나서 케이크가 어떤 모양일지는 아직 알 수 없는 거고요.
인간이 사고의 인지적 효율성을 위해 이분적으로 접근하는 경우가 많은데, 연구의 신뢰/타당성 또한 연속체니까요. 이 연속체라는 이야기는 기사 연구의 의의에도 마찬가지로 적용되요. 저 연구에서 한 번 유의하게 몇몇 관계가 보였다고 기사의 이론적 해석이 반박의 여지없는 무조건적인 진리가 되는 것도 아니고, 케이크에 빵 한 층 쌓은 정도라 생각해요. 다 쌓고 나서 케이크가 어떤 모양일지는 아직 알 수 없는 거고요.
[즉, 사람들은 이미 지니고 있는 각자의 정치 성향에 따라 이미 장애인 이동권이나 시위에 관한 의견을 사전에 정립해 둔 후, 지하철을 대상으로 하는 전장연 시위를 사후에 접하게 되면서 기존 신념을 각자의 방식으로 강화했을 가능성이 있습니다.]
이거마따
이거마따
네 그리고 5월 조사라 시점상의 한계도 있기는 할 듯합니다
갠적으로는 데이터 보면서 이런저런 가설들 떠올린 게 참신하고 사려 깊어 보입니다.
갠적으로는 데이터 보면서 이런저런 가설들 떠올린 게 참신하고 사려 깊어 보입니다.
목록 |
|