- 작성자가 질문을 받을 수 있는 게시판입니다.
- AMA는 Ask me anything (무엇이든 물어보세요)라는 뜻입니다.
Date | 20/09/25 02:29:19수정됨 |
Name | 베이지안 |
Subject | 축구 좋아하는 미국주립대학 통계학과 교수입니다. |
축구는 일주일에 5번 정도 했는데, 지금은 코로나 땜에 못하고 있어요. 한국에서 sky중 한 곳에서 학석사하고, 박사학위는 텍사스에서 받고 박사후 연구원은 하버드에서하고 지금은 미국의 한 주립대학교에서 조교수로 있습니다. 1
이 게시판에 등록된 베이지안님의 최근 게시물 |
통계학 교수가 되려면, 대학수학에서 해석학 쪽은 더 알면 알수록 좋습니다. 근데, 통계학 방법론 쓰는데는 선형대수만 제대로 알아도 별 문제 없습니다.
학부학생들이 가장 오해하는 개념이라기 보다는 전반적인 통계학의 큰 그림에 대한 이해가 떨어져요. 뭐 어쩔 수 없지요. 나도 그랬으니까요. 그래도 굳이 몇몇을 뽑자면, p-value와 confidence interval에대한 해석. 그리고 Bayesian과 frequentist의 차이를 잘 몰라요.
학부학생들이 가장 오해하는 개념이라기 보다는 전반적인 통계학의 큰 그림에 대한 이해가 떨어져요. 뭐 어쩔 수 없지요. 나도 그랬으니까요. 그래도 굳이 몇몇을 뽑자면, p-value와 confidence interval에대한 해석. 그리고 Bayesian과 frequentist의 차이를 잘 몰라요.
신뢰구간에 대한 설명은 상한과 하한이 확률변수고 모수는 fixed contant라는 차이만 명확히하면 됩니다.
사실 베이지안과 빈도주의의 차이를 이해하는데는 저도 박사거의 끝날 때 쯤 깨달았어요. 이해하기 어떻게 보면 쉬운데 어떻게 보면 무척 어렵습니다.
사실 베이지안과 빈도주의의 차이를 이해하는데는 저도 박사거의 끝날 때 쯤 깨달았어요. 이해하기 어떻게 보면 쉬운데 어떻게 보면 무척 어렵습니다.
빈도주의라고 해서 likelihood를 굳이 쓸 필요는 없어요. 적당한 loss function만 정의되면 되거든요. 예를 들면 proper scoring rule 같은 것요. 결국 빈도주의의 핵심은 sampling distribution입니다. 이에 반해 베이지안은 사후분포지요. 그리고 보통 둘은 sample size가 커지면 asymptotic하게 서로 같아져요. Berstein von-Mise theorem이라고 하지요.
와이프는 초등학교 동창입니다. 4학년 6학년 같은 반이였지요. 하지만, 저는 전교에서 가장 외소하고 발육이 지진한 아이였고, 와이프는 이미 그당시에 키가 163이였습니다. 거기다 전교에서 가장 똑똑한 학생이였죠. 반면에, 저는 학업적으로 아주 뒤 떨어지는 아이였습니다. 그래서 초등학교 때는 거의 대화도 못나눠 봤습니다. 워낙 제가 내성적이여서. 나중에 재수해서 겨우 대학에 들어갔는데, 와이프와 캠퍼스에서 마주쳤습니다. 이미 와이프는 초등학교 6학년 때 다 컸기 때문에 저는 바로 알아봤죠. 그리고 친구로 계속 지내다가 대학 졸업하고 제가 대학원에서 석사하고 있을 때 와이프도 회사 그만두고 대학원 들어 온다고 해서 몇 번 만나다가 여기 까지 왔네요. 그때 밤새 술마시고, 키스하는게 아니였는데...
와이프는 아주 똑똑합니다. 저는 재수해서 겨우 턱걸이로 대학에 진학했는데, 와이프 같은 경우는 외고에 진학하고 우수한 성적으로 대학에 쉽게 진학했다더라고요. 거기다 일본어는 일어능력검정시험 1급인가 있구요. 중국에 어학연수도 가서 중국어도 좀하고요. 영어도 저보다 잘하고요. 어학 쪽이 타고 난 거 같아요.
1. 통계 관련 질문
- 닉을 보면 베이지안을 주전공으로 하셨을 것으로 보이는데, 베이지안을 택하신 동기가 있을까요?
- 위에 답변 주신 내용 중 "베이지안과 빈도주의는 sample size가 커지면 asymptotic하게 서로 같아진다" 는 부분이 있는데, 그렇다면 베이지안 통계 방법론에서도 중심극한정리는 유효하다고 보면 될까요? 통계는 말 그대로 옛날에 손톱만 담궜다 빼서 그냥 문외한이나 다름없어서 질문드립니다.
2. 축구/일상 관련 질문
- 주로 어느 포지션에서 뛰시는지요? 해당 포지션에서 좋아하는 선수를... 더 보기
- 닉을 보면 베이지안을 주전공으로 하셨을 것으로 보이는데, 베이지안을 택하신 동기가 있을까요?
- 위에 답변 주신 내용 중 "베이지안과 빈도주의는 sample size가 커지면 asymptotic하게 서로 같아진다" 는 부분이 있는데, 그렇다면 베이지안 통계 방법론에서도 중심극한정리는 유효하다고 보면 될까요? 통계는 말 그대로 옛날에 손톱만 담궜다 빼서 그냥 문외한이나 다름없어서 질문드립니다.
2. 축구/일상 관련 질문
- 주로 어느 포지션에서 뛰시는지요? 해당 포지션에서 좋아하는 선수를... 더 보기
1. 통계 관련 질문
- 닉을 보면 베이지안을 주전공으로 하셨을 것으로 보이는데, 베이지안을 택하신 동기가 있을까요?
- 위에 답변 주신 내용 중 "베이지안과 빈도주의는 sample size가 커지면 asymptotic하게 서로 같아진다" 는 부분이 있는데, 그렇다면 베이지안 통계 방법론에서도 중심극한정리는 유효하다고 보면 될까요? 통계는 말 그대로 옛날에 손톱만 담궜다 빼서 그냥 문외한이나 다름없어서 질문드립니다.
2. 축구/일상 관련 질문
- 주로 어느 포지션에서 뛰시는지요? 해당 포지션에서 좋아하는 선수를 한 명 꼽으라면 누구일까요?
- 축구를 좋아하게 된 동기가 있으신가요?
- 현재 거주/근무중이신 곳은 텍사스나 하버드 소재지와는 다른 지역으로 보이는데, 해당 지역의 코로나 추이는 어떤 편인가요?
- 한국으로 복귀하실 계획은 혹시 있으신가요?
- 닉을 보면 베이지안을 주전공으로 하셨을 것으로 보이는데, 베이지안을 택하신 동기가 있을까요?
- 위에 답변 주신 내용 중 "베이지안과 빈도주의는 sample size가 커지면 asymptotic하게 서로 같아진다" 는 부분이 있는데, 그렇다면 베이지안 통계 방법론에서도 중심극한정리는 유효하다고 보면 될까요? 통계는 말 그대로 옛날에 손톱만 담궜다 빼서 그냥 문외한이나 다름없어서 질문드립니다.
2. 축구/일상 관련 질문
- 주로 어느 포지션에서 뛰시는지요? 해당 포지션에서 좋아하는 선수를 한 명 꼽으라면 누구일까요?
- 축구를 좋아하게 된 동기가 있으신가요?
- 현재 거주/근무중이신 곳은 텍사스나 하버드 소재지와는 다른 지역으로 보이는데, 해당 지역의 코로나 추이는 어떤 편인가요?
- 한국으로 복귀하실 계획은 혹시 있으신가요?
스피겔할터 선생님의 The art of statistics에서 모집단에 세 가지 유형이 있다시며 a literal population, a virtual population, a metaphorical population을 제시하신 것을 보았습니다. 이 중 a metaphorical population은 더 큰 모집단이 없는 경우로서 우리가 모든 데이터를 가지고 있는 경우라고 설명하고 그런데 마치 어떤 population에서 각 data-point가 random하게 추출된 것처럼 여긴다고 설명한 부분이 있었습니다.
이 metaphorical population이라는 용어 또는 개념이 통계학계에서 존재하는 것인지, 정의에 대한 합의가 있는 상황인지가 궁금합니다.
이 metaphorical population이라는 용어 또는 개념이 통계학계에서 존재하는 것인지, 정의에 대한 합의가 있는 상황인지가 궁금합니다.
어렵습니다. 왜냐하면, 축구는 일단 플레이어간 상호작용이 큽니다. 그리고 데이터가 다이나믹하죠. 그에 반해 고차원의 데이터는 상대적으로 드뭅니다. 그래서 아마 축구는 통계분석이 앞으로도 어려울 겁니다. 야구랑 많이 다르죠.
안녕하세요 교수님
딥러닝으로 밥벌이하는 개발자입니다.
최근들어서 딥러닝보다 전통적인 머신러닝/통계쪽이 좀 더 공부하고 싶어졌습니다. 사실 딥러닝이 근본이 없는 학문이라 perceptron 하나만 대충 알아도 그 이후는 적당한 수리적 센스로 퉁칠수는 있지만 계속 이렇게 날로먹다가는 인생이 골로갈것 같아서요.
그래서 말인데 어디서부터 시작해야할지 감이 안오네요. 베이지안, Hidden Markov 등의 전통적인 수리통계를 배우고 싶은데 어디부터 시작하면 좋을까요? 영어는 원활하고 pdf하나 던져주시면 열심히 읽을 자신 있습니다. 최종 목표는 openai나 금융통계 회사에서 입사면접문제로 나오는 문제... 더 보기
딥러닝으로 밥벌이하는 개발자입니다.
최근들어서 딥러닝보다 전통적인 머신러닝/통계쪽이 좀 더 공부하고 싶어졌습니다. 사실 딥러닝이 근본이 없는 학문이라 perceptron 하나만 대충 알아도 그 이후는 적당한 수리적 센스로 퉁칠수는 있지만 계속 이렇게 날로먹다가는 인생이 골로갈것 같아서요.
그래서 말인데 어디서부터 시작해야할지 감이 안오네요. 베이지안, Hidden Markov 등의 전통적인 수리통계를 배우고 싶은데 어디부터 시작하면 좋을까요? 영어는 원활하고 pdf하나 던져주시면 열심히 읽을 자신 있습니다. 최종 목표는 openai나 금융통계 회사에서 입사면접문제로 나오는 문제... 더 보기
안녕하세요 교수님
딥러닝으로 밥벌이하는 개발자입니다.
최근들어서 딥러닝보다 전통적인 머신러닝/통계쪽이 좀 더 공부하고 싶어졌습니다. 사실 딥러닝이 근본이 없는 학문이라 perceptron 하나만 대충 알아도 그 이후는 적당한 수리적 센스로 퉁칠수는 있지만 계속 이렇게 날로먹다가는 인생이 골로갈것 같아서요.
그래서 말인데 어디서부터 시작해야할지 감이 안오네요. 베이지안, Hidden Markov 등의 전통적인 수리통계를 배우고 싶은데 어디부터 시작하면 좋을까요? 영어는 원활하고 pdf하나 던져주시면 열심히 읽을 자신 있습니다. 최종 목표는 openai나 금융통계 회사에서 입사면접문제로 나오는 문제들을 대응할 수 있을만한 직관을 기르고 싶습니다.
https://docs.google.com/document/d/10bJK8S4T7sBIP-pzdQm9xRpW0HcLsrh6D047pE_kFE8/edit
이런 류의 공부를 하고 있읍니다.
딥러닝으로 밥벌이하는 개발자입니다.
최근들어서 딥러닝보다 전통적인 머신러닝/통계쪽이 좀 더 공부하고 싶어졌습니다. 사실 딥러닝이 근본이 없는 학문이라 perceptron 하나만 대충 알아도 그 이후는 적당한 수리적 센스로 퉁칠수는 있지만 계속 이렇게 날로먹다가는 인생이 골로갈것 같아서요.
그래서 말인데 어디서부터 시작해야할지 감이 안오네요. 베이지안, Hidden Markov 등의 전통적인 수리통계를 배우고 싶은데 어디부터 시작하면 좋을까요? 영어는 원활하고 pdf하나 던져주시면 열심히 읽을 자신 있습니다. 최종 목표는 openai나 금융통계 회사에서 입사면접문제로 나오는 문제들을 대응할 수 있을만한 직관을 기르고 싶습니다.
https://docs.google.com/document/d/10bJK8S4T7sBIP-pzdQm9xRpW0HcLsrh6D047pE_kFE8/edit
이런 류의 공부를 하고 있읍니다.
1. 통계학 베이스가 없는 사람이 데이터 분석쪽으로 돌리는 것은 무모한 일일까요?
2. 데이터분석 관련한 미국 유학도 무모한 짓일까요?
질문이 모호하네요,,
3. 비전공자를 위한 통계관련 교양책 추천해주실 수 있을까요?
2. 데이터분석 관련한 미국 유학도 무모한 짓일까요?
질문이 모호하네요,,
3. 비전공자를 위한 통계관련 교양책 추천해주실 수 있을까요?
좋아하는 축구 팀은 없습니다. 하는 걸 좋아하고요. K-리그 하일라이트는 꼭 챙겨봅니다. 그나마 뽑는다면, 대구FC를 좋아합니다. 세징야 엄청잘해요. 야구는 안봐서 모르겠습니다.
1. 이건 운명입니다. 박사과정 때 베이지안 수업을 들었는데, 첫 수업 때 교수님이 이 중에 빈도주의자 있냐고 물어보셨습니다. 아무도 감히 말을 못하는데 저 혼자 용감하게 손을 들었고, 그 교수님이 당장 나가라고 했습니다. 물론 농담이였죠. 그 분이 제 지도교수가 되고 저는 자연스럽게 베이지안이 되었습니다.
그리고 중심극한 정리는 sample mean의 분포가 정규분포로 근사하다는 정리입니다. 베이지안 사후분포는 철학적으로 다르지만 중심극한 정리는 모든 통계이론에서 중요합니다. 베이지안이라고 예외일 수는 없지요.
2. ... 더 보기
그리고 중심극한 정리는 sample mean의 분포가 정규분포로 근사하다는 정리입니다. 베이지안 사후분포는 철학적으로 다르지만 중심극한 정리는 모든 통계이론에서 중요합니다. 베이지안이라고 예외일 수는 없지요.
2. ... 더 보기
1. 이건 운명입니다. 박사과정 때 베이지안 수업을 들었는데, 첫 수업 때 교수님이 이 중에 빈도주의자 있냐고 물어보셨습니다. 아무도 감히 말을 못하는데 저 혼자 용감하게 손을 들었고, 그 교수님이 당장 나가라고 했습니다. 물론 농담이였죠. 그 분이 제 지도교수가 되고 저는 자연스럽게 베이지안이 되었습니다.
그리고 중심극한 정리는 sample mean의 분포가 정규분포로 근사하다는 정리입니다. 베이지안 사후분포는 철학적으로 다르지만 중심극한 정리는 모든 통계이론에서 중요합니다. 베이지안이라고 예외일 수는 없지요.
2. 주로 공격형 미드필더 뛰는데, 픽업게임에서 뛰면 수비를 주로 봅니다. 왜냐하면, 애들이 포지션 개념이 없어서 아무대나 뛰는데, 수비를 서면 그나마 좀 중심이 잡혀서 팀이 안정화 되거든요. 축구를 좋아하게 된 동기는 처음으로 인생에서 내가 뭔가를 할 수 있다는 성취감을 느낀 계기가 되었기 때문입니다. 외소하고 내성적이며 학업성적도 좋지 못했던 고등학교 시절에 반대항전 축구경기에서 제가 상대방 수비를 한 번 어쩌다 제꼈거든요. 다른 친구들이 인정해주고 잘했다고 칭찬해주는데, 그게 계기가 되었습니다.
제가 사는 동네는 지금 큰일 났습니다. 대학생만 2500명이 걸렸습니다. 5주 만에요. 총 학생수가 4만명 좀 안되는데, 5%이상의 학생이 걸렸어요. 미쳤습니다. 한국에서 전국에서 100명 걸렸다고 난리인데, 여기는 전혀 상관안해요. 이래도 되나 싶은데, 이렇게 되고 있네요.
한국으로 복귀계획은 잘모르겠네요. 제가 사람많은 곳을 싫어해서요.
그리고 중심극한 정리는 sample mean의 분포가 정규분포로 근사하다는 정리입니다. 베이지안 사후분포는 철학적으로 다르지만 중심극한 정리는 모든 통계이론에서 중요합니다. 베이지안이라고 예외일 수는 없지요.
2. 주로 공격형 미드필더 뛰는데, 픽업게임에서 뛰면 수비를 주로 봅니다. 왜냐하면, 애들이 포지션 개념이 없어서 아무대나 뛰는데, 수비를 서면 그나마 좀 중심이 잡혀서 팀이 안정화 되거든요. 축구를 좋아하게 된 동기는 처음으로 인생에서 내가 뭔가를 할 수 있다는 성취감을 느낀 계기가 되었기 때문입니다. 외소하고 내성적이며 학업성적도 좋지 못했던 고등학교 시절에 반대항전 축구경기에서 제가 상대방 수비를 한 번 어쩌다 제꼈거든요. 다른 친구들이 인정해주고 잘했다고 칭찬해주는데, 그게 계기가 되었습니다.
제가 사는 동네는 지금 큰일 났습니다. 대학생만 2500명이 걸렸습니다. 5주 만에요. 총 학생수가 4만명 좀 안되는데, 5%이상의 학생이 걸렸어요. 미쳤습니다. 한국에서 전국에서 100명 걸렸다고 난리인데, 여기는 전혀 상관안해요. 이래도 되나 싶은데, 이렇게 되고 있네요.
한국으로 복귀계획은 잘모르겠네요. 제가 사람많은 곳을 싫어해서요.
사실 말이 어려워서 그렇지 아이디어는 간단합니다. 예를 들면, 선거를 할 때 모집단은 모든 국민이 됩니다. 거기서 subsampling하게 되는 거죠. 모든 사람을 다 조사할 순 없고 해서도 안되고 해서 몇몇 대표 sample들을 이용하는데, 그러면 불확실성이 생길 수 밖에 없습니다. 반면에 다른 경우는 우리의 sample들이 이렇게 유한한 모집단이 아니라 어떤 확률분포를 따르는 확률변수라고 생각하는 겁니다. 거기서 random sampling된 거라는 거죠. 우리가 기본적으로 사용하는 Gaussian linear model같은 경우에 해당되지요. 두 개의 개념이 비슷하지만 다른 경우가 되지요.
카네기멜론의 Larry Wasserman교수의 All of Statistics라는 책으로 공부하면 좋을 것 같습니다. 좀 어렵게 느껴지면, 거기 나온 주제들에대해 구글에서 "talk slides"로 검생해보세요. 훨씬 이해하기 쉬울겁니다. 토크에서는 짧은 시간에 사람들을 직관적으로 이해시키기 위해서 쉽게 설명하거든요.
그리고 Larry Wasserman의 블로그도 보시면 좋습니다 대가가 왜 대가인지 알게 해주지요. https://normaldeviate.wordpress.com
그리고 Larry Wasserman의 블로그도 보시면 좋습니다 대가가 왜 대가인지 알게 해주지요. https://normaldeviate.wordpress.com
1. 데이터 분석에 필요한 지식과 경험을 꾸준히 쌓는다면, 충분히 가능하지 않을까 싶습니다. 소스는 이미 인터넷에 차고 넘치니까요. Coursera같은 강의 사이트에서 무료 또는 매우 싼 값에 양질의 강의를 들을 수 있습니다. 문제는 그걸 할 만한 에너지와 시간이 있냐는 거지요. 직장에서 다른일을 하면서 배우기는 시간과 에너지가 무척 부족할 것입니다. 하지만, 자기하기 나름이지요. 꾸준히 계속 해야합니다. 그러면, 어느 순간 눈이 떠질겁니다.
2. 별로 안무모합니다. 석사는 미국유학이 돈이 많이듭니다. 대학원이 학비지원을 보... 더 보기
2. 별로 안무모합니다. 석사는 미국유학이 돈이 많이듭니다. 대학원이 학비지원을 보... 더 보기
1. 데이터 분석에 필요한 지식과 경험을 꾸준히 쌓는다면, 충분히 가능하지 않을까 싶습니다. 소스는 이미 인터넷에 차고 넘치니까요. Coursera같은 강의 사이트에서 무료 또는 매우 싼 값에 양질의 강의를 들을 수 있습니다. 문제는 그걸 할 만한 에너지와 시간이 있냐는 거지요. 직장에서 다른일을 하면서 배우기는 시간과 에너지가 무척 부족할 것입니다. 하지만, 자기하기 나름이지요. 꾸준히 계속 해야합니다. 그러면, 어느 순간 눈이 떠질겁니다.
2. 별로 안무모합니다. 석사는 미국유학이 돈이 많이듭니다. 대학원이 학비지원을 보통 잘 안해주거든요. 하지만, 박사는 학비지원에 생활비도 줍니다. 결혼만 안했으면, 보통 살 만 합니다. 문제는 시간이 좀 길기는 하지요. 5년이라는 시간이 짧지는 않으니까요. 그리고 박사 받는 다고 모든 일이 다 순탄하게 흘러간다는 보장도 없습니다. 세상은 불확실성 덩어리지요.
3. Lady Tasting Tea (한국제목: 천재들의 주사위놀이) 추천합니다. 그리고 통계학 기본이 되어 있으시면, Larry Wasserman의 All of Statistics추천합니다.
2. 별로 안무모합니다. 석사는 미국유학이 돈이 많이듭니다. 대학원이 학비지원을 보통 잘 안해주거든요. 하지만, 박사는 학비지원에 생활비도 줍니다. 결혼만 안했으면, 보통 살 만 합니다. 문제는 시간이 좀 길기는 하지요. 5년이라는 시간이 짧지는 않으니까요. 그리고 박사 받는 다고 모든 일이 다 순탄하게 흘러간다는 보장도 없습니다. 세상은 불확실성 덩어리지요.
3. Lady Tasting Tea (한국제목: 천재들의 주사위놀이) 추천합니다. 그리고 통계학 기본이 되어 있으시면, Larry Wasserman의 All of Statistics추천합니다.
사실 제 박사지도교수님들이 모든 순수 베이지안이십니다 (모두 베이지안 스쿨로 유명한 Duke출신이십니다). 그래서 저도 베이지안이지만, 계속 공부해 보니 베이지안통계도 문제가 많은 걸 느꼈습니다. 가장 큰 문제가 컴퓨팅이 너무 느립니다. MCMC같은 건 너무 오래 걸려요. 뉴럴넷을 MCMC할 수 없잖아요? 그렇다고 해서 Variational Bayes같은 건 정말 말도 안되게 부정확하고요. 사실 Variational Bayes를 Bayes라고 쓸 바에야, 그냥 MAP estimator나 penalized likelihood를 쓰는게 훨씬 낫다고 생각합니다.
그래서 요즘에는 frequentist로 변절되어가고 있는 중입니다. Bootstrap을 아주 빠르게 하는 방법론을 개발했거든요. Bootstrapping만 빠르게 할 수 있으면, 베이지안의 자연스러운 uncertainty quantification에 버금가는 장점이 될 수 있으니까요.
그래서 요즘에는 frequentist로 변절되어가고 있는 중입니다. Bootstrap을 아주 빠르게 하는 방법론을 개발했거든요. Bootstrapping만 빠르게 할 수 있으면, 베이지안의 자연스러운 uncertainty quantification에 버금가는 장점이 될 수 있으니까요.
다만, 생각이 있다면 바로 준비를 시작하시는 걸 추천드립니다. 왜냐하면, GRE도 봐야하고 토플도 점수만들어야하고, 추천서도 교수님들께 부탁해야하고, 신경 써야 할 것이 많습니다.
예. 저는 의심의 여지 없이 메시가 역대 최고의 선수라고 생각합니다. 그렇게 수비수를 무기력하게 만드는 플레이는 본적도 없습니다. 제가 만약에 상대 수비라면 "저새끼 축구 X같이 하네"라고 엄청 욕할 거 같습니다.
1. 남동부입니다.
2. 중국인이라고 오해많이 받습니다. 특히 히스패닉애들은 축구할 때 맨날 저보고 Chino라고 부릅니다. 꼬레아노라고해도 미안하다고하고 좀 있다가 또 치노라고 불러요. 근데, 중국사람도 저를 중국사람인 줄 알아요. 중국친구 말로는 제가 생긴걸로는 100% 중국사람 처럼 생겼답니다.
3. 미국은 마스크가 규격을 안따져서 무슨 손수건을 입에 두르고 다녀요. 효과는 많이 떨어질 텐 데도 말이죠. 마스크는 나이 드신 분들은 확실히 잘 쓴느데 대학생들은 진짜 잘 안씁니다. 특히 술집이랑 클럽에 주말에 가면, 대학생들이... 더 보기
2. 중국인이라고 오해많이 받습니다. 특히 히스패닉애들은 축구할 때 맨날 저보고 Chino라고 부릅니다. 꼬레아노라고해도 미안하다고하고 좀 있다가 또 치노라고 불러요. 근데, 중국사람도 저를 중국사람인 줄 알아요. 중국친구 말로는 제가 생긴걸로는 100% 중국사람 처럼 생겼답니다.
3. 미국은 마스크가 규격을 안따져서 무슨 손수건을 입에 두르고 다녀요. 효과는 많이 떨어질 텐 데도 말이죠. 마스크는 나이 드신 분들은 확실히 잘 쓴느데 대학생들은 진짜 잘 안씁니다. 특히 술집이랑 클럽에 주말에 가면, 대학생들이... 더 보기
1. 남동부입니다.
2. 중국인이라고 오해많이 받습니다. 특히 히스패닉애들은 축구할 때 맨날 저보고 Chino라고 부릅니다. 꼬레아노라고해도 미안하다고하고 좀 있다가 또 치노라고 불러요. 근데, 중국사람도 저를 중국사람인 줄 알아요. 중국친구 말로는 제가 생긴걸로는 100% 중국사람 처럼 생겼답니다.
3. 미국은 마스크가 규격을 안따져서 무슨 손수건을 입에 두르고 다녀요. 효과는 많이 떨어질 텐 데도 말이죠. 마스크는 나이 드신 분들은 확실히 잘 쓴느데 대학생들은 진짜 잘 안씁니다. 특히 술집이랑 클럽에 주말에 가면, 대학생들이 마스크 안쓰고 빠글빠글합니다. 그러니 학교 학생의 5%이상이 코로나가 걸리지요. 거기다 얼마 전에는 교회 사람들이 대규모로 모여서 마스크 쓰기 거부 데모도 했습니다. 참 이해가 안가요.
4. ㅋㅋㅋㅋㅋ 이건 취향 차이라고 생각합니다. utility로 생각했을 때 100억의 utility가 꼭 1억의 100배가 아니니까요. 기대수익 보다는 기대 utility의 측면에서 생각해야 할 것 같습니다. 저 같으면 90%의 1억을 선택하겠습니다.
2. 중국인이라고 오해많이 받습니다. 특히 히스패닉애들은 축구할 때 맨날 저보고 Chino라고 부릅니다. 꼬레아노라고해도 미안하다고하고 좀 있다가 또 치노라고 불러요. 근데, 중국사람도 저를 중국사람인 줄 알아요. 중국친구 말로는 제가 생긴걸로는 100% 중국사람 처럼 생겼답니다.
3. 미국은 마스크가 규격을 안따져서 무슨 손수건을 입에 두르고 다녀요. 효과는 많이 떨어질 텐 데도 말이죠. 마스크는 나이 드신 분들은 확실히 잘 쓴느데 대학생들은 진짜 잘 안씁니다. 특히 술집이랑 클럽에 주말에 가면, 대학생들이 마스크 안쓰고 빠글빠글합니다. 그러니 학교 학생의 5%이상이 코로나가 걸리지요. 거기다 얼마 전에는 교회 사람들이 대규모로 모여서 마스크 쓰기 거부 데모도 했습니다. 참 이해가 안가요.
4. ㅋㅋㅋㅋㅋ 이건 취향 차이라고 생각합니다. utility로 생각했을 때 100억의 utility가 꼭 1억의 100배가 아니니까요. 기대수익 보다는 기대 utility의 측면에서 생각해야 할 것 같습니다. 저 같으면 90%의 1억을 선택하겠습니다.
1. ppm단위 불량률에 대해 어떤 방법으로 접근해야 할 지 고민이 있습니다. 예를 들어 월간 생산되는 칩이 60M정도 되는데, 이런 단위에서는 모수가 너무 커져서 불량률이 약간의 차이만 나도 다 p-value가 0으로 나옵니다. 서로 다른 개선점을 적용한 물량의 불량률 차이가 17ppm이 난다고 해서 이걸 나아졌다고 봐야 하는지 아닌지 고민이 있습니다. 좋은 방법이 있을까요?
2. 제가 있는 부서에서 현재 쓰고 있는 방법론 중에 Test Coverage를 잡는 방법이 있습니다. 예를 들어 납품한 물건 중에 claim이 10건... 더 보기
2. 제가 있는 부서에서 현재 쓰고 있는 방법론 중에 Test Coverage를 잡는 방법이 있습니다. 예를 들어 납품한 물건 중에 claim이 10건... 더 보기
1. ppm단위 불량률에 대해 어떤 방법으로 접근해야 할 지 고민이 있습니다. 예를 들어 월간 생산되는 칩이 60M정도 되는데, 이런 단위에서는 모수가 너무 커져서 불량률이 약간의 차이만 나도 다 p-value가 0으로 나옵니다. 서로 다른 개선점을 적용한 물량의 불량률 차이가 17ppm이 난다고 해서 이걸 나아졌다고 봐야 하는지 아닌지 고민이 있습니다. 좋은 방법이 있을까요?
2. 제가 있는 부서에서 현재 쓰고 있는 방법론 중에 Test Coverage를 잡는 방법이 있습니다. 예를 들어 납품한 물건 중에 claim이 10건 들어왔을 때 불량 시료가 실제 normal물량 대비 가장 극단적인 차이를 보이는 변수(ANOVA 등을 활용)를 찾고 그 변수들 간의 and 조건들로 제어하여, 앞으로 이 claim시료가 발생하지 않게 한다, 식의 방법론입니다. 불량 매커니즘을 정확하게 추론하기 어렵고, 또 불량이 확률에 크게 의존(tunneling 등)하여 사용하는데 실제 발생한 claim시료가 이후 발생할 claim시료를 예측하는 데 얼마나 정합성이 있는지 검증하기 위해서는 어떤 통계적 마인드가 필요할까요?
3. 시간에 따라 불량률이 변하는 함수(Weibull 분포 등)을 fitting하는 과정이 궁금합니다. 저희는 가속조건에서 1시간 동안의 불량시료 수, 1시간~3시간 사이의 불량시료 수, 3시간~7시간 사이의 불량시료 수 등을 갖고 weibull분포의 형상모수를 추정하는데(아마도 MLE) 64시간 이상은 그냥 infinite로 놓고 64시간 이후에 발생한 불량은 전체 모수로 놓습니다. 이게 과연 맞는 방법인지 궁금하네요.
2. 제가 있는 부서에서 현재 쓰고 있는 방법론 중에 Test Coverage를 잡는 방법이 있습니다. 예를 들어 납품한 물건 중에 claim이 10건 들어왔을 때 불량 시료가 실제 normal물량 대비 가장 극단적인 차이를 보이는 변수(ANOVA 등을 활용)를 찾고 그 변수들 간의 and 조건들로 제어하여, 앞으로 이 claim시료가 발생하지 않게 한다, 식의 방법론입니다. 불량 매커니즘을 정확하게 추론하기 어렵고, 또 불량이 확률에 크게 의존(tunneling 등)하여 사용하는데 실제 발생한 claim시료가 이후 발생할 claim시료를 예측하는 데 얼마나 정합성이 있는지 검증하기 위해서는 어떤 통계적 마인드가 필요할까요?
3. 시간에 따라 불량률이 변하는 함수(Weibull 분포 등)을 fitting하는 과정이 궁금합니다. 저희는 가속조건에서 1시간 동안의 불량시료 수, 1시간~3시간 사이의 불량시료 수, 3시간~7시간 사이의 불량시료 수 등을 갖고 weibull분포의 형상모수를 추정하는데(아마도 MLE) 64시간 이상은 그냥 infinite로 놓고 64시간 이후에 발생한 불량은 전체 모수로 놓습니다. 이게 과연 맞는 방법인지 궁금하네요.
예전에는 뭔가를 배우는데 머리가 별로 필요없다고 생각했습니다. 하지만, 요즘 들어 드는 생각은 머리는 생각보다 타고나는 부분이 많은 것 같아요. 다만, 자기가 수학적인 머리가 좋은지 안좋은지는 생각보다 알기 어려운 것 같습니다. 자기도 모를 수 있어요. 저도 고등학교 때 수학 50점 받고 그랬거든요. 그래서 문과를 갔어요. 저는 수학을 못하는 줄 알고요. 나중에 시간이 지나고 보니까 제가 수학적인 머리가 무척 좋더라구요. 대학에서 수학과 수업을 많이 들었는데 수업에서 거의 1등했어요.
한 번 해보세요. 자기는 수학적인 머리가 안좋다는 생각은 절대하지 말고요. 그렇게 생각하는 순간 될일도 안됩니다.
한 번 해보세요. 자기는 수학적인 머리가 안좋다는 생각은 절대하지 말고요. 그렇게 생각하는 순간 될일도 안됩니다.
1. 일단 통계학에서 흔한 문제입니다. p-value는 sample size에의존하기 때문에 표본수가 너무 크면 p-value가 0이 되기 쉽습니다. 말이 안되는 결과죠. 그래서 사람들은 effectsize를보라고 권장합니다. p-value의맹점 중 하나지요.
2. 만약에 저라면, 불량 여부를 dependent variable로놓고 logistic regression을 고려할 것 같습니다. 그러면 다른 여러 변수들 중에 불량여부에 연관이있는 변수를 선택하여 (변수선택방법을 이용해서) 불량률을 높이는 책터를 알아내는 게 좋을듯합니다. 다만, 이런 경우에 label들이 highly unbalanced되어있어서 (불량인 경우가 훨씬 적으니까) 모델 자체가 fitting이 어려울 수 있습니다.
3. Weibul분포는 연속형인데, 갯수는 discrete이고요. 근데 어떻게 Weibull로 discrete variable을모델하죠?
2. 만약에 저라면, 불량 여부를 dependent variable로놓고 logistic regression을 고려할 것 같습니다. 그러면 다른 여러 변수들 중에 불량여부에 연관이있는 변수를 선택하여 (변수선택방법을 이용해서) 불량률을 높이는 책터를 알아내는 게 좋을듯합니다. 다만, 이런 경우에 label들이 highly unbalanced되어있어서 (불량인 경우가 훨씬 적으니까) 모델 자체가 fitting이 어려울 수 있습니다.
3. Weibul분포는 연속형인데, 갯수는 discrete이고요. 근데 어떻게 Weibull로 discrete variable을모델하죠?
random variable을 function이라고 하는 건 아주 추상적인 수학에서 이야기입니다. probability measure space에서 발생가능한 event들을 모아놓은 collection을 sigma-algebra라고 하는데, random variable은 이 추상적인 공간인 sigma-algebra에서 정의된 function입니다. 각각의 event를 실수로 이어지는 역할을 하지요. 이 때 확률은 역으로 mapping된 event의 확률이 되고요. 이렇게 정교하게 다듬어진 시스템에 정의된 function을 measurable function이라고 부르고, 확률론에서는 random variable이라고 부릅니다. 비전공자가 보통 생각하는 function이랑은 느낌이 좀 다르지요. 하지만, 명백히 function입니다. 통계이론을 이해하는데는 중요하지만, 보통 사람들은 몰라도 상관없습니다.
바이오 쪽에서 일하는데, 통계를 쓰긴 하면서도 제대로 된 통계와는 연이 없습니다. 유전적으로 동일한 쥐를 나눠서 실험하기 때문에 n값에 상관없이 모수적 통계만 쓰다보니, 2개 비교하면 t-test고 3개 이상은 ANOVA를 돌리며, t-test 기준으로 두 그룹의 에러바가 겹치지 않을 정도로 차이나면 별이 뜨는거다 같은 수준이죠..
기초적인 질문이 두 가지인데요,
1. t-test에서 p-value < 0.05라는 말의 뜻을 '이런 그룹 간 차이가 우연에 의해 발생했을 가능성은 5% 미만이다'로 이해하면 맞는 건지요? ... 더 보기
기초적인 질문이 두 가지인데요,
1. t-test에서 p-value < 0.05라는 말의 뜻을 '이런 그룹 간 차이가 우연에 의해 발생했을 가능성은 5% 미만이다'로 이해하면 맞는 건지요? ... 더 보기
바이오 쪽에서 일하는데, 통계를 쓰긴 하면서도 제대로 된 통계와는 연이 없습니다. 유전적으로 동일한 쥐를 나눠서 실험하기 때문에 n값에 상관없이 모수적 통계만 쓰다보니, 2개 비교하면 t-test고 3개 이상은 ANOVA를 돌리며, t-test 기준으로 두 그룹의 에러바가 겹치지 않을 정도로 차이나면 별이 뜨는거다 같은 수준이죠..
기초적인 질문이 두 가지인데요,
1. t-test에서 p-value < 0.05라는 말의 뜻을 '이런 그룹 간 차이가 우연에 의해 발생했을 가능성은 5% 미만이다'로 이해하면 맞는 건지요? 누구에게 물어봐도 다들 이렇게 이해하는데, 전문가 분께 확인을 받고 싶었습니다.
그리고 그래프를 그렸을 때 두 그룹의 에러바가 겹치지 않으면 통계적으로 유의미하더라는 경험칙이 있는데 (t-test), 그게 수학적으로도 맞는 것인지, 아니면 대부분의 경우에 그렇긴 하지만 그 자체로 딱히 의미가 있지는 않은 것인지요?
2. 종종 애매한 값을 얻은 사람들이 n값을 늘려서라도 억지로 별을 띄우려는 경우를 봅니다. 이 짓을 어디까지 해도 되는 걸까요?
차이가 크지 않은데 어거지로 별을 띄우면 실질적으로 무의미한 것을 유의미하게 포장하는 것일 텐데, 그렇다고 딱히 n값이 얼마여야 한다고 규정짓는 룰 같은 것도 없다보니 (대략적인 범위는 있습니다만, 그렇다고 12개 할 것을 20개 했다고 리젝 먹이지는 않으니까요) 이게 윤리 문제인지 수학 문제인지도 애매하고 그렇습니다.
Power analysis 이야기가 나올 법 한데, 그건 필요한 최소값을 구하는 거지 넘지 말아야 할 최대값이 나오는 건 아니잖아요? 일반적인 룰 같은 게 있을까요?
기초적인 질문이 두 가지인데요,
1. t-test에서 p-value < 0.05라는 말의 뜻을 '이런 그룹 간 차이가 우연에 의해 발생했을 가능성은 5% 미만이다'로 이해하면 맞는 건지요? 누구에게 물어봐도 다들 이렇게 이해하는데, 전문가 분께 확인을 받고 싶었습니다.
그리고 그래프를 그렸을 때 두 그룹의 에러바가 겹치지 않으면 통계적으로 유의미하더라는 경험칙이 있는데 (t-test), 그게 수학적으로도 맞는 것인지, 아니면 대부분의 경우에 그렇긴 하지만 그 자체로 딱히 의미가 있지는 않은 것인지요?
2. 종종 애매한 값을 얻은 사람들이 n값을 늘려서라도 억지로 별을 띄우려는 경우를 봅니다. 이 짓을 어디까지 해도 되는 걸까요?
차이가 크지 않은데 어거지로 별을 띄우면 실질적으로 무의미한 것을 유의미하게 포장하는 것일 텐데, 그렇다고 딱히 n값이 얼마여야 한다고 규정짓는 룰 같은 것도 없다보니 (대략적인 범위는 있습니다만, 그렇다고 12개 할 것을 20개 했다고 리젝 먹이지는 않으니까요) 이게 윤리 문제인지 수학 문제인지도 애매하고 그렇습니다.
Power analysis 이야기가 나올 법 한데, 그건 필요한 최소값을 구하는 거지 넘지 말아야 할 최대값이 나오는 건 아니잖아요? 일반적인 룰 같은 게 있을까요?
1. "두 그룹 간 차이가 실제로는 없는데, 우연에 의해 두 그룹이 다르다고 귀무가설을 기각할 확률이 5% 미만이다." 라고하는게 좀 더 정확하겠네요. 그룹 간의 표본평균 차이는 정도의 문제지, 항상 존재할 수 밖에 없으니까요.
2. 이걸 p-hacking이라고 하는데, 절대 하면 안되는 짓입니다. 가설검정에서 어느수준의 Power를 원한다고 할 때, 먼저 거기에 대응하는 sample size를 먼저 계산하고, 데이터를 수집해야합니다. 근데, 이걸 일단 조금 데이터수집하고 테스트해보고 p-value가 크면, 데이터 더 수집해... 더 보기
2. 이걸 p-hacking이라고 하는데, 절대 하면 안되는 짓입니다. 가설검정에서 어느수준의 Power를 원한다고 할 때, 먼저 거기에 대응하는 sample size를 먼저 계산하고, 데이터를 수집해야합니다. 근데, 이걸 일단 조금 데이터수집하고 테스트해보고 p-value가 크면, 데이터 더 수집해... 더 보기
1. "두 그룹 간 차이가 실제로는 없는데, 우연에 의해 두 그룹이 다르다고 귀무가설을 기각할 확률이 5% 미만이다." 라고하는게 좀 더 정확하겠네요. 그룹 간의 표본평균 차이는 정도의 문제지, 항상 존재할 수 밖에 없으니까요.
2. 이걸 p-hacking이라고 하는데, 절대 하면 안되는 짓입니다. 가설검정에서 어느수준의 Power를 원한다고 할 때, 먼저 거기에 대응하는 sample size를 먼저 계산하고, 데이터를 수집해야합니다. 근데, 이걸 일단 조금 데이터수집하고 테스트해보고 p-value가 크면, 데이터 더 수집해서 p-value가 5%보다 낮아질 때 까지하면 안됩니다. 그러면, Type I error rate이 5%가아니라, 실제로는 훨씬 커질 수 있습니다. 하지만, 눈가리고 아웅하기 식으로 많이들 하지요. 통계학자가 이런 짓하면 안된다고, 뭐라 그러면. 다른 분야 사람들은 싫어하고요. 논문 써야하고 결과 내야하는데, 절차 따지면, 유의하게 안나오거든요. 이건 편법도 아니고 위법입니다.
2. 이걸 p-hacking이라고 하는데, 절대 하면 안되는 짓입니다. 가설검정에서 어느수준의 Power를 원한다고 할 때, 먼저 거기에 대응하는 sample size를 먼저 계산하고, 데이터를 수집해야합니다. 근데, 이걸 일단 조금 데이터수집하고 테스트해보고 p-value가 크면, 데이터 더 수집해서 p-value가 5%보다 낮아질 때 까지하면 안됩니다. 그러면, Type I error rate이 5%가아니라, 실제로는 훨씬 커질 수 있습니다. 하지만, 눈가리고 아웅하기 식으로 많이들 하지요. 통계학자가 이런 짓하면 안된다고, 뭐라 그러면. 다른 분야 사람들은 싫어하고요. 논문 써야하고 결과 내야하는데, 절차 따지면, 유의하게 안나오거든요. 이건 편법도 아니고 위법입니다.
명확하네요. 감사합니다.
data를 빼거나 고르는 짓은 명백한 사기라고 모두가 알고 있는데, n값을 늘리는 방법에 대해서는 필드 내에 경각심이 많이 부족한 것 같습니다.
실험을 해 보기 전까지는 어떤 효과가 나올지 아무도 모르고, 실험 하나하나가 노동집약적이고 비싸다 보니, 우선 몇 개 뽑아보고 가망이 있어 보이면 추가하고 가망이 없어 보이면 접는 방식으로 실험을 하게 됩니다. 그러니 충분히 뽑아보고도 가망이 있어 보이면(?) 몇 개 더 해보지 뭐.. 하기 쉬운 구조이긴 합니다.
이런 류의 실험에서는 이 정도의 sampl... 더 보기
data를 빼거나 고르는 짓은 명백한 사기라고 모두가 알고 있는데, n값을 늘리는 방법에 대해서는 필드 내에 경각심이 많이 부족한 것 같습니다.
실험을 해 보기 전까지는 어떤 효과가 나올지 아무도 모르고, 실험 하나하나가 노동집약적이고 비싸다 보니, 우선 몇 개 뽑아보고 가망이 있어 보이면 추가하고 가망이 없어 보이면 접는 방식으로 실험을 하게 됩니다. 그러니 충분히 뽑아보고도 가망이 있어 보이면(?) 몇 개 더 해보지 뭐.. 하기 쉬운 구조이긴 합니다.
이런 류의 실험에서는 이 정도의 sampl... 더 보기
명확하네요. 감사합니다.
data를 빼거나 고르는 짓은 명백한 사기라고 모두가 알고 있는데, n값을 늘리는 방법에 대해서는 필드 내에 경각심이 많이 부족한 것 같습니다.
실험을 해 보기 전까지는 어떤 효과가 나올지 아무도 모르고, 실험 하나하나가 노동집약적이고 비싸다 보니, 우선 몇 개 뽑아보고 가망이 있어 보이면 추가하고 가망이 없어 보이면 접는 방식으로 실험을 하게 됩니다. 그러니 충분히 뽑아보고도 가망이 있어 보이면(?) 몇 개 더 해보지 뭐.. 하기 쉬운 구조이긴 합니다.
이런 류의 실험에서는 이 정도의 sample size면 된다는 경험적 공감대 정도는 있지만, 뭘 처리하느냐 어떻게 처리하느냐 누가 하느냐 등등에 따라 분산이 천차만별이니 처음부터 필요한 sample size를 계산해놓고 data를 수집한다는 개념 자체가 부족한 것이 가장 큰 문제인 것 같습니다.
data를 빼거나 고르는 짓은 명백한 사기라고 모두가 알고 있는데, n값을 늘리는 방법에 대해서는 필드 내에 경각심이 많이 부족한 것 같습니다.
실험을 해 보기 전까지는 어떤 효과가 나올지 아무도 모르고, 실험 하나하나가 노동집약적이고 비싸다 보니, 우선 몇 개 뽑아보고 가망이 있어 보이면 추가하고 가망이 없어 보이면 접는 방식으로 실험을 하게 됩니다. 그러니 충분히 뽑아보고도 가망이 있어 보이면(?) 몇 개 더 해보지 뭐.. 하기 쉬운 구조이긴 합니다.
이런 류의 실험에서는 이 정도의 sample size면 된다는 경험적 공감대 정도는 있지만, 뭘 처리하느냐 어떻게 처리하느냐 누가 하느냐 등등에 따라 분산이 천차만별이니 처음부터 필요한 sample size를 계산해놓고 data를 수집한다는 개념 자체가 부족한 것이 가장 큰 문제인 것 같습니다.
이해는 합니다. 적절한 절차를 따르면 연구결과에서 p-value가 크게나오면, 그냥 전체 결과를 버려야하니까요. 너무 아깝지요. 하지만, 그렇게 하면 안됩니다. 실제로 통계학자들이 재현성의 위기가 찾아 온 가장 큰 원인 중에 하나가 p-hacking이라고 보고 있습니다.
고등학교 수학에는 그런 방법으로 가능할지도 모르겠지만, 일반적인 수학은 수를 이용한 논리의 집합체여서 좀 모호합니다. 계산이 필요 없거든요. 예를 들면, "어떤 함수가 연속임을 증명하여라"라는 문제가 있을 때, 기계적인 계산은 필요 없으니까요.
학부 때 수업 들었던 학생이 추천서를 써달라고하면 써줘야합니다. 왜냐하면, 그것도 교수의 업무 중 하나거든요. 뭐 안써줄수도 있지만, 엄밀히 말하면 직무유기죠. 하지만, 오래전에 수업을 듣고 잘 기억이 안나는 학생에 대해서는 학점외에는 써 줄 말이 별로 없지요.
그리고 통계석사가 미국 취업에 도움이 되냐는 질문에 대한 저의 대답은 "도움이 확실히 된다"입니다. 학부생과 비교해서는 훨씬 취업확률이 높을 겁니다. 하지만, 학부생의 미국 취업이 워낙 어려워서, 석사의 미국취업도 쉬운 것은 아닙니다. 그래도 석사를 하는 것은 추천할만 합니다. 특히, 석사생도 재정지원을 해주는 과들이 몇 개 있는데, 그런 곳은 학비도 안내고 생활비도 받으면서 석사과정을 보낼 수 있습니다.
그리고 통계석사가 미국 취업에 도움이 되냐는 질문에 대한 저의 대답은 "도움이 확실히 된다"입니다. 학부생과 비교해서는 훨씬 취업확률이 높을 겁니다. 하지만, 학부생의 미국 취업이 워낙 어려워서, 석사의 미국취업도 쉬운 것은 아닙니다. 그래도 석사를 하는 것은 추천할만 합니다. 특히, 석사생도 재정지원을 해주는 과들이 몇 개 있는데, 그런 곳은 학비도 안내고 생활비도 받으면서 석사과정을 보낼 수 있습니다.
목록 |
|