예! 내 데이터는 정규 분포를 따르지롱
보통 실험의 목적은 어떤 처치를 가했을 때, 정상에서 크게 벗어난 결과를 보이는 것입니다. 예를 들어서, 다이어트 약 실험을 한다고 가정합시다. 만약, 다이어트 약을 먹은 사람과 안먹은 사람의 체중 변화 차이가 없다면? 당장 문 닫아야겠죠? 그렇지만, 다이어트 약을 먹은 사람이 안먹은 사람보다 10kg더 많이 감량했다면?
CEO: 당장 IPO 들어가자!
이러한 사고는 일상의 문제에도 똑같이 적용됩니다. 예를 들어서, 본인이 직접 다이어트를 한다고 가정합시다. 그리고, 지금까지 살아왔던 날들 동안 매일 매일 체중을 기록한 분포가 있다고 가정합시다. 아마 아래 그림과 같이 될텐데요.
당연히, 지금까지 살아왔던 날들의 평균 체중보다는 훨씬 낮은 체중을 가지고 싶을 겁니다. 극적인 효과를 보고 싶겠지요. 그리고 장기적으로는 분포A에서 극단적으로 낮은 체중을 유지하여 분포A에서 분포B로 변화하길 원할 것입니다.
실험자의 마음도 마찬가지입니다. 본인들의 실험이 극적인 효과를 가졌으면 하는 마음을 가지고 실험을 진행합니다. 그렇다면, 극적인 효과를 확인하려면 어떻게 해야 할까요? 비교 대상이 있어야 합니다.
예를 들어서, 내 키는 190이니까 엄청커! 라고 말하는 것 보다는 야 평균키가 170인데 내 키는 190이니까 엄청 크지? 라고 말하는게 좀 더 와닿을 겁니다. 그래서, 분포가 필요합니다. 지금 내가 가지고 있는 값이 동일한 기준을 가진 다른 데이터 들 사이에서 어느정도 수준인지 확인하기 위해서 말입니다.
정규분포를 처음 고안한 사람은 드무아르브라는 분입니다. 레퍼런스에 따르면 동전던지기 100회중 뒷면이 60회 혹은 그 이상이 나올 확률을 근사하다가 정규분포를 발견했다고 합니다.
그러니까, 동전던지기를 100회하면 뒷면이 나오는 경우의 수는 1~100가지가 됩니다. 그래서, 동전던지기를 100번 하는 실험을 무수히 반복했을 때, 뒷면이 60번 나오는 확률이 얼마냐!를 구해보는 거죠. 이것 역시, 분포를 알면 특정 값의 상대적인 위치를 알 수 있습니다.
그리고, 그 분포를 바탕으로 우리는 가치 판단을 할 수 있습니다. 예를 들어, 우리는 키가 190인 남자를 보면 와 엄청 크네! 이런 생각을 합니다. 왜냐하면, 평균적인 키가 어느정도 수준인지 알고 있기 때문이죠. 그래서, 상대적으로 190이면 엄청 큰편이라는 사실을 알게 되는 것입니다.
어쨌든, 분포를 알면 우리가 가지고 있는 숫자에 대해서 어떤 가치 판단을 할 수 있습니다. 그게 우리가 분포를 살펴보는 이유입니다.
Ref.
'딥상어동의 딥한 통계학' 카테고리의 다른 글
평균으로의 회귀, 그리고 변수 통제 (2) | 2023.02.05 |
---|---|
가설검정과 무작위 실험 그리고 선택 편향 (0) | 2023.01.14 |
두번 빼면 인과 효과가 보이는 이유 - 이중차분법(Difference in Difference) (0) | 2022.04.22 |
내생 변수(endogenous variable) - 하늘 아래 태양은 하나다. (0) | 2022.04.15 |
[큰 수의 법칙] - 파이썬 동전던지기로 실험해보기 (0) | 2022.03.21 |
제 블로그에 와주셔서 감사합니다! 다들 오늘 하루도 좋은 일 있으시길~~
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!