- 가짜연구소에서 "온라인 통제 실험 연구자로 거듭나기"라는 이름의 A/B테스트 스터디에 참여하고 있다. 현재 까지,
온라인 통제 실험 소개 및 분석 기초
Chapter2 실험의 실행과 분석 - 엔드 투 엔드 예제
Chapter6 조직 운영을 위한 지표
Chapter7 실험을 위한 지표와 종합 평가 기준 (OEC)
- 위 주제들로 총 4번의 스터디를 진행하였고, Chapter17 온라인 종합 대조 실험에 사용되는 통계 이론 챕터를 내가 맡게 되어 오늘은 겸사 겸사 책에 대한 내용을 블로그에 적어보려 한다.
흡연은 통계의 필요성을 알려주는 주요 요인 중 하나이다. - 플레처 네벨
- Chapter의 첫 장에 나오는 문장이다. 플레처 네벨씨는 왜 저런 말씀을 남기셨을까? 궁금해서 찾아봤더니, 이분 꽤 유명한 정치물 소설가였는데 말년에 암에 걸려 극심한 고통을 느끼다가 자살로 생을 마감하셨다고 한다.
https://www.daejonilbo.com/news/articleView.html?idxno=2119610
- 흡연이 몸에 안 좋다는 것은 너무나도 자명한 사실이다. 그래서 그런지, 흡연 관련 논문을 찾아 봤을 때 흡연의 위험성을 알리는 연구보다는 금연 혹은 흡연 행위를 예방하는 것과 관련된 연구가 더 많았던 것 같다.
- 담배갑에 붙어 있는 문구들(그림은 삭제했습니다.)은 금연에 얼마나 효과적일까? 조금 더 깊게 들어가서 질문해보자면, 현재 대부분의 문구들은 "부정적"인 뉘앙스로 적혀져 있는데 어떤 문구가 더 효과적일까?
- 나는 당연히, 더 부정적인 메시지(=흡연의 위험성을 강조)가 효과적이지 않을까? 라고 생각했다. 하지만, 김혜경과 문미리(2017)에 따르면 손실과 관련된 메시지 보다는 이익과 관련된 메시지가 더 효과적이라고 한다. 예를 들면
A. 돈과 건강을 태워버리는 흡연! 그래도 피우시겠습니까?
B. 금연하시면 나와 내 가족이 오래도록 건강하고 행복합니다!
- A보다는 B와 같은 메시지가 더 효과가 있었다는 것이다. 효과가 있었다는 건 어떻게 알 수 있을까?
상이한 프레임에 노출된 흡연자 집단의 평균적인 금연 의사 정도는 각각 손실프레임 5.04와 이익프레임 5.57로 통계적으로 유의미한 것으로 확인되었다(t = -2.10, p < .05).
- 이익프레임을 제시했을 때, 금연 의사가 0.53점 정도 높았는데, 이 차이가 "유의미한"차이라고 한다. 유의미하다라는 말은 정확히 어떤 의미일까?
- 이번 글에서는 실험의 "흥망성쇠"를 결정하는 유의미하다라는 단어에 대해 알아보고자 한다.
가설
- 그런데, "무엇"에 대해 유의미한 판단을 하고자 하는 것일까? 그 대상은 "가설"이다.
- 가설이란 대상에 대한 잠정적인 결론을 의미한다. 한 가지 흥미로운 부분은 가설의 출발지점이다.
- 가설은 기본적으로 "차이가 없다"라는 가정에서 출발한다. 왜냐하면, 진실을 증명하는 것보다 거짓임을 증명하는 것이 더 쉽기 때문이다.
- 예를 들어, 토끼 100만 마리를 관찰해도 초당 5회까지(최대) 수컷의 얼굴을 때릴 수 있다는 가설을 증명하기는 어렵다. 하지만, 초당 6회까지 때릴 수 있는 토끼를 한 마리만 발견해도 위 가설을 반박할 수 있다.
- 이런 이유로 가설은 "차이가 없다"라는 가정에서 출발하는데, 이를 영가설이라고 한다.
- H0를 영가설, Ha를 연구가설이라고 한다. 차이가 없다고 가정했는데? -> 실제로 보니까 차이가 있네? 라는 형식으로 연구가설을 검증한다. 실제로 보니까 차이가 있으면 = "영가설을 기각한다"라고 표현하기도 한다.
- 그런데, 도대체 무엇을 기준으로 영가설을 기각하는 것일까?
표집분포(sampling distribution)
- 굳이 단어 옆에 sampling distribution이라는 영문 표기법을 붙였다. 왜냐하면, 표집분포(sampling distribution)과 표본분포(sample distribution)는 다르기 때문이다.
- 예를 들어, 필승 전략의 승률을 계산한다고 했을 때 전략을 쓰지 않은 집단의 평균 승률은 50% 였고 전략을 쓴 집단의 평균 승률은 60% 였다고 하자. 50%과 60% 각각은 표본 통계량이고 전략을 쓴 집단과 전략을 쓰지 않은 집단은 표본 분포이다.
- 이처럼 표본 통계량은 표본을 어느 집단에서 선정했는지에 따라 달라진다.
- 여기서 중요한 것은 60%라는 수치가 필승 전략이 정말 필승 전략이라고 부를 만큼 평균에서 동떨어진 숫자인지를 알고 싶다는 것이다.
- 이걸 알기 위해서 필요한 것이 표집분포이다.
- 표집분포는 표본통계량이 따르는 확률분포이다. 여기에는 한 가지 가정이 깔리는데, 전체 모집단에서 무수히 많은 sample을 sampling하여 표본의 통계량을 계산했다는 가정이 들어간다.
- 그리고, 이렇게 표본 통계치들이 따르는 확률분포가 표집분포가 되고, 이 표집분포 상에서 우리는 60%라는 수치가 필승 전략이라고 부를만큼 가치있는지를 판단할 수 있다.
- 그런데, 도대체 표집분포는 어떻게 생겼길래 이런 판단을 할 수 있게 해주는 것인가?
To be continue...
'딥상어동의 딥한 통계학' 카테고리의 다른 글
인과추론이 분석에 날개를 달아주려면 (feat. 사내 스터디 후기) (8) | 2023.06.09 |
---|---|
왜 단절이라는 말을 사용하는 건가요? - 회귀 단절 모형 (0) | 2023.04.02 |
평균으로의 회귀, 그리고 변수 통제 (2) | 2023.02.05 |
가설검정과 무작위 실험 그리고 선택 편향 (0) | 2023.01.14 |
분포를 살펴보는 이유 (0) | 2022.06.25 |
제 블로그에 와주셔서 감사합니다! 다들 오늘 하루도 좋은 일 있으시길~~
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!