- 가짜연구소에서 "온라인 통제 실험 연구자로 거듭나기"라는 이름의 A/B테스트 스터디에 참여하고 있다. 현재 까지, 온라인 통제 실험 소개 및 분석 기초 Chapter2 실험의 실행과 분석 - 엔드 투 엔드 예제 Chapter6 조직 운영을 위한 지표 Chapter7 실험을 위한 지표와 종합 평가 기준 (OEC) - 위 주제들로 총 4번의 스터디를 진행하였고, Chapter17 온라인 종합 대조 실험에 사용되는 통계 이론 챕터를 내가 맡게 되어 오늘은 겸사 겸사 책에 대한 내용을 블로그에 적어보려 한다. 흡연은 통계의 필요성을 알려주는 주요 요인 중 하나이다. - 플레처 네벨 - Chapter의 첫 장에 나오는 문장이다. 플레처 네벨씨는 왜 저런 말씀을 남기셨을까? 궁금해서 찾아봤더니, 이분 꽤 유명한..
들어가며 - 인과 추론이 현업의 분석에 날개를 달아주지 않을까라는 기대와 함께 - 2023/01 ~ 2023/03, 신년을 맞이하며 호기롭게 인과추론 관련된 스터디를 진행했었다. - 관련해서 인과추론에 대한 소소한 생각과 기대했던 대로 인과추론이 정말 분석에 날개를 달아줬을까?에 대해 남겨본다. 인과 추론에 대해 - 빈칸 추론은 제가 들어봤는데...... 인과추론...? - 인과추론은 사실 살면서 늘상 하고 있는 것이다. 셀 수 없을 정도로 많이 매 순간 순간. - 도움이 될지는 모르겠지만, TMI로 일상에서 우리가 하는 인과추론 예시를 들어보겠다. - 지난밤 아는 형님과 신사동에 놀러갔었다. 길을 가고 있었는데, 그 형이 갑자기 케이스티파이 매장으로 들어갔다. - 아무리 봐도 이 형님은 이런 케이스..
회귀 단절 모형에서 단절은 정확히 어떤 의미일까? http://news.heraldcorp.com/view.php?ud=20230402000112 숙박비·휴가비 지원 받자··정부 내수활성화 대책 200% 활용하기[세종백블] 정부가 부진한 경제에 활력을 불어넣기 위해 내수 활성화 총력전을 펼친다. 4월부터 50개 메가 이벤트와 전국적으로 130여개의 지역축제를 열고, 백화점과 전통시장, 면세점 등에서 대대적 할인 biz.heraldcorp.com - 4/10 ~ 예산 소진시까지. 근로자 휴가지원사업을 실행한다고 한다. - 대략 내용을 살펴보니, 숙박 쿠폰 3만원과 여행 경비 10만원을 지원해주는 듯. - 실제 정책 내용을 보니, ~12/29일까지 지원금을 사용할 수 있는 것 같다. - 여기서는 약간의 가정..
본 글은 "고수들의 계량경제학"을 참고하여 작성하였습니다. 1. 평균으로의 회귀 비트코인 랠리 평균가 회귀 번스타인 비트코인 랠리는 평균가 회귀 현상한계 분명해 | 한국경제TV (wowtv.co.kr) 💡 비트코인이 미국 연방준비제도(Fed·연준)의 금리인상 속도 조절 기대감에 상승세를 이어가고 있는 가운데 글로벌 IB(투자은행) 번스타인이 비트코인 상승 랠리의 허점을 지적하고 나섰다. 23일(현지시간) CNBC에 따르면 번스타인은 "비트코인 상승 랠리가 장기적인 평균 가격으로 돌아가는 일시적인 반등에 불과하다"면서 "상승 랠리를 유지하기 위한 근본적인 동력이 부족하다"고 밝혔다. 이날 고탐 추가니(Gautam Chhugani) 번스타인 애널리스트는 고객들에게 보낸 서한에서 최근 암호화폐 시장에서 나타나..
- 본 글에서는 가설검정의 논리와 무작위 실험이 필요한 이유, 그리고 선택 편향에 대해서 다룹니다. - P-value등 통계적인 개념에 대해서는 깊게 다루지 않습니다. 1. 가설검정 1-1. P-value와 영가설 - 연구자들은 P-value하나에 울고 웃는다. - P-value가 0.05미만인 것을 왜 이렇게 좋아할까? 왜냐하면 영가설을 기각할 수 있기 때문이다. 1-2. 영가설이란? - P-value는 “0.05미만이면 기분이 너무 좋다!” 정도로만 기억하고, 영가설(NULL HYPOTHESIS)이 무엇인지 알아보자. - 여기서, 우리에게 친숙한 단어가 있다. 바로, “NULL” “NULL”은 “값이 없음”을 의미한다. → 즉, 영가설이란 = 가설이 없는 상태를 의미한다. 가설이 없다는 것은 다른 의..
예! 내 데이터는 정규 분포를 따르지롱 보통 실험의 목적은 어떤 처치를 가했을 때, 정상에서 크게 벗어난 결과를 보이는 것입니다. 예를 들어서, 다이어트 약 실험을 한다고 가정합시다. 만약, 다이어트 약을 먹은 사람과 안먹은 사람의 체중 변화 차이가 없다면? 당장 문 닫아야겠죠? 그렇지만, 다이어트 약을 먹은 사람이 안먹은 사람보다 10kg더 많이 감량했다면? CEO: 당장 IPO 들어가자! 이러한 사고는 일상의 문제에도 똑같이 적용됩니다. 예를 들어서, 본인이 직접 다이어트를 한다고 가정합시다. 그리고, 지금까지 살아왔던 날들 동안 매일 매일 체중을 기록한 분포가 있다고 가정합시다. 아마 아래 그림과 같이 될텐데요. 당연히, 지금까지 살아왔던 날들의 평균 체중보다는 훨씬 낮은 체중을 가지고 싶을 겁니다..
0. 통제란 실험자는 "개입"이 어떤 효과를 보이기를 바란다. 그래서, 참여자를 실험군과 대조군으로 나눠서 실험한다. 개입을 진행한 실험군의 효과가 대조군보다 유의미하게 높다면 실험자는 미소를 지을 것이다. 이때, 인과 관계란 실험군과 대조군 간에 "처치 효과"외에는 아무런 차이가 없어야 확인할 수 있다. 이를 위해 실험자는 실험군과 대조군 간에 "처치 효과"외에는 아무런 차이가 없도록 "통제"를 가한다. 1. 통제하기 어려운 이유 하지만, 현실은 녹록치 않다. 모든 의사결정을 실험을 통해서 진행할 수는 없다. 예를 들어서, 정부가 지역 청년 인구 유출 방지를 위해 우선은 A지역에 (가)라는 일자리 정책을 실행했다고 가정하겠다. 지역 청년 인구 유출율(정책 실행전) 청년 인구 유출율(정책 실행후) A 1..
간만에 통계학 책을 펼쳐보며, 내생 변수에 대한 개념 및 생각을 정리해봤다. 우선, 결론을 먼저 얘기하겠다. 하늘 아래 두 태양은 없다. 내생 변수는 하나여야 한다. 내생이란? 말 그대로 "내부로부터 생성됨" 이라는 의미이다. 통계학에서 이 내부란 = 모델, 모형으로 생각할 수 있다. 예를 들어서, 코트 가격으로 완판까지 걸리는 시간을 예측해본다고 가정하자. 대게는 코트 가격이 싸지면 완판까지 걸린 시간이 줄어든다는 예측을 해볼 수 있을 것이다. 그렇다면, 다음과 같은 모형을 설정해볼 수 있다. [Y(완판까지 걸린 시간) = aX(코트 가격+ b + e(오차항)] 여기서 대괄호 안은 모형이고 Y는 내생변수라고 할 수 있다. 즉, 모형(=내부)으로부터 생성된 변수이다. 그런데, 말이다. 과연 코트 가격만으..
0. 큰 수의 법칙 큰 수의 법칙(law of large numbers, LLN)은 경험적 확률과 수학적 확률 사이의 관계를 나타내는 법칙으로, 표본집단의 크기가 커지면 그 표본평균이 모평균에 가까워짐을 의미한다 - 갓무위키 - 실험을 반복하면 진리에 가까워진다. 다만, 비용이나 시간의 한계가 있을뿐. $lim_{n\to\infty}P(\lvert\frac{S_n}{n}\rvert < \epsilon) = 1$ S(실행횟수)가 무한히 많아지면 경험적 확률 S_n/n 와 수학적 확률 p와의 차이는 아주 미세한 수(엡실론)보다 작게된다. 이를 큰 수의 법칙이라고 한다. 큰수의 법칙은 실제로 작동할까? 오늘은 파이썬 동전던지기 코드로 한번 테스트를 해보려 한다. 1. 동전던지기 함수 생성 import num..
https://gibles-deepmind.tistory.com/9 [통계학] 다중공선성에 대한 고찰 - 해석과 모델 성능의 관점에서 1. 어디로 가야하오? 다중공선성을 만난 우리들 본 글에서는 "어디로 가야하오" 에 담긴 두 가지 의미를 다룰 것이다. 다중공선성을 꼭 파악해야하는가? 반드시 해결해야하는 문제인가? 글 개요 gibles-deepmind.tistory.com 일전에 다중공선성에 대해서 다룬적이 있었다. 보통, 다중공선성을 VIF를 통해 판단하고는 하는데 VIF는 1/(1-$R^2$) 로 표현된다. 여기서, $R^2$를 계산하는 방식에 대한 이해가 중요하다. 흔히, $R^2$가 높으면 종속변수 Y에 대한 설명력이 높다고 한다. 하지만, X4를 종속변인(Y)라 생각하고 X1, X2, X3를 각..