0. 통제란
실험자는 "개입"이 어떤 효과를 보이기를 바란다. 그래서, 참여자를 실험군과 대조군으로 나눠서 실험한다. 개입을 진행한 실험군의 효과가 대조군보다 유의미하게 높다면 실험자는 미소를 지을 것이다.
이때, 인과 관계란 실험군과 대조군 간에 "처치 효과"외에는 아무런 차이가 없어야 확인할 수 있다. 이를 위해 실험자는 실험군과 대조군 간에 "처치 효과"외에는 아무런 차이가 없도록 "통제"를 가한다.
1. 통제하기 어려운 이유
하지만, 현실은 녹록치 않다. 모든 의사결정을 실험을 통해서 진행할 수는 없다. 예를 들어서, 정부가 지역 청년 인구 유출 방지를 위해 우선은 A지역에 (가)라는 일자리 정책을 실행했다고 가정하겠다.
지역 | 청년 인구 유출율(정책 실행전) | 청년 인구 유출율(정책 실행후) |
A | 12% | 10% |
확인해보니 정책 실행후 2% 가량 줄었다. 근데, 여기에는 여러가지 변수가 있다. 우선, 정책 실행 이전 시기가 = 공채 시즌과 겹치고, 정책 실행 이후 시기가 = 공채가 마감된 시즌 일 수 있다. 여기서 "공채 시즌" 이라는 변수는 정부가 통제할 수 없는 변수이다. 그리고, 고작 2% 줄이려고 이돈을 태운다고? 라는 생각이 들 수도 있다.
2. 통제를 하지 못하면
이렇게 개입의 효과를 신뢰할 수 없다. 왜냐하면, 개입 외에 다른 원인이 작용했을 수 있기 때문이다. 하지만, 비슷한 조건을 가진 다른 대조군과 비교를 한다면?
찾아보니 지역A와 매우 유사한 특성을 가진 지역B가 있었다. 지역B 역시 지역A와 마찬가지로 청년 인구 유출을 겪고 있었고 인구 규모가 산업 구조 또한 지역 A와 매우 비슷했다. 그래서, 동일 시기 지역 B의 인구 유출율을 같이 비교해봤다.
지역 | 청년 인구 유출율(정책 실행전) | 청년 인구 유출율(정책 실행후) |
A(실험군 - 정책실행) | 12% | 10% |
B(대조군 - 정책실행X) | 10% | 13% |
B지역은 A지역과 반대로 정책이 실행되지 않아서 그런지 동일 시기에 오히려 청년 인구 유출율이 3%가량 늘어난 모습을 보였다. 그런데, 그렇게 생각해도 저 3%라는 숫자는 그렇게 크지 않아 보인다.
3. 한번 더 빼보면
그런데, 만약 (A 청년 인구 유출율 정책 실행후 - 정책 실행전) - (B 정책 실행후 - 정책실행전) = (10% -12%) - (13% - 10%) = -5% 이렇게 된다. 즉, 청년 일자리 정책이 인구 유출을 5%나 막아준 것이다. 근데, 왜 이렇게 한번 더 빼봐야 할까?
4. 상호작용항
예를 들어, $X_{1}, X_{2}$ 이렇게 두 가지 변수가 있으면 가설은 총 세 가지가 나온다.
1. $X_{1}$ 변수의 주효과가 유의미하다.
2. $X_{2}$ 변수의 주효과가 유의미하다.
3. $X_{1}, X_{2}$ 두 변수간의 상호작용이 유의미하다.
3번도 분명히 나올 수 있는 가설이나 잊어버리기가 쉽다. 그렇다면, 왜 3번 가설을 생각해야 하는가? 그건 각각 1번 혹은 2번만 유의미하다는 상황을 시뮬레이션 해보면 된다.
$X_{1}$ = 시간, $X_{2}$ = 정책으로 두고 생각해보자. 만약, 시간 변수만 유의미하다면? 정책은 더이상 쓸모 없다. 시간이 지나면 자연히 청년 인구 유출율은 줄어 들 것이기 때문이다. 반대로, 정책 변수만 유의미하다면? 정책을 실행하는 시기는 중요하지 않게 된다.
중요한 것은 3번이다. 그렇다면 왜 3번이 중요할까?
$Y=\beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \beta_{3}X_{1}X_{2} + \epsilon$
$X_{2}$가 0일 때, 회귀식은 아래와 같다. (정책 실행X = 지역 B)
$Y=\beta_{0} + \beta_{1}X_{1} + \beta_{2} + \epsilon$
$X_{2}$가 1일 때, 회귀식은 아래와 같다. (정책 실행O = 지역 A)
$Y=\beta_{0} + \beta_{1}X_{1} + \beta_{2} + \beta_{3}X_{1} + \epsilon$
여기서 $\beta_{3}X_{1}$ 항이 기존 수식에 더해진다. 즉, 시간 $X_{1}$이 흐를수록 정책의 효과가 어떻게 변하는지를 알 수 있다. 이처럼 $\beta_{3}$을 상호작용항이라고 부르며 이 상호작용항을 통해 시간에 따른 개입의 효과를 살펴볼 수 있다. 왜냐하면, $\beta_{3}$가 0에 가깝다면 $X_{2}$가 1 즉, 정책을 실행하더라도 $X_{2}$가 0인 정책 미실행 지역과 회귀식이 거의 동일할 것이기 때문이다.
$\beta_{3}$가 0에 가깝다면 아래 두 식은 동일할 것이다. (= 즉 정책에 따른 효과 차이가 없다는 의미가 된다.)
$X_{2}$가 0일 때, 회귀식은 아래와 같다. (정책 실행X = 지역 B)
$Y=\beta_{0} + \beta_{1}X_{1} + \beta_{2} + \epsilon$
$X_{2}$가 1일 때, 회귀식은 아래와 같다. (정책 실행O = 지역 A)
$Y=\beta_{0} + \beta_{1}X_{1} + \beta_{2} + \beta_{3}X_{1} + \epsilon$
한 변수의 값이 변할 때 다른 변수의 종속변수에 대한 영향력이 달라질 때, 상호작용이 존재한다고 얘기한다. 즉, 시간에 따라 정책이 청년 인구 유출율에 미치는 영향력이 달라진다면 시간과 정책 두 변수는 상호작용이 있다고 할 수 있다.
5. 한번 더 빼줘야 하는 이유
그래서, 근데 왜 한번 더 빼야 하는건가? 편의상 다음과 같이 가정하겠다.
지역A(정책실행) | 지역B(정책실행X) | |
개입 이전 | $X_{1}=0, X_{2}=1$ | 가 | $X_{1}=0, X_{2}=0$ | 나 |
개입 이후 | $X_{1}=1, X_{2}=1$ | 다 | $X_{1}=1, X_{2}=0$ | 라 |
그리고, 각 경우에 해당하는 $\beta$회귀계수 값은 다음과 같다.
지역A(정책실행) | 지역B(정책실행X) | |
개입 이전 | $\beta_{0} + \beta_{2}$ | 가 | $\beta_{0}$ | 나 |
개입 이후 | $\beta_{0} + \beta_{1} + \beta_{2} + \beta_{3}$ | 다 | $\beta_{0} + \beta_{1}$ | 라 |
앞서 (나 - 가) - (라 - 다) 와 같이 연산했었다. 이식을 회귀 계수에 대입해보자.
($\beta_{0}$ - ($\beta_{0} + \beta_{2}$)) - (($\beta_{0} + \beta_{1}$) - ($\beta_{0} + \beta_{1} + \beta_{2} + \beta_{3}$)) = $\beta_{3}$
이렇게 변수들을 제거하고 나면 최종적으로 상호작용항만 남는다. 즉, 이중차분법을 통해 시간에 따른 개입 효과를 확인할 수 있는 것이다. 이것이 이중차분법을 사용하는 이유다.
'딥상어동의 딥한 통계학' 카테고리의 다른 글
가설검정과 무작위 실험 그리고 선택 편향 (0) | 2023.01.14 |
---|---|
분포를 살펴보는 이유 (0) | 2022.06.25 |
내생 변수(endogenous variable) - 하늘 아래 태양은 하나다. (0) | 2022.04.15 |
[큰 수의 법칙] - 파이썬 동전던지기로 실험해보기 (0) | 2022.03.21 |
다중공선성에서 tolerance의 의미 - 해석의 용이성 (2) | 2022.01.04 |
제 블로그에 와주셔서 감사합니다! 다들 오늘 하루도 좋은 일 있으시길~~
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!