간만에 통계학 책을 펼쳐보며, 내생 변수에 대한 개념 및 생각을 정리해봤다. 우선, 결론을 먼저 얘기하겠다.
하늘 아래 두 태양은 없다. 내생 변수는 하나여야 한다.
내생이란? 말 그대로 "내부로부터 생성됨" 이라는 의미이다. 통계학에서 이 내부란 = 모델, 모형으로 생각할 수 있다. 예를 들어서, 코트 가격으로 완판까지 걸리는 시간을 예측해본다고 가정하자. 대게는 코트 가격이 싸지면 완판까지 걸린 시간이 줄어든다는 예측을 해볼 수 있을 것이다. 그렇다면, 다음과 같은 모형을 설정해볼 수 있다.
[Y(완판까지 걸린 시간) = aX(코트 가격+ b + e(오차항)]
여기서 대괄호 안은 모형이고 Y는 내생변수라고 할 수 있다. 즉, 모형(=내부)으로부터 생성된 변수이다. 그런데, 말이다. 과연 코트 가격만으로 완판까지 걸린 시간을 설명할 수 있을까?
정답은 NO이다. 이유는 크게 두 가지가 있다.
우선, 첫 번째 코트 가격은 계절에 영향을 받는다.
아주 큰 변수로 역시즌이라는게 존재할 수 있다. 그러니까, 결국에는 이 코트 가격이라는 놈도 내생 변수가 될 수 있다는 것이다. 결국에는 Y(코트 가격) = aX(시기) + b + e와 같은 모형이 있을 수 있는 것이다. 그나저나, 50%나 할인 했는데, 19만원이라니 ㅜㅜ (인간의 욕심은 끝이 없는건가?)
두 번째, 완판에 걸린 시간이 코트 가격에 영향을 줄 수 있다. 예를 들어서, 아무리 여름이라도 코트가 하루만에 다 매진됐다고 하자. 그렇다면, 굳이 전날과 똑같은 가격으로 코트를 판매할 필요가 있을까?
그러니까, 화살표로 표현을 하자면 X(코트 가격) -> Y(완판시간), Y(완판시간) -> X(코트 가격) 두 가지 방향의 관계가 모두 성립하는 것이다.
자, 다시 앞으로 돌아가서 "내생 변수는 모형의 아웃풋"이라는 얘기를 했었다. 그렇다면, Y(완판까지 걸린 시간)가 aX(코트 가격+ b + e(오차항)의 아웃풋이라고 할 수 있을까? 역시 NO다.
왜냐하면, X가 아웃풋인지, Y가 아웃풋인지 헷갈리기 때문이다. 그래서, 하늘아래 태양은 하나라는 얘기를 아까 했었다. 관련된 사회학 이론중 마태 효과(Matthew Effect) 라는 것이 있다.
무릇 있는 자는 받아 풍족하게 되고 없는 자는 그 있는 것까지 빼앗기리라
- 마태복음 -
여기 A와 B라는 만두판매점이 있다. 금년 1분기 매출을 확인했더니, A만두판매점의 매출이 B만두판매점의 매출보다 2배 가량 높았다. 그렇다면, 당연히 사람들은 A만두 판매점의 만두가 B만두 판매점의 만두보다 맛있다고 생각할 것이다. 즉, Y(만두매출) = aX(만두맛) + b + e와 같은 모형으로 설명할 수 있다.
하지만, 블라인드 테스트를 해봤더니, 10명중 7명이 B만두 판매점의 만두가 맛있다고 얘기했다.
아니 이게 무슨일인가?
알고봤더니, A만두 판매점은 유명 연예인이 운영하는 식당이었던 것이다. 실제, 매장 리뷰를 살펴봤더니 음식 맛에 대한 얘기보다는 유명 연예인에 대한 얘기가 한가득이었다. aX(만두맛) + b + e 즉, 해당 모형이 Y(만두매출)이라는 내생변수를 제대로 설명하지 못하는 것이다.
이와 같이 빈익빈 부익부를 설명하는 이론 중 하나가 마태효과다. 즉, "부"라는 것에 "원래 가진돈"이라는 요인이 영향을 미치는 것이다. 이에 따라 aX(노력) + b + e라는 모형만으로 Y(부)라는 내생 변수를 온전히 설명하지 못하게 되는 것이다. 또한, Y(부)가 X(노력)의 원동력이 될 수도 있다.
이처럼 현상의 이면에는 다양한 원인이 숨어 있을 수 있다. 그래서, 인과추론이 어렵다.
(지금까지, 내생변수에 대해서 짤막하게 설명해봤습니다. 설명에 부족한 부분이나, 잘못된 부분이 있다면 편하게 말씀 부탁드리겠습니다.)
'딥상어동의 딥한 통계학' 카테고리의 다른 글
분포를 살펴보는 이유 (0) | 2022.06.25 |
---|---|
두번 빼면 인과 효과가 보이는 이유 - 이중차분법(Difference in Difference) (0) | 2022.04.22 |
[큰 수의 법칙] - 파이썬 동전던지기로 실험해보기 (0) | 2022.03.21 |
다중공선성에서 tolerance의 의미 - 해석의 용이성 (2) | 2022.01.04 |
[통계학] 다중공선성에 대한 고찰 - 해석과 모델 성능의 관점에서 (3) | 2020.11.08 |
제 블로그에 와주셔서 감사합니다! 다들 오늘 하루도 좋은 일 있으시길~~
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!