https://gibles-deepmind.tistory.com/9
일전에 다중공선성에 대해서 다룬적이 있었다. 보통, 다중공선성을 VIF를 통해 판단하고는 하는데 VIF는 1/(1-$R^2$) 로 표현된다.
여기서, $R^2$를 계산하는 방식에 대한 이해가 중요하다. 흔히, $R^2$가 높으면 종속변수 Y에 대한 설명력이 높다고 한다. 하지만, X4를 종속변인(Y)라 생각하고 X1, X2, X3를 각각 독립변인이라고 했을 때 $R^2$가 높다면? X1/X2/X3가 X4를 잘 설명한다고 할 수 있을 것이다. 즉, 다중공선성이 있다고 얘기할 수 있을 것이다.
여기서, (1-$R^2$) 자체를 tolerance라고 한다. 그리고, 이 말은 여기저기서 꽤 빈번하게 등장한다. 사실 말이다. 수식만 따지고 보면 단지 분모를 뒤집었을 뿐, 그 이상도 그 이하도 아닌다. 굳이, 이렇게 한 이유가 있을까?
여기서 부터는 내 개인적인 뇌피셜이다. 앞선, 사례를 한번 더 들고와보자.
X4를 종속변인(Y)라 생각하고 X1, X2, X3를 각각 독립변인이라고 했을 때
이때, $R^2$가 0.9라고 하자. 그렇다면, VIF = 1/(1-0.9) 즉, 10이 될 것이고 tolerance는 (1-0.9) 즉 0.1이 될 것이다. 여기서, VIF가 10이니까 다중공선성이 있네 라는 설명보다는 tolerance(==관용)가 0.1로 낮으니 인정하기 어렵다라는 말이 조금 더 직관적으로 들린다.
어쨌든, tolerance라는 용어를 사용하는 이유는 해석의 용이성 때문이지 않을까 싶다.
Ref.
https://onlinelibrary.wiley.com/doi/10.1002/9781118445112.stat06593
'딥상어동의 딥한 통계학' 카테고리의 다른 글
분포를 살펴보는 이유 (0) | 2022.06.25 |
---|---|
두번 빼면 인과 효과가 보이는 이유 - 이중차분법(Difference in Difference) (0) | 2022.04.22 |
내생 변수(endogenous variable) - 하늘 아래 태양은 하나다. (0) | 2022.04.15 |
[큰 수의 법칙] - 파이썬 동전던지기로 실험해보기 (0) | 2022.03.21 |
[통계학] 다중공선성에 대한 고찰 - 해석과 모델 성능의 관점에서 (3) | 2020.11.08 |
제 블로그에 와주셔서 감사합니다! 다들 오늘 하루도 좋은 일 있으시길~~
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!