들어가며
- 인과 추론이 현업의 분석에 날개를 달아주지 않을까라는 기대와 함께
- 2023/01 ~ 2023/03, 신년을 맞이하며 호기롭게 인과추론 관련된 스터디를 진행했었다.
- 관련해서 인과추론에 대한 소소한 생각과 기대했던 대로 인과추론이 정말 분석에 날개를 달아줬을까?에 대해 남겨본다.
인과 추론에 대해
- 빈칸 추론은 제가 들어봤는데...... 인과추론...?
- 인과추론은 사실 살면서 늘상 하고 있는 것이다. 셀 수 없을 정도로 많이 매 순간 순간.
- 도움이 될지는 모르겠지만, TMI로 일상에서 우리가 하는 인과추론 예시를 들어보겠다.
- 지난밤 아는 형님과 신사동에 놀러갔었다. 길을 가고 있었는데, 그 형이 갑자기 케이스티파이 매장으로 들어갔다.
- 아무리 봐도 이 형님은 이런 케이스를 사실 분 같지는 않아서 읭? 왜 들어가셨지? 처음에는 이런 생각이 들었다. 👉 그래서 아! 와이프 사주시려고 들어가신건가?, 물어봤더니 또 그건 아니란다. 그럼 왜 들어왔냐고 물어보니까
- 평소에 사람들이 많이 줄서 있길래 들어와봤다고 하셨다.
- 그 순간 머리속에 몇 가지 생각들이 스쳐 지나갔다. 잠실타워에 길~게 늘어져있던 대기줄과 + 회사 동료분들이 케이스티파이에 대해 나누던 얘기들..
- 그래서, 문득 나도 궁금해졌다. 왜 이렇게 줄을 많이 서지? 👉 그래서 점원분께 물어봤다. 이거 사람들이 왜 사는거냐? 그랬더니 점원분왈 👉 케이스를 요리조리 돌려가시며.. 충격방지가 잘됨 + 디자인 커스터마이징도됨 이라고 말씀 주셨다 + 옆 가게의 케이스 디자인과 비교해보니 상당히 힙하다는 생각이 들었다.
- 그래서 나름 다음과 같은 결론을 내렸다. 힙함 + 충격방지 좋음 + 디자인 커스터마이징 👉 케이스티파이 구매?
- "결과의 옳고 그름"을 떠나서 이 자체도 인과추론의 한 행위로 볼 수 있다.
아는 형이 왜 갑자기 케이스티파이 매장에 들어가셨지? | 결과 |
와이프 사주려고 하시는건가...? | 원인 추론 |
사람들이 많이 줄서있길래 (궁금해서 들어와봄) | 결과 |
점원 왈 - 충격방지 잘됨, 디자인 커스터마이징 됨 | 원인 추론 |
옆집 케이스 디자인과 비교 👉 힙함 | 원인 추론 |
왜 하는가?
- 이처럼 원인과 결과에 몰두하는 것은 사실 "본능"에 가까운 것 같다. 밥먹고 자는 것처럼.
- 이렇게만, 적으면 이 글을 클릭하신 분들이 애써 글을 클릭하신 이유가 없어질테니.. 여러 글들과 책들을 보며 종합적으로 내린 결론을 적어보겠다.
- 결론은 "불확실성"에 있다. 이 주식을 사야할까? 팔아야할까? / 이 신발이 내가 가진 옷에 잘어울릴까? 저 신발이 내가 가진 옷에 잘 어울릴까? / 머리를 올릴까 말까 / 감기 걸렸을 때 헬스 해도 되나? / 라지가 맞을까 미디움이 맞을까? 등등....
- 우리는 셀수 없이 많은 "불확실한 상황"에 놓인다.
- 여건이 되어서 위 사진과 같이 두 가지 버튼을 다 눌러볼 수 있다면 상관은 없다만..
- 현실에서는 모든 버튼에 대한 비용을 감당할 수 없기에, 한 가지를 선택해야 한다.
- 선택을 다르게 표현하면 "개입"으로 볼 수도 있다. 선택을 한다는 것은 "상황"에 개입한다는 것을 의미한다.
- 물론, 개입을 하지 않을 수도 있다. 하지만, 아무것도 하지 않으면 아무일도 일어나지 않기에 인간은 상황에 개입을 한다.
- 그리고, 그 개입에는 결과가 따른다.
- 예를 들어, (원인)고백을 해서 잘되면 (결과)사귈 수도 있고..
- 뜻대로 잘 안되면 (결과)차일 수도 있다. 그렇기에 인간은 계속 고민한다.
- 개입을 해서 더 좋은 결과를 낼 수 있도록(술말고 다른걸로 했어야하나...?)
그래서 인과추론을 왜 하는건데?
- 상황은 항상 불확실하다.
- 인간은 불확실한 상황에 개입해서 현실을 더 낫게 만들고 싶어한다.
- 하지만, 개입에 들일 수 있는 비용은 한정되어 있다.
- 그래서, 머리속으로 상상을 해보는 것이다.
- A를 하면 어떻게 될까?, A를 하지 않으면 어떻게 될까?
- 더 나은 방식의 개입을 통해 과거의 실수를 반복하지 않고, 현재에 더 나은 결정을 하는 것. 이것이 인간이 끊임없이 인과추론을 하는 이유라고 할 수 있다.
스터디는 뭐했어?
https://www.yes24.com/Product/Goods/35490317
- 스터디는 위 책으로 진행했었다.
- 무작위 시행 👉 회귀분석 👉 도구변수 👉 회귀단절모형 👉 이중차분법 👉 학교 교육의 수익
- 총 6개의 챕터로 이루어져있다.
- 앞 부분의 사례를 뒷 장에서 언급하거나 활용하는 경우가 많으니, 가능하면 순서대로 읽는게 좋다.
- 번역이 다소 난해한 부분도 있지만, 인과추론이 실세계의 문제를 어떻게 해결할 수 있는지(경제, 교육)에 대해 주로 다룬다. 특히, 복잡한 통계 이론은 부록으로 따로 빼두었는데 해당 내용을 100% 소화하지 못하더라도 책의 메시지를 이해하는데는 큰 무리가 없다.
- 스터디 방식은 책을 읽고, 관련된 이론 혹은 사례를 공유하는 방식으로 진행했고, 나는 아래 3가지 내용에 대해 발표를 했었다. 나머지 내용들은 다른 스터디원분들이 진행해주셨었다. 이혼이 수명에 미치는 영향 등 다양한 주제들에 대해서 논의를 진행했었다.
인과추론은 날개를 달아 주었는가?
- 결론은 "달아주지 못했다"이다. 인과추론이 인간의 본능이니 뭐니, 실컷 말하고 힘빠지는 얘기일 수 있지만 본 글에서 핵심적으로 전달하고 싶은 메시지이다.
- (날개를 달아주지 못했다 != 인과추론 공부하지 말자 이다. 오해 금지!)
- 왜일까?
- 인과추론에서 "인"은 기본적으로 "개입"과 관련되어 있다. 그러니까, "개입"리스트가 먼저 존재하고 👉 각 개입들에 대해서 그 "개입"으로 인해 어떤 결과가 발생할지를 생각해보는 것이다.
- 그런데! 만약 그 개입 리스트들이 없다면?, 기법을 사용하는 의미가 없게 된다.
- 날개(=인과추론기법)는 달아놨는데 어디로 가야할지(개입)를 모르는 꼴이 되는 것이다.
- 결론적으로는 데이터 분석에 인과추론이라는 날개를 달아봤는데 👉 막상 달아보니 내가 어디로 가야할지(=어떤 개입을 해야할지), 즉 도메인 지식이 부족함을 다시 한번 깨닫게 됐다.
- 왜 도메인 지식이 중요할까.
- 데이터 분석가와 수학선생님을 비교해보자.
- 데이터 분석가는 데이터를 통해 사람(=고객)을 변화시키려고 하고, 수학선생님은 수학을 통해 사람(=학생)을 변화시키려고 한다는 측면에서는 동일하다.
- 그런데, 수학만 잘한다고 해서 학생의 성적을 올릴 수 있을까? 아니면 데이터만 잘 본다고 해서 고객을 변화시킬 수 있을까? - 그렇지 않다. "수학"만으로는 학생의 성적을 올릴 수 없다. 학생의 현재 공부 패턴은 어떤지, 성적은 어떠한지, 동기 부여는 어떻게 시켜야 할지 등 다양한 요소들이 조합되어야 학생의 성적을 올릴 수 있다.
- 데이터 분석가도 마찬가지이다. 데이터만 들여다본다고 고객을 변화시킬 수 없다. 고객이 어떤 이유로 어떤 행동을 하는지에 대한 도메인 지식이 있어야 한다.
- 그래서 인과추론의 날개를 달 수 있는 사람은 누구인가?
- 컨설팅 쪽에서 흔히MECE라는 단어를 많이 사용한다. 현상이 모호하지 않도록(=교집합이 존재하지 않도록)
- 겹치지 않으면서 빠짐없이 전체를 나눴다는 의미이다.
- 여기서 중요한 것은 전체를 나눴다는 것이다. 전체를 나눌 수 없으면, "근데, 이렇게 될 수도 있는거 아닌가요?"에 대해서 답을 하기 어렵게 된다.
https://yozm.wishket.com/magazine/detail/1481/
- 결론적으로, 본인이 겪고 있는 현상에 대해 MECE하게 논리적으로 의견을 전달할 수 있는 사람이 "인과추론"기법을 공부한다면, "인과추론"이라는 날개가 목적지로 날아가는데 도움을 줄 것이다.
- 관련해서 아래 글에서는 다음과 같이 설명합니다.
https://www.oreilly.com/radar/what-is-causal-inference/
- A/B테스트 👉 새로운 기능이 이탈에 어떤 영향을 미치는지는 알아볼 수 있음 👉 하지만, 본질적인 이탈의 원인은 알기 힘듬. 👉 왜? 현실적으로 모든 가능성에 대해서 테스트를 해볼 수 없음 👉 그렇기에 잠재 고객과 고객이 어떤 방식으로 이동하는지에 대한 이해가 있어야함.
공부는 어떻게 시작하는게 좋을까?
- 지금까지, 인과추론의 버프를 받을 수 있는 조건에 대해서 얘기해봤다. 그럼, 스터디를 어떻게 하는게 좋을까?에 대해 운영해본 사람의 입장에서 적어보려한다.
- 우선, "서비스에 대해 공부하는 것"이 가장 중요하다고 생각한다. "서비스에 대한 공부가 부족하다면" 나처럼 현실의 벽(= 이럴수도 있지 않나요?)을 뚫을 수 없다.
- "서비스에 대해 공부하고" 👉 고객의 행동 패턴에 대해 MECE하게 본인의 의견을 전달해볼 수 있다면 👉 인과추론의 기법을 공부하여 도움을 받을 수 있을 것이다.
- 나는 "고수들의 계량경제학"이라는 책으로 스터디를 운영했는데, 내용은 유익했지만 솔직하게 조금 어려웠다. 조금은 더 가벼운 책으로 시작해도 좋을 것 같다. 가짜연구소에서 인과추론 스터디를 운영중이신 신진수님이 말씀주신 "원인과 결과의 경제학"이라는 책을 추천한다.
- 서평을 읽어보면 깊게 안들어가서 아쉽다는 평도 있지만 가볍게 보기에는 충분하다고 생각한다.
- 위 페이지의 그래프는 "회귀단절모형"에 대해 설명하고 있다. "MLDA가 사망률에 미치는 효과를 보여주는 계단형RD추정치", 물론 책 서두를 보면 충분히 이해할 수 있는 내용이다. 하지만, 직관적으로 이해하기는 어렵다.
- 비슷한 유형의 그래프에 대해서 원인과 결과의 경제학에서는 "점프"를 했다고 표현한다. 인과추론이라는 단어를 모르는 사람이 봐도 한 눈에 알아볼 수 있는 직관적인 설명이다.
- 처음 스터디를 운영하기전에 진수님께서 이책을 추천해주셨었는데, 먼저 보고 고수들의 계량경제학을 봤으면 좀 더 쉽게 접근할 수 있었을 것 같다.
스터디를 진행하면서 생각하면 좋을 점들
- 앞서 인과추론은 기대하는 결과를 유발할 수 있는 개입(=원인)을 찾는 것이라고 얘기했다.
- 즉, 어떤 개입(행동)을 유발해야 하고 개입을 유발하기 위해서는 "신뢰"가 필요하다.
- 따라서, 어떤 요인이 신뢰를 저하하는지 그리고 고수들이 어떻게 신뢰성을 확보하는지를 중심으로 살펴보면 도움이 된다.
- 한 가지 사례로 "교란요인"이 있다.
- 한 마디로 뭐가 원인이고 뭐가 결과인지 헷갈리게 하는 요인이다.
- 예를 들어, 쿠폰을 지급 했더니 👉 물품을 구매했다고 가정하자. 그럼 이 결과를 보고 👉 얼씨구나 쿠폰 막 뿌리자! 이래도 될까? 당연히 안된다.
- 쿠폰 발행(=개입)에는 비용이 든다. 그러므로, 그 비용이 가치가 있을지를 판단해봐야 한다.
- 이때, 대표적인 교란 요인은 유저의 서비스에 대한 "관여도"가 있을 수가 있다. 그러니까, 서비스에 대한 로열티가 높아서 원래 구매를 하는 고객이 👉 물건을 사는 것은 당연하다.
- 이 경우, "쿠폰"발행이 물건 구매에 결정적인 영향을 줬다고 보기 어렵다.
- 이러한 현상은 비교하는 두 그룹 간의 성질이 동일하지 않기 때문에 발생한다.
- 두 그룹 간의 성질이 같다면 교란 요인에 대해 고민할 필요성이 줄어든다. 왜? 순수한 개입의 효과만을 살펴볼 수 있으니까.
- "리사"가 책을 읽었을 때 VS 읽지 않았을 때를 비교해야 정확히 "책 읽기"의 개입 효과를 살펴볼 수 있다.
- 하지만, 위와 같은 비교군을 얻기에 현실은 녹록치 않다(=비용이 많이 든다.)
- 그래서 교란요인을 "통제"한다는 단어를 쓴다.
- 대표적인 방법으로는 회귀모형 안에 "교란요인"을 포함시키는 것이다.
- "고수들의 계량경제학"에서는 공립/사립학교 졸업유무에 따른 소득격차를 사례로 든다.
- 근데 이때, 대학 순위에 따라 👉 소득 격차가 발생할 수 있다. 그래서, 아예 "대학 순위"라는 변인을 회귀 모형에 포함시켜 버린다.
- 이렇게 되면 회귀계수의 추정시 통제 조건(=대학순위)을 반영하여 추정하기 때문에 계수를 더욱 신뢰할 수 있게 된다.(구체적인 과정은 아래 글에서 살펴볼 수 있다.)
- 이 외에도 모델에 어떤 변화를 주었을 때 "계수 추정치"가 그대로 유지되는지 등을 살펴보는 방법이 있다.
- 모델에 여러 방식으로 변화를 주었는데도 불구하고 "계수 추정치"가 비슷한 수준으로 유지된다면 해당 계수를 신뢰(=Robust)할 수 있을 것이다.
마무리
- 지금까지 인과추론 스터디를 진행한 후기를 남겨봤다.
- 다만, 인과추론을 적용하려고 하면서 새로운 벽을 마주했고 "그 벽은 서비스에 대한 나의 이해도"라는 사실을 깨달았다.
- 개인적으로는 이게 가장 큰 공부였다고 생각한다.
- 그래서, "서비스"를 잘 아는 사람이 인과추론을 공부한다면 인과추론이 분석에 날개를 달아줄 것이다라는 결론을 내려봤다.
- 다음에는 조금 더 발전된 모습으로 돌아올 수 있기를.
- 긴 글읽어주셔서 정말 감사드립니다. 🙏
Ref.
https://towardsdatascience.com/implementing-causal-inference-a-key-step-towards-agi-de2cde8ea599
https://www.oreilly.com/radar/what-is-causal-inference/
https://www.yes24.com/Product/Goods/35490317
https://www.yes24.com/Product/Goods/64606179
'딥상어동의 딥한 통계학' 카테고리의 다른 글
유의미함이란? (1) - 가설과 표집분포 (2) | 2024.04.14 |
---|---|
왜 단절이라는 말을 사용하는 건가요? - 회귀 단절 모형 (0) | 2023.04.02 |
평균으로의 회귀, 그리고 변수 통제 (2) | 2023.02.05 |
가설검정과 무작위 실험 그리고 선택 편향 (0) | 2023.01.14 |
분포를 살펴보는 이유 (0) | 2022.06.25 |
제 블로그에 와주셔서 감사합니다! 다들 오늘 하루도 좋은 일 있으시길~~
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!