주인장소개
주인장 소개
생각2023.01.14 01:41주인장 소개

주인장 이력안녕하세요. 상담이 하고 싶어 심리학과에 진학했지만, 정작 연구방법론이라는 수업에서 실험을 통해 추상적인 생각을 정량화 하며 데이터 분석에 빠졌습니다. 그리고, 현재는 넥슨이라는 게임 회사에서 약 5년간 데이터 분석가로 일하고 있습니다.저는 아래와 같은 일들을 해왔고, 하고 있습니다!- 다수의 유관 부서가 참여하는 회의에서 1~2주 단위로 분석 주제 조율 및 인사이트 제공, 데이터 전처리 / 문제 정의 / 분석 인사이트 도출 / 액션아이템 제시까지 전반적인 과정 리딩- 고객 경험에 대한 맥락 정보를 추론할 수 있는 다수의 유저 세그멘테이션 설계 및 지표 관리- 추상적인 현상에 대한 정량화 및 지표 이상 탐지- 복잡한 현상을 직관적으로 표현할 수 있는 대시보드 구축 및 관리- 다량의 ETL ..

분석
[Boxplot] 박스플롯 이용시 주의사항
[Boxplot] 박스플롯 이용시 주의사항
시각화
2021.12.19 13:23
최근 글에서 박스플롯을 사용하여 분석 결과를 설명한 적이 있습니다. https://gibles-deepmind.tistory.com/95 [데이터로 보는 주식] 물타기 도대체 언제 할것이냐, 그것이 문제로다. 0. 들어가며 안녕하십니까 파란불 달인 딥상어동입니다. 왜 파란불이라는 말을 썼을까요? 그것은 바로바로. 제 주식 포트 폴리오에 "음봉"이 가득~ 하기 때문인데요. 제 손으로 적기는 정말 슬픕 gibles-deepmind.tistory.com 일단은 시간은 없고.. 글은 빨리 마무리해야하니 박스플롯으로 결과를 설명했었는데요. 결과를 직관적으로 전달하지 못한다는 생각이 들었었습니다. 그리고, 이후 박스 플롯의 어떤 측면 때문에 정보를 직관적으로 전달하기 어려운지에 대해 고민해봤습니다. 1. 장점 - ..
분당선 정자역에서 생각해본 데이터 시각화의 단상
분당선 정자역에서 생각해본 데이터 시각화의 단상
시각화
2023.01.09 23:48
세상이 허락한 유일한 마약... 퇴근....! 그렇다. 나는 출근을 코앞에 둔 K-직장인이다. 점차 다가오는 출근 시간에 잠시 정신을 잃었나보다. 그렇지만, 항상 행복한 퇴근. 나의 퇴근 루트는 아래와 같다. 1. 셔틀을 타고 판교역으로 간다. 그리고, 정자역에서 분당선으로 갈아타서 죽전역에서 내린다. 2. 셔틀을 타고 서현역으로 간다. 그리고, 서현에서 죽전역으로 쭈욱~ 간다. 가장 활발하게 이용하는 루트는 1번이다. 그래서, 정자역에서 분당선으로 갈아타는 길을 자주 지나가게 된다. 정자역 -> 분당선 하행 선로에는 사각지대가 있다. "앞쪽으로 이동하여 주시기 바랍니다" 왜 이걸 보고 사각지대라고 하는거지? 라고 생각할 수 있다. 뜻 먼저 이해해보자. 한 마디로, 여기서 타지 말라는거다. 그런데, 간혹..
[Pandas] 퍼널차트 데이터프레임으로 표현해보기
[Pandas] 퍼널차트 데이터프레임으로 표현해보기
시각화
2021.08.15 01:31
0. 퍼널 차트몇 명이나 깔때기를 통과할까?  좌측 퍼널 차트는 얼마나 많은 방문자를 구매자로 전환시킬 수 있을까?에 대한 고민을 담고 있습니다. 이처럼, 퍼널 차트는 "서비스의 목표"와 관련이 있습니다. 대표적인 예로 AARRR 모형(우측)이 있습니다. 1. Acquisition : 유저 유입2. Activation : 첫 활동 (회원가입)3. Retention : 재방문4. Revenue : 서비스 구매5. Referral: 주변인에게 추천 직관적으로, 퍼널 단계가 아래로 갈수록 (= 깔때기가 좁아질수록) 통과 난이도가 어려워진다는 것을 알 수 있습니다. 예를 들어, 현재 서비스의 목표가 "회원가입"이라고 가정합시다. 당연히 유입 유저수 != 회원가입 유저수일 텐데요. 이때, 회원가입까지 이루어지는 ..
왜 로그 스케일을 사용하는가?
왜 로그 스케일을 사용하는가?
해석
2021.02.24 21:14
목차 1. 지진 강도(로그 스케일 예시) 2. 왜 그래프를 그리는가? 3. 우리가 거리를 지각하는 방식 4. 지도에서 거리를 지각하는 방식 5. 로그 스케일이 더 멀리 볼 수 있는 이유 1. 지진 강도(로그 스케일 예시) 흔히, 지진 강도가 1이다, 2이다, 3이다와 같은 얘기를 들어보셨을 겁니다. 1과2, 4와5 절대적인 숫자 차이는 같습니다. 하지만, 두 차이가 실제로 같지 않다는 건 누구나 알고 계실겁니다. 1과2의 차이보다 4와5의 차이가 더 큽니다. 그럼에도, 이렇게 표기하는 이유는 무엇일까요? 2. 왜 그래프를 그리는가? 여기서 잠깐, 우리가 그래프를 그리는 이유에 대해서 생각해봅시다. 그래프를 그리는 이유는 차이를 드러내기 위해서 입니다. x_values = np.arange(5) y_val..
[지수함수] - 우리가 코로나 확진자 수에 놀라는 이유
[지수함수] - 우리가 코로나 확진자 수에 놀라는 이유
해석
2022.01.18 22:43
0. 들어가며 2019.11.17 코로나19가 우리의 일상을 덮쳤다. 하지만, 한동안은 코로나19 이슈에도 불구하고 비교적 잠잠했었는데 그 이유는 2020년 3월 이후 한동안은 확진자 수가 100명 아래였기 때문이다. http://www.dt.co.kr/contents.html?article_no=2020052902109919607024&ref=naver "절대 K방역 못따라간다"...영국의학저널의 `절규` ˝영국은 한국의 코로나19 접근법을 따라가기 어려울 것이다. 앞으로도.˝1840년에 창.. www.dt.co.kr (위풍당당했던 K방역) 한국의 코로나 방역을 극찬하는 2020년 5월의 기사다. 물론, 지금도 영국에 비해서는 훨씬 적은 편이다. (영국은 작년 연말 이후 확진자가 10만명 이상으로 늘어..
에빙하우스의 망각곡선, 그리고 유저 리텐션
에빙하우스의 망각곡선, 그리고 유저 리텐션
지표
2023.02.26 12:13
들어가며 에빙하우스의 망각곡선 (Ebbinghaus forgetting curve) - 살면 한번쯤은 들어봤을 에빙하우스의 망각곡선, 학습법/기억 관련된 분야에서는 월드 스타라고 할 수 있다. - 물론, 에빙하우스의 실험에 대해 비판이 없는 것은 아니다. - 하지만, 데이터 시각화의 관점에서 에빙하우스의 망각곡선은 상당히 유용한 지표라고 생각한다. - 이번 글에서는 에빙하우스의 망각곡선을 이용하여 유저 리텐션에 대해 생각해보려 한다. 에빙하우스의 망각곡선이란? https://web.archive.org/web/20051219184857/http://psy.ed.asu.edu/~classics/Ebbinghaus/memory7.htm Classics in the History of Psychology --..
인과추론이 분석에 날개를 달아주려면 (feat. 사내 스터디 후기)
인과추론이 분석에 날개를 달아주려면 (feat. 사내 스터디 후기)
들어가며 - 인과 추론이 현업의 분석에 날개를 달아주지 않을까라는 기대와 함께 - 2023/01 ~ 2023/03, 신년을 맞이하며 호기롭게 인과추론 관련된 스터디를 진행했었다. - 관련해서 인과추론에 대한 소소한 생각과 기대했던 대로 인과추론이 정말 분석에 날개를 달아줬을까?에 대해 남겨본다.  인과 추론에 대해 - 빈칸 추론은 제가 들어봤는데...... 인과추론...? - 인과추론은 사실 살면서 늘상 하고 있는 것이다. 셀 수 없을 정도로 많이 매 순간 순간. - 도움이 될지는 모르겠지만, TMI로 일상에서 우리가 하는 인과추론 예시를 들어보겠다. - 지난밤 아는 형님과 신사동에 놀러갔었다. 길을 가고 있었는데, 그 형이 갑자기 케이스티파이 매장으로 들어갔다. - 아무리 봐도 이 형님은 이런 케이스..
평균으로의 회귀, 그리고 변수 통제
평균으로의 회귀, 그리고 변수 통제
본 글은 "고수들의 계량경제학"을 참고하여 작성하였습니다. 1. 평균으로의 회귀 비트코인 랠리 평균가 회귀 번스타인 비트코인 랠리는 평균가 회귀 현상한계 분명해 | 한국경제TV (wowtv.co.kr) 💡 비트코인이 미국 연방준비제도(Fed·연준)의 금리인상 속도 조절 기대감에 상승세를 이어가고 있는 가운데 글로벌 IB(투자은행) 번스타인이 비트코인 상승 랠리의 허점을 지적하고 나섰다. 23일(현지시간) CNBC에 따르면 번스타인은 "비트코인 상승 랠리가 장기적인 평균 가격으로 돌아가는 일시적인 반등에 불과하다"면서 "상승 랠리를 유지하기 위한 근본적인 동력이 부족하다"고 밝혔다. 이날 고탐 추가니(Gautam Chhugani) 번스타인 애널리스트는 고객들에게 보낸 서한에서 최근 암호화폐 시장에서 나타나..
가설검정과 무작위 실험 그리고 선택 편향
가설검정과 무작위 실험 그리고 선택 편향
- 본 글에서는 가설검정의 논리와 무작위 실험이 필요한 이유, 그리고 선택 편향에 대해서 다룹니다. - P-value등 통계적인 개념에 대해서는 깊게 다루지 않습니다. 1. 가설검정 1-1. P-value와 영가설 - 연구자들은 P-value하나에 울고 웃는다. - P-value가 0.05미만인 것을 왜 이렇게 좋아할까? 왜냐하면 영가설을 기각할 수 있기 때문이다. 1-2. 영가설이란? - P-value는 “0.05미만이면 기분이 너무 좋다!” 정도로만 기억하고, 영가설(NULL HYPOTHESIS)이 무엇인지 알아보자. - 여기서, 우리에게 친숙한 단어가 있다. 바로, “NULL” “NULL”은 “값이 없음”을 의미한다. → 즉, 영가설이란 = 가설이 없는 상태를 의미한다. 가설이 없다는 것은 다른 의..
PYTHON | JSON 파일 DataFrame 변환(json_normalize)
PYTHON | JSON 파일 DataFrame 변환(json_normalize)
전처리
2020.12.06 23:47
안녕하세요 신입 초보 분석가입니다. 데이터 분석을 공부하면서 고민이 됐던 내용들을 포스팅합니다. github.com/GiblesDeepMind/deepPythonAnalysis GiblesDeepMind/deepPythonAnalysis I'm JDM! The man who will be the Analysis King! . Contribute to GiblesDeepMind/deepPythonAnalysis development by creating an account on GitHub. github.com 개인 깃허브 페이지입니다(이거 하시는 분들 멋있어 보여서 따라해봤습니다.) 초록 [코드 페이지] https://github.com/GiblesDeepMind/deepPythonAnalysis/tre..
생각
분석가라는 배역에 몰입하기 위해
분석가라는 배역에 몰입하기 위해
생각
2024.03.31 23:54
들어가며 https://sports.khan.co.kr/entertainment/sk_index.html?art_id=202403310920003&sec_id=540401&pt=nv ‘파묘’ 끝나지 않는 1위 영화 ‘파묘’(감독 장재현)가 끝없는 1위 행진을 이어가고 있다. 31일 영화진흥위원회 영화관입장권 통합전산망 집계결과 ‘파묘’는 전날 18만3474명이 관람해 박스오피스 정상을... sports.khan.co.kr - 어제부로 나도 1,000만 파묘 관람객 대열에 합류했다. - 영화 중 가장 인상 깊었던 장면은 김고은 배우님의 대살굿 장면 - 이 분 예전에 진짜 대살굿을 해보신 적이 있나?라는 생각이 들정도로 상당히 자연스러운 연기였다. 당연히, 김고은 배우님은 대살굿은 커녕 그 근처에 ..
100 - 1 = 0? 내 분석 결과가 의미 없어지는 사소한 이유들
100 - 1 = 0? 내 분석 결과가 의미 없어지는 사소한 이유들
생각
2024.01.07 23:32
Intro - 한 건의 분석 결과를 낼 때마다 종종 드는 생각이 있다. 이 가설 까지 봤어야 했는데, - 왜 이런 생각이 드는 것일까 - 어쩌면, 보지 못한 그 한 가지 가설 때문에 내가 지금까지 했던 분석들이 쓸모없게 느껴져서 그런지도 모르겠다. - 만약, 100 - 1 = 0 이냐고 물어본다면 누군가는 사소한 것에 집착하지 말라는 의미로 100 - 1 = 99 라고 할 수도 있고, 다른 누군가는 디테일을 중요하게 생각하는 의미로 100 - 1 = 0 이라고 할 수도 있다. - 무엇이 정답인지는 상황마다 다르겠지만, 한 가지 때문에 내가 들인 노력을 0으로 만드는 것보다는 그래도 99는 했다고 말하는 편이 더 낫다는 것을 우리 모두는 알고있다. - 그럼, 어떻게 해야 100 - 1 = 0의 늪으로 들..
3년차 데이터 분석가의 23년 상반기 회고
3년차 데이터 분석가의 23년 상반기 회고
생각
2023.07.16 16:36
글또 8기가 끝나며, 마무리로 23년 상반기를 되돌아보려고 한다. 2년간 세 번 글또에 참여한 후기 - 6기부터 8기, 횟수로 3번째 글또가 끝났다. - 글또는 개발자 글쓰기 커뮤니티이다. - 2주에 한 번 글을 쓰고, 커피챗, 글또콘 등 다양한 커뮤니티 활동도 지원한다. - 올해로 직장에서 일한지도 3년이 지났다. - 묘한 연관성이 있어보이는 3이라는 숫자, 처음 직장에 입사하고 1년동안은 퇴근 외 시간을 잘 활용하지 못했다. - 메이크 타임 같은 책도 읽어보고, 타임 트래커 모임도 참여했었다. 하지만, 책에 있는 내용은 제대로 실천하지 못했고 타임 트래커 모임에서도 중간에 하차하였다. - 그러다가, 글또 커뮤니티 공고를 보고 참여하게 됐다. 그리고, 2년이라는 시간 동안 글또는 내 생활을 유지시켜주..
발표라는 압박 속에서 탈압박하기
발표라는 압박 속에서 탈압박하기
생각
2023.07.01 13:44
발표라는 압박 - 원래, 발표를 딱히 못하는 것도 아니였지만 그렇게 잘하는 것도 아니였다. - 그렇다고, 남들 앞에 서서 말할 때 긴장하는 타입도 아니였고, 시키면 하고 아니면 말고 딱 그런 스타일. - 딱히, 발표라는 행위에 대해 긴장이나 압박을 느끼지는 않았다. 한번은 학원에서 역사 강사로 일한 적이 있었다. - 처음에는 학원 그까이꺼~ 뭐 그냥 해보면 되지 라고 생각했다. 그런데, 생각해보니.. - 나는 초중고 시절 학원을 다녀본적이 없었다. 어떤 애들이 학원에 다니는지, 어떤 생각으로 다니는지 몰랐다. - 그냥, 내가 혼자 공부했던 것처럼 가르치면 되겠거니.. 생각했지만 그것은 큰 오판이었다. - 매일 이런 표정으로 나를 마주하는 아이들을 바라보며.. 더해지는 긴장감과 + 긴장하다보니 하게되는..
살면서 노래방 마이크만 잡아본 사람의 데이터야놀자 발표 후기
살면서 노래방 마이크만 잡아본 사람의 데이터야놀자 발표 후기
생각
2022.10.28 21:56
아주 감사하게도 데이터야놀자에서 발표를 하게 됐다. 오늘은 발표 준비 과정과 발표 소감 및 준비하면서 들었던 생각들에 대해 적어보려고 한다. 발표자료 및 코드 결과물 - 자세한 발표 내용은 아래 페이지를 참조해주세요! https://github.com/ddongmiin/chatbot-reviewrate-compare GitHub - ddongmiin/chatbot-reviewrate-compare: 네이버/카카오/구글 맛집 평점을 비교해주는 챗봇입니다. 네이버/카카오/구글 맛집 평점을 비교해주는 챗봇입니다. . Contribute to ddongmiin/chatbot-reviewrate-compare development by creating an account on GitHub. github.com 영..
지나가는 데이터 분석가92호의 뜬금없는 회고 (feat.글또7기)
지나가는 데이터 분석가92호의 뜬금없는 회고 (feat.글또7기)
생각
2022.10.07 23:20
이제 글또 7기도 한번 남았습니다. 여러분들이 글또 시작했던 시기와 지금. 어떤 것이 변했나요? - 성윤님께서 공지전 운영진방에 올려주신 말씀을 보고 문득 생각에 잠겼다. 나한테는 어떤 변화가 있었을까. 일단 헤어스타일 을 바꿨다. 원래 적당히 길러서 가르고 다녔는데 짧게 올렸다. 빔프로젝터 를 샀다. 13만원 밖에 안하는 녀석이 이런 화질을 보여준다. 관심있으신 분들은 프로젝터매니아 PJM300 검색 ㄱㄱ #돈은없고 #빔은쏘고싶다면 #PJM300 높이가 걱정된다고? 그렇다면 아래와 같이 파이썬과 SQL그리고 통계책을 깔아주면 된다. 운전 을 시작했다. 아주 가끔, 렌트해서 여기 저기 돌아다니는 중. 제주도의 평대해변. 다양한 색깔의 바다를 볼 수 있는곳. 지금부터는 살짝 진지한 얘기를 하려고 한다. 데..
글또 9기를 시작하며 - 겨울은 새로운 사계절의 시작
글또 9기를 시작하며 - 겨울은 새로운 사계절의 시작
생각
2023.11.27 00:04
들어가며 - 불과 한달전이라는 것이 믿기지 않을 정도로 이번 연도 10월 한달 간, 나한테는 정말 많은 일들이 있었다. - 그 중에서도 가장 기억에 나는 일은 "집주인과의 보증금 분쟁"이다. 뉴스에서 나오는 전세사기는 아니었지만, 세입자가 구해지지 않으면 돈을 줄 수 없다고 주인 분이 얘기를 한 탓에 한달 간 정말 많은 마음 고생을 했었다. - 법무사님과 만나기도 하고, 사내 변호사분과 통화를 하기도 하고 내용증명에 각종 서류 법적 서류 준비에 정말 바쁜 한달이었다. 비슷한 일을 겪으셨던 같은 회사분이 당시에 도움을 주셨는데, 실질적인 도움도 도움이었지만 심적으로도 정말 많은 위로가 되었다. - 어찌됐든, 만기일이 일주일이 지나기는 했지만 법적인 분쟁으로 가지 않고 운이 좋게도 돈을 다 돌려받을 수 있..
프로그래밍&엔지니어링
[Grab] 수백만건의 주문을 저장하고 처리하는 노하우 (feat. DynamoDB)
[Grab] 수백만건의 주문을 저장하고 처리하는 노하우 (feat. DynamoDB)
들어가며 - Grab은 스마트폰 기반의 동남아시아 승차 공유 서비스이다(- 위키 백과 -). - 지금은 그랩페이, 익스프래스, 프레쉬... 등 다양한 사업 분야 진출해 있는 소위 말하는 "슈퍼앱"이다. - 지금은 처분했지만 한동안 그랩의 "주주"였다. - 그래서, 조금은 뜬금없지만 언젠가 재진입할 날을 고대하며, 그랩의 테크 블로그 글 들에 대해 번역해보려 한다. Grab Food - 오늘 번역하려고 하는 글을 Grab의 여러 서비스들 중 Grab Food를 대상으로 한다. https://www.grab.com/global/ko/food/ Grab Food | 동남아시아에서 간편한 음식 배달을 원하시면 다운로드하세요 동남아시아에서 여러분의 입맛을 사로잡을 음식을 GrabFood를 통해 모두 주문하세요. ..
데이터 마트에서는 뭘 파나요?(feat. OLTP, OLAP)
데이터 마트에서는 뭘 파나요?(feat. OLTP, OLAP)
엔지니어링
2023.03.26 04:28
자~데이터 담으러 가자(feat.안내상님, 송곳) - 들뜬 마음으로 마트에 방문한 A씨. - 어라? 그런데 구매하려고 했던 바나나가 없다. - 바나나 다 팔렸나요? 질문을 남긴 안씨. 직원C씨는 알아 보고 오겠다는 말을 남긴채.. 다시 돌아오지 않았다. - 왜 직원은 돌아 오지 않았을까? 1. 화장실이 급해서 2. 갑자기 관둠 고민에 빠진 직원 - 정답은 둘다 아니다. - C씨는 A씨의 질문을 받자 말자 곧장 마트 창고로 달려갔다. - 창고에도 남은 바나나가 없었다. - 하지만, C씨는 일전에 있는 재고를 없다고 하여 혼난 적이 있다 - 또 혼나기 싫었던 C씨 확실히 확인하기 위해 사내 데이터 베이스에 먼저 접속했다. 상품 상태 테이블 발주일자 상품명 발주물량 상태 업데이트일자 2023-03-10 Sup..
API를 글로 배웠어요 (feat. REST)
API를 글로 배웠어요 (feat. REST)
개발도구(git등)
2023.02.09 23:50
Interface 인터페이스란? 서로 다른 두 개의 시스템, 장치 사이에서 정보나 신호를 주고받는 경우의 접점이나 경계면. 즉 사용자가 기기를 쉽게 동작시키는데, 도움을 주는 시스템 - 위키백과 인터페이스의 정의는 "접점"/"경계면"이다. 그리고, 그 접점/경계면을 통해 정보나 신호를 주고 받는다. 대표적인 인터페이스의 예시로 컴퓨터 본체 뒷면을 들 수 있다. HDMI 포트는 HDMI 케이블을 연결하여 정보를 모니터로 송출하는 인터페이스다. 모니터는 HDMI 포트라는 인터페이스를 통해 본체와 상호작용(본체의 정보를 수신하여 출력)한다. 이처럼 인터페이스는 두 가지 기능을 한다. 1. 두 대상이 만날 수 있는 접점을 제공한다. 2. 두 대상이 상호작용(=정보교환) 할 수 있도록 한다. 그런데, 한 가지 중..
[PySpark] 자료 구조와 연산 원리 - 스파크 누구냐 넌?
[PySpark] 자료 구조와 연산 원리 - 스파크 누구냐 넌?
Spark
2022.06.28 00:47
핵심내용 스파크의 고유한 자료 구조와 연산 특징에 대해서 다루어보고자 합니다. ※스파크 설치 방법에 대해서는 다루지 않습니다. 대신 간단한 데이터브릭스 샘플 코드를 포함합니다. 본 글에서 다루는 내용 1. 데이터브릭스 커뮤니티에디션 이용 방법 2. Map reduce vs Spark 3. Driver와 Executor 4. RDD 5. Transformation 6. DataFrame 데이터브릭스 커뮤니티에디션 1. Try Databricks에 접속한다. https://databricks.com/try-databricks Try Databricks - Unified Data Analytics Platform for Data Engineering Discover why businesses are turni..
[SQL] 윈도우 함수 범위 지정을 이용하여 퍼널 분석 로직 짜보기 - feat.window frame
[SQL] 윈도우 함수 범위 지정을 이용하여 퍼널 분석 로직 짜보기 - feat.window frame
LV2.중급쿼리
2022.06.17 01:18
핵심 내용 SQL 윈도우 함수가 가진 여러 특성들을 이해해보고 간단한 퍼널 분석 로직을 짜봅시다. 1. partition by 2. order by 3. window frame 범위 체계 4. 간단한 퍼널 분석 로직 윈도우 함수를 사용하는 이유 윈도우 함수를 이해하기 위해서는 GroupBy와 비교해보는 것이 좋습니다. 우선, Group By에 대해서 생각해봅시다. Group By를 하면 행 수가 줄어듭니다. 그룹의 수만큼요. 하지만, 윈도우 함수는 그렇지 않습니다. 그룹의 수가 그대로 보존되는데요. 이 지점이 윈도우 함수와 Group By의 가장 큰 차이라고 할 수 있습니다. 공통점은 둘다 집계 함수를 사용할 수 있다는 점입니다. 그렇다면, 윈도우 함수는 언제 사용해야 할까? 당연히 원래 행을 보존해야 ..
[Airflow] 데이터 적재 파이프라인 튜토리얼 - 서울시 지하철호선별 역별 승하차 인원 정보 적재하기
[Airflow] 데이터 적재 파이프라인 튜토리얼 - 서울시 지하철호선별 역별 승하차 인원 정보 적재하기
엔지니어링
2022.06.12 05:25
핵심 내용 안녕하세요. Airflow로 데이터 적재 파이프라인을 만드는 튜토리얼을 만들어봤습니다. 사이드 프로젝트로 데이터를 수집하고, 수집한 내용을 DB에 저장하고 활용해보려는 분들께 도움이 될 것 같습니다. 본격적으로 시작하기 전에 몇 가지 재료가 필요합니다. 우선, 서버는 GCP를 이용하여 구축했습니다. IDE는 GCP에서 구축한 Jupyter lab서버를 이용했고, MySQL서버, Airflow서버 모두 GCP 우분투 서버에 설치했습니다. https://gibles-deepmind.tistory.com/116?category=954919 [GCP] VM Instance 생성하기 1. 무료로 시작하기 무료로 시작하기를 클릭해준다. 적당한 걸 클릭해주고 계좌 유형은 귀찮으니, 개인을 선택해준다. 그리..
최신글
MY FIRST DBT - (1) Bigquery 연결해보기 + 폴더 구조에 대한 가벼운 이해
엔지니어링2024.11.10 20:43MY FIRST DBT - (1) Bigquery 연결해보기 + 폴더 구조에 대한 가벼운 이해

들어가며데이터 업무하다 보면 마주하는 케이스 (1) A님 갑자기 제 배치가 안돌아요- 아 alpha_omega 테이블 참조하셨죠? 그거 오늘부터 alpha_beta로 적재됩니다~(2) 뭐야 휴지는 없어도 휴지심은 있어야 되는데? (갑작스러운 null 출현) dbt공홈 문서를 보다보면 유독 자주 등장하는 단어가 있다. “software engineering” 한발 더 나아가서data analysts should adapt similar practices and tools to software developoers 이렇게 까지..! 얘기를 한다. 물론, 분석하기도 바쁜 상황이지만.. dbt를 사용하면Version Control - Analytic code는 반드시 버전 관리를 해야 함, 비즈니스 요구 ..

Airflow DAG 개념 톺아보기 (설치/실행 과정 포함)
엔지니어링2024.10.13 17:18Airflow DAG 개념 톺아보기 (설치/실행 과정 포함)

들어가며최근 들어, 팀 내에서도 그리고 글또에서도 새로운 환경에서 ETL 파이프라인을 구축해 볼 기회가 생김에 따라 Airflow를 이전보다는 조금 더 깊게 알아야 할 필요성이 생겼다. 이에 따라, Airflow를 공부하며 관련된 내용들을 정리해보는 중인데, 오늘은 나와 같은 초보자의 관점에서 Airflow를 테스트 환경을 구성하고 DAG을 만들고 실행하는 과정에서 몇 가지 기본적인 개념들을 다루어보고자 한다.DAG란?Airflow is a platform that lets you build and run workflows. A workflow is represented as a DAG (a Directed Acyclic Graph), and contains individual pieces ..

파이썬 퍼널 분석 코드 - (feat. 이 코드... 어디서 많이 봤는데? 기분 탓이겠지?)
생각2024.09.08 01:45파이썬 퍼널 분석 코드 - (feat. 이 코드... 어디서 많이 봤는데? 기분 탓이겠지?)

- 최근, 인스타 광고(데이터 분석 광고)를 통해 우연찮게 제가 예전에 썼던 "파이썬으로 퍼널 분석 하는 글"과 유사한 이미지를 발견하였습니다.- 처음에는 반가운 마음이 들었습니다. 어? 나도 비슷한 내용으로 글썼었는데..!https://gibles-deepmind.tistory.com/entry/Pandas-%ED%8D%BC%EB%84%90%EC%B0%A8%ED%8A%B8-%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84%EC%9C%BC%EB%A1%9C-%ED%91%9C%ED%98%84%ED%95%B4%EB%B3%B4%EA%B8%B0 [Pandas] 퍼널차트 데이터프레임으로 표현해보기0. 퍼널 차트몇 명이나 깔때기를 통과할까?  좌측 퍼널 차트는 얼마나 ..

당신을 통제하는 감정은? - 인사이드 아웃2 후기
생각2024.07.02 19:36당신을 통제하는 감정은? - 인사이드 아웃2 후기

지난주 주말, 인사이드 아웃2 영화를 봤다. 원작의 경우, 기쁨/화남/슬픔/까칠/소심 5가지의 감정만 있었지만 주인공인 '라일리'가 고등학교 진학을 앞두며 다루는 문제들이 복잡해지고 이에 따라 불안/질투/당황 등의 감정이 추가됐다. 새로 등장한 감정들이 라일리의 문제 해결에 있어어떤 역할을 하는지 관찰하는 것이 인사이드 아웃2의 묘미라고 할 수 있다. 영화 초반 라일리는 친구들과 하키 캠프를 떠난다. 하지만, 친구 2명은 이미 다른 고등학교에 배정을 받은 상황.다른 고등학교에 가게 된 라일리는 친구들을 못 사귈까봐 전전 긍긍하는 상황. 여기서 "불안" 이라는 감정이 등장한다. 딱 봐도 정신 없어 보이는 "불안"은 모든 상황을 통제하고, 예측할 수 없는 상황에 대비하고자 한다."기쁨이"가 라일리의 유년시절..

유의미함이란? (1) - 가설과 표집분포
딥상어동의 딥한 통계학2024.04.14 23:58유의미함이란? (1) - 가설과 표집분포

- 가짜연구소에서 "온라인 통제 실험 연구자로 거듭나기"라는 이름의 A/B테스트 스터디에 참여하고 있다. 현재 까지, 온라인 통제 실험 소개 및 분석 기초 Chapter2 실험의 실행과 분석 - 엔드 투 엔드 예제 Chapter6 조직 운영을 위한 지표 Chapter7 실험을 위한 지표와 종합 평가 기준 (OEC) - 위 주제들로 총 4번의 스터디를 진행하였고, Chapter17 온라인 종합 대조 실험에 사용되는 통계 이론 챕터를 내가 맡게 되어 오늘은 겸사 겸사 책에 대한 내용을 블로그에 적어보려 한다. 흡연은 통계의 필요성을 알려주는 주요 요인 중 하나이다. - 플레처 네벨 - Chapter의 첫 장에 나오는 문장이다. 플레처 네벨씨는 왜 저런 말씀을 남기셨을까? 궁금해서 찾아봤더니, 이분 꽤 유명한..

image