핵심 내용 안녕하세요. Airflow로 데이터 적재 파이프라인을 만드는 튜토리얼을 만들어봤습니다. 사이드 프로젝트로 데이터를 수집하고, 수집한 내용을 DB에 저장하고 활용해보려는 분들께 도움이 될 것 같습니다. 본격적으로 시작하기 전에 몇 가지 재료가 필요합니다. 우선, 서버는 GCP를 이용하여 구축했습니다. IDE는 GCP에서 구축한 Jupyter lab서버를 이용했고, MySQL서버, Airflow서버 모두 GCP 우분투 서버에 설치했습니다. https://gibles-deepmind.tistory.com/116?category=954919 [GCP] VM Instance 생성하기 1. 무료로 시작하기 무료로 시작하기를 클릭해준다. 적당한 걸 클릭해주고 계좌 유형은 귀찮으니, 개인을 선택해준다. 그리..
핵심 내용 ubuntu에서 MySQL Server 원격 접속 허용 후, Python과 연동하는 과정을 다룹니다. 본 글은 아래의 내용들을 포함합니다. 1. ubuntu MySQL설치법 2. MySQL 원격 접속 허용하는 방법 3. Workbench 연결방법 4. Python mysql.connector 사용법 5. pandas의 to_sql메서드를 이용하여 pandas 데이터프레임을 mysql로 적재하기 ubuntu MySQL설치하기 ubuntu 버젼은 20.04이며 GCP를 이용했습니다. VM Instance를 생성하는 방법은 아래 글을 참고 부탁드립니다. https://gibles-deepmind.tistory.com/116?category=954919 [GCP] VM Instance 생성하기 1. ..
주요 내용 ubunutu에서 jupyterlab background server를 구축하는 내용을 다룹니다. ubuntu는 gcp clound vm instance를 이용하여 설치했습니다. 관련된 내용은 아래 글에서 살펴 보실 수 있습니다. https://gibles-deepmind.tistory.com/116?category=954919 [GCP] VM Instance 생성하기 1. 무료로 시작하기 무료로 시작하기를 클릭해준다. 적당한 걸 클릭해주고 계좌 유형은 귀찮으니, 개인을 선택해준다. 그리고, 이름 및 주소를 적당히 입력. 참고로 우편번호는 시/군/구에 맞게 gibles-deepmind.tistory.com 본 글의 목표는 두 가지 입니다. 1. 어디서든 접속할 수 있는 jupyterlab 서버..
핵심 내용 실무에서 유저 세그먼트라는 용어를 실제로 많이 사용하기도 하고, 정의하기도 합니다. 이번 글에서는 유저 세그먼트를 나누는 과정에서 고민했던 부분들을 남겨보려 합니다. 세그먼트란? 유저 세그먼트란 무엇일까요? MBTI도 유저 세그먼트의 일종이라고 할 수 있습니다. 왜냐하면, 질문지에 대한 답변을 기준으로 사람들을 16가지 유형으로 나눴기 때문입니다. 아무렇게나 나눈다고 세그먼트가 될까요? 그건 아닙니다. 어느 정도는 동질성이 보장되어야 합니다. 서로 다른 MBTI 유형들을 비교할 수 있는 이유는 동일한 검사지를 사용했기 때문입니다. 이렇게 동질성을 가지고 있는 집단을 흔히, 코호트라고 합니다. 세그먼트 뭣이 중한디? 왜 세그먼트가 중요할까요? 그 이유는 기업에서는 사용자가 특정 행동을 하기를 원..
가짜연구소 내 Python - Data Engineering 스터디를 위해 작성했습니다. https://www.notion.so/chanrankim/PseudoLab-c42db6652c1b45c3ba4bfe157c70cf09 (가짜연구소 링크) https://www.notion.so/chanrankim/Data-Engineer-Python-83c206a662004120a8211a800581e124 (스터디상세 링크) 핵심 내용 리눅스는 GCP를 이용하여 설치했습니다. 관련해서는 아래 블로그 글을 참고하실 수 있습니다. 스크롤이 긴데, 설치 과정에서 있었던 삽질기를 다루는 글입니다. 저처럼 엔지니어링도 클라우드도 잘 모르지만, Airflow를 설치하고 간단한 Dag파일을 생성해보고 싶은 분들께 참고가 될 ..
가짜연구소 내 Python - Data Engineering 스터디를 위해 작성했습니다. https://www.notion.so/chanrankim/PseudoLab-c42db6652c1b45c3ba4bfe157c70cf09 (가짜연구소 링크) https://www.notion.so/chanrankim/Data-Engineer-Python-83c206a662004120a8211a800581e124 (스터디상세 링크) 0. DAG란? Directed Acyclic Graph의 약자이다. 여기서, 가장 중요한 단어는 acyclic = 비순환이 아닐까 생각한다. It defines four Tasks - A, B, C, and D - and dictates the order in which they have ..
기획의 정석 2013년에 박신영씨가 출판하신 책이다. 직장 동료분의 자리에 갔다가 강제로? 빌려왔다. 오늘은 책에 나온 얘기들을 정리해두려 한다. 연상회로 발표를 하다보면, "부족한 발표" / "두서 없는"등의 단어를 종종 사용하고는 한다. 굳이 사용할 필요가 없는 단어라고 저자는 언급한다. 왜냐하면, 굳이 나를 부족하고/두서없는 사람으로 만들 필요는 없기 때문이다. 협상에서 중요한 것은 상대방이다. 내가 아니라. 그래서, 내가 얘기할 시간은 많지만, 상대방이 얘기를 들을 수 있는 시간은 부족하다. 배경/제안/콘셉트/실행방안을 효과적으로 스토리텔링하여 전달해야 한다. 상대방의 질문을 미리 예상해봐야 한다. 그래야 우물쭈물하지 않는다. 약을 팔기전에 질병을 팔아라 "어떻게 원하는 것을 얻을것인가"는 해당 ..
"한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다." 책의 제목처럼 이 책은 머신러닝으로 실무 프로젝트를 진행할 때 생길 수 있는 문제점이나 대처법 그리고 방법론 등에 대해서 다루고 있다. 책의 첫 시작은 비즈니스 문제를 머신러닝으로 정의하는 법 먼저 시작한다. sklearn, tensorflow, pytorch등 ML/DL 라이브러리가 상용화 되면서 알고리즘에 대한 접근성 자체는 충분히 높아졌지만, 알고리즘을 실제 비즈니스에 접목시키는 또 다른 문제이다. 책에서는 소비 전력 예측(ML 문제) - 공장 전력 소비량 최적화(비즈니스 문제), 사용자별 추천 상품 제시(ML 문제) - 매출 향상(비즈니스 문제)를 그 예시로 들고 있다. 비즈니스 문제와 관련된 항목을 지나면 "머신러닝을 사용하지 않는 ..
가짜연구소 내 Python - Data Engineering 스터디를 위해 작성했습니다. https://www.notion.so/chanrankim/PseudoLab-c42db6652c1b45c3ba4bfe157c70cf09 (가짜연구소 링크) https://www.notion.so/chanrankim/Data-Engineer-Python-83c206a662004120a8211a800581e124 (스터디상세 링크) 상속은 뒤를 있는다는 뜻으로 보통 재산 관련 권리에 대한 의무를 넘겨받는 것을 뜻한다. 위 짤은 정치적인 의도는 전혀 없고.. 재산 상속 관련된 짤을 찾아봤는데 마땅한게 없어서 가져왔다. 0. 클래스에서 상속이란 클래스에서 상속도 마찬가지. 자식 클래스가 부모 클래스의 능력을 이어 받는 것을..
0. 통제란 실험자는 "개입"이 어떤 효과를 보이기를 바란다. 그래서, 참여자를 실험군과 대조군으로 나눠서 실험한다. 개입을 진행한 실험군의 효과가 대조군보다 유의미하게 높다면 실험자는 미소를 지을 것이다. 이때, 인과 관계란 실험군과 대조군 간에 "처치 효과"외에는 아무런 차이가 없어야 확인할 수 있다. 이를 위해 실험자는 실험군과 대조군 간에 "처치 효과"외에는 아무런 차이가 없도록 "통제"를 가한다. 1. 통제하기 어려운 이유 하지만, 현실은 녹록치 않다. 모든 의사결정을 실험을 통해서 진행할 수는 없다. 예를 들어서, 정부가 지역 청년 인구 유출 방지를 위해 우선은 A지역에 (가)라는 일자리 정책을 실행했다고 가정하겠다. 지역 청년 인구 유출율(정책 실행전) 청년 인구 유출율(정책 실행후) A 1..