정규표현식 뽀개기 (2) - 메타 문자 이해하기
딥상어동의 딥한 데이터 처리/전처리2021. 10. 24. 10:50정규표현식 뽀개기 (2) - 메타 문자 이해하기

https://gibles-deepmind.tistory.com/87 정규표현식 뽀개기 (1) - 정규표현식을 배우는 이유 0. 들어가며 1. 정규표현식이란? 2. 정규표현식을 배우는 이유 3. 어떻게 공부할 것인가? 0. 들어가며 1992.09.14 네. 제 생일입니다. 올해로 계란 한판이죠. 아무도 궁금해하지 않으셨다구요? (ㅜ) 아 gibles-deepmind.tistory.com 지난 시간에 정규표현식을 공부하는 이유에 대해서 다뤄봤습니다. 본 글에서는 정규표현식의 규칙에 대해서 본격적으로 다뤄보겠습니다. 0. 들어가며 1. 가장 단순한 규칙 2. 메타문자란 무엇인가? 3. 메타문자 확장하기 3-1. 마침표와 하이픈 3-2. 범위지정 0. 들어가며 구글 방문 기록에서 접속했던 웹 페이지 기록을 검..

정규표현식 뽀개기 (1) - 정규표현식을 배우는 이유
딥상어동의 딥한 데이터 처리/전처리2021. 10. 20. 23:33정규표현식 뽀개기 (1) - 정규표현식을 배우는 이유

0. 들어가며 1. 정규표현식이란? 2. 정규표현식을 배우는 이유 3. 어떻게 공부할 것인가? 0. 들어가며 다음과 같은 상황을 생각해봅시다. 1이9것9은2훼.이0크9닷.훼1이4크 누가 장난을 쳐서 제 생일에다가 이런 글자를 적어놨다고 생각해봅시다. 이럴 때 제 생일만 찾으려면 어떻게 해야할까요? 네. 이럴 때 필요한 것이 정규표현식 입니다. https://regex101.com/ regex101: build, test, and debug regex Regular expression tester with syntax highlighting, explanation, cheat sheet for PHP/PCRE, Python, GO, JavaScript, Java. Features a regex quiz &..

[Pandas] str.contains를 사용하는 이유 - 정규표현식
딥상어동의 딥한 데이터 처리/전처리2021. 9. 26. 23:36[Pandas] str.contains를 사용하는 이유 - 정규표현식

Pandas의 기본 인덱싱 인덱싱이란? index를 기반으로 값의 위치를 찾는 행위를 말합니다. Pandas에서는 보통 loc를 많이 사용합니다. import pandas as pd sampleData = pd.DataFrame() sampleData['val1'] = ['M', 'F', 'M', 'M', 'F'] 위와 같은 샘플 데이터가 있다고 가정해보겠습니다. 만약, M만 추출하려면 아래와 같이 조건을 설정하면 됩니다. sampleData.loc[(sampleData.val1 == 'M'), 'val1'] https://gibles-deepmind.tistory.com/65?category=892466#head3 [Pandas] 이것만은 알고가자 - 1.Indexing(iloc, loc) 1. 예시 ..

[Pandas] 퍼널차트 데이터프레임으로 표현해보기
딥상어동의 딥한 데이터 처리/시각화2021. 8. 15. 01:31[Pandas] 퍼널차트 데이터프레임으로 표현해보기

0. 퍼널 차트몇 명이나 깔때기를 통과할까?  좌측 퍼널 차트는 얼마나 많은 방문자를 구매자로 전환시킬 수 있을까?에 대한 고민을 담고 있습니다. 이처럼, 퍼널 차트는 "서비스의 목표"와 관련이 있습니다. 대표적인 예로 AARRR 모형(우측)이 있습니다. 1. Acquisition : 유저 유입2. Activation : 첫 활동 (회원가입)3. Retention : 재방문4. Revenue : 서비스 구매5. Referral: 주변인에게 추천 직관적으로, 퍼널 단계가 아래로 갈수록 (= 깔때기가 좁아질수록) 통과 난이도가 어려워진다는 것을 알 수 있습니다. 예를 들어, 현재 서비스의 목표가 "회원가입"이라고 가정합시다. 당연히 유입 유저수 != 회원가입 유저수일 텐데요. 이때, 회원가입까지 이루어지는 ..

[Pandas] 이것만은 알고가자 - 2.Basic Function
딥상어동의 딥한 데이터 처리/전처리2021. 6. 7. 18:34[Pandas] 이것만은 알고가자 - 2.Basic Function

https://gibles-deepmind.tistory.com/36?category=904126 [캐글따라하기] HR 데이터분석 (1) zero-draft www.kaggle.com/arashnic/hr-analytics-job-change-of-data-scientists HR Analytics: Job Change of Data Scientists Predict who will move to a new job www.kaggle.com 해당 데이터를 참고하였습니다. gibles.. gibles-deepmind.tistory.com 1. 데이터 생성 데이터를 불러오는 방법은 아래 글을 참조 https://gibles-deepmind.tistory.com/64?category=892466 [Pandas..

[Pandas] 이것만은 알고가자 - 1.Indexing(iloc, loc)
딥상어동의 딥한 데이터 처리/전처리2021. 6. 5. 18:58[Pandas] 이것만은 알고가자 - 1.Indexing(iloc, loc)

1. 예시 & 데이터 프레임 https://gibles-deepmind.tistory.com/36?category=904126 [캐글따라하기] HR 데이터분석 (1) zero-draft www.kaggle.com/arashnic/hr-analytics-job-change-of-data-scientists HR Analytics: Job Change of Data Scientists Predict who will move to a new job www.kaggle.com 해당 데이터를 참고하였습니다. gibles.. gibles-deepmind.tistory.com (데이터 참조) import pandas as pd data = pd.read_csv("C:/blarblar/aug_train.csv") da..

[Pandas] 이것만은 알고가자 - 0.파일 불러오기
딥상어동의 딥한 데이터 처리/전처리2021. 6. 5. 00:54[Pandas] 이것만은 알고가자 - 0.파일 불러오기

1. 예시 import pandas as pd data = pd.read_csv("C:/Users/blarblar/aug_train.csv") #read_csv #pd.read_csv 2. CSV. 파일에 대한 이해 Comma Seperated Values 이름, 직업, 나이 철수, 개발자, 30 미희, 분석가, 29 ,로 값을 구분한다. 이것이 CSV파일에 대한 정의이다. 위이미지에서 .jpg를 extension이라고 한다. csv 파일은 구글 스프레드 시트 형태를 보이지만, 파일 이름 끝에 .csv가 붙는다. 즉, csv라는 확장자를 가진다는 의미이다. 3. 왜 사용하는가? txt와 같은 확장자를 plain-text라고 한다. 여기에는 글자 크기 등 다른 옵션은 없고 말 그대로 "텍스트"만 있다고 생..

시계열 | 이동 평균(Moving Average) 기초
딥상어동의 딥한 데이터 처리/전처리2021. 5. 2. 23:16시계열 | 이동 평균(Moving Average) 기초

왜 사용하는가? 왜냐하면, 장기적인 트렌드를 보기 위해서이다. 위 그림을 한번 살펴보자. 파란색 라인에 비해 주황색 라인이 좀 더 완만하지 않은가? 하지만, 두 라인을 그린 데이터 원본은 동일하다. 파란색 -> 주황색과 같이 라인을 완만하게 만드는 작업을 Smoothing이라고 한다. 그리고, 그 Smoothing을 하는 방법 중 하나가 이동 평균선이다. (Moving Average) 왜 완만하게(Smoothing) 만드는가? 가장 기본적인 사고의 발상은 날 것 그대로의 데이터에 Noise가 끼어있을 수 있다는 것이다. 예를 들어, 철수가 다음과 같이 물건을 팔았다고 생각해보자. 05/01 100개 05/02 1000개 05/03 200개 5월 2일, 철수한테는 무슨 일이 있었을까? 큰 손이라도 나타난 ..

Seaborn | countplot(기본 파라미터, x축 정렬하기, x축 라벨 회전)
딥상어동의 딥한 데이터 처리/시각화2021. 3. 7. 18:10Seaborn | countplot(기본 파라미터, x축 정렬하기, x축 라벨 회전)

목차 1. 집계, 그리고 기준 2. countplot이란? 3. 파라미터 확인 1. 집계, 그리고 기준 E나라 지표 기준 2017년 기준 총인구 5,136만명중 남자는 2,574만명, 여자는 2,563만명입니다. 여기에는 두 가지 내용이 포함되어 있습니다. 첫 번째는 "집계"입니다. 여기서는 전체 인구수를 셌습니다(count). 두 번째, 집계 대상입니다. 두 가지 조건이 있는데, 하나는 대한민국 국민이고, 다른 하나는 성별입니다. 집계를 하기 위해서는 항상 기준이 필요합니다. 그리고, 이러한 기준을 "범주"라고 합니다. 범주가 있다면, 범주를 기준으로 집계(종합)를 할 수 있습니다. 예를 들어, "소득"이라는 개념에 대해 생각해봅시다. 소득은 국민 개별로 제 각각 일 것 입니다. 예를 들어, A가 작년..

Pandas | Melt
딥상어동의 딥한 데이터 처리/전처리2021. 3. 2. 18:33Pandas | Melt

목차 1. melt의 의미(wide to long) 2. 실사용 예제 3. melt 함수 파라미터 1. Melt의 의미(wide to long) 아이스크림이 녹는 이미지를 생각해봅시다. 왼쪽에서 오른쪽으로 혹은 오른쪽에서 왼쪽으로 녹는 아이스크림을 본 적이 있으신가요? 혹은 아래에서 위로 녹는 아이스크림을 본 적 있으신가요?(이건 좀 무섭다...) 아이스크림은 위쪽에서 아래로 녹아내립니다. pandas melt 함수는 위와 같은 철학이 담겨있는 함수라고 할 수 있습니다. 즉, 아이스크림이 녹아내리는 것처럼 데이터 프레임을 위에서 아래로 길게 만드는 함수입니다. 2. 실사용 예제 #패키지 설치 import pandas as pd from gapminder import gapminder #데이터 불러오기 d..

image