1. 핵심내용 판다스에서 수치형 변수와 범주형 변수를 구분하는 방법을 다루어봅니다. - _get_numeric_data - select_dtypes() 데이터는 아래와 같이 타이타닉 데이터 셋을 불러왔습니다. import pandas as pd import numpy as np data = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv") 2. _get_numeric_data 첫 번째 방법은 _get_numeric_data메서드를 이용하는 것입니다. all_columns = data.columns.tolist() num_columns = data._get_numeric_data().colu..
가짜연구소 내 Python - Data Engineering 스터디를 위해 작성했습니다. https://www.notion.so/chanrankim/PseudoLab-c42db6652c1b45c3ba4bfe157c70cf09 (가짜연구소 링크) https://www.notion.so/chanrankim/Data-Engineer-Python-83c206a662004120a8211a800581e124 (스터디상세 링크) 0. 판다스를 사용하는 이유 왜 판다스를 사용할까? 내가 쉽사리 정의할 수는 없어서 관련된 글을 찾아봤다. Less writing and more work done https://data-flair.training/blogs/advantages-of-python-pandas/ 나는 위 문구가..
0. 비교 조건 1. 데이터 프레임 전체 원소들을 비교할 것 2. 벡터 연산을 사용할 것 3. 두 데이터 프레임의 Shape과 행/열 인덱스읠 배열 순서는 동일하다고 가정할 것 1. 비교 목표 두 개의 데이터프레임 전체를 비교하고 각 원소별로 minimum한 값을 리턴한다. 2. 코드 설명 1. 우선, 동일한 shape의 두 데이터 프레임 객체를 만들어 준다. import pandas as pd import numpy as np d1 = pd.DataFrame() d2 = pd.DataFrame() d1['a1'] = np.random.randint(1, 100, 10) d1['a2'] = np.random.randint(1, 100, 10) d1['a3'] = np.random.randint(1, 10..
0. SQL 윈도우 함수란? Window functions operate on a range of rows, defined by the OVER clause. It is like you are looking through the window, you see sky, star, moon. You are not seeing the whole sky, you see part of the sky. Window 함수 이름의 유래에 대해 찾아봤습니다. "창 을 통해 밖을 바라보면 하늘의 부분만을 볼 수 있다". 윈도우 함수의 기본적인 개념입니다. 여기서 창 = 한 행 이라고 생각하시면 됩니다. 즉, 윈도우 함수는 Group By의 결과를 한 행(각 Window)마다 뿌려주는 함수라고 할 수 있습니다. GroupBy..
https://gibles-deepmind.tistory.com/88 정규표현식 뽀개기 (2) - 메타 문자 이해하기 https://gibles-deepmind.tistory.com/87 정규표현식 뽀개기 (1) - 정규표현식을 배우는 이유 0. 들어가며 1. 정규표현식이란? 2. 정규표현식을 배우는 이유 3. 어떻게 공부할 것인가? 0. 들어가며 1992.09.14.. gibles-deepmind.tistory.com 지난 시간에는 메타 문자에 대해서 다루어 봤습니다. 이번 시간에는 문자의 반복에 대해서 다루어 보겠습니다. 0. 들어가며 1. 반복 메타 문자: +와 *의 차이 2. 반복 메타 문자는 탐욕적이다? 2-1. 의미적인 관점에서 2-2. 정규표현식 관점에서 3. 반복 메타 문자의 활용 3-1...
https://gibles-deepmind.tistory.com/87 정규표현식 뽀개기 (1) - 정규표현식을 배우는 이유 0. 들어가며 1. 정규표현식이란? 2. 정규표현식을 배우는 이유 3. 어떻게 공부할 것인가? 0. 들어가며 1992.09.14 네. 제 생일입니다. 올해로 계란 한판이죠. 아무도 궁금해하지 않으셨다구요? (ㅜ) 아 gibles-deepmind.tistory.com 지난 시간에 정규표현식을 공부하는 이유에 대해서 다뤄봤습니다. 본 글에서는 정규표현식의 규칙에 대해서 본격적으로 다뤄보겠습니다. 0. 들어가며 1. 가장 단순한 규칙 2. 메타문자란 무엇인가? 3. 메타문자 확장하기 3-1. 마침표와 하이픈 3-2. 범위지정 0. 들어가며 구글 방문 기록에서 접속했던 웹 페이지 기록을 검..
0. 들어가며 1. 정규표현식이란? 2. 정규표현식을 배우는 이유 3. 어떻게 공부할 것인가? 0. 들어가며 다음과 같은 상황을 생각해봅시다. 1이9것9은2훼.이0크9닷.훼1이4크 누가 장난을 쳐서 제 생일에다가 이런 글자를 적어놨다고 생각해봅시다. 이럴 때 제 생일만 찾으려면 어떻게 해야할까요? 네. 이럴 때 필요한 것이 정규표현식 입니다. https://regex101.com/ regex101: build, test, and debug regex Regular expression tester with syntax highlighting, explanation, cheat sheet for PHP/PCRE, Python, GO, JavaScript, Java. Features a regex quiz &..
Pandas의 기본 인덱싱 인덱싱이란? index를 기반으로 값의 위치를 찾는 행위를 말합니다. Pandas에서는 보통 loc를 많이 사용합니다. import pandas as pd sampleData = pd.DataFrame() sampleData['val1'] = ['M', 'F', 'M', 'M', 'F'] 위와 같은 샘플 데이터가 있다고 가정해보겠습니다. 만약, M만 추출하려면 아래와 같이 조건을 설정하면 됩니다. sampleData.loc[(sampleData.val1 == 'M'), 'val1'] https://gibles-deepmind.tistory.com/65?category=892466#head3 [Pandas] 이것만은 알고가자 - 1.Indexing(iloc, loc) 1. 예시 ..
https://gibles-deepmind.tistory.com/36?category=904126 [캐글따라하기] HR 데이터분석 (1) zero-draft www.kaggle.com/arashnic/hr-analytics-job-change-of-data-scientists HR Analytics: Job Change of Data Scientists Predict who will move to a new job www.kaggle.com 해당 데이터를 참고하였습니다. gibles.. gibles-deepmind.tistory.com 1. 데이터 생성 데이터를 불러오는 방법은 아래 글을 참조 https://gibles-deepmind.tistory.com/64?category=892466 [Pandas..
1. 예시 & 데이터 프레임 https://gibles-deepmind.tistory.com/36?category=904126 [캐글따라하기] HR 데이터분석 (1) zero-draft www.kaggle.com/arashnic/hr-analytics-job-change-of-data-scientists HR Analytics: Job Change of Data Scientists Predict who will move to a new job www.kaggle.com 해당 데이터를 참고하였습니다. gibles.. gibles-deepmind.tistory.com (데이터 참조) import pandas as pd data = pd.read_csv("C:/blarblar/aug_train.csv") da..