[Pandas] 수치형 컬럼과 범주형 컬럼 구분하기딥상어동의 딥한 데이터 처리/전처리2022. 7. 29. 22:37
Table of Contents
1. 핵심내용
판다스에서 수치형 변수와 범주형 변수를 구분하는 방법을 다루어봅니다.
- _get_numeric_data
- select_dtypes()
데이터는 아래와 같이 타이타닉 데이터 셋을 불러왔습니다.
import pandas as pd
import numpy as np
data = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")
2. _get_numeric_data
첫 번째 방법은 _get_numeric_data메서드를 이용하는 것입니다.
all_columns = data.columns.tolist()
num_columns = data._get_numeric_data().columns.tolist()
cat_columns = list(set(all_columns) - set(num_columns))
1. _get_numeric_data()를 이용해 수치형 컬럼만 가져옵니다.
2. set자료구조를 이용해 all_columns에서 수치형 컬럼을 제외한다음
3. 다시 리스트로 변환합니다.
print(f'타이타닉 데이터 셋의 모든 컬럼은 아래와 같습니다. \n{all_columns}\n')
print(f'타이타닉 데이터 셋의 수치형 컬럼은 아래와 같습니다. \n{num_columns}\n')
print(f'타이타닉 데이터 셋의 범주형 컬럼은 아래와 같습니다. \n{cat_columns}\n')
3. select_dtypes
두 번째 방법은 select_dtypes를 이용하는 방법입니다.
num_columns = data.select_dtypes(include=np.number).columns.tolist()
cat_columns = data.select_dtypes(exclude=np.number).columns.tolist()
print(f'타이타닉 데이터 셋의 수치형 컬럼은 아래와 같습니다. \n{num_columns}\n')
print(f'타이타닉 데이터 셋의 범주형 컬럼은 아래와 같습니다. \n{cat_columns}\n')
4. 최종결과
data[num_columns].head()
data[cat_columns].head()
'딥상어동의 딥한 데이터 처리 > 전처리' 카테고리의 다른 글
[Pandas] Pandas_flavor로 Pandas API method 추가해보기 (2) | 2022.03.13 |
---|---|
[Python] np.where을 이용하여 두 개의 데이터프레임 전체를 비교하기 (0) | 2022.01.23 |
[Pandas] 판다스에서 SQL 윈도우 함수 사용해보기 (0) | 2021.12.27 |
정규표현식 뽀개기 (3) - 반복 하기 (0) | 2021.10.24 |
정규표현식 뽀개기 (2) - 메타 문자 이해하기 (0) | 2021.10.24 |
@딥상어동의 딥한생각 :: 딥상어동의 딥한생각
제 블로그에 와주셔서 감사합니다! 다들 오늘 하루도 좋은 일 있으시길~~
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!