[Type hint] spark.DataFrame VS pd.DataFrame딥상어동의 딥한 프로그래밍/Spark2022. 10. 6. 23:29
Table of Contents
핵심내용
pyspark의 데이터프레임과 pandas 데이터프레임의 type hint를 비교해봅니다.
type hint 비교
아래와 같이 라이브러리를 생성해줍니다.
from pyspark.sql import *
from pyspark.sql.types import *
from pyspark.sql.functions import *
import pandas as pd
그리고, pandas의 DataFrame과 pyspark의 DataFrame의 type을 비교해봅시다.
print(type(spark.sql("select 1")))
print(type(pd.DataFrame([])))
시작은 다르지만, 끝은 모두 DataFrame으로 동일합니다.
여기서 주목할점은 다음과 같은 라이브러리 임포트 형식인데요.
from pyspark.sql import *
import pandas as pd
바로바로...! pyspark.sql을 선언하면 DataFrame이 딸려온다는 사실입니다.
따라서, 위와 같이 라이브러리를 import 했을 경우, pyspark DataFrame은 그냥 DataFrame으로 pandas DataFrame은 pd.DataFrame으로 type hint를 주시면 됩니다.
def _spark_df_type_hint() -> DataFrame:
print("Hello World")
def _pandas_df_type_hint() -> pd.DataFrame:
print("Hello World")
한번 체크해보겠습니다.
DataFrame으로 typehint를 선언했을 때는 pyspark.sql.dataframe.DataFrame으로 표기되고 pd.DataFrame으로 typehint를 선언했을 때는 pandas.core.frame.DataFrame으로 표기되는 것을 확인할 수 있습니다.
이상입니다.
'딥상어동의 딥한 프로그래밍 > Spark' 카테고리의 다른 글
[Spark] map, 그런데 flat을 곁들인 - flatMap (0) | 2022.08.28 |
---|---|
[PySpark] 자료 구조와 연산 원리 - 스파크 누구냐 넌? (4) | 2022.06.28 |
[mllib] Pyspark Kmeans 알고리즘 사용법 (0) | 2022.04.08 |
[Pyspark] from pyspark.sql import * VS from pyspark.sql.functions import * (0) | 2022.04.07 |
[PySpark] Python 내장 함수 사용시 발생하는 오류 (0) | 2021.07.21 |
@딥상어동의 딥한생각 :: 딥상어동의 딥한생각
제 블로그에 와주셔서 감사합니다! 다들 오늘 하루도 좋은 일 있으시길~~
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!