[PySpark] 자료 구조와 연산 원리 - 스파크 누구냐 넌?
딥상어동의 딥한 프로그래밍/Spark2022. 6. 28. 00:47[PySpark] 자료 구조와 연산 원리 - 스파크 누구냐 넌?

핵심내용 스파크의 고유한 자료 구조와 연산 특징에 대해서 다루어보고자 합니다. ※스파크 설치 방법에 대해서는 다루지 않습니다. 대신 간단한 데이터브릭스 샘플 코드를 포함합니다. 본 글에서 다루는 내용 1. 데이터브릭스 커뮤니티에디션 이용 방법 2. Map reduce vs Spark 3. Driver와 Executor 4. RDD 5. Transformation 6. DataFrame 데이터브릭스 커뮤니티에디션 1. Try Databricks에 접속한다. https://databricks.com/try-databricks Try Databricks - Unified Data Analytics Platform for Data Engineering Discover why businesses are turni..

[Pyspark] from pyspark.sql import * VS from pyspark.sql.functions import *
딥상어동의 딥한 프로그래밍/Spark2022. 4. 7. 23:10[Pyspark] from pyspark.sql import * VS from pyspark.sql.functions import *

오늘은 pyspark.sql 내 메서드들에 대해 알아보려 한다. 0. import pyspark.sql https://spark.apache.org/docs/2.4.0/api/python/pyspark.sql.html#module-pyspark.sql.functions pyspark.sql module — PySpark 2.4.0 documentation Parameters: path – string, or list of strings, for input path(s), or RDD of Strings storing CSV rows. schema – an optional pyspark.sql.types.StructType for the input schema or a DDL-formatted string..

image