핵심내용 스파크의 고유한 자료 구조와 연산 특징에 대해서 다루어보고자 합니다. ※스파크 설치 방법에 대해서는 다루지 않습니다. 대신 간단한 데이터브릭스 샘플 코드를 포함합니다. 본 글에서 다루는 내용 1. 데이터브릭스 커뮤니티에디션 이용 방법 2. Map reduce vs Spark 3. Driver와 Executor 4. RDD 5. Transformation 6. DataFrame 데이터브릭스 커뮤니티에디션 1. Try Databricks에 접속한다. https://databricks.com/try-databricks Try Databricks - Unified Data Analytics Platform for Data Engineering Discover why businesses are turni..
오늘은 pyspark.sql 내 메서드들에 대해 알아보려 한다. 0. import pyspark.sql https://spark.apache.org/docs/2.4.0/api/python/pyspark.sql.html#module-pyspark.sql.functions pyspark.sql module — PySpark 2.4.0 documentation Parameters: path – string, or list of strings, for input path(s), or RDD of Strings storing CSV rows. schema – an optional pyspark.sql.types.StructType for the input schema or a DDL-formatted string..