딥상어동의 딥한 프로그래밍/Spark2022. 4. 8. 00:14[mllib] Pyspark Kmeans 알고리즘 사용법
Pyspark Mllib에서 Kmeans 알고리즘 사용법을 다루는 글이다. (데이터브릭스 이용) 1. 라이브러리 세팅 import pandas as pd # 스파크 sql 내장함수 from pyspark.sql import * # 스파크 sql 내 자료구조 타입 from pyspark.sql.types import * # 스파크 sql 내 여러 함수들 from pyspark.sql.functions import * # 스케일러, VectorAssembler -> 여러 자료값들을 하나의 vector로 모아줌 from pyspark.ml.feature import MinMaxScaler, VectorAssembler # mllib에서 연산을 위해서는 vector형 자료 구조로 변환 from pyspark.m..