Pyspark Mllib에서 Kmeans 알고리즘 사용법을 다루는 글이다. (데이터브릭스 이용) 1. 라이브러리 세팅 import pandas as pd # 스파크 sql 내장함수 from pyspark.sql import * # 스파크 sql 내 자료구조 타입 from pyspark.sql.types import * # 스파크 sql 내 여러 함수들 from pyspark.sql.functions import * # 스케일러, VectorAssembler -> 여러 자료값들을 하나의 vector로 모아줌 from pyspark.ml.feature import MinMaxScaler, VectorAssembler # mllib에서 연산을 위해서는 vector형 자료 구조로 변환 from pyspark.m..
오늘은 pyspark.sql 내 메서드들에 대해 알아보려 한다. 0. import pyspark.sql https://spark.apache.org/docs/2.4.0/api/python/pyspark.sql.html#module-pyspark.sql.functions pyspark.sql module — PySpark 2.4.0 documentation Parameters: path – string, or list of strings, for input path(s), or RDD of Strings storing CSV rows. schema – an optional pyspark.sql.types.StructType for the input schema or a DDL-formatted string..
말로만 듣던, AWS 과금 청구서를 보았다. $0.0116 per On Demand Linux t2.micro Instance Hour 대충 이런 문구인데... https://stackoverflow.com/questions/26196187/on-demand-linux-t2-micro-instance-hour On Demand Linux t2.micro Instance Hour I'm hosting several websites on AWS and got the charge of On Demand Linux t2.micro Instance Hour for 690hrs. I've totally no idea about when I asked for this on demand instance. Is it l..
t is required that your private key files are NOT accessible by others. This private key will be ignored. + Permission denied (publickey) 위와 같은 오류가 발생. 하지만, AWS는 생각보다 친절하다. chmod 400 키파일이름.pem 위 명령어를 실행하면 키를 공개적으로 볼 수 없게 만들어줌. 이후 ssh 명령어를 이용하면 EC2 서버에 정상적으로 접속
가짜연구소 내 Python - Data Engineering 스터디를 위해 작성했습니다. https://www.notion.so/chanrankim/PseudoLab-c42db6652c1b45c3ba4bfe157c70cf09 (가짜연구소 링크) https://www.notion.so/chanrankim/Data-Engineer-Python-83c206a662004120a8211a800581e124 (스터디상세 링크) https://www.youtube.com/watch?v=CFum4wDlj5Q ※본 영상을 참고했습니다. 왜 리눅스를 알아야하는가? 1. 리눅스가 윈도우보다 더 빠르다 2. 딥러닝을 할 때, 쿠다 라이브러리를 이용하기에 용이하다. 3. 클라우드 상에서 배포하기에 유리하다. 흠.... 하나 더..
본격적으로 글을 적기전에 시간 측정을 위한 간단한 데코레이터를 먼저 하나 만들고 시작하겠다. def check_time(func): def wrapper(*args, **kwargs): start = time.time() check_func = func(*args, **kwargs) total_time = time.time() - start print(f'이 함수 {func.__name__} 를 실행하는데 {total_time}초가 걸렸습니다.') return total_time return wrapper 1. 상수는 한번만 연산하자. 상수는 한번만 연산하는 것이 좋다. for loop안에서 상수가 반복될 경우 속도가 느려질 수 있다. @check_time def for_inside_constant(co..
Python에서 dot/점/. 의 의미를 알아보자. 0. 객체의 메서드, 속성에 접근 Python과 같은 프로그램을 객체 지향형 프로그래밍이라고 합니다. 데이터 분석을 위해 가장 자주 사용하는 패키지인 Pandas를 예시로 들어보겠습니다. import pandas as pd test_data = pd.DataFrame([[1, 2, 3], [3, 4, 5]], columns=['A', 'B', 'C']) test_data.info() test_data는 판다스라는 클래스의 데이터프레임 객체입니다. 이를, object instance라고 합니다. 이 객체에는 여러가지 속성과 메서드들이 있습니다. 메서드는 일종의 함수 기능이라고 생각하면 됩니다. 예를 들어, info()는 데이터프레임 객체에 있는 컬럼들의 ..
0. 주피터 노트북에서 폴더를 이동하는 이유 데이터 분석을 하기 위해서는 데이터를 불러와야 하는데, 가장 간단한 방법은 로컬 폴더에 데이터를 저장해두고 로컬의 주소를 참조해서 데이터를 불러오는 방식이다. 내가 참조하고자하는 폴더에 어떤 데이터가 있는지 궁금할 수 있다. 이때, 주피터 노트북 내에서 폴더 주소를 이동하여 데이터를 확인할 수 있다. 1. !와 %의 차이 폴더 주소를 이동하는 명령어를 cd라고 한다. 위와 같이 동작한다. 참고) cd .. 를 입력하면 이전 주소로 돌아간다. 동일한 명령어를 jupyter notebook 내에서도 실행해볼 수 있다. 명령어는 동일하나 명령어 앞의 특수문자에 차이가 있다. ! VS % 현재, 내 jupyter notebook이 실행되고 있는 로컬 주소이다. !cd..
VSCODE에서 CMDER를 기본 터미널로 설정하는 방법입니다. 몇 가지 방법을 따라 했으나, Root 주소 설정이 제대로 안되어 방법을 정리합니다. 1. VSCODE에서 환경설정 클릭 2. settings.json 파일 오픈 3. 환경 설정 코드 추가 "terminal.integrated.profiles.windows": { "Cmder": { "path": "${env:windir}\\System32\\cmd.exe", "args": ["/k", "CMDER폴더주소\\bin\\vscode_init.cmd"] } }, "terminal.integrated.defaultProfile.windows": "Cmder"
셀 넓이 설정 from IPython.core.display import display, HTML display(HTML("")) 본인의 해상도에 맞게 width를 임의적으로 조절해주면 된다. 다크 모드 설정 pip3 install jupyterthemes jupyterthems를 우선 설정해준다. jt -l #jupyter name 리스트 확인 설치 후 위와 같이 명령어를 입력하면 아래와 같이 테마 이름을 확인할 수 있다. 여기서 chesterish를 jt -t chesterish 위와 같이 입력해주면 다크모드를 적용할 수 있다. 하지만! 따로 색상 보정을 하게 되면 기존에 튜닝했던 레이아웃들이 깨질 수 있다. 예를 들어, 나의 경우 Jupyter extention을 쓰고 있었는데, 확장 아이콘들이 모..