[Type hint] spark.DataFrame VS pd.DataFrame
딥상어동의 딥한 프로그래밍/Spark2022. 10. 6. 23:29[Type hint] spark.DataFrame VS pd.DataFrame

핵심내용 pyspark의 데이터프레임과 pandas 데이터프레임의 type hint를 비교해봅니다. type hint 비교 아래와 같이 라이브러리를 생성해줍니다. from pyspark.sql import * from pyspark.sql.types import * from pyspark.sql.functions import * import pandas as pd 그리고, pandas의 DataFrame과 pyspark의 DataFrame의 type을 비교해봅시다. print(type(spark.sql("select 1"))) print(type(pd.DataFrame([]))) 시작은 다르지만, 끝은 모두 DataFrame으로 동일합니다. 여기서 주목할점은 다음과 같은 라이브러리 임포트 형식인데요. f..

[Pandas] 데이터프레임도 이미지로 저장할 수 있다구?
딥상어동의 딥한 데이터 처리/시각화2022. 10. 2. 22:28[Pandas] 데이터프레임도 이미지로 저장할 수 있다구?

핵심내용 1.Pandas에서 데이터프레임을 이미지로 저장하는 방법에 대해서 정리해봅니다. 2.한글과 관련된 이슈를 해결해봅니다. 3.약간의 pandas style을 붙여봅니다. 1~3의 과정을 통해 위와 같은 이미지를 telegram 챗봇으로 보내봅시다. (데이터야놀자 발표를 준비 하는 중에 관련된 내용을 글로 정리하였습니다.) 1.Pandas 데이터프레임을 PNG로 저장하는 방법들 Pandas에서 데이터프레임을 PNG로 저장하는 방법에는 크게 3가지가 있다. (적어도 지금까지 내가 알아본 바로는) 1-1. dataframe-image라이브러리 이용하기 https://pypi.org/project/dataframe-image/ dataframe-image Embed pandas DataFrames as ..

[Python] google maps API 가격 정책과 사용법
딥상어동의 딥한 데이터 분석2022. 9. 18. 23:29[Python] google maps API 가격 정책과 사용법

핵심내용 1. 구글 맵 API의 사용 정책에 대해서 먼저 알아봅니다. 2. API Key 발급 방법에 대해서 알아봅니다. 3. 파이썬에서 google map api를 이용해 간단히 평점과 리뷰를 출력해봅시다. 1. 사용 정책 사용 정책에서 가장 중요한 것은 머니머니해도 머니 공짜인지 유무가 가장 궁금할 것이다. 결론부터 얘기하자면, "일정 조건에 한해서만 공짜이다." 그렇다면, 그 일정 조건이란 무엇일까? 매월 200$에 한해서는 요금을 부과하지 않는다고 한다. 이를 요청량으로 환산하면 28500개의 맵 로드이다. https://mapsplatform.google.com/pricing/#pricing-grid Platform Pricing & API Costs - Google Maps Platform L..

2022년 첫 번째! 글또콘 운영 후기
나라는 존재/생각2022. 8. 29. 01:272022년 첫 번째! 글또콘 운영 후기

들어가며 ‼잠깐 글또가 뭐죠? - 글또는 글쓰는 또라이의 약자로 2주마다 글쓰기를 진행하는 개발자 글쓰기 모임입니다. 자세한 내용은 아래 성윤님 노션 페이지를 참조해주세요! https://www.notion.so/zzsza/ac5b18a482fb4df497d4e8257ad4d516 글 쓰는 또라이가 세상을 바꾼다 - 글또 페이지 👋 안녕하세요 :) www.notion.so 나는, 지난기수(6기)부터 글또를 시작했다. 사실은 5기 때부터 하고 싶었는데, 모집 기간 마감 직후 링크를 발견해버렸다ㅜ 그렇게 길고 긴 기다림이 시작됐고...(참고로 글또의 한 기수는 6개월 간 진행됩니다) 오랜 기다림 끝에 작년 7월 부터 글또를 시작할 수 있었다! 그리고 6기를 경험해본 결과... 느낌이 왔다 아! 이 모임은 꾸..

[Spark] map, 그런데 flat을 곁들인 - flatMap
딥상어동의 딥한 프로그래밍/Spark2022. 8. 28. 18:19[Spark] map, 그런데 flat을 곁들인 - flatMap

핵심 내용 Spark를 사용하며, 고수준API인 Dataframe객체를 이용하다 보니 RDD 함수를 사용할 일이 잘 없었다. 그러다가, 최근 들어 flatMap을 유용하게 사용하고 있는데 오늘은 flatMap 함수에 대해서 다루어 보려고 한다. 글의 목표 - Map 함수에 대해 이해하기 - Map함수와 flatMap함수의 차이 이해하기 - flatMap함수를 이용하여 explode해보기 (본 글에서 RDD에 대해 따로 다루지는 않습니다. 관련된 내용은 아래 글을 참고해주세요.) https://gibles-deepmind.tistory.com/136 [PySpark] 자료 구조와 연산 원리 - 스파크 누구냐 넌? 핵심내용 스파크의 고유한 자료 구조와 연산 특징에 대해서 다루어보고자 합니다. ※스파크 설치 ..

[ubuntu] ssh connection timed out
딥상어동의 딥한 프로그래밍/엔지니어링2022. 8. 16. 22:20[ubuntu] ssh connection timed out

들어가며 ubuntu에서 docker를 설치하면 docker에 권한을 부여한 후, 터미널을 재실행 한다. systemctl reboot 그런데, 시스템만 리부트하고나면 아래와 같이 Connection timed out 에러가 계속 발생했다. 오늘은 그 원인과 해결법에 대해서 간단히 정리하고자 한다. 해결법 ssh user@ipv4 "nohup sudo reboot &>/dev/null & exit" 나의 경우 위 코드를 입력하니까 정상적으로 ubuntu 서버에 접속할 수 있었다. 원인 systemctl reboot 위 명령어를 실행하게 되면 우분투 서버내에 있는 모든 서비스 및 프로세스가 종료된다. 이로 인해 우분투 서버와 클라이언트간 네트워크 연결이 끊어지며, 접속 불가능 상태가 된다. 이때, 해결법의..

[fast api] - uvicorn으로 api서버 실행하기
딥상어동의 딥한 프로그래밍/엔지니어링2022. 8. 15. 19:58[fast api] - uvicorn으로 api서버 실행하기

들어가며 최근 들어, fast api 실습을 진행했었다. 실습을 진행하며, api 서버가 열리지 않는? 경험을 했었다. 그 이유는 내가 host라는 개념에 대해서 명확히 인지하지 못하고 있었기 때문! 관련해서, fast api 앱을 실행하는 예제와 host개념에 대해서 간단히 정리하려고 한다. fast-api 예제 우선, fast api와 uvicorn을 설치해준다. pip install fastapi pip install uvicorn 다음으로, 간단한 main.py를 만들어준다. https://fastapi.tiangolo.com/ko/tutorial/first-steps/ 첫걸음 - FastAPI 첫걸음 가장 단순한 FastAPI 파일은 다음과 같이 보일 겁니다: from fastapi import..

오라클 클라우드(2) - VM 생성기(Compartment, VCN)
딥상어동의 딥한 프로그래밍/엔지니어링2022. 8. 7. 17:19오라클 클라우드(2) - VM 생성기(Compartment, VCN)

핵심 내용 이틀간의 고군 분투 끝에 오라클 클라우드 프리티어 계정을 생성했다👇👇👇. 오늘은 VM을 만들어볼 예정. https://gibles-deepmind.tistory.com/140 오라클 클라우드(1) 계정 생성기 - 공짜를 누리려는 자, 그 무게를 견뎌라 들어가며 때는 바야흐르, 2022년 6월 12일 GCP를 이용하여 데이터 적재 파이프라인을 만들어보는 튜토리얼 글을 적었으나.. GCP는 90일 동안만 무료로 쓸 수 있고 그 90일이 거의 다 되가는 지금... 나 gibles-deepmind.tistory.com 본 글에서 다루는 내용 1. Tenancy와 Compartment 2. VCN 3. VM 생성 3-1. ssh-key 생성 (feat. git bash) 3-2. vm 생성 3-3. 원..

오라클 클라우드(1) - 계정 생성, 공짜를 누리려는 자 그 무게를 견뎌라
딥상어동의 딥한 프로그래밍/엔지니어링2022. 8. 7. 07:49오라클 클라우드(1) - 계정 생성, 공짜를 누리려는 자 그 무게를 견뎌라

들어가며 2022년 6월 12일 GCP를 이용하여 데이터 적재 파이프라인을 만들어보는 튜토리얼 글을 적었으나.. GCP는 90일 동안만 무료로 쓸 수 있고 그 90일이 거의 다 되가는 지금... 나는 하이애나 마냥 새로운 무료 클라우드를 찾아보고 있다. https://gibles-deepmind.tistory.com/133 [Airflow] 데이터 적재 파이프라인 튜토리얼 - 서울시 지하철호선별 역별 승하차 인원 정보 적재하 핵심 내용 안녕하세요. Airflow로 데이터 적재 파이프라인을 만드는 튜토리얼을 만들어봤습니다. 사이드 프로젝트로 데이터를 수집하고, 수집한 내용을 DB에 저장하고 활용해보려는 분들께 도움 gibles-deepmind.tistory.com 우선, 첫번째 후보 - AWS! 하지만. ..

딥상어동의 딥한 프로그래밍/엔지니어링2022. 7. 29. 22:38Ganglia Web Interface 관련 링크 모음

https://www.oreilly.com/library/view/monitoring-with-ganglia/9781449330637/ch04.html Monitoring with Ganglia Chapter 4. The Ganglia Web Interface Vladimir Vuksan Alex Dean So far, this book has dealt with the collection of data. Now we will discuss visualizing it. Visualization of these … - Selection from Monitoring with Ganglia [Book] www.oreilly.com https://www.youtube.com/watch?v=y3VCWVbzAKA&..

image