딥상어동의 딥한 프로그래밍/Spark2021. 2. 6. 10:02[scalaSpark] pivot과 unpivot

초록 1. pivot 2. unpivot pivot val pv_dataframe = df_dataframe .groupBy("col0") .pivot("col1") .agg(countDistinct("col2").as("colname")) groupBy와 pivot에 컬럼을 여러개 넣을 수 있다. agg에도 마찬가지 unpivot val unpv_dataframe = df_dataframe .selectExpr("group", "stack(2, 'col1', col1, 'col2', col2)") 여기서 중요한 것은 stack에 "1. 들어갈 열의 숫자를 정한다"와 col1과 col2 stack시길 열을 'col1', col1 이렇게 각각 두번씩 적어줘야 한다는 것이다. 이외에 where로 조건을 붙이..

Pandas | Stack VS Unstack
딥상어동의 딥한 데이터 처리/전처리2021. 1. 28. 22:22Pandas | Stack VS Unstack

안녕하세요 신입 초보 분석가입니다. 데이터 분석을 공부하면서 고민이 됐던 내용들을 포스팅합니다. github.com/GiblesDeepMind/deepPythonAnalysis GiblesDeepMind/deepPythonAnalysis I'm JDM! The man who will be the Analysis King! . Contribute to GiblesDeepMind/deepPythonAnalysis development by creating an account on GitHub. github.com 개인 깃허브 페이지입니다. 목차 1. stack 2. unstack 오늘의 한마디 : stack은 위 아래로 키가 크고 unstack은 옆으로 뚱뚱해진다! 1. stack stack과 unstack..

오늘의 지식 [ASP, ISP, 스파크 라인, 모션 플랏]
일일아이티 일일데분2021. 1. 19. 23:50오늘의 지식 [ASP, ISP, 스파크 라인, 모션 플랏]

다른 링크들을 참조하여 그날 그날 지식들을 간단하게 한~두 줄 정도로만 정리합니다. ASP(Active Server Pages) | 출처 : https://namu.wiki/w/ASP 마소에서 동적 웹 페이지 생성 용도로 제작한 서버 사이드 스크립트 엔진이다. 현재는 유지보수외에 자주 사용하지 않음 ISP(Internet Service Provider) | 출처 : namu.wiki/w/%EC%9D%B8%ED%84%B0%EB%84%B7%20%EC%84%9C%EB%B9%84%EC%8A%A4%20%EC%A0%9C%EA%B3%B5%EC%82%AC%EC%97%85%EC%9E%90 인터넷 통신망을 보유하여 인터넷 회선과 IP할당까지 담당, KT, SKT, LGU등 스파크라인(엑셀) | 출처 : nsupport.m..

[MSSQL] 프로시져1. 변수 지정
딥상어동의 딥한 SQL/LV2.중급쿼리2021. 1. 13. 23:19[MSSQL] 프로시져1. 변수 지정

소개 gibles-deepmind.tistory.com/5 1. 저장소 위치 github.com/GiblesDeepMind/deepsql GiblesDeepMind/deepsql Contribute to GiblesDeepMind/deepsql development by creating an account on GitHub. github.com 본 프로젝트에 사용하는 간단한.. gibles-deepmind.tistory.com SQL 관련 포스팅 링크를 모아둔 아카이브 페이지가 있습니다. 글의 목표 동적 SQL에 대해서 다루어볼려고 합니다. 1. 샘플 테이블 구성 2. SET 변수 지정 3. SELECT 변수 지정 1. 샘플 테이블 구성 MSSQL에는 AdventureWorks라는 유명한 샘플데이터베이스..

[캐글] 영화 추천 시스템 #1 - (1) 콘텐츠 필터링
모델링/추천시스템2021. 1. 10. 00:28[캐글] 영화 추천 시스템 #1 - (1) 콘텐츠 필터링

www.kaggle.com/ibtesama/getting-started-with-a-movie-recommendation-system Getting Started with a Movie Recommendation System Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com 필사해볼 커널입니다. 글의 목표 1. 콘텐츠 필터링이란? 2. 콘텐츠 필터링을 하기 위해서는? 3. 추천 아이템 데이터 구성해보기 4. 가장 많이 추천될 영화는 무엇일까? 1. 콘텐츠 필터링이란? 콘텐츠 필터링에 대해 설명하기전에 협업 필터링과 콘텐츠 필터링의 차이에 대해 먼저 설..

[Matplotlib] 모두를 위한 Python시각화 - (1)Matplotlib.artist
딥상어동의 딥한 데이터 처리/시각화2021. 1. 3. 18:32[Matplotlib] 모두를 위한 Python시각화 - (1)Matplotlib.artist

matplotlib.org/3.3.3/tutorials/intermediate/artists.html Artist tutorial — Matplotlib 3.3.3 documentation Note Click here to download the full example code Artist tutorial Using Artist objects to render on the canvas. There are three layers to the matplotlib API. the matplotlib.backend_bases.FigureCanvas is the area onto which the figure is drawn the matplotli matplotlib.org (본 글은 Matplotlib 공식 ..

딥상어동의 딥한 데이터 처리/시각화2021. 1. 1. 14:57아카이브 페이지

일단 만들고 본다 시작이 반이다~

지금 당장 블로그를 시작해야하는 이유
나라는 존재/생각2021. 1. 1. 09:57지금 당장 블로그를 시작해야하는 이유

원문 - 네이버 본인 블로그 https://blog.naver.com/tjdrud1323/221413557150 처음, 설렘과 두려움의 교집합 초등학교 때 좋아했던 친구가 있었다. 정말 좋아했지만, 그때는 그 마음을 표현하는 방법을 몰라 짓궂은 장... blog.naver.com 2018. 12. 6. 202 내가 네이버 블로그에 처음 글을 쓴 날짜이다. 이후 약 2년간 이런 저런 주제들에 대해 300개 가량의 글을 썼다. 오늘은 블로그를 해야하는 이유를 장점과 장기기억의 관점에서 다룰 것이다. 1. 지식의 깊이 블로그는 나 혼자만 보는 글이 아니다. 내가 글을 올리면 다른 사람들이 그 글을 보게 된다. 그래서, 글을 적기전에 다음 두 가지를 고민 하게 된다. 1. 혹시 내 글에 잘못된 정보가 있지는 않..

내가 참조할려고 작성하는 Kaggle API 사용법
Kaggle2020. 12. 30. 21:53내가 참조할려고 작성하는 Kaggle API 사용법

github.com/Kaggle/kaggle-api Kaggle/kaggle-api Official Kaggle API. Contribute to Kaggle/kaggle-api development by creating an account on GitHub. github.com 설치 # 신규설치 pip install Kaggle pip install --user kaggle # 예전 버전이 설치되어 있다면 pip install kaggle --upgrade API Key 발급 API Key 저장 Create New API Token을 클릭하면 Kaggle.json이라는 파일이 생성된다. github에는 이렇게 설명되어 있는데 그냥 사용자 폴더에 .kaggle이라는 폴더를 만들고 거기로 kaggle.js..

Kaggle2020. 12. 30. 21:23아카이브 페이지

샘플

image