SELECT t1.* FROM t1 INNER JOIN t2 on t1.a = t2.a 예를 들어 위와 같은 조인 구문이 있다고 가정하자. "이중 for loop"를 생각하면 Nested Loop Join을 이해하기 쉽다. 예를 들어, t1의 a항목에 1이라는 값이 있다고 가정하자. 그러면, 그 다음 t2의 a항목에 존재하는 모든 값들에 대해 1이 존재하는지 찾으면서 결합을 진행하는 것이다. 흔히, 아는 다음의 이중 루프 알고리즘을 생각하면 된다. for a in t1 : for b in t2 : if a == b : blar blar blar 그래서, 스캔할 테이블의 크기에 속도가 많이 좌우되고, 이에 따라 join key에 어떤 index가 포함되는지가 중요하다고 할 수 있다. index 스캔을 하면..
0. 기본 소개 - 데이터베이스에 널리 사용되는 트리 형태의 자료 구조 - 하나의 노드가 가질 수 있는 자식 노드의 최대 숫자가 2보다 큼(이진트리 = 최대2) - 예를 들어, n개의 키를 가지고 있다면 자식 노드는 n + 1개가 될 수 있음 1. B-tree가 이진 트리 대비 가지는 이점 - 노드의 가지수가 더 많고 - 트리의 높이가 더 낮음 - 그래서 접근 비용이 낮아지고 - 이에 따라, 디스크에 자료가 저장되어 있는 상황에서 사용 2. Ref https://techdifferences.com/difference-between-b-tree-and-binary-tree.html
http://www.yes24.com/Product/Goods/24089836 SQL 레벨업 - YES24 실무에 필요한 SQL 최적화!〈SQL 첫걸음〉으로 성공적인 입문을 마치고, 다음 고지를 바라보는 이들을 위한 한 권!이 책은 고성능 SQL 작성 방법을 초보자 눈높이에 맞춰 다양한 예제를 통해 설명 www.yes24.com 본 도서를 보고 작성하였습니다. 0. 파서(parser) SQL 구문을 분석하는 것이다. 예를 들어, 아래와 같이 select에 아무런 컬럼을 선택하지 않은 경우 파서 단계에서 탈락하게 된다. SELECT FROM t1 1. 옵티마이저(optimizer) 인덱스, 데이터 편햔 정도 등 다양한 요소를 고려하여 "수많은 실행계획" 중 가장 낮은 비용을 가진 실행 계획을 선택한다. 사..
http://www.yes24.com/Product/Goods/24089836 SQL 레벨업 - YES24 실무에 필요한 SQL 최적화!〈SQL 첫걸음〉으로 성공적인 입문을 마치고, 다음 고지를 바라보는 이들을 위한 한 권!이 책은 고성능 SQL 작성 방법을 초보자 눈높이에 맞춰 다양한 예제를 통해 설명 www.yes24.com 본 도서를 참고하여 작성하였습니다. 01. 데이터 저장 비용과 접근 속도의 트레이드 오프 테이프와 메모리를 비교해보자. 테이프는 녹음(=데이터 저장) 하기는 쉽지만, 테이프에 저장되어 있는 곡을 재생시키는 데에는 꽤 시간이 걸린다. 반면, 메모리의 경우 메모리에 올려둔 데이터는 바로 사용할 수 있다. 하지만, 메모리는 비싸다. 이처럼 데이터 저장 비용과 접근 속도 간에는 트레이드..
![[Pandas] 이것만은 알고가자 - 2.Basic Function](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FcxS5Qq%2Fbtq6MTNClqS%2FAAAAAAAAAAAAAAAAAAAAADCyDnb6-zGPuTePuY9Uy6rGCJUC3KC_wGC_gh0CFXI1%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1753973999%26allow_ip%3D%26allow_referer%3D%26signature%3DfHC%252BNU0YqUwdRbV5PkK%252BsIubgr0%253D)
https://gibles-deepmind.tistory.com/36?category=904126 [캐글따라하기] HR 데이터분석 (1) zero-draft www.kaggle.com/arashnic/hr-analytics-job-change-of-data-scientists HR Analytics: Job Change of Data Scientists Predict who will move to a new job www.kaggle.com 해당 데이터를 참고하였습니다. gibles.. gibles-deepmind.tistory.com 1. 데이터 생성 데이터를 불러오는 방법은 아래 글을 참조 https://gibles-deepmind.tistory.com/64?category=892466 [Pandas..
![[Pandas] 이것만은 알고가자 - 1.Indexing(iloc, loc)](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FbPgQeM%2Fbtq6zB2D3Bw%2FAAAAAAAAAAAAAAAAAAAAAFxdGqBLRsFSAeOGZBXvHLK2jJ539zz0vL0pW0y8E0BM%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1753973999%26allow_ip%3D%26allow_referer%3D%26signature%3DN%252BJQ08D1V0GjrCPw4%252B9urmvFqzE%253D)
1. 예시 & 데이터 프레임 https://gibles-deepmind.tistory.com/36?category=904126 [캐글따라하기] HR 데이터분석 (1) zero-draft www.kaggle.com/arashnic/hr-analytics-job-change-of-data-scientists HR Analytics: Job Change of Data Scientists Predict who will move to a new job www.kaggle.com 해당 데이터를 참고하였습니다. gibles.. gibles-deepmind.tistory.com (데이터 참조) import pandas as pd data = pd.read_csv("C:/blarblar/aug_train.csv") da..
![[Pandas] 이것만은 알고가자 - 0.파일 불러오기](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FbVv3x5%2Fbtq6BD5lWVP%2FAAAAAAAAAAAAAAAAAAAAAHcXeWaCBJh7_2EpLEDQ6DEMmtkN-Nm0XWAbEPWcxsKv%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1753973999%26allow_ip%3D%26allow_referer%3D%26signature%3D0JFI%252BgXqML7NXFZVFFETzU2gHaU%253D)
1. 예시 import pandas as pd data = pd.read_csv("C:/Users/blarblar/aug_train.csv") #read_csv #pd.read_csv 2. CSV. 파일에 대한 이해 Comma Seperated Values 이름, 직업, 나이 철수, 개발자, 30 미희, 분석가, 29 ,로 값을 구분한다. 이것이 CSV파일에 대한 정의이다. 위이미지에서 .jpg를 extension이라고 한다. csv 파일은 구글 스프레드 시트 형태를 보이지만, 파일 이름 끝에 .csv가 붙는다. 즉, csv라는 확장자를 가진다는 의미이다. 3. 왜 사용하는가? txt와 같은 확장자를 plain-text라고 한다. 여기에는 글자 크기 등 다른 옵션은 없고 말 그대로 "텍스트"만 있다고 생..

도식화 그림 목적 컴퓨터가 공용 네트워크를 통해 통신할 때, 안전성을 담보하기 위함 기본개념 - 클라이언트 컴퓨터에 Public Key와 Private Key 한 쌍이 존재 - Public Key 복사 가능 - 외부로 복사 - Public Key를 기준으로 클라이언트 단의 Private Key와 일치하는지 확인 = 인증 과정 - 인증이 되면 통신

왜 사용하는가? 왜냐하면, 장기적인 트렌드를 보기 위해서이다. 위 그림을 한번 살펴보자. 파란색 라인에 비해 주황색 라인이 좀 더 완만하지 않은가? 하지만, 두 라인을 그린 데이터 원본은 동일하다. 파란색 -> 주황색과 같이 라인을 완만하게 만드는 작업을 Smoothing이라고 한다. 그리고, 그 Smoothing을 하는 방법 중 하나가 이동 평균선이다. (Moving Average) 왜 완만하게(Smoothing) 만드는가? 가장 기본적인 사고의 발상은 날 것 그대로의 데이터에 Noise가 끼어있을 수 있다는 것이다. 예를 들어, 철수가 다음과 같이 물건을 팔았다고 생각해보자. 05/01 100개 05/02 1000개 05/03 200개 5월 2일, 철수한테는 무슨 일이 있었을까? 큰 손이라도 나타난 ..

www.yes24.com/Product/Goods/67116641 스파크 완벽 가이드 스파크 창시자가 알려주는 스파크 활용과 배포, 유지 보수의 모든 것 오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서이다. 스파크 사용법부터 배포, www.yes24.com 스파크 완벽 가이드를 참조하여 작성하였습니다. 트랜스포메이션 - 스파크의 데이터 구조는 "불변성"을 가짐 - 즉, 한번 생성하면 변경 불가 - 따라서, 변경을 하기 위해서는 변경하는 방법을 스파크에 알려주어야 함 - 여기서 중요한 포인트 알려주는 행동과 / 실제 행동은 별개이다. - 즉, 알려주기만 한다면 "변경 방법만 알고 있는채로" 액션은 하지 않고 대기를 하고 있게 된다. 액션 - 트랜스포메이션은 곧 "논리적..