'SparkSQL' 태그의 글 목록

Notice

안녕하세요

Recent Posts

Recent Comments

Link

관리 메뉴

목록SparkSQL (3)

핀아의 저장소 ( •̀ ω •́ )✧

02_03. SQL 기초

sparkSQL의 본격적인 사용 전, 기본적인 SQL 기초를 정리하고 간다. from pyspark.sql import SparkSession spark = SparkSession.builder.master("local").appName("learn-sql").getOrCreate() sparkSQL 사용시 local에 ‘learn-sql’이란 이름으로 spark session 생성 stocks = [ ('Google', 'GOOGL', 'USA', 2984, 'USD'), ('Netflix', 'NFLX', 'USA', 645, 'USD'), ('Amazon', 'AMZN', 'USA', 3518, 'USD'), ('Tesla', 'TSLA', 'USA', 1222, 'USD'), ('Tencent',..

Big Data/Engineering 2023. 5. 24. 14:56

02_02. SparkSQL 소개 및 기초

1️⃣ SparkSQL ✅ 목적 스파크 프로그래밍 내부에서 관계형 처리를 하기 위해 스키마의 정보를 이용해 자동으로 최적화를 하기 위해 외부 데이터셋을 사용하기 쉽게 하기 위해 => 스파크를 좀 더 간결하고, 쉽게 쓰고, 최적화도 자동으로 되기 위해 ✅ 소개 스파크 위에 구현된 하나의 패키지 3개의 주요 API SQL DataFrame Datasets 2개의 백엔드 컴포넌트: 성능 최적화 Catalyst - 쿼리 최적화 엔진 Tungsten - 시리얼라이저, 용량을 최적화 2️⃣ DataFrame Spark Core에 RDD가 있다면 Spark SQL엔 DataFrame이 있다. DataFrame은 테이블 데이터셋이라고 보면 된다. 개념적으론 RDD에 스키마가 적용된 것으로 보면 된다. RDD에 적용된 ..

Big Data/Engineering 2023. 5. 14. 19:32

02_01. Structured vs Unstructured Data

Unstructured Semi Structured Structured ✅ 데이터를 합치고 추출 하기 Q. 미국의 $2000불 이상의 주식만 가져올 때, 가능한 방법은???? # CASE 1: join 먼저, filter 나중에 tickerPrice = tickers.join(prices) tickerPrice.filter(lambda x: x[1][0][2] == "USA" and x[1][1][0] > 2000).collect() # CASE 2: filter 먼저, join 나중에 filteredTicker = tickers.filter(lambda x: x[1][2] == "USA") filteredPrice = prices.filter(lambda x: x[1][0] > 2000) filtere..

Big Data/Engineering 2023. 5. 14. 18:06

이전 Prev 1 Next 다음

목록SparkSQL (3)

핀아의 저장소 ( •̀ ω •́ )✧

티스토리툴바