목록DataFrame (2)
핀아의 저장소 ( •̀ ω •́ )✧
✅ DataFrame은 관계형 데이터 한마디로 관계형 데이터셋: RDD + Relation RDD가 함수형 API를 가졌다면 DataFrame은 선언형 API 자동으로 최적화가 가능 타입이 없다 -> DataFrame은 내부적으로 타입을 강제하지 않는다. ✅ DataFrame의 특징 DataFrame: RDD의 확장판 지연 실행 (Lazy Execution) 분산 저장 Immutable 열 (Row) 객체가 있다 SQL 쿼리를 실행할 수 있다 스키마를 가질 수 있고 이를 통해 성능을 더욱 최적화 할 수 있다. CSV, JSON, Hive 등으로 읽어오거나 변환이 가능하다. ✅ DataFrame의 스키마를 확인하는 법 dtypes show() 테이블 형태로 데이터를 출력 첫 20개의 열만 보여준다 prin..
1️⃣ SparkSQL ✅ 목적 스파크 프로그래밍 내부에서 관계형 처리를 하기 위해 스키마의 정보를 이용해 자동으로 최적화를 하기 위해 외부 데이터셋을 사용하기 쉽게 하기 위해 => 스파크를 좀 더 간결하고, 쉽게 쓰고, 최적화도 자동으로 되기 위해 ✅ 소개 스파크 위에 구현된 하나의 패키지 3개의 주요 API SQL DataFrame Datasets 2개의 백엔드 컴포넌트: 성능 최적화 Catalyst - 쿼리 최적화 엔진 Tungsten - 시리얼라이저, 용량을 최적화 2️⃣ DataFrame Spark Core에 RDD가 있다면 Spark SQL엔 DataFrame이 있다. DataFrame은 테이블 데이터셋이라고 보면 된다. 개념적으론 RDD에 스키마가 적용된 것으로 보면 된다. RDD에 적용된 ..