본문 바로가기

핀아의 저장소 ( •̀ ω •́ )✧

검색하기
핀아의 저장소 ( •̀ ω •́ )✧
프로필사진 _핀아_

  • 분류 전체보기 (99)
    • Big Data (43)
      • ML & DL (6)
      • Engineering (21)
      • 데이터 분석 (16)
    • Computer Science (50)
      • Python (2)
      • Linux (2)
      • Tools (1)
      • 자료구조 (8)
      • 코딩테스트_Python (37)
    • Code & Issues (4)
      • Code (1)
      • Issue (3)
Guestbook
Notice
  • 안녕하세요
Recent Posts
Recent Comments
Link
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록datasets (1)

핀아의 저장소 ( •̀ ω •́ )✧

02_02. SparkSQL 소개 및 기초

1️⃣ SparkSQL ✅ 목적 스파크 프로그래밍 내부에서 관계형 처리를 하기 위해 스키마의 정보를 이용해 자동으로 최적화를 하기 위해 외부 데이터셋을 사용하기 쉽게 하기 위해 => 스파크를 좀 더 간결하고, 쉽게 쓰고, 최적화도 자동으로 되기 위해 ✅ 소개 스파크 위에 구현된 하나의 패키지 3개의 주요 API SQL DataFrame Datasets 2개의 백엔드 컴포넌트: 성능 최적화 Catalyst - 쿼리 최적화 엔진 Tungsten - 시리얼라이저, 용량을 최적화 2️⃣ DataFrame Spark Core에 RDD가 있다면 Spark SQL엔 DataFrame이 있다. DataFrame은 테이블 데이터셋이라고 보면 된다. 개념적으론 RDD에 스키마가 적용된 것으로 보면 된다. RDD에 적용된 ..

Big Data/Engineering 2023. 5. 14. 19:32
이전 Prev 1 Next 다음

Blog is powered by kakao / Designed by Tistory

티스토리툴바