본문 바로가기

핀아의 저장소 ( •̀ ω •́ )✧

검색하기
핀아의 저장소 ( •̀ ω •́ )✧
프로필사진 _핀아_

  • 분류 전체보기 (99)
    • Big Data (43)
      • ML & DL (6)
      • Engineering (21)
      • 데이터 분석 (16)
    • Computer Science (50)
      • Python (2)
      • Linux (2)
      • Tools (1)
      • 자료구조 (8)
      • 코딩테스트_Python (37)
    • Code & Issues (4)
      • Code (1)
      • Issue (3)
Guestbook
Notice
  • 안녕하세요
Recent Posts
Recent Comments
Link
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록PARTITIONING (1)

핀아의 저장소 ( •̀ ω •́ )✧

01_08. Shuffling & Partitioning

Shuffling 그룹핑시 데이터를 한 노드에서 다른 노드로 옮길 때 사용한다. 성능을 (많이) 저하시킨다. ✅ groupByKey를 할 때도 발생하는 Shuffling key를 기준으로 연산을 하며, 데이터가 이리저리 섞이기 때문에 통신을 많이 하게 된다. 여러 네트워크 연산을 일으키기 때문에 연산 코스트가 큰 연산이다. ✅ 통신 속도 ✅ Shuffle을 일으킬 수 있는 작업들 Join, leftOuterJoin, rightOuterJoin GroupByKey ReduceByKey ComebineByKey Distinct Intersection Repartition Coalesce → 위의 함수들이 결과로 나온 RDD를 원본 RDD의 다른 요소를 참조하거나, 다른 RDD를 참조하여 Shuffle을 일으..

Big Data/Engineering 2023. 5. 14. 16:10
이전 Prev 1 Next 다음

Blog is powered by kakao / Designed by Tistory

티스토리툴바