본문 바로가기

핀아의 저장소 ( •̀ ω •́ )✧

검색하기
핀아의 저장소 ( •̀ ω •́ )✧
프로필사진 _핀아_

  • 분류 전체보기 (99)
    • Big Data (43)
      • ML & DL (6)
      • Engineering (21)
      • 데이터 분석 (16)
    • Computer Science (50)
      • Python (2)
      • Linux (2)
      • Tools (1)
      • 자료구조 (8)
      • 코딩테스트_Python (37)
    • Code & Issues (4)
      • Code (1)
      • Issue (3)
Guestbook
Notice
  • 안녕하세요
Recent Posts
Recent Comments
Link
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록분산처리 (1)

핀아의 저장소 ( •̀ ω •́ )✧

01_02. 병렬처리에서 분산처리까지

병렬처리 (Parallel) vs 분산처리 (Distributed) ✅ Data-Parallel RDD.map() 데이터를 여러개로 쪼개고 여러 쓰레드에서 각자 task를 적용 각자 만든 결과값을 합치는 과정 ✅ Distributed Data-Parallel 데이터를 여러개로 쪼개서 여러 노드로 보낸다. 여러 노드에서 각자 독립적으로 task를 적용한다. 각자 만든 결과값을 합치는 과정이다. 노드간 통신같이 신경써야 될 것이 늘어난다. 하지만 Spark를 이용하면 분산된 환경에서도 일반적인 병렬처리를 하듯 코드를 짜는게 가능하다. Spark는 분산된 환경에서 데이터 병렬 모델을 구현해 추상화 시켜주기 때문이다. 하지만 노드간 통신 속도를 신경써야 한다. 분산처리와 Latency(속도) 분산처리로 넘어가면..

Big Data/Engineering 2023. 5. 12. 01:25
이전 Prev 1 Next 다음

Blog is powered by kakao / Designed by Tistory

티스토리툴바