목록Big Data (43)
핀아의 저장소 ( •̀ ω •́ )✧

Reduction 요소들을 모아서 하나로 합치는 작업 많은 Spark의 연산들이 reduction이다. ✅ Parallel Transformations 주로 변형을 적용시키는 작업들 map, flatMap, filter ✅ 그렇다면 Action은 어떻게 분산된 환경에서 작동할까? 대부분의 Action은 Reduction이다. Reduction: 근접하는 요소들을 모아서 하나의 결과로 만드는 일 파일 저장, collect()등과 같이 Reduction이 아닌 액션도 있다. ✅ 병렬처리 병렬처리 하려면 두개의 요소를 모아서 하나로 만들 수 있어야 한다. 하지만, 파티션마다 독립적으로 있지 않고 파티션마다 의존적이면 병렬처리 불가능하다. ✅ 대표적인 Reduction Actions Reduce Fold Gro..

✅ Master Worker Topology Spark는 Master Worker Topology로 구성된다. = master와 worker로 구성 스파크를 쓰면서 잊지 말아야 할 점 항상 데이터가 여러곳에 분산되어 있다는 것 같은 연산이어도 여러 노드에 걸쳐서 실행된다는 점 ✅ Spark 구조 개발 시 Driver Program을 중점적으로 사용하며, 드라이버 프로그램이 노드들에게 연산해야될 작업을 보낸다. 또한 Driver Program은 작업들을 조직한다. SparkContext는 새로운 RDD를 생성하는 역할을 한다. Driver Program은 개발자나 유저가 프로그램과 상호작용을 할 수 있는 노드이고, 실제 작업은 worker 노드에서 일어난다. 클러스터 매니저를 통해 드라이버와 워커를 연결 ..

https://mydb-lib.tistory.com/entry/0103-RDD-Transformations-and-Actions 01_03. RDD Transformations and Actions Transformations & Actions Transformations 결과값으로 새로운 RDD를 반환 Actions가 실행되기 전까진 실행되지 않는다. 지연 실행(Lazy Execution) Actions 결과값을 연산하여 출력하거나 저장 파이썬 오브젝트나 리 mydb-lib.tistory.com 앞서 Transformation과 Actions 두가지 방식으로 나눈 이유는 메모리를 최대한 활용하기 위해서이다. 디스크, 네트워크 연산을 최소화 할 수 있다. 데이터를 다루는 task는 반복되는 경우가 많다...

Transformations & Actions Transformations 결과값으로 새로운 RDD를 반환 Actions가 실행되기 전까진 실행되지 않는다. 지연 실행(Lazy Execution) Actions 결과값을 연산하여 출력하거나 저장 파이썬 오브젝트나 리스트를 반환한다. 즉시 실행(Eager Execution) ✅ Transformations map() flatMap() filter() distinct() reduceByKey() groupByKey() mapValues() flatMapValues() sortByKey() ◾ Narrow Transformation 1:1 변환 filter(), map(), flatMap(), sample(), union() 1열을 조작하기 위해 다른 열/파티..

병렬처리 (Parallel) vs 분산처리 (Distributed) ✅ Data-Parallel RDD.map() 데이터를 여러개로 쪼개고 여러 쓰레드에서 각자 task를 적용 각자 만든 결과값을 합치는 과정 ✅ Distributed Data-Parallel 데이터를 여러개로 쪼개서 여러 노드로 보낸다. 여러 노드에서 각자 독립적으로 task를 적용한다. 각자 만든 결과값을 합치는 과정이다. 노드간 통신같이 신경써야 될 것이 늘어난다. 하지만 Spark를 이용하면 분산된 환경에서도 일반적인 병렬처리를 하듯 코드를 짜는게 가능하다. Spark는 분산된 환경에서 데이터 병렬 모델을 구현해 추상화 시켜주기 때문이다. 하지만 노드간 통신 속도를 신경써야 한다. 분산처리와 Latency(속도) 분산처리로 넘어가면..

빅데이터 처리를 위한 오픈소스 고속 분산처리 엔진 연산 엔진을 대체하는 프로젝트이다. ✨ 자세한 내용은 아래 게시글을 참고해 주세요! https://mydb-lib.tistory.com/entry/Hadoop-%ED%95%98%EB%91%A1Hadoop-%EC%9D%B4%EB%A1%A0 [Hadoop] 하둡(Hadoop) 이론 Hadoop이란? 분산환경에서 빅데이터를 저장하고 처리할 수 있는 자바 기반의 오픈 소스 프레임워크로 하둡 소프트웨어 라이브러리는 간단한 프로그래밍 모델을 사용하여 여러대의 컴퓨터 클러스 mydb-lib.tistory.com 스파크는 빠르다는 장점이 있다. 컴퓨터가 연산을 시작하면 하드디스크에서 CPU까지 데이터가 위로 이동한다. 연산에 자주 쓰이는 데이터는 위로가며(CPU가 데이..