목록분류 전체보기 (99)
핀아의 저장소 ( •̀ ω •́ )✧

Transformations & Actions Transformations 결과값으로 새로운 RDD를 반환 Actions가 실행되기 전까진 실행되지 않는다. 지연 실행(Lazy Execution) Actions 결과값을 연산하여 출력하거나 저장 파이썬 오브젝트나 리스트를 반환한다. 즉시 실행(Eager Execution) ✅ Transformations map() flatMap() filter() distinct() reduceByKey() groupByKey() mapValues() flatMapValues() sortByKey() ◾ Narrow Transformation 1:1 변환 filter(), map(), flatMap(), sample(), union() 1열을 조작하기 위해 다른 열/파티..

병렬처리 (Parallel) vs 분산처리 (Distributed) ✅ Data-Parallel RDD.map() 데이터를 여러개로 쪼개고 여러 쓰레드에서 각자 task를 적용 각자 만든 결과값을 합치는 과정 ✅ Distributed Data-Parallel 데이터를 여러개로 쪼개서 여러 노드로 보낸다. 여러 노드에서 각자 독립적으로 task를 적용한다. 각자 만든 결과값을 합치는 과정이다. 노드간 통신같이 신경써야 될 것이 늘어난다. 하지만 Spark를 이용하면 분산된 환경에서도 일반적인 병렬처리를 하듯 코드를 짜는게 가능하다. Spark는 분산된 환경에서 데이터 병렬 모델을 구현해 추상화 시켜주기 때문이다. 하지만 노드간 통신 속도를 신경써야 한다. 분산처리와 Latency(속도) 분산처리로 넘어가면..

빅데이터 처리를 위한 오픈소스 고속 분산처리 엔진 연산 엔진을 대체하는 프로젝트이다. ✨ 자세한 내용은 아래 게시글을 참고해 주세요! https://mydb-lib.tistory.com/entry/Hadoop-%ED%95%98%EB%91%A1Hadoop-%EC%9D%B4%EB%A1%A0 [Hadoop] 하둡(Hadoop) 이론 Hadoop이란? 분산환경에서 빅데이터를 저장하고 처리할 수 있는 자바 기반의 오픈 소스 프레임워크로 하둡 소프트웨어 라이브러리는 간단한 프로그래밍 모델을 사용하여 여러대의 컴퓨터 클러스 mydb-lib.tistory.com 스파크는 빠르다는 장점이 있다. 컴퓨터가 연산을 시작하면 하드디스크에서 CPU까지 데이터가 위로 이동한다. 연산에 자주 쓰이는 데이터는 위로가며(CPU가 데이..

Hadoop이란? 분산환경에서 빅데이터를 저장하고 처리할 수 있는 자바 기반의 오픈 소스 프레임워크로 하둡 소프트웨어 라이브러리는 간단한 프로그래밍 모델을 사용하여 여러대의 컴퓨터 클러스터에 대규모 데이터세트를 분산 처리할 수 있게 해주는 프레임워크 일반적으로 하둡파일시스템(HDFS)과 맵리듀스(MapReduce)프레임워크로 시작되었으나, 여러 데이터 저장, 실행 엔진, 프로그래밍 및 데이터 처리와 같은 Hadoop Ecosystem 전반을 포함하는 의미로 확장 및 발전 됐다. ✅ 구성요소 하둡 코어 프로젝트 : HDFS(분산 데이터 저장), MapReduce(분산 처리) 하둡 서브 프로젝트 : 데이터 마이닝, 수집, 분석 등 수행하는 프로젝트들 1️⃣ 하둡 분산형 파일 시스템(Hadoop Distrib..

진행하였던 간단한 데이터 엔지니어링 프로젝트를 소개하고자 한다. 배치 파이프라인과 스트림 파이프라인을 동시에 사용하는 ML 데이터 학습 + 서빙 파이프라인 배치 파이프라인 스트림 파이프라인 배치+스트림 파이프라인 사용할 데이터 TLC Trip Record Data 10+년 이상의 택시와 모빌리티 서비스 기록 2009년부터 2021년까지 모든 기록이 공개 매년 20GB씩 쌓이는 Dataset 승차와 하차 시간과 장소, 소요시간, 택시비와 같이 중요한 데이터를 포함

Orchestration이란? 오케스트라처럼 데이터 테스크를 지휘하는 느낌 테스크 스케줄링 분산 실행 테스트간 의존성 관리 Orchestration은 왜 필요한가? 서비스가 커지면서 데이터 플랫폼의 복잡도가 커짐 데이터가 사용자와 직접 연관되는 경우가 늘어남 (워크플로우가 망가지면 서비스도 망가짐) 테스크 하나하나가 중요해짐 테스크간 의존성도 생김 오케스트레이션 없이 문제가 생겼을 때 오케스트레이션이 있었다면? => 실 서비스에선 데이터 테스크가 생각보다 더 복잡하게 얽히게 된다. 이때, 오케스트레이션을 도와주는 대표적인 툴이 바로 Apache Airflow이다. 💥 추후 Airflow를 메인으로 다루면서 자세한 내용을 설명하겠다