핀아의 저장소 ( •̀ ω •́ )✧

00_04. 프로젝트 INTRO 본문

Big Data/Engineering

00_04. 프로젝트 INTRO

_핀아_ 2023. 5. 11. 15:21

진행하였던 간단한 데이터 엔지니어링 프로젝트를 소개하고자 한다.

배치 파이프라인과 스트림 파이프라인을 동시에 사용하는 ML 데이터 학습 + 서빙 파이프라인

배치 파이프라인

스트림 파이프라인

배치+스트림 파이프라인


사용할 데이터

TLC Trip Record Data

  1. 10+년 이상의 택시와 모빌리티 서비스 기록
    • 2009년부터 2021년까지 모든 기록이 공개
  2. 매년 20GB씩 쌓이는 Dataset
    • 승차와 하차 시간과 장소, 소요시간, 택시비와 같이 중요한 데이터를 포함

'Big Data > Engineering' 카테고리의 다른 글

01_01. Spark와 RDD  (0) 2023.05.12
[Hadoop] 하둡(Hadoop) 이론  (1) 2023.05.11
00_03. Dataflow Orchestration  (0) 2023.05.11
00_02. Batch & Stream Processing  (0) 2023.05.09
00_01. 데이터 엔지니어링에 대하여  (0) 2023.05.08
Comments