핀아의 저장소 ( •̀ ω •́ )✧
00_04. 프로젝트 INTRO 본문
진행하였던 간단한 데이터 엔지니어링 프로젝트를 소개하고자 한다.
배치 파이프라인과 스트림 파이프라인을 동시에 사용하는 ML 데이터 학습 + 서빙 파이프라인
배치 파이프라인
스트림 파이프라인
배치+스트림 파이프라인
사용할 데이터
TLC Trip Record Data
- 10+년 이상의 택시와 모빌리티 서비스 기록
- 2009년부터 2021년까지 모든 기록이 공개
- 매년 20GB씩 쌓이는 Dataset
- 승차와 하차 시간과 장소, 소요시간, 택시비와 같이 중요한 데이터를 포함
'Big Data > Engineering' 카테고리의 다른 글
01_01. Spark와 RDD (0) | 2023.05.12 |
---|---|
[Hadoop] 하둡(Hadoop) 이론 (1) | 2023.05.11 |
00_03. Dataflow Orchestration (0) | 2023.05.11 |
00_02. Batch & Stream Processing (0) | 2023.05.09 |
00_01. 데이터 엔지니어링에 대하여 (0) | 2023.05.08 |
Comments