핀아의 저장소 ( •̀ ω •́ )✧

00_03. Dataflow Orchestration 본문

Big Data/Engineering

00_03. Dataflow Orchestration

_핀아_ 2023. 5. 11. 14:57

Orchestration이란?

오케스트라처럼 데이터 테스크를 지휘하는 느낌

  1. 테스크 스케줄링
  2. 분산 실행
  3. 테스트간 의존성 관리

Orchestration은 왜 필요한가?

  1. 서비스가 커지면서 데이터 플랫폼의 복잡도가 커짐
  2. 데이터가 사용자와 직접 연관되는 경우가 늘어남 (워크플로우가 망가지면 서비스도 망가짐)
  3. 테스크 하나하나가 중요해짐
  4. 테스크간 의존성도 생김

오케스트레이션 없이 문제가 생겼을 때

오케스트레이션이 있었다면?

=> 실 서비스에선 데이터 테스크가 생각보다 더 복잡하게 얽히게 된다.

이때, 오케스트레이션을 도와주는 대표적인 툴이 바로 Apache Airflow이다.

 

💥 추후 Airflow를 메인으로 다루면서 자세한 내용을 설명하겠다

'Big Data > Engineering' 카테고리의 다른 글

[Hadoop] 하둡(Hadoop) 이론  (1) 2023.05.11
00_04. 프로젝트 INTRO  (1) 2023.05.11
00_02. Batch & Stream Processing  (0) 2023.05.09
00_01. 데이터 엔지니어링에 대하여  (0) 2023.05.08
[Hadoop] hadoop failover 테스트  (0) 2023.05.04
Comments