핀아의 저장소 ( •̀ ω •́ )✧
00_03. Dataflow Orchestration 본문
Orchestration이란?
오케스트라처럼 데이터 테스크를 지휘하는 느낌
- 테스크 스케줄링
- 분산 실행
- 테스트간 의존성 관리
Orchestration은 왜 필요한가?
- 서비스가 커지면서 데이터 플랫폼의 복잡도가 커짐
- 데이터가 사용자와 직접 연관되는 경우가 늘어남 (워크플로우가 망가지면 서비스도 망가짐)
- 테스크 하나하나가 중요해짐
- 테스크간 의존성도 생김
오케스트레이션 없이 문제가 생겼을 때
오케스트레이션이 있었다면?
=> 실 서비스에선 데이터 테스크가 생각보다 더 복잡하게 얽히게 된다.
이때, 오케스트레이션을 도와주는 대표적인 툴이 바로 Apache Airflow이다.
💥 추후 Airflow를 메인으로 다루면서 자세한 내용을 설명하겠다
'Big Data > Engineering' 카테고리의 다른 글
[Hadoop] 하둡(Hadoop) 이론 (1) | 2023.05.11 |
---|---|
00_04. 프로젝트 INTRO (1) | 2023.05.11 |
00_02. Batch & Stream Processing (0) | 2023.05.09 |
00_01. 데이터 엔지니어링에 대하여 (0) | 2023.05.08 |
[Hadoop] hadoop failover 테스트 (0) | 2023.05.04 |
Comments