목록데이터 엔지니어링 (2)
핀아의 저장소 ( •̀ ω •́ )✧

진행하였던 간단한 데이터 엔지니어링 프로젝트를 소개하고자 한다. 배치 파이프라인과 스트림 파이프라인을 동시에 사용하는 ML 데이터 학습 + 서빙 파이프라인 배치 파이프라인 스트림 파이프라인 배치+스트림 파이프라인 사용할 데이터 TLC Trip Record Data 10+년 이상의 택시와 모빌리티 서비스 기록 2009년부터 2021년까지 모든 기록이 공개 매년 20GB씩 쌓이는 Dataset 승차와 하차 시간과 장소, 소요시간, 택시비와 같이 중요한 데이터를 포함
Big Data/Engineering
2023. 5. 11. 15:21

Garbage In Garbage Out 복잡한 데이터 모델을 만드는 것보단 좋은 데이터를 모으고 잘 관리하는 것이 훨씬 효율적으로 성과 내는 방법이라는 의미에서 사용하는 문구이다. 데이터는 앞으로 늘어나는 만큼 데이터 공부를 시작하게 됐다. 데이터 관리의 변천사 과거에는 컴퓨팅 파워와 용량이 비쌌으며, 용도가 정해져 있었다. 따라서 데이터 관리 방식 또한 1. 데이터의 형식 즉, 스키마를 만듦 2. 데이터 변동이 별로 없음 3. 효율적인 데이터베이스 모델링이 중요하였다. 하지만, 데이터로 할 수 있는 일이 다양해지고 형태를 예측하기 불가능해지면서 스키마를 정의하기 힘들어졌다. 실시간성을 요구하는 기능들 빨라지는 기능 추가 실시간 로그 비정형 데이터 서드 파티 데이터 뿐만 아니라 컴퓨팅 파워도 많이 저렴..
Big Data/Engineering
2023. 5. 8. 19:06