목록Big Data (43)
핀아의 저장소 ( •̀ ω •́ )✧

Hadoop이란? 분산환경에서 빅데이터를 저장하고 처리할 수 있는 자바 기반의 오픈 소스 프레임워크로 하둡 소프트웨어 라이브러리는 간단한 프로그래밍 모델을 사용하여 여러대의 컴퓨터 클러스터에 대규모 데이터세트를 분산 처리할 수 있게 해주는 프레임워크 일반적으로 하둡파일시스템(HDFS)과 맵리듀스(MapReduce)프레임워크로 시작되었으나, 여러 데이터 저장, 실행 엔진, 프로그래밍 및 데이터 처리와 같은 Hadoop Ecosystem 전반을 포함하는 의미로 확장 및 발전 됐다. ✅ 구성요소 하둡 코어 프로젝트 : HDFS(분산 데이터 저장), MapReduce(분산 처리) 하둡 서브 프로젝트 : 데이터 마이닝, 수집, 분석 등 수행하는 프로젝트들 1️⃣ 하둡 분산형 파일 시스템(Hadoop Distrib..

진행하였던 간단한 데이터 엔지니어링 프로젝트를 소개하고자 한다. 배치 파이프라인과 스트림 파이프라인을 동시에 사용하는 ML 데이터 학습 + 서빙 파이프라인 배치 파이프라인 스트림 파이프라인 배치+스트림 파이프라인 사용할 데이터 TLC Trip Record Data 10+년 이상의 택시와 모빌리티 서비스 기록 2009년부터 2021년까지 모든 기록이 공개 매년 20GB씩 쌓이는 Dataset 승차와 하차 시간과 장소, 소요시간, 택시비와 같이 중요한 데이터를 포함

Orchestration이란? 오케스트라처럼 데이터 테스크를 지휘하는 느낌 테스크 스케줄링 분산 실행 테스트간 의존성 관리 Orchestration은 왜 필요한가? 서비스가 커지면서 데이터 플랫폼의 복잡도가 커짐 데이터가 사용자와 직접 연관되는 경우가 늘어남 (워크플로우가 망가지면 서비스도 망가짐) 테스크 하나하나가 중요해짐 테스크간 의존성도 생김 오케스트레이션 없이 문제가 생겼을 때 오케스트레이션이 있었다면? => 실 서비스에선 데이터 테스크가 생각보다 더 복잡하게 얽히게 된다. 이때, 오케스트레이션을 도와주는 대표적인 툴이 바로 Apache Airflow이다. 💥 추후 Airflow를 메인으로 다루면서 자세한 내용을 설명하겠다

배치 프로세싱이란?? 배치 (Batch) == 일괄 배치 프로세싱 (Batch Processing) == 일괄 처리 많은 양의 데이터를 정해진 시간에 한꺼번에 처리하는 것 한정된 대량의 데이터 특정 시간 일괄 처리 ✅ 배치 프로세싱은 언제 쓸까?? 실시간성을 보장하지 않아도 될 때 데이터를 한꺼번에 처리할 수 있을때 무거운 처리를 할때 (ex. ML 학습) ✅ 배치 프로세싱 예시 매일 다음 14일의 수요와 공급을 예측 매주 사이트에서 관심을 보인 유저들에게 마케팅 이메일 전송 매주 발행하는 뉴스레터 매주 새로운 데이터로 머신러닝 알고리즘 학습 매일 아침 웹 스크래핑/크롤링 매달 월급 지급 스트림 프로세싱이란?? 실시간으로 쏟아지는 데이터를 처리하는 것 ✅ 스트림 프로세싱은 언제 쓸까?? 실시간성을 보장해..

Garbage In Garbage Out 복잡한 데이터 모델을 만드는 것보단 좋은 데이터를 모으고 잘 관리하는 것이 훨씬 효율적으로 성과 내는 방법이라는 의미에서 사용하는 문구이다. 데이터는 앞으로 늘어나는 만큼 데이터 공부를 시작하게 됐다. 데이터 관리의 변천사 과거에는 컴퓨팅 파워와 용량이 비쌌으며, 용도가 정해져 있었다. 따라서 데이터 관리 방식 또한 1. 데이터의 형식 즉, 스키마를 만듦 2. 데이터 변동이 별로 없음 3. 효율적인 데이터베이스 모델링이 중요하였다. 하지만, 데이터로 할 수 있는 일이 다양해지고 형태를 예측하기 불가능해지면서 스키마를 정의하기 힘들어졌다. 실시간성을 요구하는 기능들 빨라지는 기능 추가 실시간 로그 비정형 데이터 서드 파티 데이터 뿐만 아니라 컴퓨팅 파워도 많이 저렴..

https://mydb-lib.tistory.com/entry/Hadoop-Hadoop-HDFS-%EC%84%A4%EC%B9%98-2 [Hadoop] Hadoop HDFS 설치 - 2 https://mydb-lib.tistory.com/entry/Hadoop-Hadoop-HDFS-%EC%84%A4%EC%B9%98-1 [Hadoop] Hadoop HDFS 설치 - 1 앞서 만든 가상환경에 설치해주면 된다!!!! HDFS(Hadoop Distributed File System) 는 수십 테라 또는 페타바이트 이상의 대 mydb-lib.tistory.com 설치 완료 후 제대로 설치가 된것인지 테스트 진행 HDFS(Hadoop Distributed File System) 는 수십 테라 또는 페타바이트 이상의 ..