목록Big Data (43)
핀아의 저장소 ( •̀ ω •́ )✧

💡 학습 목표 1. 지도 학습과 비지도 학습의 차이점 비교 2. 훈련 세트와 테스트 세트의 정의 3, 샘플링 편항 및 해결 방안 4. 데이터 전처리의 필요성 목차 지도 학습 vs 비지도 학습 훈련 세트와 테스트 세트 샘플링 편향 샘플링 편향 문제 해결하기 데이터 전처리 1️⃣ 지도 학습 vs 비지도 학습 머신러닝 알고리즘은 크게 지도 학습과 비지도 학습으로 나눌 수 있음 ✅ 지도 학습 (supervised learning) 지도 학습 알고리즘은 훈련 데이터(training data)가 필수로 필요함. 일반적으로 지도 학습에서 데이터는 입력(input), 정답은 타깃(target)이라 표현하며 이 둘을 합쳐 훈련 데이터(training data)라 부름 지도 학습은 정답이 있으니 알고리즘이 정답을 맞히는 ..

💡 학습 목표 1. 인공지능, 머신러닝, 딥러닝의 차이점 이해하기 2. 구글 코랩, 주피터 노트북 사용법 배우기 3. 머신러닝 알고리즘(K-최근접 이웃 알고리즘) 구현하기 목차 인공지능 vs 머신러닝 vs 딥러닝 차이점 구글 코랩 머신러닝 알고리즘 K-최근접 이웃 알고리즘을 사용하여 생선 데이터 이진 분류 모델 학습 1️⃣ 인공지능 vs 머신러닝 vs 딥러닝 차이점 ✅ 인공지능 인공지능이란 사람처럼 학습하고 추론할 수 있는 지능을 가진 시스템을 만드는 기술 인공지능의 종류로는 강인공지능과 약인공지능으로 나눌수 있음 강인공지능이란 인공일반지능이라고 불리며 사람과 구분하기 어려운 지능을 가진 컴퓨터를 의미함 약인공지능이란 음성 비서, 자율 주행, 음악 추천, 기계 번역 등 특정 분야에서 사람의 일을 도와주는..

1️⃣ SparkSQL ✅ 목적 스파크 프로그래밍 내부에서 관계형 처리를 하기 위해 스키마의 정보를 이용해 자동으로 최적화를 하기 위해 외부 데이터셋을 사용하기 쉽게 하기 위해 => 스파크를 좀 더 간결하고, 쉽게 쓰고, 최적화도 자동으로 되기 위해 ✅ 소개 스파크 위에 구현된 하나의 패키지 3개의 주요 API SQL DataFrame Datasets 2개의 백엔드 컴포넌트: 성능 최적화 Catalyst - 쿼리 최적화 엔진 Tungsten - 시리얼라이저, 용량을 최적화 2️⃣ DataFrame Spark Core에 RDD가 있다면 Spark SQL엔 DataFrame이 있다. DataFrame은 테이블 데이터셋이라고 보면 된다. 개념적으론 RDD에 스키마가 적용된 것으로 보면 된다. RDD에 적용된 ..

Unstructured Semi Structured Structured ✅ 데이터를 합치고 추출 하기 Q. 미국의 $2000불 이상의 주식만 가져올 때, 가능한 방법은???? # CASE 1: join 먼저, filter 나중에 tickerPrice = tickers.join(prices) tickerPrice.filter(lambda x: x[1][0][2] == "USA" and x[1][1][0] > 2000).collect() # CASE 2: filter 먼저, join 나중에 filteredTicker = tickers.filter(lambda x: x[1][2] == "USA") filteredPrice = prices.filter(lambda x: x[1][0] > 2000) filtere..

Shuffling 그룹핑시 데이터를 한 노드에서 다른 노드로 옮길 때 사용한다. 성능을 (많이) 저하시킨다. ✅ groupByKey를 할 때도 발생하는 Shuffling key를 기준으로 연산을 하며, 데이터가 이리저리 섞이기 때문에 통신을 많이 하게 된다. 여러 네트워크 연산을 일으키기 때문에 연산 코스트가 큰 연산이다. ✅ 통신 속도 ✅ Shuffle을 일으킬 수 있는 작업들 Join, leftOuterJoin, rightOuterJoin GroupByKey ReduceByKey ComebineByKey Distinct Intersection Repartition Coalesce → 위의 함수들이 결과로 나온 RDD를 원본 RDD의 다른 요소를 참조하거나, 다른 RDD를 참조하여 Shuffle을 일으..

Key-Value RDD에 적용할 수 있는 Transformation & Actions ✅ Transformation groupByKey reduceByKey mapValues keys join (+ leftOuterJoin, rightOuterJoin) ✅ Actions countByKey 1️⃣ groupByKey groupBy를 하게되면 rdd 내의 값이 주어지는 함수를 기준으로 그룹핑이 되어 나눠진다. groupByKey를 하면 무엇을 기준으로 할지(키를 기준으로 그룹핑함) 명확해서 함수를 따로 넣어주지 않아도 된다. [groupBy 예제] [groupByKey 예제] groupByKey() 매개변수를 넣어주면 파티션 개수를 정할 수 있다. 2️⃣ reduceByKey 개념적으로는 groupByK..