목록Big Data (43)
핀아의 저장소 ( •̀ ω •́ )✧

💡 학습목표 결정 트리 알고리즘을 사용하여 와인을 분류해 봄 1️⃣ 결정 트리 💡 결정 트리는 예/아니오에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘임. 비교적 예측 과정을 이해하기 쉽고 성능도 뛰어남 어떤 질문을 통해 데이터 훈련세트를 양쪽으로 나눔 사이킷런의 DecisionTreeClassifier 클래스를 사용하여 학습함 학습한 결과는 tree 형태의 그림으로 출력 가능함 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.tree import DecisionTreeClassifier wine = p..

💡 학습목표 1. K-최근접 이웃 알고리즘을 사용해서 다중 분류 수행과 로지스틱 회귀 알고리즘을 사용해서 이진/다중 분류 수행 2. 시그모이드 함수와 소프트맥스 함수의 차이에 대해 학습함 목차 K-최근접 이웃을 사용한 다중 분류 데이터 준비 K-최근접 이웃 분류기의 확률 예측 로지스틱 회귀 로지스틱 회귀 (이진 분류) 로지스틱 회귀 (다중 분류) 점진적인 학습 확률적 경사 하강법 1️⃣ K-최근접 이웃을 사용한 다중 분류 💡 다중 분류란 타깃 데이터에 2개 이상의 클래스가 포함된 문제임 K-최근접 이웃 알고리즘을 사용해서 이웃 클래스의 비율을 확률로 표현해봄 ✅ 데이터 준비 import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv_data') fi..

✅ DataFrame은 관계형 데이터 한마디로 관계형 데이터셋: RDD + Relation RDD가 함수형 API를 가졌다면 DataFrame은 선언형 API 자동으로 최적화가 가능 타입이 없다 -> DataFrame은 내부적으로 타입을 강제하지 않는다. ✅ DataFrame의 특징 DataFrame: RDD의 확장판 지연 실행 (Lazy Execution) 분산 저장 Immutable 열 (Row) 객체가 있다 SQL 쿼리를 실행할 수 있다 스키마를 가질 수 있고 이를 통해 성능을 더욱 최적화 할 수 있다. CSV, JSON, Hive 등으로 읽어오거나 변환이 가능하다. ✅ DataFrame의 스키마를 확인하는 법 dtypes show() 테이블 형태로 데이터를 출력 첫 20개의 열만 보여준다 prin..

sparkSQL의 본격적인 사용 전, 기본적인 SQL 기초를 정리하고 간다. from pyspark.sql import SparkSession spark = SparkSession.builder.master("local").appName("learn-sql").getOrCreate() sparkSQL 사용시 local에 ‘learn-sql’이란 이름으로 spark session 생성 stocks = [ ('Google', 'GOOGL', 'USA', 2984, 'USD'), ('Netflix', 'NFLX', 'USA', 645, 'USD'), ('Amazon', 'AMZN', 'USA', 3518, 'USD'), ('Tesla', 'TSLA', 'USA', 1222, 'USD'), ('Tencent',..

💡 학습 목표 1. 지도 학습 알고리즘 중 하나인 회귀에 대해 학습 2. K-최근접 이웃 회귀와 선형 회귀 그리고 다항 회귀에 대해 학습 3. 다중 회귀에 대해 알아보고 특성 공학에 대해 학습 목차 K-최근접 이웃 회귀 농아 데이터 준비 데이터 분리 K-최근접 이웃 회귀 알고리즘 학습 및 정확도 측정 과대적합 vs 과소적합 선형 회귀 K-최근접 이웃의 한계 선형회귀 알고리즘 다항 회귀 다중 회귀 특성공학 데이터 준비 특성 만들기 다중 회귀 모델 훈련 및 모델 점수 측정 규제 릿지(ridge) 라쏘(lasso) 3️⃣ 다중 회귀 💡 여러 개의 특성을 사용하여 모델을 훈련시킨 선형 회귀를 다종 회귀라 함 ✅ 특성공학 💡 주어진 특성(무게, 길이 등)을 조합하여 새로운 특성을 만드는 일련의 과정 주어진 농어의..

💡 학습 목표 1. 지도 학습 알고리즘 중 하나인 회귀에 대해 학습 2. K-최근접 이웃 회귀와 선형 회귀 그리고 다항 회귀에 대해 학습 3. 다중 회귀에 대해 알아보고 특성 공학에 대해 학습 목차 K-최근접 이웃 회귀 농아 데이터 준비 데이터 분리 K-최근접 이웃 회귀 알고리즘 학습 및 정확도 측정 과대적합 vs 과소적합 선형 회귀 K-최근접 이웃의 한계 선형회귀 알고리즘 다항 회귀 다중 회귀 특성공학 데이터 준비 특성 만들기 다중 회귀 모델 훈련 및 모델 점수 측정 규제 릿지(ridge) 라쏘(lasso) 1️⃣ K-최근접 이웃 회귀 💡 회귀 알고리즘에 대해 알아보고 회귀 알고리즘의 한 종류인 K-최근접 이웃 회귀에 대해 정리하고 농어의 길이만 가지고 무게를 예측해보기 ✨ 회귀란? 지도 학습 알고리즘..