devskim blog

Search

📉

머신러닝 개념 정리

sections

머신러닝&딥러닝

Tags

MachineLearning

Created

Jan 7, 2023 02:01 PM

Last Updated

Jul 30, 2023 09:49 AM

용어정리 표 정리

용어정리

AI

사람이 만든 예측모델
머신러닝, 딥러닝

머신러닝

회귀(Regression)와 분류(Classification)
Train, Test, Validation
모델링

목적 : 일반화된 모델을 만드는 것
학습에 사용되지 않은 데이터에서도 비슷한 성능

함수형 - 경사하강법

접선의 기울기 or 편미분값

선형회귀(Linear Regression)

y가 숫자
단순회귀 (Simple Regression), 다항회귀 (Polynomial Regression), 다중회귀 (Mutiple Regression)
함수 및 평가는 MSE(Mean Squared Error)

MSE 작으면 데이터의 분포와 특징을 설명한다
Capacity : 데이터에 대한 설명력
파라미터 업데이트

상관계수를 활용한 EDA
인코딩 - LabelEncoding, OneHotEncoding
스케일링 - MinMaxScaler, StandardScaler

로지스틱회귀 (Rogistic Regression)

y가 문자
이진분류 (Binary Classification)
함수는 시그모이드(Sigmoid)
손실함수는 크로스엔트로피(Cross Entropy)

실제값과 예측값의 확률을 곱하여 엔트로피 계산
엔트로피 = 불확실성의 척도

평가는 정확도, 정밀도, 재현율, R1스코어

의사결정나무 (Decision Tree)

y가 숫자 혹은 문자
학습의 기준

기본은 Gini Impurity Index (vs Cross Entropy)
분류-불순도(Impurity)

분산이 제일 작은 것으로 rule을 정함
엔트로피가 0이 될때까지 rule이 생성됨

예측-분산

불순도가 제일 낮은 것으로 rule을 정함

rule이 많아질 수록 capacity가 높아짐
오버피팅(train 데이터에만 최적화됨, 과대적합) 이슈가 크다
정확도, 정밀도, 재현율과 비교를 통해서 적절한 크기의 의사결정나무 계산
하이퍼파라미터 튜닝이 중요함
feature Importance (기여도)

랜덤 포레스트

행 : n_estimators / 열 : max_features
병렬처리

AdaBoosting Model (에이다 부스팅)

오답노트를 활용한 가중치
모델을 만든 후에 다 합침

Gradinet Boosting Model

Gradient는 오차를 의미
오차를 다음번에 맞추게끔
하나의 모델이 계속 업데이트되어 나옴

표 정리

지도 학습	비지도 학습
회귀(수치예측)와 분류(범주예측)	군집, 차원축소
선형회귀, 로지스틱회귀, 의사결정나무, 랜덤포레스트…	K-평균 군집(K-means), 주성분분석(PCA)
train, test, validation data (레이블 있는 데이터)	레이블 없는 데이터

LinearRegression	LogisticRegression	DecisionTree	RandomForest
함수형 머신	함수형 머신	트리형 머신 (오버피팅 이슈 → 가지치기)	앙상블 기법 (병렬 처리)
회귀 문제 (y가 숫자)	분류 문제 (y가 문자)	회귀, 분류	회귀, 분류
y = wx + b (파라미터 업데이트)	시그모이드 함수 (파라미터 업데이트)	rule 추가 (하이퍼파라미터 튜닝)	다양성(n_estimators), 임의성(max_features) 증가 - GridSearchCV
MSE (경사하강법)	크로스엔트로피	지니 불순도 계수, 분산	ㅤ
MSE, R2 Score	Precision, Recall, F1 Score	회귀, 분류에 따라 결정됨	회귀, 분류에 따라 결정됨
sklearn.linear_model	sklearn.linear_model	sklearn.tree	sklearn.ensemble

AdaBoosting	GradientBoost	LightBGM	XGBoost	KNeighbors
앙상블 기법	앙상블 기법 (Gradient는 오차 의미)	앙상블 기법	앙상블 기법	이웃한 데이터 분류
이전 모델의 잘못 분류된 모델의 가중치 조정 (다수의 모델 생성 이후 합침)	이전 모델의 오차 사용하여 학습 (같은 모델이 계속 업데이트)	경량화 기법	강력한 병렬 처리, 욕심쟁이 알고리즘, Early Stopping	최근접 이웃의 개수
sklearn.ensemble	sklearn.ensemble	lightgbm	xgboost	sklearn.neighbors

PREVRegression 코드 정리

NEXTOne Hot Encoding