Decision Tree
- 스케일링이란 Feature_importance를 100으로 나눈 값.
- 정규화되어있다는 것은 이 스케일링 값을 모두 더했을 때 1이 된다는 것.
본격적인 내용>>
Bias - Variance Tradeoff
- Bias : Underfitting , 학습이 많이 진행이 되지 않음
- Variance : Overfitting, 학습이 너무 많이 진행되어 너무 예민함
- 이 두 개념은 서로 반대로 움직인다.
- Bagging(Random Forest)는 Variance를 감소시켜준다.
Random Forest
- Confusion Matrix(오차행렬)
- 모델이 얼마나 혼동을 가지고 결과를 예측했는지의 여부를 단적으로 보여줌
- y축이 정답, x축이 제출한답.
- 대각선 방향이 Accuracy(모델이 얼마나 바르게 분류했는가.)
- Accuracy, Precision, Recall 값이 모두 클수록 더 정확하다.
- Accuracy(정확도) : 얼마나 잘 맞췄는가
- Precision(정밀도) : 모델이 True라고 분류한 것 중 실제로 True인 것의 비율, 모델입장에서 바라본
- Recall(재현율) : 실제 True 인 것 중 모델이 True라고 예측한 것의 비율, 정답입장에서 바라본
- overfitting 되지 않은 공통의 다수결 의견을 모으는 것이 중요
- Decision Tree에서 max_depth, min_sample_split을 사용해 pruning 실시 후 random forest의 하이퍼파라미터를 건드린다.
- 하이퍼파라미터는 n_estimators, max_feature, n_jobs를 주로 조정한다.
- Bagging(Random Forest)는 Variance를 감소시켜준다. 학습시간이 길어진다.
Boosting
- AdaBoost, XGBoost, Gradiant Boost
- 학습시간이 짧아지고 Bias를 감소시켜준다.
- 학습이란 Feature에 대한 중요도를 바꾸는 것이다.
- 고차원적인 모델일수록 하이퍼파라미터가 증가.
- 학습속도 조절이 중요
Linear Regression (경사하강법)
- (Linear) Hypothesis : 기울기와 편향을 잘 선택해야 직선을 잘 그릴 수 있다.
- Cost Function을 사용해 Hypothesis를 증명할 수 있다. 0에 가까우면 정확도가 높다.
- 패널티를 강하게 적용하여 즉, (예측값-실제값)^2를 수행해 값이 더 크게 변동되도록한다.
- 가장 작은 값을 가지는 기울기와 편향을 구하는 것이 Linear Regression의 목적.
'AI' 카테고리의 다른 글
Deep Learning Intro (0) | 2021.05.31 |
---|---|
Linear Regression (0) | 2021.05.28 |
Random Forest (0) | 2021.05.26 |
의사결정 나무 (0) | 2021.05.25 |
Machine Learning (기계 학습) (0) | 2021.05.24 |