의사결정 나무

1. 데이터 전처리

- binning (데이터의 구간화)

- 결측값 처리

2. k-fold validation

전체 학습데이터를 고르게 나누고 나눈 부분을 각각 검증데이터로 한번씩 사용한다. 나눈 부분 수 만큼 학습을

모두 진행 후 각각의 accuracy를 모두 구해 평균을 낸다. 그 평균값을 최종 accuracy로 한다.

3. 검증데이터

- Validation Data

- Test Data

- Inference Data : 경진대회에서의 테스트데이터

4. Decision Tree ( 의사 결정 트리 )

1) 용어

- 노드: 결정트리에서 질문이나 네모 상자를 노드라고 한다.

- Root Node: 맨 위의 노드 (첫 질문)

- Leaf Node: 마지막 노드, 특정 영역 안에 하나의 카테고리만 있으면 완료

2) 오직 직선만 그을 수 있다. SVM의 cost 속성 등이 존재하지 않음

- 순도가 높아지는 방향으로 경계를 결정한다.

- dept는 4를 넘지 않는 것을 권장

3) 가지치기 (Pruning) : 최대 트리로 형성된 결정트리의 특정 노드 밑의 하부 트리를 제거하여 일반화(추상화) 성능을 높힌다.

- min_sample_split : 한 노드가 갖는 데이터의 개수 제한하여 그 개수보다 같거나 적을 경우 더 가르지 않는다.

- min_sample_split 값이 클수록 덜 섬세한 분류가 되고 값이 작을수록 세밀하 분류가 가능하다.

- max_depth: tree의 깊이 제한

4) 엔트로피 : 불순도(해당 범주 안 서로 다른 데이터가 얼마나 섞여 있는가)를 수치적으로 나타낸 척도

- 1에 가까울수록 불순도 최고, 0에 가까울수록 불순도 최저

Random Forest & Linear Regression (0)	2021.05.27
Random Forest (0)	2021.05.26
Machine Learning (기계 학습) (0)	2021.05.24
[python 1차 프로젝트] 후기 (0)	2021.05.18
Numpy 소개 (0)	2021.05.12

호잇호잇한