1. 데이터 전처리
- binning (데이터의 구간화)
- 결측값 처리
2. k-fold validation
전체 학습데이터를 고르게 나누고 나눈 부분을 각각 검증데이터로 한번씩 사용한다. 나눈 부분 수 만큼 학습을
모두 진행 후 각각의 accuracy를 모두 구해 평균을 낸다. 그 평균값을 최종 accuracy로 한다.
3. 검증데이터
- Validation Data
- Test Data
- Inference Data : 경진대회에서의 테스트데이터
4. Decision Tree ( 의사 결정 트리 )
1) 용어
- 노드: 결정트리에서 질문이나 네모 상자를 노드라고 한다.
- Root Node: 맨 위의 노드 (첫 질문)
- Leaf Node: 마지막 노드, 특정 영역 안에 하나의 카테고리만 있으면 완료
2) 오직 직선만 그을 수 있다. SVM의 cost 속성 등이 존재하지 않음
- 순도가 높아지는 방향으로 경계를 결정한다.
- dept는 4를 넘지 않는 것을 권장
3) 가지치기 (Pruning) : 최대 트리로 형성된 결정트리의 특정 노드 밑의 하부 트리를 제거하여 일반화(추상화) 성능을 높힌다.
- min_sample_split : 한 노드가 갖는 데이터의 개수 제한하여 그 개수보다 같거나 적을 경우 더 가르지 않는다.
- min_sample_split 값이 클수록 덜 섬세한 분류가 되고 값이 작을수록 세밀하 분류가 가능하다.
- max_depth: tree의 깊이 제한
4) 엔트로피 : 불순도(해당 범주 안 서로 다른 데이터가 얼마나 섞여 있는가)를 수치적으로 나타낸 척도
- 1에 가까울수록 불순도 최고, 0에 가까울수록 불순도 최저
'AI' 카테고리의 다른 글
Random Forest & Linear Regression (0) | 2021.05.27 |
---|---|
Random Forest (0) | 2021.05.26 |
Machine Learning (기계 학습) (0) | 2021.05.24 |
[python 1차 프로젝트] 후기 (0) | 2021.05.18 |
Numpy 소개 (0) | 2021.05.12 |