본문 바로가기

AI

Random Forest Decision Tree 계층이 내려갈수록 불순도(gini계수, 엔트로피로 나타냄)가 낮아진다. 데이터를 직선으로만 나누기 때문에 무조건 overfitting이 발생한다. 따라서 일반성 확보가 필요 일반성을 확보하기 위해: Full Node만들고 가지치기(Pruning - min\_sample\_split, max\_depth) 실행 트리의 특성 중요도: 트리를 구성하는데 얼마나 중요한 속성인가를 평가하는 값. - 0과 1 사이의 값으로 전체 특성 중요도의 합은 1 - tree.feature_importances_ 차원(feature, 속성)이 크다면 데이터도 많아야한다. 단점: 데이터를 비선형(곡선)으로 나눌 수 없다. 즉, 데이터를 유동적으로 해석할 수 없다. 데이터의 일반화가 어려움. Trainin.. 더보기
의사결정 나무 1. 데이터 전처리 - binning (데이터의 구간화) - 결측값 처리 2. k-fold validation 전체 학습데이터를 고르게 나누고 나눈 부분을 각각 검증데이터로 한번씩 사용한다. 나눈 부분 수 만큼 학습을 모두 진행 후 각각의 accuracy를 모두 구해 평균을 낸다. 그 평균값을 최종 accuracy로 한다. 3. 검증데이터 - Validation Data - Test Data - Inference Data : 경진대회에서의 테스트데이터 4. Decision Tree ( 의사 결정 트리 ) 1) 용어 - 노드: 결정트리에서 질문이나 네모 상자를 노드라고 한다. - Root Node: 맨 위의 노드 (첫 질문) - Leaf Node: 마지막 노드, 특정 영역 안에 하나의 카테고리만 있으면 완.. 더보기
Machine Learning (기계 학습) 1. 개념 2. 용어 속성 (특징, Feature, x) 정답 (Label, Target, y) 모델 3. 학습 방법 - 지도 학습 ( SVM, classification - Decision Tree, 앙상블기법- Random Forest, Boosting, Linear) - 비지도학습 (Clustering, 추천 협업 System) - 강화학습 성능평가 -------------------------------------------------------------------------------------------------------------- AI >> Machine Learning >> Deep Learning 1) 머신 러닝이란? - E : experience, T: task, P: perfo.. 더보기
[python 1차 프로젝트] 후기 20210517-20210518 이틀 간 JupyterNotebook을 활용한 데이터 분석을 위한 1차 프로젝트를 마쳤다. 바로 다음 2차 프로젝트 시 참고할 내용을 적어두었다. 1. 상관계수 상관계수를 확인 후 필요 없다고 확신되는 데이터를 제외하여 분석한다. 2. 시각화 분석 중간에 간단한 시각화를 통하여 중간 점검이 필요하다. 3. 스토리텔링 데이터 분석을 위한 스토리텔링이 매우 중요하다. 가설 설정 후 외부 데이터 등 추가적으로 필요하다고 여겨지는 데이터를 더해주도록한다. 4. 함수정의 시도하기 5. 중간중간 나오는 결과 statement 잘 정리하여 적어두기. 더보기
Numpy 소개 데이터 분석 프로세스 데이터 받아올 때 크롤링 :: BeautifulSoup 다운로드 데이터 전처리(Merge / Transform) Numpy Pandas (Series, DataFrame) 시각화 :: 결과물 Matplot Seaborn Numpy Numeric Python의 약자, 수학 분야 관련 통계 연산 작업 시 사용, 과학 계산 컴퓨팅 및 데이터 분석에 필요한 기본적 패키지 Numpy 배열은 리스트와 거의 흡사하지만 더 빠르고 메모리 효율성 높아 성능적으로 우의를 차지 Numpy 배열 만드는 법 array() 사용 random 모듈의 랜덤함수 사용 더보기
JupyterNoteBook을 활용한 Python_03 Tuple - 데이터 조작 불가능 Immutable¶ 튜플은 몇가지 점을 제외하고 거의 리스트와 비슷 다른 점은 - 리스트는 [] 값을 둘러싸지만 튜플은 ()를 사용 - 리스트는 값을 추가, 삭제, 수정.. 즉 변경 가능 튜플은 한 번 생성된 값을 수정할 수 없음 - 만약 튜플로 만들어진 값을 조작하고 싶다면 리스트로 형을 변환시키 후 변경 가능. list(t) 1. 튜플 생성하기¶ In [11]: t1 = (1,2,3,4) t2 = (4,5,6) t1 t2 #중요 t3 =(1) #값이 한 개.. t4 = (1,) #값이 하나 일 경우에도 쉼표를 붙여서 처리해야 튜플로 인식 print(type(t3)) t4 Out[11]: (1,) 튜플을 사용하는 경우¶ 프로그램이 실행되는 동안 그 값이 항상 변경되지 .. 더보기
JupyterNoteBook을 활용한 Python_01 변수와 데이터 타입¶ 파이썬에서의 데이터 타입들 int - 정수 float - 실수 bool - False, True str - 문자열 list - 리스트, 순서가 있는 값들의 집합 [ ], 값은 변경 가능 tuple - 튜플, 순서가 있는 값들의 집합 ( ), 값은 변경 불가 set - 순서 없고 중복 안되는 값들의 집합, { } dic - 키와 값이 쌍으로 저장되는 값들의 집합, {'key': value} In [6]: a = 3 b = 3.5 c = 'Hello' d = "Hello" print(a) print(b) print(c) print(d) print('*'+'*') #문자열 + : 더해진다. print('*' * 30) #문자열 연산.. 더보기