타이타닉 3

의사결정트리 시각화

1. 아이리스 데이터 (파이썬) # 데이터 불러오기 / 데이터 정보 확인 import pandas as pd iris = pd.read_csv("C:/data/iris.csv") iris.info() iris.head() # 목표변수와 나머지 변수들을 따로 저장 x = iris.iloc[:,0:4] y = iris.iloc[:,4] # 데이터 분포 확인 x.info() # 데이터 프레임 y.value_counts() # 시리즈 # 데이터셋 나누고 라벨 분포 확인 from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.20) from collection..

의사결정트리를 이용한 타이타닉 데이터셋 분석

타이타닉 데이터셋 (titanic.csv) survived : 목표변수, 종속변수, 생존여부(0:사망, 1:생존) pclass : 좌석 등급 name : 탑승객 이름 gender : 성별 age : 나이 sibsp : 함께 탑승한 형제수 parch : 함께 탑승한 부모수 ticket : 티켓 번호 fare : 탑승권 가격 cabin : 선실 번호 embarked : 탑승 승착장 R 로 분석하기 # 데이터 불러오기 및 데이터 정보 확인 titanic

의사결정트리

의사결정트리 지도학습 해석력이 좋다.(현장에서 많이쓰임) : 어떤컬럼을 먼저 바라봐야 분류가 잘되는지 의사결정규칙(decision rule)을 나무구조(tree)로 도표화하여 분류와 예측을 수행하는 분석방법이다. 활용분야 은행대출 : 도산업체 분류 (예측) 과거의 데이터로부터 도산기업과 도산화지 않은 기업을 찾아내는 방법 카드 발급 대상 : 신용불량자 분류 (예측) 통신 : 이탈고객 (해지자, 번호이동) 분류, 새로운 서비스 대상 고객선정 쇼핑 : direct mailing 대상 고객선정 장점 지도학습 (분류, 예측)의 데이터마이닝 기법 규칙의 이해가 쉽다, SQL과 같은 DB언어로 표현 적용결과에 의해 IF-THEN 으로 표현되는 규칙이 생성 해석력이 좋다. 분류알고리즘(R) C5.0 : 엔트로피 지수..

반응형