의사결정트리 5

와인품질데이터 - 의사결정트리 / 랜덤 포레스트

와인품질 데이터 컬럼 설명 fixed acidity : 고정 산도 volatile acidity : 휘발성 산도 citric acid : 시트르산 residual sugar : 잔류 설탕 chlorides : 염화물 free sulfur dioxide : 자유 이산화황 total sulfur dioxide : 총 이산화황 density : 밀도 pH : pH sulphates : 황산염 alcohol : 알코올 quality : 품질 # 종속변수 1. 의사결정트리 (파이썬) # 라이브러리 및 데이터 불러오기 import pandas as pd wine = pd.read_csv("C:/data/whitewines.csv") wine.info() # 종속변수 / 입력변수 나누기 x = wine.iloc[:,..

앙상블(Ensemble), 랜덤 포레스트(Random Forest)

앙상블 (Ensemble) 어려운 문제의 결론을 내기 위해 여러명의 전문가로 위원회를 구성해 다양한 의견을 수렴하고 결정하듯이 앙상블 학습의 목표는 다양한 분류기의 예측 결과를 결합함으로써 단일분류기보다 신뢰성이 높은 예측값을 얻는다. 문제를 해결하기위해 전문가들을 모으는것 voting : 서로 다른 알고리즘으로 결과를 낸뒤 다수결로 정하는것 bagging : 의사결정트리를 가지고 하되 트레인데이터의 표본을 뽑아낼때 중복으로 뽑아냄 하나의 알고리즘으로하되 데이터가 랜덤하게 뽑아냄(중복될 수 있음) 랜덤 포레스트(RandomForest) decesion tree와 bagging을 결합한 알고리즘 매실행시마다 랜덤하게 관측치와 변수를 선택하므로 실행결과가 조금씩 달라지게된다. (변수를 바꿔가면서 실행한다.)..

의사결정트리 시각화

1. 아이리스 데이터 (파이썬) # 데이터 불러오기 / 데이터 정보 확인 import pandas as pd iris = pd.read_csv("C:/data/iris.csv") iris.info() iris.head() # 목표변수와 나머지 변수들을 따로 저장 x = iris.iloc[:,0:4] y = iris.iloc[:,4] # 데이터 분포 확인 x.info() # 데이터 프레임 y.value_counts() # 시리즈 # 데이터셋 나누고 라벨 분포 확인 from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.20) from collection..

의사결정트리를 이용한 타이타닉 데이터셋 분석

타이타닉 데이터셋 (titanic.csv) survived : 목표변수, 종속변수, 생존여부(0:사망, 1:생존) pclass : 좌석 등급 name : 탑승객 이름 gender : 성별 age : 나이 sibsp : 함께 탑승한 형제수 parch : 함께 탑승한 부모수 ticket : 티켓 번호 fare : 탑승권 가격 cabin : 선실 번호 embarked : 탑승 승착장 R 로 분석하기 # 데이터 불러오기 및 데이터 정보 확인 titanic

의사결정트리

의사결정트리 지도학습 해석력이 좋다.(현장에서 많이쓰임) : 어떤컬럼을 먼저 바라봐야 분류가 잘되는지 의사결정규칙(decision rule)을 나무구조(tree)로 도표화하여 분류와 예측을 수행하는 분석방법이다. 활용분야 은행대출 : 도산업체 분류 (예측) 과거의 데이터로부터 도산기업과 도산화지 않은 기업을 찾아내는 방법 카드 발급 대상 : 신용불량자 분류 (예측) 통신 : 이탈고객 (해지자, 번호이동) 분류, 새로운 서비스 대상 고객선정 쇼핑 : direct mailing 대상 고객선정 장점 지도학습 (분류, 예측)의 데이터마이닝 기법 규칙의 이해가 쉽다, SQL과 같은 DB언어로 표현 적용결과에 의해 IF-THEN 으로 표현되는 규칙이 생성 해석력이 좋다. 분류알고리즘(R) C5.0 : 엔트로피 지수..

반응형