머신러닝 24

의사결정트리 시각화

1. 아이리스 데이터 (파이썬) # 데이터 불러오기 / 데이터 정보 확인 import pandas as pd iris = pd.read_csv("C:/data/iris.csv") iris.info() iris.head() # 목표변수와 나머지 변수들을 따로 저장 x = iris.iloc[:,0:4] y = iris.iloc[:,4] # 데이터 분포 확인 x.info() # 데이터 프레임 y.value_counts() # 시리즈 # 데이터셋 나누고 라벨 분포 확인 from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.20) from collection..

의사결정트리를 이용한 타이타닉 데이터셋 분석

타이타닉 데이터셋 (titanic.csv) survived : 목표변수, 종속변수, 생존여부(0:사망, 1:생존) pclass : 좌석 등급 name : 탑승객 이름 gender : 성별 age : 나이 sibsp : 함께 탑승한 형제수 parch : 함께 탑승한 부모수 ticket : 티켓 번호 fare : 탑승권 가격 cabin : 선실 번호 embarked : 탑승 승착장 R 로 분석하기 # 데이터 불러오기 및 데이터 정보 확인 titanic

의사결정트리

의사결정트리 지도학습 해석력이 좋다.(현장에서 많이쓰임) : 어떤컬럼을 먼저 바라봐야 분류가 잘되는지 의사결정규칙(decision rule)을 나무구조(tree)로 도표화하여 분류와 예측을 수행하는 분석방법이다. 활용분야 은행대출 : 도산업체 분류 (예측) 과거의 데이터로부터 도산기업과 도산화지 않은 기업을 찾아내는 방법 카드 발급 대상 : 신용불량자 분류 (예측) 통신 : 이탈고객 (해지자, 번호이동) 분류, 새로운 서비스 대상 고객선정 쇼핑 : direct mailing 대상 고객선정 장점 지도학습 (분류, 예측)의 데이터마이닝 기법 규칙의 이해가 쉽다, SQL과 같은 DB언어로 표현 적용결과에 의해 IF-THEN 으로 표현되는 규칙이 생성 해석력이 좋다. 분류알고리즘(R) C5.0 : 엔트로피 지수..

NLTK 자연어 처리 패키지 사용

1. nltk.NaiveBayesClassifier + show_most_informative_features() # nltk 패키지 다운 (오래 걸리니까 punkt만 다운) # 필요한 라이브러리 불러오기 nltk.download('punkt') import nltk from nltk.tokenize import word_tokenize from konlpy.tag import Okt pos_tagger = Okt() # train 데이터셋 train = [('홍길동은 좋아', '긍정'), ('강아지는 무지 좋아', '긍정'), ('수업이 재미없어', '부정'), ('홍길동은 이쁜 강아지야', '긍정'), ('난 수업 마치고 홍길동이랑 놀거야', '긍정'), ('오늘 하루는 너무 짜증스러운 날이야', '..

베르누이 나이브베이즈

베르누이 나이브베이즈 데이터의 특징이 0또는 1로 표현하는 경우 사용된다. 1. 단어 정제 안함 # 필요한 라이브러리 불러오기 import pandas as pd import numpy as np from collections import Counter from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score, classification_report # 데이터 불러오기 / 구조 확인 data = pd.read_csv("C:/data/bulletin_board.txt",header=None, encodi..

나이브베이즈(Naive Bayes) 분류

나이브베이즈(Naive Bayes) 데이터를 나이브하게 독립적인 사건으로 가정하고 이 독립사건을 베이즈이론에 대입시켜 가장 높은 확률의 레이블로 분류를 실행하는 알고리즘이다. 사전확률 정보를 이용하여 사후확률을 예측하는 이론 패턴분석에 주로 사용됨 P(A|B) : 어떤 사건 B가 일어났을때 사건 A가 일어날 확률 P(B|A) : 어떤 사건 A가 일어났을때 사건 B가 일어날 확률 P(A) : 어떤 사건 A가 일어날 확률 P(B) : 어떤 사건 B가 일어날 확률 P(B|A) = P(A∩B) / P(A) = P(A|B) * P(B) / P(A) P(A∩B) = P(A|B) * P(B) P(B∩A) = P(B|A) * P(A) 예) ADsP - 빈도 YES NO TOTAL 합격 33 19 62 불합격 26 12..

사건과 확률

사건 관측치나 데이터가 특정 조건을 만족시키는 상황 로또 1등에 당첨될 사건 너구리에 다시마가 2개 나올 사건 한화 이글스가 KBO 1위할 사건 확률 경험 혹은 실험결과로 특정한 사건이나 결과가 발생할 가능성을 말한다. 관심있는 사건이 발생할 가능성을 0 ~ 1사이 숫자로 표현한 값 번개에 맞을 확률? 0.0002 확률의 종류 1. 한계확률, 주변확률 아무런 조건이 없는 상태에서 A라는 사건이 발생할 확률 행과 열의 합을 빈도 전체합으로 나누면 한계확률을 구할 수 있다. P(A) 예) 30일중 하루를 뽑았을때 맑은 날일 확률은? 15/30 맑음 흐림 비 눈 행의 합 한계확률 서울 8 3 5 2 18 18/30 천안 7 3 1 1 12 12/30 열의 합 15 6 6 3 30 한계확률 15/30 6/30 ..

머신러닝 - feature scaling

feature scaling 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 비교해야할 데이터의 기준이 서로 다른 경우에 같은 기준으로 만들어서 비교한다. 방법 : 표준화(standardization), 정규화(Normalization) 값이 잘 안나오면 두개를 각각 해본다. 표준화 (standardization) 데이터의 평균이 0이고 표준편차가 1인 정규분포를 가진 값으로 변환한다. (x - 평균) / 표준편차 파이썬 : sklearn.preprocessing.StandardScaler 정규화 (Normalization) 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 작업 최소 0 ~ 최대 1의 값으로 변환한다. (x - min(x)) / (max(x) - min(x)) 파이썬 :..

반응형