시각화 7

의사결정트리 시각화

1. 아이리스 데이터 (파이썬) # 데이터 불러오기 / 데이터 정보 확인 import pandas as pd iris = pd.read_csv("C:/data/iris.csv") iris.info() iris.head() # 목표변수와 나머지 변수들을 따로 저장 x = iris.iloc[:,0:4] y = iris.iloc[:,4] # 데이터 분포 확인 x.info() # 데이터 프레임 y.value_counts() # 시리즈 # 데이터셋 나누고 라벨 분포 확인 from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.20) from collection..

R - 시각화 ③ box plot, Stem and Leaf Diagram

1. 상자그림 (box plot) 히스토그램은 자료가 모여 있는 위치나 자료의 분포에 관한 대략적인 정보를 한눈에 파악할 수 있는 장점이 있지만 구체적인 수치 정보를 쉽게 알아 볼 수 없는 단점이 있다. 이런 단점을 보안해서 다섯가지 요약 수치 등을 파악할 수 있는 상자그림으로 나타낼 수 있다. 최소값, 제 1사분위수, 중위수, 제 3사분위수, 최대값 흩어져있는 형태는 사분위 범위를 사용하는게 좋다. 범위, 사분위수범위(IQR)는 자료의 산포도를 나타낸다. 산포도는 자료가 얼만큼 흩어져 있는지 알 수 있다. 범위는 자료의 산포도를 간단하게 표현하지만 사분위수범위는 좀더 상세하고 유용한 정보를 제공한다. data

인공지능/R 2020.04.22

R - 시각화 ② scatter plot, histogram

들어가기 전에... # R에서 제공하는 기본 데이터 확인 data() # R에서 제공한 women 데이터 확인 women 1. 삼전도(scatter plot) 주어진 데이터를 점으로 표시해 흩뿌리듯이 시각화한 그래프 데이터의 실제값들이 표시 되므로 데이터의 분포를 한눈에 살펴보는데 유용하다. x-y plotting type p : 점 l : 선 b : 점,선 o : 점위의 선 h : 수직선 s : 계단형 n : 나타나지 않음 lty : 선의 유형 (1~6) 0 : 그리지 않음 1 : 실선(기본값) 2 : 대시 3 : 점 4 : 점과 대시 5 : 긴 대시 6 : 두 개의 대시 lwd : 선의 굵기 pch : 점의 종류 cex : 점의 크기 # 기본 사용법 plot(women) # 컬럼을 지정해서 출력 pl..

인공지능/R 2020.04.21

R - 시각화 ① pie chart, bar graph

1. 원형그래프(pie chart) 질적자료(범주형자료)에 대한 상대도수분포를 나타내기 위해 일반적으로 사용되는 그래프 원을 그린 후 그 원에 각 계급의 상대도수에 대응하는 면적 또는 부분으로 나눈다. 상대도수값을 가지고 시각화 도수 (frequency) : 각 범주에 속하는 관측값의 개수 상대도수(relative frequency) : 도수를 전체 개수로 나눈 비율 # 기본 사용법 labels

인공지능/R 2020.04.20

파이썬(Python) - matplotlib ① pie chart / bar chart / line plot

1. 자료의 시각화 1) 자료 어떠한 가치 판단을 할 수 있는 근거가 되는 재료 문제해결을 위한 원재료로 처리되진 않은 숫자, 문자, 일련의 사실이나 기록들의 모임 2) 양적자료 (Qunatitative Data, 수치형 자료) 수치로 측정이 가능한 자료 테이블 생성할때 숫자로 되어있는거 양적자료이다. 연속형 자료(continuous data) : 실수형 예) commission_pct, 키, 몸무게 이산형 자료(discrete data) 정수형 예) 출생아수, 남학생수, 왼손잡이수 3) 질적자료(Qualitaive Data, 범주형 자료) 수치 측정이 불가능한 자료 자료의 내포하는 의미가 있는 자료 순위형 자료 (ordinal data) : 학점(A+,B,..), 매우좋아, 보통, 아주나쁘다 명목형 자..

반응형