반응형

컴퓨터 122

R - 시각화 ③ box plot, Stem and Leaf Diagram

1. 상자그림 (box plot) 히스토그램은 자료가 모여 있는 위치나 자료의 분포에 관한 대략적인 정보를 한눈에 파악할 수 있는 장점이 있지만 구체적인 수치 정보를 쉽게 알아 볼 수 없는 단점이 있다. 이런 단점을 보안해서 다섯가지 요약 수치 등을 파악할 수 있는 상자그림으로 나타낼 수 있다. 최소값, 제 1사분위수, 중위수, 제 3사분위수, 최대값 흩어져있는 형태는 사분위 범위를 사용하는게 좋다. 범위, 사분위수범위(IQR)는 자료의 산포도를 나타낸다. 산포도는 자료가 얼만큼 흩어져 있는지 알 수 있다. 범위는 자료의 산포도를 간단하게 표현하지만 사분위수범위는 좀더 상세하고 유용한 정보를 제공한다. data

컴퓨터/R 2020.04.22

R - 시각화 ② scatter plot, histogram

들어가기 전에... # R에서 제공하는 기본 데이터 확인 data() # R에서 제공한 women 데이터 확인 women 1. 삼전도(scatter plot) 주어진 데이터를 점으로 표시해 흩뿌리듯이 시각화한 그래프 데이터의 실제값들이 표시 되므로 데이터의 분포를 한눈에 살펴보는데 유용하다. x-y plotting type p : 점 l : 선 b : 점,선 o : 점위의 선 h : 수직선 s : 계단형 n : 나타나지 않음 lty : 선의 유형 (1~6) 0 : 그리지 않음 1 : 실선(기본값) 2 : 대시 3 : 점 4 : 점과 대시 5 : 긴 대시 6 : 두 개의 대시 lwd : 선의 굵기 pch : 점의 종류 cex : 점의 크기 # 기본 사용법 plot(women) # 컬럼을 지정해서 출력 pl..

컴퓨터/R 2020.04.21

R - 시각화 ① pie chart, bar graph

1. 원형그래프(pie chart) 질적자료(범주형자료)에 대한 상대도수분포를 나타내기 위해 일반적으로 사용되는 그래프 원을 그린 후 그 원에 각 계급의 상대도수에 대응하는 면적 또는 부분으로 나눈다. 상대도수값을 가지고 시각화 도수 (frequency) : 각 범주에 속하는 관측값의 개수 상대도수(relative frequency) : 도수를 전체 개수로 나눈 비율 # 기본 사용법 labels

컴퓨터/R 2020.04.20

R - melt / dcast

reshape2 : 모양을 바꾸는 라이브러리 # reshape2 임포트 library(reshape2) melt 컬럼이 많은 가로(wide) 형태를 세로(long)방향으로 긴 형태로 변경하는 함수 melt(데이터프레임, id = 기준컬럼이름) # year을 기준으로 묶기 melt(sales, id='year') # name을 기준으로 묶기 melt(sales, id='name') # 두개의 컬럼을 기준으로 묶기 melt(sales, id=c('year','name')) dcast long(세로)을 wide(가로) 형태로 변경 melt 모양의 데이터셋을 원래대로 바꾸는법 dcast(데이터프레임, 기준컬럼~variable, 그룹함수) # 기본 사용법 m

컴퓨터/R 2020.04.17

R - sqldf

sqldf SQL을 이용해서 데이터를 처리 sqldf 라이브러리 설치 및 임포트 install.packages("sqldf") library(sqldf) sqldf 사용 예 # emp 테이블에서 사원번호 출력 sqldf("select employee_id from emp") # 부서번호가 20인 사원들의 사원번호 출력 sqldf("select employee_id from emp where department_id=20") # 부서번호들의 중복을 제거하고 출력 sqldf("select distinct department_id from emp") # 부서번호가 30인 사원들의 모든 정보 출력. 급여를 내림차순으로 정렬 sqldf("select * from emp where department_id=30 o..

컴퓨터/R 2020.04.17

R - dplyr 라이브러리 ② summarise , group_by

summarise : 주어진 데이터 집계 # 전체데이터의 집계값을 구하는 방법 emp%>% summarise(sum_sal = sum(SALARY)) # 여러가지 집계값 구하기 emp%>% summarise(sum_sal = sum(SALARY), avg_sal = mean(SALARY)) # summarise_at 사용 emp%>% summarise_at(c('SALARY','COMMISSION_PCT'), c(sum,mean),na.rm=T) # summarise_if : 조건에 맞는 데이터에 함수를 전부 적용함emp%>% summarise_if(is.numeric,sum,na.rm=T) emp%>% summarise_if(is.integer,sum,na.rm=T) group_by 그룹핑할 컬럼을 나..

컴퓨터/R 2020.04.17

R - dplyr 라이브러리 ① filter, select, arrange, %>%, mutate

dplyr 라이브러리 filter : 조건을 이용해서 필터링하는 함수 select : 여러컬럼이 있는 데이터 프레임에서 특정한 열만 선택하는 함수 arrange : 정렬 %>% : 여러문장을 조합해서 사용하는 방법을 제공(파이프) mutate : 새로운 컬럼을 추가하는 함수 # dplyr 라이브러리 임포트 library(dplyr) 1. filter # 기본 사용법 filter(emp, DEPARTMENT_ID==20) # 출력 컬럼 지정 filter(emp, DEPARTMENT_ID==20)[,c('LAST_NAME','SALARY')] 2. select # 기본 사용법 select(emp,LAST_NAME,SALARY) select(emp,1,2) # 출력 컬럼 인덱스 번호로 사용 select(emp..

컴퓨터/R 2020.04.16
반응형