컴퓨터/R

R - dplyr 라이브러리 ② summarise , group_by

해피밀세트 2020. 4. 17. 12:19

 

summarise

: 주어진 데이터 집계

# 전체데이터의 집계값을 구하는 방법

emp%>%

  summarise(sum_sal = sum(SALARY))

# 여러가지 집계값 구하기

emp%>%

  summarise(sum_sal = sum(SALARY),

            avg_sal = mean(SALARY))

# summarise_at 사용

emp%>%

  summarise_at(c('SALARY','COMMISSION_PCT'),

               c(sum,mean),na.rm=T)

 

 

# summarise_if : 조건에 맞는 데이터에 함수를 전부 적용함emp%>%
  summarise_if(is.numeric,sum,na.rm=T)

emp%>%
  summarise_if(is.integer,sum,na.rm=T)

 

 

group_by

  • 그룹핑할 컬럼을 나열하면 됨        
  • tibble 자료형으로 만들어진다.

# 기본 사용법

emp%>%

  group_by(DEPARTMENT_ID)

  summarise(sum_sal = sum(SALARY),

            avg_sal = mean(SALARY))

 


 

tibble형식

  • 데이터프레임과 같은 형태
  • 차이점은 데이터의 타입도 보여줌

# tibble 만들기

tibble(x=1:5, y=6:10)

# 데이터 프레임 형식으로 바로 바꾸기

x<-tibble(x=1:5, y=6:10)

data.frame(x)

반응형

'컴퓨터 > R' 카테고리의 다른 글

R - melt / dcast  (0) 2020.04.17
R - sqldf  (0) 2020.04.17
R - dplyr 라이브러리 ① filter, select, arrange, %>%, mutate  (0) 2020.04.16
R - subset / ddply  (0) 2020.04.16
R - merge  (0) 2020.04.15