인공지능/파이썬

파이썬(Python) - Pandas의 그룹함수들

해피밀세트 2020. 3. 11. 18:07
반응형

 

 

Series

 

s = Series([3,4,2,None,6])

s

일때

 

# 덧셈
s.sum()
s.sum(skipna=True)   # na 있으면 스킵하고 수행한다.
                              (
기본값)
s.sum(skipna=False)   # na 있으면 스킵하지않고 nan출력

# 평균
s.mean()  # na를 뺀 나머지로 계산하는거임s.mean(skipna=True)
s.mean(skipna=False)

# 표본분산
s.var() 

# 표준편차
s.std() 

# 최대
s.max() 

# 최소
s.min() 

# 최대값의 인덱스 번호
s.idxmax()  # 최대값이 중복이면 처음나온 위치
s[s == s.max()] # 최대값 위치  찾기
s[s == s.max()].index  # 인덱스 보기
s[s == s.max()].values # 값 보기

# 최소값의 인덱스 번호
s.idxmin()  # 최소값이 중복이면 처음나온 위치

# 최대값의 인덱스 번호
s.argmax()  #.idxmax()로 쓰라고 나옴

# 최소값의 인덱스 번호
s.argmin()  #.idxmin()로 쓰라고 나옴

# 누적합
s.cumsum()

# 누적곱
s.cumprod()

# 누적 최대값
s.cummax()

# 누적 최소값
s.cummin()

# na를 제외시킨 건수세기
s.count()

# na를 포함한 건수세기
len(s)

# 통계치를 한꺼번에 보여줌
s.describe()

# 유일한 값만 뽑아내기
s.unique()

# 빈도수 체크
s.value_counts()  # na값 제외
s.value_counts(dropna = False)  # na값 포함s.value_counts(sort = True)  # 내림차순으로 정렬
s.value_counts(sort = False)
s.value_counts(normalize = True) #전체 건수 중에 몇프로에 해당하냐 (nan을 뺀 나머지)

 

 

 

DataFrame

 

df = DataFrame([[10,5,7],[12,15,3],[12,5,12]],
               index=['동그라미','세모','네모'],
               columns=['빨강','파랑','노랑'])
df

일떄

 

# 열단위 합
df.sum()
df.sum(axis = 0)
df.sum(axis = 'rows')

# 행단위 합
df.sum(axis = 1)
df.sum(axis = 'columns')

# /  평균
df.mean()             # 열 평균
df.mean(axis = 0)   # 열 평균 (기본값)
df.mean(axis = 1)   # 행 평균

 

 

 

 

NaN

 

df.at['별','빨강'] = 20
df.at['별','파랑'] = np.nan
df.at['별','노랑'] = 10
df

 

# NaN 스킵하고 연산
df.sum()     # 열 덧셈
df.mean()   # 열 평균

# NaN 스킵하지 않고 연산
df.mean(skipna=False)
df.mean(axis=1,skipna=False)

 

반응형