인공지능/머신러닝

평균, 분산, 상관분석

해피밀세트 2020. 6. 9. 17:23
반응형

 

 

 

중심위치

  • 관찰된 자료들이 어디에 집중되어 있는지를 나타낸다.
  • 대표값
  • 평균, 중앙값 , 최빈값

 

평균

  • 자료의 중심값으로 자료의 특성을 대표하는
  • 모든 자료로 부터 영향을 받는다. (아웃라이어에 취약하다.)

1) 산술평균

2) 가중평균 (Weighted mean)

  • 항의 수치에 중요도에 비례하는 계수를 곱한 다음 산술한 평균
  • 정밀도나 들어온 양이 같지 않은 물품의 평균 가격처럼 원래의 수치가 동등하지 않다고 생각되는 경우 사용

3) 기하평균 (Gemetric mean)

  • 곱의 형태로 변하는 증가율
  • 비율의 평균계산에 많이 사용된다.
  • 물가상승률, 인구변동률, 연평균증가율

4) 조화평균 (Harmonic mean)

  • 속도 등과 같이 여러 단위가 결합되어 있을때 계산

5) 절단평균,절사평균 (Trimmed mean)

  • 자료중에서 관측값이나, 작은 관측값을 가각 만큼 버린 나머지 관측값들로 부터 구하 평균
  • 평균 양쪽 끝값 (최소, 최대) 변화에 민감해서 최대, 최소를 제거한 평균을 구한다.
  • 스포츠 경기에서 많이 사용

 


 

자료의 퍼진 정도

  • 대표값을 중심으로 얼마나 자료들이 퍼져있는지를 나타낸다.
  • 범위(range) : max = min
  • 분산, 표준편차

 

분산

  • 관측값들이 평균에 대해 얼마만큼 떨어질지 기대하는
  • (개별관측값 - 개별평균)^2

 

공분산(covariance)

  • 두변수가 얼마나 함께 변화하는지를 측정하는 지표
  • cov(x,y) > 0 : x y 변화가 같은 방향으로 변화가 된다.
  • 한변수가 커질때 다른 변수가 함께 커지거나 변수가 작아질때 다른 변수가 함께 작아지는 경우는 변화의 방향이 같다.
  • cov(x,y) < 0 : x y 변화가 다른 방향으로 변화가 된다.
  • 한변수가 커질때 다른 변수가 함께 작아지거나 변수가 작아질때 다른 변수가 함께 커지는 경우는 변화의 방향이 다르다.
  • cov(x,y) = 0 : 변수의 값이 서로 상관없이 움직일 경우 공분산 0이다.
  • 공분산(x,y) = ∑((x관측값 - x평균) * (y관측값 - y평균)) / (n-1)

 


 

 상관분석(Correlation analysis)

  • 변수들 간의 연관성을 파악하기 위해 사용하는 분석 기법중의 하나로 변수간의 선형관계 정도를 분석하는 통계기법이.
  • 변수 사이의 관련성을 파악하는 방법

 

 

상관계수

  • 공분산을 표준화하는 방법
  • 계산방법 : 피어슨 상관계수, 스피어만 상관계수, 겐달 순위 상관계수
  • 상관걔수이 크면 데이터간의 관계가 존재한다는 의미
  • 한쪽값이 커질때 다른 쪽값이 커지는 정도
  • 상관계수 -1 <= r <= 1
  • 상관계수(x,y) = 공분산(x,y) / x 표준편차 * y 표준편차
반응형

'인공지능 > 머신러닝' 카테고리의 다른 글

회귀분석 코딩하기 (R, 파이썬)  (0) 2020.06.11
회귀분석  (0) 2020.06.11
군집화  (0) 2020.06.08
연관규칙 / 연관성 분석  (0) 2020.05.28
와인품질데이터 - 의사결정트리 / 랜덤 포레스트  (0) 2020.05.27