중심위치
- 관찰된 자료들이 어디에 집중되어 있는지를 나타낸다.
- 대표값
- 평균, 중앙값 , 최빈값
평균
- 자료의 중심값으로 자료의 특성을 대표하는 값
- 모든 자료로 부터 영향을 받는다. (아웃라이어에 취약하다.)
1) 산술평균
2) 가중평균 (Weighted mean)
- 각 항의 수치에 그 중요도에 비례하는 계수를 곱한 다음 산술한 평균
- 정밀도나 들어온 양이 같지 않은 물품의 평균 가격처럼 원래의 수치가 동등하지 않다고 생각되는 경우 사용
3) 기하평균 (Gemetric mean)
- 곱의 형태로 변하는 증가율
- 비율의 평균계산에 많이 사용된다.
- 물가상승률, 인구변동률, 연평균증가율
4) 조화평균 (Harmonic mean)
- 속도 등과 같이 여러 단위가 결합되어 있을때 계산
5) 절단평균,절사평균 (Trimmed mean)
- 자료중에서 큰 관측값이나, 작은 관측값을 가각 몇 만큼 버린 나머지 관측값들로 부터 구하 평균
- 평균 양쪽 끝값 (최소, 최대)의 변화에 민감해서 최대, 최소를 제거한 후 평균을 구한다.
- 스포츠 경기에서 많이 사용
자료의 퍼진 정도
- 대표값을 중심으로 얼마나 자료들이 퍼져있는지를 나타낸다.
- 범위(range) : max = min
- 분산, 표준편차
분산
- 관측값들이 평균에 대해 얼마만큼 떨어질지 기대하는 값
- ∑(개별관측값 - 개별평균)^2
공분산(covariance)
- 두변수가 얼마나 함께 변화하는지를 측정하는 지표
- cov(x,y) > 0 : x와 y의 변화가 같은 방향으로 변화가 된다.
- 한변수가 커질때 다른 변수가 함께 커지거나 한 변수가 작아질때 다른 변수가 함께 작아지는 경우는 변화의 방향이 같다.
- cov(x,y) < 0 : x와 y의 변화가 다른 방향으로 변화가 된다.
- 한변수가 커질때 다른 변수가 함께 작아지거나 한 변수가 작아질때 다른 변수가 함께 커지는 경우는 변화의 방향이 다르다.
- cov(x,y) = 0 : 두 변수의 값이 서로 상관없이 움직일 경우 공분산 0이다.
- 공분산(x,y) = ∑((x관측값 - x평균) * (y관측값 - y평균)) / (n-1)
상관분석(Correlation analysis)
- 변수들 간의 연관성을 파악하기 위해 사용하는 분석 기법중의 하나로 변수간의 선형관계 정도를 분석하는 통계기법이다.
- 두 변수 사이의 관련성을 파악하는 방법
상관계수
- 공분산을 표준화하는 방법
- 계산방법 : 피어슨 상관계수, 스피어만 상관계수, 겐달 순위 상관계수
- 상관걔수이 크면 데이터간의 관계가 존재한다는 의미
- 한쪽값이 커질때 다른 쪽값이 커지는 정도
- 상관계수 -1 <= r <= 1
- 상관계수(x,y) = 공분산(x,y) / x의 표준편차 * y의 표준편차
반응형
'인공지능 > 머신러닝' 카테고리의 다른 글
회귀분석 코딩하기 (R, 파이썬) (0) | 2020.06.11 |
---|---|
회귀분석 (0) | 2020.06.11 |
군집화 (0) | 2020.06.08 |
연관규칙 / 연관성 분석 (0) | 2020.05.28 |
와인품질데이터 - 의사결정트리 / 랜덤 포레스트 (0) | 2020.05.27 |