평균(mean, average)
- 데이터의 총합을 그 갯수로 나눈 것
- 기대값(expected value)이라고도 함(관점과 맥락에 따라 다르게 부르는 듯)
! 중앙값(median) : 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값
분산(variance)
- 데이터가 퍼진 정도를 나타낸 것
- 평균에 대한 편차 제곱의 평균
- 확률변수 $X$의 분산은 $X$의 기댓값 ${\displaystyle \mu =\operatorname {E} [X]}$로부터 확률변수가 얼마나 떨어져있는지 그 정도를 제곱한 것의 기댓값과 같다.
- ${\displaystyle \operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]}$
표준 편차(standard deviation)
- 분산의 양의 제곱근
- 분산이 편차를 제곱하면서 숫자가 커지게 되면서 값의 의미 파악이 어려워지는 문제가 있음
- 표준 편차는 이를 해소하기 위해 분산에 제곱근을 씌워 본래의 단위로 맞춰줌
<예시>
성인 남성 5명의 몸무게 = [165, 181, 178, 170, 173]
평균 = (165+181+178+170+173) / 5 = 173.4
분산 = ((165-173.4) + (181-173.4) + (178-173.4) + (170-173.4) + (173-173.4)) / 5 = 32.24 (소수점 둘째 자리까지만)
표준 편차 = √분산 = 5.678 (소수점 셋째 자리까지만)
import numpy as np
weights = np.array([165, 181, 178, 170, 173])
print(f'평균 : {weights.mean()}')
print(f'분산 : {weights.var()}')
print(f'표준 편차 : {weights.std()}')
평균 : 173.4
분산 : 32.239999999999995
표준 편차 : 5.6780278266313555