variance
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
variance [2020/04/14 16:54] – [Read more] hkimscil | variance [2025/03/24 08:22] (current) – hkimscil | ||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== Variance ====== | ||
+ | * 분산은 개인점수들이 평균에서 얼마나 떨어져 있는가를 나타내주는 지표이다. | ||
+ | * 어느 집합의 개인 점수가 그 집합의 평균에서 얼마나 떨어져 있는가를 알아볼 수 있는데 이를 deviation score라고 (ds) 부른다. 분산은 각 개인의 ds값을 제곱하여 모두 더한 후 N으로 나눈 값을 말한다. | ||
+ | * 분산은 일종의 에러이다. | ||
+ | * 분산은 숫자로 측정된 하나의 집합 내에 속한 개인점수를 평균으로 예측했을 때, 그 오차를 (평균과 실제점수 간의 차이) 알려주는 지표이다. 따라서 분산은 오차의 제곱의 합을 N으로 나눠준 값이다고 해도 된다. | ||
+ | * 분산은 일종의 불확실성이다. | ||
+ | |||
[[Mean]], | [[Mean]], | ||
아래의 그래프는 각각 그 평균과 분산값이 다른 그래프이다. 검은색 라인의 경우 (가장 왼쪽), 평균은 -2, 분산값은 16 이고; 붉은 색 라인은 평균이 5, 분산값은 4, 마지막으로 청색 라인의 경우는 평균은 8, 분산 값은 1 인 경우이다. | 아래의 그래프는 각각 그 평균과 분산값이 다른 그래프이다. 검은색 라인의 경우 (가장 왼쪽), 평균은 -2, 분산값은 16 이고; 붉은 색 라인은 평균이 5, 분산값은 4, 마지막으로 청색 라인의 경우는 평균은 8, 분산 값은 1 인 경우이다. | ||
- | {{: | + | |{{: |
+ | |< | ||
< | < | ||
x <- seq(-15, 15, length=1000) | x <- seq(-15, 15, length=1000) | ||
Line 27: | Line 35: | ||
| | ||
</ | </ | ||
+ | </ | ||
그림에서 직관적으로 보고 알 수 있듯이 분산은 그래프의 분포가 평균을 중심으로 얼마나 퍼져있는지를 (spread) 나타내주는 일종의 지표이다. 어떤 집합이 평균을 중심으로 얼마나 퍼져 있는가를 알아보기 위한 방법으로는 상식적으로 떠올릴 수 있는 것은 각 개인의 점수가 평균에서 얼마나 떨어져 있는가를 측정하여 모두 더한 후 이를 개인 수로 (number of elements) 나누는 방법을 떨올릴 수 있다. 개인의 점수가 평균에서 얼마나 떨어져 있는가를 deviation score라고 한다. 아래의 그래프는 평균이 100인 그래프를 그린 것인데, 어느 한 개인의 점수가 120이라고 하면 그 개인의 deviation score는 120-100, 즉 20이라고 할 수 있다. | 그림에서 직관적으로 보고 알 수 있듯이 분산은 그래프의 분포가 평균을 중심으로 얼마나 퍼져있는지를 (spread) 나타내주는 일종의 지표이다. 어떤 집합이 평균을 중심으로 얼마나 퍼져 있는가를 알아보기 위한 방법으로는 상식적으로 떠올릴 수 있는 것은 각 개인의 점수가 평균에서 얼마나 떨어져 있는가를 측정하여 모두 더한 후 이를 개인 수로 (number of elements) 나누는 방법을 떨올릴 수 있다. 개인의 점수가 평균에서 얼마나 떨어져 있는가를 deviation score라고 한다. 아래의 그래프는 평균이 100인 그래프를 그린 것인데, 어느 한 개인의 점수가 120이라고 하면 그 개인의 deviation score는 120-100, 즉 20이라고 할 수 있다. | ||
Line 60: | Line 68: | ||
$$\text{Average of Deviation Score} = \displaystyle \frac{\displaystyle | $$\text{Average of Deviation Score} = \displaystyle \frac{\displaystyle | ||
- | 이렇게 하면 " | + | 이렇게 하면 " |
| X | score | deviation score | | | X | score | deviation score | | ||
Line 106: | Line 114: | ||
</ | </ | ||
- | 분산의 공식을 5명으로 이루어진 집합에 사용하는 것은 큰 무리가 없지만, 100명으로 이루어진 집합에 적용하는 것은 손이 많이 간다는 단점이 있다. 따라서, 위의 분산 | + | ====== |
+ | 분산의 공식을 5명으로 이루어진 집합에 사용하는 것은 큰 무리가 없지만, 100명으로 이루어진 집합에 적용하는 것은 손이 많이 간다는 단점이 있다. 따라서, 위의 분산 공식을 변형한 공식을 쓰기도 하는데, 형식만 다를 뿐이지 똑같은 공식이다. | ||
- | {{anchor: | + | < |
$ \sigma^2 = \displaystyle \frac{\displaystyle \sum (X_i-\mu)^2}{N}$ 에서 | $ \sigma^2 = \displaystyle \frac{\displaystyle \sum (X_i-\mu)^2}{N}$ 에서 | ||
Line 145: | Line 154: | ||
$$s^2 = \displaystyle \frac{SS}{df}$$ | $$s^2 = \displaystyle \frac{SS}{df}$$ | ||
+ | |||
+ | 위에서 샘플의 분산으로 모집단의 분산을 추정할 때 n-1을 쓴다고 하였지만, | ||
+ | $$\sigma^2 = \displaystyle \frac{SS}{N-1} = \displaystyle \frac{SS}{df}$$ | ||
+ | |||
+ | 아래는 R에서 보는 간단한 예이다. | ||
+ | |||
+ | < | ||
+ | > a <- rnorm2(100000000, | ||
+ | > a.mean <- mean(a) | ||
+ | > ss <- sum((a-a.mean)^2) | ||
+ | > n <- length(a) | ||
+ | > df <- n-1 | ||
+ | > ss/n | ||
+ | [1] 100 | ||
+ | > ss/df | ||
+ | [1] 100 | ||
+ | </ | ||
See also [[Standard Deviation]] \\ | See also [[Standard Deviation]] \\ | ||
variance.1586850851.txt.gz · Last modified: 2020/04/14 16:54 by hkimscil