variance
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
variance [2025/09/15 00:28] – [다른 공식] hkimscil | variance [2025/09/30 14:23] (current) – [Read more] hkimscil | ||
---|---|---|---|
Line 1: | Line 1: | ||
====== Variance ====== | ====== Variance ====== | ||
+ | [[Mean]], | ||
+ | |||
* 숫자로 측정된 한 변인이 (variable Y) 있다. | * 숫자로 측정된 한 변인이 (variable Y) 있다. | ||
* 변인 Y는 총 100개의 원소로 구성되어 하나의 샘플이라고 할 수 있다. | * 변인 Y는 총 100개의 원소로 구성되어 하나의 샘플이라고 할 수 있다. | ||
Line 39: | Line 41: | ||
\end{eqnarray*} | \end{eqnarray*} | ||
- | + | 아래 | |
- | [[Mean]], | + | | Y | score | error score | squared value | |
- | + | | 1 | |
- | 아래의 그래프는 각각 그 평균과 분산값이 다른 그래프이다. 검은색 라인의 경우 (가장 왼쪽), 평균은 -2, 분산값은 16 이고; 붉은 색 라인은 평균이 | + | | 2 |
- | |{{: | + | | 3 |
- | |< | + | | 4 |
- | < | + | | 5 |
- | x <- seq(-15, 15, length=1000) | + | | total | 20 |
- | init <- dnorm(x, -2, 4) | + | | n | 5 | | n-1 = 4 | |
- | + | ||
- | ms <- c(5, 8) | + | |
- | sds <- c(2, 1) | + | |
- | + | ||
- | colors <- c(" | + | |
- | labels <- c(" | + | |
- | + | ||
- | plot(x, init, type=" | + | |
- | | + | |
- | abline(v=-2, | + | |
- | + | ||
- | for (i in 1:2){ | + | |
- | lines(x, dnorm(x, ms[i], sds[i]), lwd=4, col=colors[i]) | + | |
- | abline(v=ms[i], | + | |
- | axis(1, at=-15: | + | |
- | } | + | |
- | + | ||
- | legend(" | + | |
- | | + | |
- | </ | + | |
- | </ | + | |
- | 그림에서 직관적으로 보고 알 수 있듯이 분산은 그래프의 분포가 평균을 중심으로 얼마나 퍼져있는지를 (spread) 나타내주는 일종의 지표이다. 어떤 집합이 평균을 중심으로 얼마나 퍼져 있는가를 알아보기 위한 방법으로는 상식적으로 떠올릴 수 있는 것은 각 개인의 점수가 평균에서 얼마나 떨어져 있는가를 측정하여 모두 더한 후 이를 개인 수로 (number of elements) 나누는 방법을 떨올릴 수 있다. 개인의 점수가 평균에서 얼마나 떨어져 있는가를 deviation score라고 한다. 아래의 그래프는 | + | |
- | + | ||
- | {{: | + | |
- | ((< | + | |
- | x <- seq(20, 180, length=1000) | + | |
- | init <- dnorm(x, 100, 20) | + | |
- | + | ||
- | plot(x, init, type=" | + | |
- | ylab=" | + | |
- | cex.main=2.5, | + | |
- | abline(v=40, | + | |
- | abline(v=60, | + | |
- | abline(v=80, | + | |
- | abline(v=100, | + | |
- | abline(v=120, | + | |
- | abline(v=140, | + | |
- | abline(v=160, | + | |
- | axis(1, at=seq(20, | + | |
- | + | ||
- | legend(" | + | |
- | " | + | |
- | </ | + | |
- | )) | + | |
- | + | ||
- | 개인의 deviation score를 모두 더하는 것은 | + | |
- | + | ||
- | $$\text{Sum of Deviation | + | |
- | + | ||
- | 이를 집합을 이루는 개인의 숫자인 n으로 나누면 다음과 같이 표현할 수 있다. | + | |
- | + | ||
- | $$\text{Average of Deviation Score} = \displaystyle \frac{\displaystyle | + | |
- | + | ||
- | 이렇게 하면 " | + | |
- | + | ||
- | | X | score | deviation score | | + | |
- | | X1 | 3 | + | |
- | | X2 | 4 | + | |
- | | X3 | 3 | + | |
- | | X4 | 4 | + | |
- | | X5 | 6 | + | |
- | | total | 20 | + | |
- | | Mean | 4 | + | |
- | | n | 5 | + | |
- | + | ||
- | deviation score의 합을 구하기 전에 각 deviation score의 값을 제곱을 하여 주면 이와 같은 결과를 방지할 수 있는데, 이를 수식으로 표현하면 아래와 같다. | + | |
- | + | ||
- | $$\displaystyle \frac{\displaystyle \sum_{i=1}^N (X_i-\mu)^2}{N}$$ | + | |
- | + | ||
- | 분산 | + | |
- | + | ||
- | $$Var[X] = \sigma^2= \displaystyle \frac{\displaystyle \sum_{i=1}^N (X_i-\mu)^2}{N}$$ | + | |
- | + | ||
- | 이를 우리나라 말로 옮기자면, | + | |
- | * "X 변인의 분산값은 X 변인의 각 개체값에서 평균값을 뺀 수의 제곱을 모두 더한 후, 이를 개체 수인 `n`으로 나누어 주어서 구한다" | + | |
- | * 혹은 위 분포의 분산값은 deviation score를 제곱한 값을 모두 더한 값을 N으로 나눈 값이다. 라고 읽는다. | + | |
- | * 수학자들은 위의 " | + | |
- | * 마지막으로 위의 분산값이 갖는 의미를 이렇게도 이야기할 수 있다. | + | |
- | * 어느 정상분포의 (normal distribution) 평균을 알고 있다고 하자. | + | |
- | * 만약에 당신이 각 분포내 각 개인의 값을 예측해야 한다고 할 때, 가장 오차가 작은 예측값을 대는 방법은 평균값으로 예측 값을 쓰는 것이다. 따라서, SS 값은 // | + | |
- | + | ||
- | 따라서 위의 보기에서 들었던 X 변인의 집합에서 분산 값은 1.5이다. | + | |
- | + | ||
- | | X | score | deviation | + | |
- | | X1 | + | |
- | | X2 | + | |
- | | X3 | + | |
- | | X4 | + | |
- | | X5 | + | |
- | | total | 20 | + | |
| Mean, Variance | | Mean, Variance | ||
- | | n | 5 | ||
+ | 다시 말하지만, | ||
< | < | ||
- | note: You guess each value with the mean value of the X | + | note: You guess each value with the mean value of the Y |
note: which means " | note: which means " | ||
note: therefore, sum of square value of error is SS part | note: therefore, sum of square value of error is SS part | ||
Line 152: | Line 64: | ||
< | < | ||
- | $ \sigma^2 = \displaystyle \frac{\displaystyle \sum (X_i-\mu)^2}{N}$ 에서 | + | $ \sigma^2 = \displaystyle \frac {\displaystyle \sum (X_i-\mu)^2}{N}$ 에서 |
- | \begin{eqnarray*} | + | \begin{eqnarray} |
- | \sum (X_i-\mu)^2 & = & \sum [(X_i^2)-(2*X_i*\mu)+(\mu^2)] \\ | + | \sum (X_i-\mu)^2 & = & \sum [(X_i^2)-(2*X_i*\mu)+(\mu^2)] |
- | & = & \sum (X_i^2) - \sum (2*X_i*\mu) + \sum (\mu^2) \\ | + | & = & \sum (X_i^2) - \sum (2*X_i*\mu) + \sum (\mu^2) |
- | & = & \sum (X_i^2) - 2 \mu \sum (X_i) + N (\mu^2) \\ | + | & = & \sum (X_i^2) - 2 \mu \sum (X_i) + N (\mu^2) |
- | & = & \sum (X_i^2) - 2 \mu (N * \mu) + N (\mu^2) \\ | + | & = & \sum (X_i^2) - 2 \mu (N * \mu) + N (\mu^2) |
- | & = & \sum (X_i^2) - N * \mu^2 | + | & = & \sum (X_i^2) - N * \mu^2 |
- | \end{eqnarray*} | + | \end{eqnarray} |
위에서, $\text{2 and}$ $\mu$ $\text{are constants. }$ | 위에서, $\text{2 and}$ $\mu$ $\text{are constants. }$ | ||
- | 따라서 분산값은 아래의 공식으로도 구할 수 있다((수업과 퀴즈를 위해서는 외우는 것을 권장합니다)). | + | 따라서 분산값은 아래의 공식으로도 구할 수 있다. 분산에 관한 더 자세한 연산법칙은 [[:expected value and variance properties]] 문서를 참조 |
\begin{eqnarray} | \begin{eqnarray} | ||
- | \sigma^2 & = & \displaystyle \frac{\sum (X_i^2) - N * \mu^2}{N} \nonumber \\ | + | \sigma^2 |
- | & = & \displaystyle \frac{\sum (X_i^2)}{N} - \mu^2 | + | & = & \displaystyle \frac{\sum (X_i^2) - N * \mu^2}{N} \nonumber \\ |
+ | & = & \displaystyle \frac{\sum (X_i^2)}{N} - \mu^2 \\ | ||
+ | & = & E(X^{2})-E(X)^{2} \; | ||
\end{eqnarray} | \end{eqnarray} | ||
Line 189: | Line 103: | ||
< | < | ||
+ | > set.seed(1) | ||
> a <- rnorm2(100000000, | > a <- rnorm2(100000000, | ||
> a.mean <- mean(a) | > a.mean <- mean(a) | ||
Line 200: | Line 115: | ||
</ | </ | ||
- | See also [[Standard Deviation]] \\ | + | 더 자세한 것은 |
variance.1757863738.txt.gz · Last modified: by hkimscil