variance
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
variance [2025/08/24 11:34] – hkimscil | variance [2025/09/30 14:23] (current) – [Read more] hkimscil | ||
---|---|---|---|
Line 1: | Line 1: | ||
====== Variance ====== | ====== Variance ====== | ||
+ | [[Mean]], | ||
+ | |||
* 숫자로 측정된 한 변인이 (variable Y) 있다. | * 숫자로 측정된 한 변인이 (variable Y) 있다. | ||
* 변인 Y는 총 100개의 원소로 구성되어 하나의 샘플이라고 할 수 있다. | * 변인 Y는 총 100개의 원소로 구성되어 하나의 샘플이라고 할 수 있다. | ||
Line 23: | Line 25: | ||
* 따라서 먼저 언급한 제곱의 합은 " | * 따라서 먼저 언급한 제곱의 합은 " | ||
* 이를 Sum of Square Error 라고도 부른다 | * 이를 Sum of Square Error 라고도 부른다 | ||
- | * 혹은 Sum of Square Total이라고도 부르는데 이 때 Total의 의미는 Y 변인의 (평균에서의) 오차 전체를 의미한다고 보면 된다. | + | * 혹은 |
+ | * 또한 SS Error는 Sum of Square Residual이라고도 부른다. 여기서 residual의 의미는 샘플의 전체특징힌 평균값을 뺀 나머지라는 (residual) 뜻에서의 residual이다. | ||
+ | * 마지막으로 | ||
+ | * 분산은 (variance) 위의 Sum of Square 값을 (평균을 구할 때와 마찬가지로) 샘플의 크기인 n으로 나누어준 값을 말한다. | ||
+ | * 그런데 실제로는 n으로 나누어 주기 보다는 n-1로 나누어 주는데 흔히 이 n-1을 degrees of freedom이라고 부른다. | ||
+ | * 이에 대해서는 다른 부분에서 자세히 설명한다. | ||
+ | * 따라서 분산값은 아래처럼 요약된다. | ||
+ | \begin{eqnarray*} | ||
+ | \sigma^2 & = & \dfrac {\text{SS}} {\text{df}} \\ | ||
+ | & = & \dfrac{\text{Sum of Error Square}}{\text{df}} \\ | ||
+ | & = & \dfrac{\text{Sum of Residual Square}}{\text{df}} \\ | ||
+ | & = & \dfrac{\text{Sum of DS Square}}{\text{df}}, | ||
+ | & = & \dfrac{\sum{(Yi - \overline{Y})^2}}{n-1}, | ||
+ | \end{eqnarray*} | ||
- | + | 아래 | |
- | + | | Y | score | error score | squared value | | |
- | * 분산은 개인점수들이 평균에서 얼마나 떨어져 있는가를 나타내주는 지표이다. | + | | 1 |
- | * 어느 | + | | 2 |
- | * 분산은 일종의 에러이다. | + | | 3 |
- | * 분산은 숫자로 측정된 하나의 집합 내에 속한 개인점수를 평균으로 예측했을 때, 그 오차를 (평균과 실제점수 간의 차이) 알려주는 지표이다. 따라서 분산은 오차의 제곱의 합을 N으로 나눠준 값이다고 해도 된다. | + | | 4 |
- | * 분산은 일종의 불확실성이다. | + | | 5 |
- | + | | total | 20 | |
- | + | | n | 5 | | n-1 = 4 | | |
- | [[Mean]], | + | |
- | + | ||
- | 아래의 그래프는 각각 그 평균과 분산값이 다른 그래프이다. 검은색 라인의 경우 (가장 왼쪽), 평균은 -2, 분산값은 16 이고; 붉은 색 라인은 평균이 5, 분산값은 4, 마지막으로 청색 라인의 경우는 평균은 8, 분산 값은 1 인 경우이다. | + | |
- | |{{: | + | |
- | |< | + | |
- | < | + | |
- | x <- seq(-15, 15, length=1000) | + | |
- | init <- dnorm(x, -2, 4) | + | |
- | + | ||
- | ms <- c(5, 8) | + | |
- | sds <- c(2, 1) | + | |
- | + | ||
- | colors <- c(" | + | |
- | labels <- c(" | + | |
- | + | ||
- | plot(x, init, type=" | + | |
- | | + | |
- | abline(v=-2, | + | |
- | + | ||
- | for (i in 1:2){ | + | |
- | lines(x, dnorm(x, ms[i], sds[i]), lwd=4, col=colors[i]) | + | |
- | abline(v=ms[i], | + | |
- | axis(1, at=-15: | + | |
- | } | + | |
- | + | ||
- | legend(" | + | |
- | | + | |
- | </ | + | |
- | </ | + | |
- | 그림에서 직관적으로 보고 알 수 있듯이 분산은 그래프의 분포가 평균을 중심으로 얼마나 퍼져있는지를 (spread) 나타내주는 일종의 지표이다. 어떤 집합이 평균을 중심으로 얼마나 퍼져 있는가를 알아보기 위한 방법으로는 상식적으로 떠올릴 수 있는 것은 각 개인의 점수가 평균에서 얼마나 떨어져 있는가를 측정하여 모두 더한 후 이를 개인 수로 (number of elements) 나누는 방법을 떨올릴 수 있다. 개인의 점수가 평균에서 얼마나 떨어져 있는가를 deviation score라고 한다. 아래의 그래프는 평균이 100인 그래프를 그린 것인데, | + | |
- | + | ||
- | {{: | + | |
- | ((< | + | |
- | x <- seq(20, 180, length=1000) | + | |
- | init <- dnorm(x, 100, 20) | + | |
- | + | ||
- | plot(x, init, type=" | + | |
- | ylab=" | + | |
- | cex.main=2.5, | + | |
- | abline(v=40, | + | |
- | abline(v=60, | + | |
- | abline(v=80, | + | |
- | abline(v=100, | + | |
- | abline(v=120, | + | |
- | abline(v=140, | + | |
- | abline(v=160, | + | |
- | axis(1, at=seq(20, | + | |
- | + | ||
- | legend(" | + | |
- | " | + | |
- | </ | + | |
- | )) | + | |
- | + | ||
- | 개인의 deviation score를 모두 더하는 것은 | + | |
- | + | ||
- | $$\text{Sum of Deviation | + | |
- | + | ||
- | 이를 집합을 이루는 개인의 숫자인 n으로 나누면 다음과 같이 표현할 수 있다. | + | |
- | + | ||
- | $$\text{Average of Deviation Score} = \displaystyle \frac{\displaystyle | + | |
- | + | ||
- | 이렇게 하면 " | + | |
- | + | ||
- | | X | score | deviation score | | + | |
- | | X1 | 3 | + | |
- | | X2 | 4 | + | |
- | | X3 | 3 | + | |
- | | X4 | 4 | + | |
- | | X5 | 6 | + | |
- | | total | 20 | + | |
- | | Mean | 4 | + | |
- | | n | 5 | + | |
- | + | ||
- | deviation score의 합을 구하기 전에 각 deviation score의 값을 제곱을 하여 주면 이와 같은 결과를 방지할 수 있는데, 이를 수식으로 표현하면 아래와 같다. | + | |
- | + | ||
- | $$\displaystyle \frac{\displaystyle \sum_{i=1}^N (X_i-\mu)^2}{N}$$ | + | |
- | + | ||
- | 분산 | + | |
- | + | ||
- | $$Var[X] = \sigma^2= \displaystyle \frac{\displaystyle \sum_{i=1}^N (X_i-\mu)^2}{N}$$ | + | |
- | + | ||
- | 이를 우리나라 말로 옮기자면, | + | |
- | * "X 변인의 분산값은 X 변인의 각 개체값에서 평균값을 뺀 수의 제곱을 모두 더한 후, 이를 개체 수인 `n`으로 나누어 주어서 구한다" | + | |
- | * 혹은 위 분포의 분산값은 deviation score를 제곱한 값을 모두 더한 값을 N으로 나눈 값이다. 라고 읽는다. | + | |
- | * 수학자들은 위의 " | + | |
- | * 마지막으로 위의 분산값이 갖는 의미를 이렇게도 이야기할 수 있다. | + | |
- | * 어느 정상분포의 (normal distribution) 평균을 알고 있다고 하자. | + | |
- | * 만약에 당신이 각 분포내 각 개인의 값을 예측해야 한다고 할 때, 가장 오차가 작은 예측값을 대는 방법은 평균값으로 예측 값을 쓰는 것이다. 따라서, SS 값은 // | + | |
- | + | ||
- | 따라서 위의 보기에서 들었던 X 변인의 집합에서 분산 값은 1.5이다. | + | |
- | + | ||
- | | X | score | deviation | + | |
- | | X1 | + | |
- | | X2 | + | |
- | | X3 | + | |
- | | X4 | + | |
- | | X5 | + | |
- | | total | 20 | + | |
| Mean, Variance | | Mean, Variance | ||
- | | n | 5 | ||
+ | 다시 말하지만, | ||
< | < | ||
- | note: You guess each value with the mean value of the X | + | note: You guess each value with the mean value of the Y |
note: which means " | note: which means " | ||
note: therefore, sum of square value of error is SS part | note: therefore, sum of square value of error is SS part | ||
Line 147: | Line 64: | ||
< | < | ||
- | $ \sigma^2 = \displaystyle \frac{\displaystyle \sum (X_i-\mu)^2}{N}$ 에서 | + | $ \sigma^2 = \displaystyle \frac {\displaystyle \sum (X_i-\mu)^2}{N}$ 에서 |
- | \begin{eqnarray*} | + | \begin{eqnarray} |
- | \sum (X_i-\mu)^2 & = & \sum [(X_i^2)-(2*X_i*\mu)+(\mu^2)] \\ | + | \sum (X_i-\mu)^2 & = & \sum [(X_i^2)-(2*X_i*\mu)+(\mu^2)] |
- | & = & \sum (X_i^2) - \sum (2*X_i*\mu) + \sum (\mu^2) \\ | + | & = & \sum (X_i^2) - \sum (2*X_i*\mu) + \sum (\mu^2) |
- | & = & \sum (X_i^2) - 2 \mu \sum (X_i) + N (\mu^2) \\ | + | & = & \sum (X_i^2) - 2 \mu \sum (X_i) + N (\mu^2) |
- | & = & \sum (X_i^2) - 2 \mu (N * \mu) + N (\mu^2) \\ | + | & = & \sum (X_i^2) - 2 \mu (N * \mu) + N (\mu^2) |
- | & = & \sum (X_i^2) - N * \mu^2 | + | & = & \sum (X_i^2) - N * \mu^2 |
- | \end{eqnarray*} | + | \end{eqnarray} |
위에서, $\text{2 and}$ $\mu$ $\text{are constants. }$ | 위에서, $\text{2 and}$ $\mu$ $\text{are constants. }$ | ||
- | \begin{eqnarray*} | + | 따라서 분산값은 아래의 공식으로도 구할 수 있다. 분산에 관한 더 자세한 연산법칙은 [[:expected value and variance properties]] 문서를 참조 |
- | \displaystyle \mu & = \displaystyle \frac{\sum (X_i)}{N} \\ | + | |
- | \displaystyle \sum (X_i) & = \displaystyle N * \mu \\ | + | |
- | \end{eqnarray*} | + | |
- | + | ||
- | 따라서 분산값은 아래의 공식으로도 구할 수 있다((수업과 퀴즈를 위해서는 외우는 것을 권장합니다)). | + | |
\begin{eqnarray} | \begin{eqnarray} | ||
- | \sigma^2 & = & \displaystyle \frac{\sum (X_i^2) - N * \mu^2}{N} \nonumber \\ | + | \sigma^2 |
- | & = & \displaystyle \frac{\sum (X_i^2)}{N} - \mu^2 | + | & = & \displaystyle \frac{\sum (X_i^2) - N * \mu^2}{N} \nonumber \\ |
+ | & = & \displaystyle \frac{\sum (X_i^2)}{N} - \mu^2 \\ | ||
+ | & = & E(X^{2})-E(X)^{2} \; | ||
\end{eqnarray} | \end{eqnarray} | ||
Line 189: | Line 103: | ||
< | < | ||
+ | > set.seed(1) | ||
> a <- rnorm2(100000000, | > a <- rnorm2(100000000, | ||
> a.mean <- mean(a) | > a.mean <- mean(a) | ||
Line 200: | Line 115: | ||
</ | </ | ||
- | See also [[Standard Deviation]] \\ | + | 더 자세한 것은 |
variance.1756002845.txt.gz · Last modified: by hkimscil