Differences

This shows you the differences between two versions of the page.

--- variance [2026/03/10 23:26] – [Variance] hkimscil
+++ variance [2026/03/10 23:56] (current) – hkimscil
@@ Line 1: / Line 1: @@
 ====== Variance ======
 [[Mean]],[[Mode]],[[Median]] 등의 중심경향값과 더불어서 많이 사용되는 [[:Statistics|statistics(통계치)]]로는 데이터가 얼마나 퍼져 있는지 (spread)를 나타내는 것들이 있다. 가장 평이하고 이해하기 쉬운 개념으로는 [[:Range|range(범위)]]가 있으며, 다소 직관적이지는 않지만 여러가지 통계 계산에 사용되는 것으로는 Variance(분산)이 있다.
+<tabbox rs1a>
+<code>
+rnorm2 <- function(n,mean,sd) { mean+sd*scale(rnorm(n)) }
+n.x <- 100
+m.x <- 50
+sd.x <- 4
+set.seed(101)
+x <- rnorm2(n.x, m.x, sd.x)
+x[1]
+# x[1] = m.x + e.x
+e.x <- x - m.x
+head(e.x)
+sum(e.x)
+x2 <- m.x + e.x
+x2 == x
+se.x <- e.x^2  # square error
+head(se)
+sse.x <- sum(se)
+###############
+sse.x # sum of square error
+    # (residual, deviation score, total)
+###############
+df.x <- n.x - 1
+mse.x <- sse.x / df.x
+mse.x
+var(x)
+mse.x == var(x)
+############################
+</code>
+<tabbox ro1a>
+<code>
+> rnorm2 <- function(n,mean,sd) { mean+sd*scale(rnorm(n)) }
+> n.x <- 100
+> m.x <- 50
+> sd.x <- 4
+>
+> set.seed(101)
+> x <- rnorm2(n.x, m.x, sd.x)
+> x[1]
+[1] 48.76307
+> # x[1] = m.x + e.x
+> e.x <- x - m.x
+> head(e.x)
+          [,1]
+[1,] -1.236931
+[2,]  2.525088
+[3,] -2.731068
+[4,]  1.077222
+[5,]  1.490081
+[6,]  5.186575
+> sum(e.x)
+[1] 7.105427e-15
+>
+> x2 <- m.x + e.x
+> x2 == x
+       [,1]
+  [1,] TRUE
+  [2,] TRUE
+  [3,] TRUE
+  [4,] TRUE
+  [5,] TRUE
+  [6,] TRUE
+ [10,] TRUE
+ . . . . . .
+ [99,] TRUE
+[100,] TRUE
+>
+> se.x <- e.x^2  # square error
+> head(se)
+          [,1]
+[1,]  2.003177
+[2,] 40.421681
+[3,]  3.024598
+[4,] 15.246176
+[5,]  1.763444
+[6,] 33.997606
+> sse.x <- sum(se)
+> ###############
+> sse.x # sum of square error (residual, deviation score, total)
+[1] 1584
+> ###############
+>
+> df.x <- n.x - 1
+> mse.x <- sse.x / df.x
+> mse.x
+[1] 16
+> var(x)
+     [,1]
+[1,]   16
+> mse.x == var(x)
+     [,1]
+[1,] TRUE
+>
+> ############################
+>
+</code>
+</tabbox>
   * 숫자로 측정된 한 변인이 (variable Y) 있다.
@@ Line 155: / Line 258: @@
 ====== Read more ======
 샘플의 분산으로 모집단의 분산값을 추정할 때에는, 샘플의 숫자인 $n$ 대신에 $n-1$ 을 사용한다 (참조. [[:estimated standard deviation]]). 샘플의 분산은 $s^2$ 을 기호로 사용한다.
+\begin{eqnarray*}
-$ s^2 = Var[X] = \displaystyle \frac{\displaystyle \sum_{i=1}^n (X_i - \overline{X})^2}{n-1}$
+s^2 & = & Var[X] \\
+& = & \displaystyle \frac{\displaystyle \sum_{i=1}^n (X_i - \overline{X})^2}{n-1}
+\end{eqnarray*}
 위에서 언급한 것처럼, 분산 공식의 분자부분을 **Sum of Squares**라고 부르고 줄여서 $SS$라고 쓰고, n-1을 [[:degrees of freedom]] 혹은 이를 줄여서 $df$라고 쓴다. 따라서 위의 분산을 구하는 식은 아래와 같이 표현될 수 있다.
+\begin{eqnarray*}
-$$s^2 = \displaystyle \frac{SS}{df}$$
+s^2 & = & \displaystyle \frac{\text{SS}} {\text{df}}
+\end{eqnarray*}
 위에서 샘플의 분산으로 모집단의 분산을 추정할 때 n-1을 쓴다고 하였지만, <fc #ff0000>사실은</fc> 모집단의 분산을 계산할 때에도 <fc #ff0000>n-1</fc>을 쓴다. 그 이유는 모집단이라면 N이 상당히 클텐데, 이 경우 SS값도 아주 큰 값을 갖는다. 이 숫자을 (SS값을) N으로 나누거나 N-1로 나누거나 큰 차이가 없다. 따라서 모든 경우에 n-1로 나누어 분산을 구한다.
-$$\sigma^2 = \displaystyle \frac{SS}{N-1} = \displaystyle \frac{SS}{df}$$
+\begin{eqnarray*}
+\sigma^2 & = & \displaystyle \frac{\text{SS}}{\text{N-1}} \\
+& = & \displaystyle \frac{\text{SS}} {\text{df}}
+\end{eqnarray*}
 아래는 R에서 보는 간단한 예이다.
-<tabbed>
-  * variance:rs2
-  * *variance:ro2
-</tabbed>
+<tabbox rs2>
+<code>
+y <- c(3, 4, 3, 4, 6)
+s.y <- sum(y)
+s.y
+n.y <- length(y)
+n.y
+m.y <- mean(y)
+m.y
+error <- y - m.y
+se <- error^2
+sse <- sum(se)
+tmp <- data.frame(error, se)
+print(tmp)
+print(sse)
+sse2 <- sum(error^2)
+sse2
+df.y <- n.y - 1
+mse <- sse / df.y
+mse
+var(y)
+</code>
+<tabbox ro2>
+<code>
+> rnorm2 <- function(n,mean,sd) { mean+sd*scale(rnorm(n)) }
+> set.seed(1)
+> a <- rnorm2(100000000, 100, 10)
+> head(a)
+          [,1]
+[1,]  93.73555
+[2,] 101.83562
+[3,]  91.64403
+[4,] 115.95044
+[5,] 103.29411
+[6,]  91.79562
+> tail(a,20)
+                  [,1]
+ [99999981,]  94.13305
+ [99999982,]  99.05620
+ [99999983,]  92.38097
+ [99999984,] 101.97245
+ [99999985,]  90.67295
+ [99999986,]  95.95812
+ [99999987,]  75.85622
+ [99999988,]  89.77369
+ [99999989,] 101.50076
+ [99999990,] 119.73697
+ [99999991,]  90.86393
+ [99999992,]  92.32930
+ [99999993,] 102.45092
+ [99999994,] 124.03421
+ [99999995,]  86.92416
+ [99999996,] 100.61147
+ [99999997,]  93.50381
+ [99999998,] 101.24958
+ [99999999,]  95.95971
+[100000000,]  96.43605
+> m.a <- mean(a)
+> sse.a <- sum((a-m.a)^2)
+> n.a <- length(a)
+> df.a <- n.a - 1
+>
+> sse.a / n.a
+[1] 100
+> sse.a/ df.a
+[1] 100
+>
+</code>
+</tabbox>
 더 자세한 것은 [[:why n-1]] 참조. \\