Differences

This shows you the differences between two versions of the page.

--- variance [2026/03/10 23:31] – [Read more] hkimscil
+++ variance [2026/03/10 23:56] (current) – hkimscil
@@ Line 1: / Line 1: @@
 ====== Variance ======
 [[Mean]],[[Mode]],[[Median]] 등의 중심경향값과 더불어서 많이 사용되는 [[:Statistics|statistics(통계치)]]로는 데이터가 얼마나 퍼져 있는지 (spread)를 나타내는 것들이 있다. 가장 평이하고 이해하기 쉬운 개념으로는 [[:Range|range(범위)]]가 있으며, 다소 직관적이지는 않지만 여러가지 통계 계산에 사용되는 것으로는 Variance(분산)이 있다.
+<tabbox rs1a>
+<code>
+rnorm2 <- function(n,mean,sd) { mean+sd*scale(rnorm(n)) }
+n.x <- 100
+m.x <- 50
+sd.x <- 4
+set.seed(101)
+x <- rnorm2(n.x, m.x, sd.x)
+x[1]
+# x[1] = m.x + e.x
+e.x <- x - m.x
+head(e.x)
+sum(e.x)
+x2 <- m.x + e.x
+x2 == x
+se.x <- e.x^2  # square error
+head(se)
+sse.x <- sum(se)
+###############
+sse.x # sum of square error
+    # (residual, deviation score, total)
+###############
+df.x <- n.x - 1
+mse.x <- sse.x / df.x
+mse.x
+var(x)
+mse.x == var(x)
+############################
+</code>
+<tabbox ro1a>
+<code>
+> rnorm2 <- function(n,mean,sd) { mean+sd*scale(rnorm(n)) }
+> n.x <- 100
+> m.x <- 50
+> sd.x <- 4
+>
+> set.seed(101)
+> x <- rnorm2(n.x, m.x, sd.x)
+> x[1]
+[1] 48.76307
+> # x[1] = m.x + e.x
+> e.x <- x - m.x
+> head(e.x)
+          [,1]
+[1,] -1.236931
+[2,]  2.525088
+[3,] -2.731068
+[4,]  1.077222
+[5,]  1.490081
+[6,]  5.186575
+> sum(e.x)
+[1] 7.105427e-15
+>
+> x2 <- m.x + e.x
+> x2 == x
+       [,1]
+  [1,] TRUE
+  [2,] TRUE
+  [3,] TRUE
+  [4,] TRUE
+  [5,] TRUE
+  [6,] TRUE
+ [10,] TRUE
+ . . . . . .
+ [99,] TRUE
+[100,] TRUE
+>
+> se.x <- e.x^2  # square error
+> head(se)
+          [,1]
+[1,]  2.003177
+[2,] 40.421681
+[3,]  3.024598
+[4,] 15.246176
+[5,]  1.763444
+[6,] 33.997606
+> sse.x <- sum(se)
+> ###############
+> sse.x # sum of square error (residual, deviation score, total)
+[1] 1584
+> ###############
+>
+> df.x <- n.x - 1
+> mse.x <- sse.x / df.x
+> mse.x
+[1] 16
+> var(x)
+     [,1]
+[1,]   16
+> mse.x == var(x)
+     [,1]
+[1,] TRUE
+>
+> ############################
+>
+</code>
+</tabbox>
   * 숫자로 측정된 한 변인이 (variable Y) 있다.
@@ Line 156: / Line 259: @@
 ====== Read more ======
 샘플의 분산으로 모집단의 분산값을 추정할 때에는, 샘플의 숫자인 $n$ 대신에 $n-1$ 을 사용한다 (참조. [[:estimated standard deviation]]). 샘플의 분산은 $s^2$ 을 기호로 사용한다.
+\begin{eqnarray*}
-$ s^2 = Var[X] = \displaystyle \frac{\displaystyle \sum_{i=1}^n (X_i - \overline{X})^2}{n-1}$
+s^2 & = & Var[X] \\
+& = & \displaystyle \frac{\displaystyle \sum_{i=1}^n (X_i - \overline{X})^2}{n-1}
+\end{eqnarray*}
 위에서 언급한 것처럼, 분산 공식의 분자부분을 **Sum of Squares**라고 부르고 줄여서 $SS$라고 쓰고, n-1을 [[:degrees of freedom]] 혹은 이를 줄여서 $df$라고 쓴다. 따라서 위의 분산을 구하는 식은 아래와 같이 표현될 수 있다.
+\begin{eqnarray*}
-$$s^2 = \displaystyle \frac{SS}{df}$$
+s^2 & = & \displaystyle \frac{\text{SS}} {\text{df}}
+\end{eqnarray*}
 위에서 샘플의 분산으로 모집단의 분산을 추정할 때 n-1을 쓴다고 하였지만, <fc #ff0000>사실은</fc> 모집단의 분산을 계산할 때에도 <fc #ff0000>n-1</fc>을 쓴다. 그 이유는 모집단이라면 N이 상당히 클텐데, 이 경우 SS값도 아주 큰 값을 갖는다. 이 숫자을 (SS값을) N으로 나누거나 N-1로 나누거나 큰 차이가 없다. 따라서 모든 경우에 n-1로 나누어 분산을 구한다.
-$$\sigma^2 = \displaystyle \frac{SS}{N-1} = \displaystyle \frac{SS}{df}$$
+\begin{eqnarray*}
+\sigma^2 & = & \displaystyle \frac{\text{SS}}{\text{N-1}} \\
+& = & \displaystyle \frac{\text{SS}} {\text{df}}
+\end{eqnarray*}
 아래는 R에서 보는 간단한 예이다.