Differences

This shows you the differences between two versions of the page.

--- variance [2026/03/10 23:35] – [Read more] hkimscil
+++ variance [2026/03/10 23:56] (current) – hkimscil
@@ Line 1: / Line 1: @@
 ====== Variance ======
 [[Mean]],[[Mode]],[[Median]] 등의 중심경향값과 더불어서 많이 사용되는 [[:Statistics|statistics(통계치)]]로는 데이터가 얼마나 퍼져 있는지 (spread)를 나타내는 것들이 있다. 가장 평이하고 이해하기 쉬운 개념으로는 [[:Range|range(범위)]]가 있으며, 다소 직관적이지는 않지만 여러가지 통계 계산에 사용되는 것으로는 Variance(분산)이 있다.
+<tabbox rs1a>
+<code>
+rnorm2 <- function(n,mean,sd) { mean+sd*scale(rnorm(n)) }
+n.x <- 100
+m.x <- 50
+sd.x <- 4
+set.seed(101)
+x <- rnorm2(n.x, m.x, sd.x)
+x[1]
+# x[1] = m.x + e.x
+e.x <- x - m.x
+head(e.x)
+sum(e.x)
+x2 <- m.x + e.x
+x2 == x
+se.x <- e.x^2  # square error
+head(se)
+sse.x <- sum(se)
+###############
+sse.x # sum of square error
+    # (residual, deviation score, total)
+###############
+df.x <- n.x - 1
+mse.x <- sse.x / df.x
+mse.x
+var(x)
+mse.x == var(x)
+############################
+</code>
+<tabbox ro1a>
+<code>
+> rnorm2 <- function(n,mean,sd) { mean+sd*scale(rnorm(n)) }
+> n.x <- 100
+> m.x <- 50
+> sd.x <- 4
+>
+> set.seed(101)
+> x <- rnorm2(n.x, m.x, sd.x)
+> x[1]
+[1] 48.76307
+> # x[1] = m.x + e.x
+> e.x <- x - m.x
+> head(e.x)
+          [,1]
+[1,] -1.236931
+[2,]  2.525088
+[3,] -2.731068
+[4,]  1.077222
+[5,]  1.490081
+[6,]  5.186575
+> sum(e.x)
+[1] 7.105427e-15
+>
+> x2 <- m.x + e.x
+> x2 == x
+       [,1]
+  [1,] TRUE
+  [2,] TRUE
+  [3,] TRUE
+  [4,] TRUE
+  [5,] TRUE
+  [6,] TRUE
+ [10,] TRUE
+ . . . . . .
+ [99,] TRUE
+[100,] TRUE
+>
+> se.x <- e.x^2  # square error
+> head(se)
+          [,1]
+[1,]  2.003177
+[2,] 40.421681
+[3,]  3.024598
+[4,] 15.246176
+[5,]  1.763444
+[6,] 33.997606
+> sse.x <- sum(se)
+> ###############
+> sse.x # sum of square error (residual, deviation score, total)
+[1] 1584
+> ###############
+>
+> df.x <- n.x - 1
+> mse.x <- sse.x / df.x
+> mse.x
+[1] 16
+> var(x)
+     [,1]
+[1,]   16
+> mse.x == var(x)
+     [,1]
+[1,] TRUE
+>
+> ############################
+>
+</code>
+</tabbox>
   * 숫자로 측정된 한 변인이 (variable Y) 있다.
@@ Line 163: / Line 266: @@
 위에서 언급한 것처럼, 분산 공식의 분자부분을 **Sum of Squares**라고 부르고 줄여서 $SS$라고 쓰고, n-1을 [[:degrees of freedom]] 혹은 이를 줄여서 $df$라고 쓴다. 따라서 위의 분산을 구하는 식은 아래와 같이 표현될 수 있다.
 \begin{eqnarray*}
-s^2 & = & \displaystyle \frac{SS}{df}
+s^2 & = & \displaystyle \frac{\text{SS}} {\text{df}}
 \end{eqnarray*}