User Tools

Site Tools


variance

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
variance [2026/03/10 23:28] – [Read more] hkimscilvariance [2026/03/10 23:56] (current) hkimscil
Line 1: Line 1:
 ====== Variance ====== ====== Variance ======
 [[Mean]],[[Mode]],[[Median]] 등의 중심경향값과 더불어서 많이 사용되는 [[:Statistics|statistics(통계치)]]로는 데이터가 얼마나 퍼져 있는지 (spread)를 나타내는 것들이 있다. 가장 평이하고 이해하기 쉬운 개념으로는 [[:Range|range(범위)]]가 있으며, 다소 직관적이지는 않지만 여러가지 통계 계산에 사용되는 것으로는 Variance(분산)이 있다. [[Mean]],[[Mode]],[[Median]] 등의 중심경향값과 더불어서 많이 사용되는 [[:Statistics|statistics(통계치)]]로는 데이터가 얼마나 퍼져 있는지 (spread)를 나타내는 것들이 있다. 가장 평이하고 이해하기 쉬운 개념으로는 [[:Range|range(범위)]]가 있으며, 다소 직관적이지는 않지만 여러가지 통계 계산에 사용되는 것으로는 Variance(분산)이 있다.
 +
 +<tabbox rs1a>
 +<code>
 +rnorm2 <- function(n,mean,sd) { mean+sd*scale(rnorm(n)) } 
 +n.x <- 100
 +m.x <- 50
 +sd.x <- 4
 +
 +set.seed(101)
 +x <- rnorm2(n.x, m.x, sd.x)
 +x[1]
 +# x[1] = m.x + e.x
 +e.x <- x - m.x
 +head(e.x)
 +sum(e.x)
 +
 +x2 <- m.x + e.x
 +x2 == x
 +
 +se.x <- e.x^2  # square error
 +head(se)
 +sse.x <- sum(se)
 +###############
 +sse.x # sum of square error 
 +    # (residual, deviation score, total)
 +###############
 +df.x <- n.x - 1
 +mse.x <- sse.x / df.x
 +mse.x
 +var(x)
 +mse.x == var(x)
 +
 +############################
 +</code>
 +
 +<tabbox ro1a>
 +<code>
 +> rnorm2 <- function(n,mean,sd) { mean+sd*scale(rnorm(n)) } 
 +> n.x <- 100
 +> m.x <- 50
 +> sd.x <- 4
 +
 +> set.seed(101)
 +> x <- rnorm2(n.x, m.x, sd.x)
 +> x[1]
 +[1] 48.76307
 +> # x[1] = m.x + e.x
 +> e.x <- x - m.x
 +> head(e.x)
 +          [,1]
 +[1,] -1.236931
 +[2,]  2.525088
 +[3,] -2.731068
 +[4,]  1.077222
 +[5,]  1.490081
 +[6,]  5.186575
 +> sum(e.x)
 +[1] 7.105427e-15
 +
 +> x2 <- m.x + e.x
 +> x2 == x
 +       [,1]
 +  [1,] TRUE
 +  [2,] TRUE
 +  [3,] TRUE
 +  [4,] TRUE
 +  [5,] TRUE
 +  [6,] TRUE
 + [10,] TRUE
 + . . . . . .
 + [99,] TRUE
 +[100,] TRUE
 +
 +> se.x <- e.x^2  # square error
 +> head(se)
 +          [,1]
 +[1,]  2.003177
 +[2,] 40.421681
 +[3,]  3.024598
 +[4,] 15.246176
 +[5,]  1.763444
 +[6,] 33.997606
 +> sse.x <- sum(se)
 +> ###############
 +> sse.x # sum of square error (residual, deviation score, total)
 +[1] 1584
 +> ###############
 +>
 +> df.x <- n.x - 1
 +> mse.x <- sse.x / df.x
 +> mse.x
 +[1] 16
 +> var(x)
 +     [,1]
 +[1,]   16
 +> mse.x == var(x)
 +     [,1]
 +[1,] TRUE
 +
 +> ############################
 +
 +</code>
 +</tabbox>
  
   * 숫자로 측정된 한 변인이 (variable Y) 있다.   * 숫자로 측정된 한 변인이 (variable Y) 있다.
Line 155: Line 258:
  
 ====== Read more ====== ====== Read more ======
- 
 샘플의 분산으로 모집단의 분산값을 추정할 때에는, 샘플의 숫자인 $n$ 대신에 $n-1$ 을 사용한다 (참조. [[:estimated standard deviation]]). 샘플의 분산은 $s^2$ 을 기호로 사용한다.  샘플의 분산으로 모집단의 분산값을 추정할 때에는, 샘플의 숫자인 $n$ 대신에 $n-1$ 을 사용한다 (참조. [[:estimated standard deviation]]). 샘플의 분산은 $s^2$ 을 기호로 사용한다. 
- +\begin{eqnarray*} 
-s^2 = Var[X] = \displaystyle \frac{\displaystyle \sum_{i=1}^n (X_i - \overline{X})^2}{n-1}$+s^2 Var[X] \\ 
 +\displaystyle \frac{\displaystyle \sum_{i=1}^n (X_i - \overline{X})^2}{n-1}  
 +\end{eqnarray*}
  
 위에서 언급한 것처럼, 분산 공식의 분자부분을 **Sum of Squares**라고 부르고 줄여서 $SS$라고 쓰고, n-1을 [[:degrees of freedom]] 혹은 이를 줄여서 $df$라고 쓴다. 따라서 위의 분산을 구하는 식은 아래와 같이 표현될 수 있다. 위에서 언급한 것처럼, 분산 공식의 분자부분을 **Sum of Squares**라고 부르고 줄여서 $SS$라고 쓰고, n-1을 [[:degrees of freedom]] 혹은 이를 줄여서 $df$라고 쓴다. 따라서 위의 분산을 구하는 식은 아래와 같이 표현될 수 있다.
- +\begin{eqnarray*} 
-$$s^2 = \displaystyle \frac{SS}{df}$$+s^2 \displaystyle \frac{\text{SS}{\text{df}
 +\end{eqnarray*}
  
 위에서 샘플의 분산으로 모집단의 분산을 추정할 때 n-1을 쓴다고 하였지만, <fc #ff0000>사실은</fc> 모집단의 분산을 계산할 때에도 <fc #ff0000>n-1</fc>을 쓴다. 그 이유는 모집단이라면 N이 상당히 클텐데, 이 경우 SS값도 아주 큰 값을 갖는다. 이 숫자을 (SS값을) N으로 나누거나 N-1로 나누거나 큰 차이가 없다. 따라서 모든 경우에 n-1로 나누어 분산을 구한다.  위에서 샘플의 분산으로 모집단의 분산을 추정할 때 n-1을 쓴다고 하였지만, <fc #ff0000>사실은</fc> 모집단의 분산을 계산할 때에도 <fc #ff0000>n-1</fc>을 쓴다. 그 이유는 모집단이라면 N이 상당히 클텐데, 이 경우 SS값도 아주 큰 값을 갖는다. 이 숫자을 (SS값을) N으로 나누거나 N-1로 나누거나 큰 차이가 없다. 따라서 모든 경우에 n-1로 나누어 분산을 구한다. 
-$$\sigma^2 = \displaystyle \frac{SS}{N-1} = \displaystyle \frac{SS}{df}$$+\begin{eqnarray*} 
 +\sigma^2 \displaystyle \frac{\text{SS}}{\text{N-1}} \\ 
 +\displaystyle \frac{\text{SS}{\text{df}
 + 
 +\end{eqnarray*} 
 + 
  
 아래는 R에서 보는 간단한 예이다.  아래는 R에서 보는 간단한 예이다. 
-<tabbed> 
-  * variance:rs2 
-  * *variance:ro2 
-</tabbed> 
  
 <tabbox rs2> <tabbox rs2>
Line 198: Line 305:
 mse mse
 var(y) var(y)
- 
 </code> </code>
 +
 <tabbox ro2> <tabbox ro2>
 <code> <code>
variance.1773185332.txt.gz · Last modified: by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki