variance

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
variance [2024/09/11 07:58] – [Read more] hkimscilvariance [2025/03/24 08:22] (current) hkimscil
Line 10: Line 10:
  
 아래의 그래프는 각각 그 평균과 분산값이 다른 그래프이다. 검은색 라인의 경우 (가장 왼쪽), 평균은 -2, 분산값은 16 이고; 붉은 색 라인은 평균이 5, 분산값은 4, 마지막으로 청색 라인의 경우는 평균은 8, 분산 값은 1 인 경우이다.  아래의 그래프는 각각 그 평균과 분산값이 다른 그래프이다. 검은색 라인의 경우 (가장 왼쪽), 평균은 -2, 분산값은 16 이고; 붉은 색 라인은 평균이 5, 분산값은 4, 마지막으로 청색 라인의 경우는 평균은 8, 분산 값은 1 인 경우이다. 
-{{:pasted:20200414-130627.png}}+|{{:pasted:20200414-130627.png?600}}
 +|<WRAP> 위 그래프 R에서 그리기 
 <code> <code>
 x <- seq(-15, 15, length=1000) x <- seq(-15, 15, length=1000)
Line 34: Line 35:
        labels, lwd=4, lty=c(1, 1, 1), col=colors, cex=1.7)        labels, lwd=4, lty=c(1, 1, 1), col=colors, cex=1.7)
 </code> </code>
 +</WRAP>|
 그림에서 직관적으로 보고 알 수 있듯이 분산은 그래프의 분포가 평균을 중심으로 얼마나 퍼져있는지를 (spread) 나타내주는 일종의 지표이다. 어떤 집합이 평균을 중심으로 얼마나 퍼져 있는가를 알아보기 위한 방법으로는 상식적으로 떠올릴 수 있는 것은 각 개인의 점수가 평균에서 얼마나 떨어져 있는가를 측정하여 모두 더한 후 이를 개인 수로 (number of elements) 나누는 방법을 떨올릴 수 있다. 개인의 점수가 평균에서 얼마나 떨어져 있는가를 deviation score라고 한다. 아래의 그래프는 평균이 100인 그래프를 그린 것인데, 어느 한 개인의 점수가 120이라고 하면 그 개인의 deviation score는 120-100, 즉 20이라고 할 수 있다. 그림에서 직관적으로 보고 알 수 있듯이 분산은 그래프의 분포가 평균을 중심으로 얼마나 퍼져있는지를 (spread) 나타내주는 일종의 지표이다. 어떤 집합이 평균을 중심으로 얼마나 퍼져 있는가를 알아보기 위한 방법으로는 상식적으로 떠올릴 수 있는 것은 각 개인의 점수가 평균에서 얼마나 떨어져 있는가를 측정하여 모두 더한 후 이를 개인 수로 (number of elements) 나누는 방법을 떨올릴 수 있다. 개인의 점수가 평균에서 얼마나 떨어져 있는가를 deviation score라고 한다. 아래의 그래프는 평균이 100인 그래프를 그린 것인데, 어느 한 개인의 점수가 120이라고 하면 그 개인의 deviation score는 120-100, 즉 20이라고 할 수 있다.
  
Line 154: Line 155:
 $$s^2 = \displaystyle \frac{SS}{df}$$ $$s^2 = \displaystyle \frac{SS}{df}$$
  
-위에서 샘플의 분산으로 모집단의 분산을 추정할 때 n-1을 쓴다고 하였지만, 사실은 모집단의 분산을 계산할 때에도 n-1을 쓴다. 그 이유는 모집단이라면 N이 상당히 클텐데, 이 경우 SS값도 아주 큰 값을 갖는다. 이 숫자을 (SS값을) N으로 나누거나 N-1로 나누거나 큰 차이가 없다. 따라서 모든 경우에 n-1로 나누어 분산을 구한다. +위에서 샘플의 분산으로 모집단의 분산을 추정할 때 n-1을 쓴다고 하였지만, <fc #ff0000>사실은</fc> 모집단의 분산을 계산할 때에도 <fc #ff0000>n-1</fc>을 쓴다. 그 이유는 모집단이라면 N이 상당히 클텐데, 이 경우 SS값도 아주 큰 값을 갖는다. 이 숫자을 (SS값을) N으로 나누거나 N-1로 나누거나 큰 차이가 없다. 따라서 모든 경우에 n-1로 나누어 분산을 구한다.  
 +$$\sigma^2 = \displaystyle \frac{SS}{N-1} = \displaystyle \frac{SS}{df}$$
  
-$$s^2 = \displaystyle {SS}$$+아래는 R에서 보는 간단한 예이다.  
 + 
 +<code> 
 +> a <- rnorm2(100000000, 100, 10) 
 +> a.mean <- mean(a) 
 +> ss <- sum((a-a.mean)^2
 +> n <- length(a) 
 +> df <- n-1 
 +> ss/n 
 +[1] 100 
 +> ss/df 
 +[1] 100 
 +</code>
  
 See also [[Standard Deviation]] \\ See also [[Standard Deviation]] \\
  
variance.1726009097.txt.gz · Last modified: 2024/09/11 07:58 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki