User Tools

Site Tools


variance

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
variance [2022/09/01 01:50] hkimscilvariance [2025/03/24 08:22] (current) hkimscil
Line 10: Line 10:
  
 아래의 그래프는 각각 그 평균과 분산값이 다른 그래프이다. 검은색 라인의 경우 (가장 왼쪽), 평균은 -2, 분산값은 16 이고; 붉은 색 라인은 평균이 5, 분산값은 4, 마지막으로 청색 라인의 경우는 평균은 8, 분산 값은 1 인 경우이다.  아래의 그래프는 각각 그 평균과 분산값이 다른 그래프이다. 검은색 라인의 경우 (가장 왼쪽), 평균은 -2, 분산값은 16 이고; 붉은 색 라인은 평균이 5, 분산값은 4, 마지막으로 청색 라인의 경우는 평균은 8, 분산 값은 1 인 경우이다. 
-{{:pasted:20200414-130627.png}}+|{{:pasted:20200414-130627.png?600}}
 +|<WRAP> 위 그래프 R에서 그리기 
 <code> <code>
 x <- seq(-15, 15, length=1000) x <- seq(-15, 15, length=1000)
Line 34: Line 35:
        labels, lwd=4, lty=c(1, 1, 1), col=colors, cex=1.7)        labels, lwd=4, lty=c(1, 1, 1), col=colors, cex=1.7)
 </code> </code>
 +</WRAP>|
 그림에서 직관적으로 보고 알 수 있듯이 분산은 그래프의 분포가 평균을 중심으로 얼마나 퍼져있는지를 (spread) 나타내주는 일종의 지표이다. 어떤 집합이 평균을 중심으로 얼마나 퍼져 있는가를 알아보기 위한 방법으로는 상식적으로 떠올릴 수 있는 것은 각 개인의 점수가 평균에서 얼마나 떨어져 있는가를 측정하여 모두 더한 후 이를 개인 수로 (number of elements) 나누는 방법을 떨올릴 수 있다. 개인의 점수가 평균에서 얼마나 떨어져 있는가를 deviation score라고 한다. 아래의 그래프는 평균이 100인 그래프를 그린 것인데, 어느 한 개인의 점수가 120이라고 하면 그 개인의 deviation score는 120-100, 즉 20이라고 할 수 있다. 그림에서 직관적으로 보고 알 수 있듯이 분산은 그래프의 분포가 평균을 중심으로 얼마나 퍼져있는지를 (spread) 나타내주는 일종의 지표이다. 어떤 집합이 평균을 중심으로 얼마나 퍼져 있는가를 알아보기 위한 방법으로는 상식적으로 떠올릴 수 있는 것은 각 개인의 점수가 평균에서 얼마나 떨어져 있는가를 측정하여 모두 더한 후 이를 개인 수로 (number of elements) 나누는 방법을 떨올릴 수 있다. 개인의 점수가 평균에서 얼마나 떨어져 있는가를 deviation score라고 한다. 아래의 그래프는 평균이 100인 그래프를 그린 것인데, 어느 한 개인의 점수가 120이라고 하면 그 개인의 deviation score는 120-100, 즉 20이라고 할 수 있다.
  
Line 67: Line 68:
 $$\text{Average of Deviation Score} = \displaystyle \frac{\displaystyle  \sum\limits_{i=1}^N ({X_i-\mu})}{N}$$ $$\text{Average of Deviation Score} = \displaystyle \frac{\displaystyle  \sum\limits_{i=1}^N ({X_i-\mu})}{N}$$
  
-이렇게 하면 "개인들의 점수가 평균에서 얼마나 떨어져 있는지를 종합적으로 나타내 주는 지수가 될 수 있는것 처럼 보인다. **그러나**, 이 방법의 문제는 deviation score의 합은 언제나 0이라는 점에 있다. 즉, 어떤 집합이든지 분산값을 위와 같이 구하려고 한다면, 그 분자 값은 언제나 0이 된다는 점이다. 사실 평균이 하는 역할 중의 하나는 바로 각 개인의 수치의 무게중심을 찾아 주는 역할이므로 이와 같은 결과가 당연하다. 아래는 이를 나타내 주는 예이다. +이렇게 하면 "개인들의 점수가 평균에서 얼마나 떨어져 있는지를 종합적으로 나타내 주는 지수가 될 수 있는것 처럼 보인다. **그러나**, 이 방법의 문제는 deviation score의 합은 언제나 0이라는 점에 있다. 즉, 어떤 집합이든지 분산값을 위와 같이 구하려고 한다면, 그 분자 값은 언제나 0이 된다. 사실 평균이 하는 역할 중의 하나는 바로 각 개인의 수치의 무게중심을 찾아 주는 역할이므로 이와 같은 결과가 당연하다. 아래는 이를 나타내 주는 예이다. 
  
 | X  | score  | deviation score  |  | X  | score  | deviation score  | 
Line 153: Line 154:
  
 $$s^2 = \displaystyle \frac{SS}{df}$$ $$s^2 = \displaystyle \frac{SS}{df}$$
 +
 +위에서 샘플의 분산으로 모집단의 분산을 추정할 때 n-1을 쓴다고 하였지만, <fc #ff0000>사실은</fc> 모집단의 분산을 계산할 때에도 <fc #ff0000>n-1</fc>을 쓴다. 그 이유는 모집단이라면 N이 상당히 클텐데, 이 경우 SS값도 아주 큰 값을 갖는다. 이 숫자을 (SS값을) N으로 나누거나 N-1로 나누거나 큰 차이가 없다. 따라서 모든 경우에 n-1로 나누어 분산을 구한다. 
 +$$\sigma^2 = \displaystyle \frac{SS}{N-1} = \displaystyle \frac{SS}{df}$$
 +
 +아래는 R에서 보는 간단한 예이다. 
 +
 +<code>
 +> a <- rnorm2(100000000, 100, 10)
 +> a.mean <- mean(a)
 +> ss <- sum((a-a.mean)^2)
 +> n <- length(a)
 +> df <- n-1
 +> ss/n
 +[1] 100
 +> ss/df
 +[1] 100
 +</code>
  
 See also [[Standard Deviation]] \\ See also [[Standard Deviation]] \\
  
variance.1661964626.txt.gz · Last modified: 2022/09/01 01:50 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki