User Tools

Site Tools


estimated_standard_deviation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
estimated_standard_deviation [2025/09/05 23:17] – [output] hkimscilestimated_standard_deviation [2025/09/30 15:19] (current) – [직관적 이해] hkimscil
Line 25: Line 25:
    
 이를 그림으로도 설명할 수 있다. 아래에서 녹색의 세로선은 모집단의 평균값이고, 붉은색의 세로선은 3개로 이루어진 샘플의 평균값이다. 그리고 녹색 가로선은 3개의 샘플요소와 모집단평균과의 ($\mu$) 차이값들이고, 적색가로선은 3개의 샘플요소와 샘플평균과의 ($\overline{X}$) 차이값이다. 이 차이값들을 모아서 길이를 비교한 것이 그래프의 하단이다. 적색가로선 세개의 합이 녹색가로선 세개의 합보다 작다. 이는 샘플평균을 사용했을 때와 모집단의 평균을 사용했을 때를 비교하는 것이지만 모집단 평균외에 다른 값을 썼어도 마찬가지이다.  이를 그림으로도 설명할 수 있다. 아래에서 녹색의 세로선은 모집단의 평균값이고, 붉은색의 세로선은 3개로 이루어진 샘플의 평균값이다. 그리고 녹색 가로선은 3개의 샘플요소와 모집단평균과의 ($\mu$) 차이값들이고, 적색가로선은 3개의 샘플요소와 샘플평균과의 ($\overline{X}$) 차이값이다. 이 차이값들을 모아서 길이를 비교한 것이 그래프의 하단이다. 적색가로선 세개의 합이 녹색가로선 세개의 합보다 작다. 이는 샘플평균을 사용했을 때와 모집단의 평균을 사용했을 때를 비교하는 것이지만 모집단 평균외에 다른 값을 썼어도 마찬가지이다. 
-{{:pasted:20200412-002825.png?500}}+ 
 +<code> 
 +> m.p1 <- 12 
 +> s1 <- c(6, 9, 15) 
 +> hist(s1) 
 +> s1 
 +[1]  6  9 15 
 +> abline(v=s1, lwd=3, lty=2) 
 +> abline(v=10, lwd=3, lty=1, col="red"
 +> abline(v=12, lwd=3, lty=1, col="green"
 +>  
 +> m.s1 <- mean(s1) 
 +> m.p1 <- 12 
 +> abs(s1-m.s1) 
 +[1] 4 1 5 
 +> abs(s1-m.p1) 
 +[1] 6 3 3 
 +
 +</code> 
 +{{:pasted:20250930-150655.png?800}} 
 +붉은 선 s1 평균 (10) 
 +초록 선 모집단 평균 12 (혹은 그냥 12 가치라고 해도 됨) 
 +세개 검은 선은 각각 6, 9, 15 
 + 
 +붉은 선에서 세개 검은 선까지의 길이는 4, 1, 5가 되고 이를 더하면 10 
 +초록 선에서 세개 검은 선까지의 길이는 6, 3, 3이 되고 이를 더하면 12 
  
 ====== 실험적, R에서 시뮬레이션으로 이해 ====== ====== 실험적, R에서 시뮬레이션으로 이해 ======
Line 465: Line 491:
 tail(vs) tail(vs)
  
-plot(msrs) +plot(vs, msrs, type='b')
-plot(vs)+
  
 # scaled # scaled
Line 477: Line 502:
 v.orig <- (v*sd(x))+mean(x)  v.orig <- (v*sd(x))+mean(x) 
 v.orig v.orig
 +
 +plot(vs.orig, msrs, type='b')
  
 </code> </code>
Line 678: Line 705:
 <WRAP half column> <WRAP half column>
 comment comment
-{{:pasted:20250905-231513.png}} 
-혹은 
 {{:pasted:20250905-231742.png}} {{:pasted:20250905-231742.png}}
 +
 +만약에 처음에 구한 랜덤 v값이 평균의 오른 쪽에있었더라면, 아래 그림과 같이 평균에 접근했을 것이다.
 +{{:pasted:20250905-231513.png}}
 </WRAP> </WRAP>
 </WRAP> </WRAP>
Line 804: Line 832:
 \end{eqnarray*} \end{eqnarray*}
  
-즉, 원래 $\sigma^2$ 값보다 조금 작은 값을 갖게 될 것이다 (이를 biased result라고 한다).+즉, 원래 $\sigma^2$ 값보다 조금 작은 값을 갖게 될 것이다 (이를 biased result라고 한다). 따라서 샘플을 취한 후에 모집단의 분산을 추정할 때에는 n 대신에 n-1을 사용하는 것이 맞다. 그렇다면 모집단의 분산을 구할 때는 n으로 (N으로) 나누어 주면 된다고 생각된다. 그러나 일반적으로 모집단의 분산을 구할 때에도 N-1로 나누어 구하게 된다. 이유는 모집단의 경우에 N이 충분히 큰 경우인데 이 때에는 N으로 나누어 주나, N-1로 나누어주나 큰 차이가 없기 때문이다. 따라서, R에서 분산을 구하는 var(x)에는 x의 성격에 상관없이 SS를 n-1로 나누어 분산을 구하게 된다.
  
  
estimated_standard_deviation.1757081864.txt.gz · Last modified: by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki