User Tools

Site Tools


estimated_standard_deviation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
estimated_standard_deviation [2020/11/05 18:03] – [실험적, 수학적 이해] hkimscilestimated_standard_deviation [2025/03/24 08:27] (current) – [직관적 이해] hkimscil
Line 11: Line 11:
  
 \begin{eqnarray*} \begin{eqnarray*}
-\hat{\sigma}^{2} \frac {\displaystyle\sum_{i=1}^{n}{(X_{i}-\overline{X})}} {n} +\hat{\sigma}^{2} \neq \frac {\displaystyle\sum_{i=1}^{n}{(X_{i}-\overline{X})}} {n} 
 \end{eqnarray*} \end{eqnarray*}
  
Line 22: Line 22:
  
 ====== 직관적 이해 ====== ====== 직관적 이해 ======
 +분산은 $SS/df$ 라고 배웠는데, SS = Sum of Something Square라고 설명하고, 여기서 Something 은 error 값이라고 (개인의 점수를 평균으로 추측했을 때 틀린 만큼의 에러값) 하였다. 그리고 평균으로 예측하는 방법이 가장 작은 오차를 갖는 (예측이 들 틀리는) 방법이라고 하였다 (개인점수 중에서 평균이 제일 많이 나오므로, 평균으로 개인점수를 예측하면 제일 들 틀린다). 따라서 어느 한 집합에서 (샘플에서) 개인점수에서 평균을 빼고 이른 제곱하여 모두 더한 값은 최소값을 갖는다. 
 +====== 시뮬레이션 이해 ======
 위에서 n-1 을 사용하기 위해서 추정하는 것은  위에서 n-1 을 사용하기 위해서 추정하는 것은 
  
Line 50: Line 52:
 |    |    | SS<sub>samp</sub>  | 98  | |    |    | SS<sub>samp</sub>  | 98  |
  
-이렇게 얻은 SS<sub>samp</sub>값은 98인데, 이 값은 SS<sub>pop</sub> 값보다 작다. 아래의 R code는 이를 확인해 보는 작업이다. 각각의 샘플에서 (n=3) 취한 SS<sub>samp</sub> 값은 대개는 SS<sub>pop</sub>값보다 작은 경향을 띈다. 따라서 이 작은 값을 상쇄하기 위해서 n 대신 n-1 로 SS<sub>samp</sub> 값을 나누어 준다.+이렇게 얻은 SS<sub>samp</sub>값은 98인데, 이 값은 SS<sub>pop</sub> 값보다 작다. 아래의 R code는 이를 확인해 보는 작업이다. 각각의 샘플에서 (n=3) 취한 SS<sub>samp</sub> 값은 SS<sub>pop</sub>값보다 작게 된다. 따라서 이 작은 값을 상쇄하기 위해서 n 대신 n-1 로 SS<sub>samp</sub> 값을 나누어 준다.
  
  
Line 223: Line 225:
  
 ''sum%%(%%%%(%%ks-k.mean)^2) '' > ''sum%%(%%%%(%%ks-ks.mean)^2) ''  즉, ''sum%%(%%%%(%%ks-k.mean)^2) '' > ''sum%%(%%%%(%%ks-ks.mean)^2) ''  즉,
-$\sum({X_{i}-\mu})^{2} > \sum({X_{i}-\overline{X}})^{2}$ 의 경향이 다.+$\sum({X_{i}-\mu})^{2} > \sum({X_{i}-\overline{X}})^{2}$ 이다.
  
 이를 그림으로 설명하면 다음과 같다. 아래에서 녹색의 세로선은 모집단의 평균값이고, 붉은색의 세로선은 3개로 이루어진 샘플의 평균값이다. 그리고 녹색 가로선은 3개의 샘플요소와 모집단평균과의 ($\mu$) 차이값들이고, 적색가로선은 3개의 샘플요소와 샘플평균과의 ($\overline{X}$) 차이값이다. 이 차이값들을 모아서 길이를 비교한 것이 그래프의 하단이다. 적색가로선 세개의 합이 녹색가로선 세개의 합보다 작다.  이를 그림으로 설명하면 다음과 같다. 아래에서 녹색의 세로선은 모집단의 평균값이고, 붉은색의 세로선은 3개로 이루어진 샘플의 평균값이다. 그리고 녹색 가로선은 3개의 샘플요소와 모집단평균과의 ($\mu$) 차이값들이고, 적색가로선은 3개의 샘플요소와 샘플평균과의 ($\overline{X}$) 차이값이다. 이 차이값들을 모아서 길이를 비교한 것이 그래프의 하단이다. 적색가로선 세개의 합이 녹색가로선 세개의 합보다 작다. 
Line 352: Line 354:
 평균이  20, 표준편차가 4인 집단에서 4개의 샘플을 취하여 그 평균을 구하고, 그 평균을 이용하 SS 부분을 (Sum of Square) 구한다고 했을 때, 평균외에 다른 점수를 이용했을 때 어떻게 되는가를 본 것이다 (range <- seq(1:40)과 같이). ss값이 가장 작았을 때의 x값을 보면 샘플의 평균값임을 알  수 있다. 평균이  20, 표준편차가 4인 집단에서 4개의 샘플을 취하여 그 평균을 구하고, 그 평균을 이용하 SS 부분을 (Sum of Square) 구한다고 했을 때, 평균외에 다른 점수를 이용했을 때 어떻게 되는가를 본 것이다 (range <- seq(1:40)과 같이). ss값이 가장 작았을 때의 x값을 보면 샘플의 평균값임을 알  수 있다.
  
-마지막 그래프에서 가장 작은 기울기값을 갖는 v 값을 구하는 미분을 한다고 가정하고 이해를 하면 수학적으로 이해할 수 있다. +마지막 그래프에서 가장 작은 기울기값을 갖는 v 값을 구한다고 (derivatives) 가정하고 이해를 하면 수학적으로 이해할 수 있다. ((see https://www.mathsisfun.com/calculus/derivatives-introduction.html))
 {{:pasted:20200504-223320.png}} {{:pasted:20200504-223320.png}}
  
Line 378: Line 380:
  
 ====== 수학적 증명 ====== ====== 수학적 증명 ======
- 
 우선,  우선, 
  
Line 385: Line 386:
        & = & E[(X^{2} - 2 X \mu + \mu^{2})] \\        & = & E[(X^{2} - 2 X \mu + \mu^{2})] \\
 & = & E[X^{2}] - 2 \mu E[X] + E[\mu^2] \\ & = & E[X^{2}] - 2 \mu E[X] + E[\mu^2] \\
-& = & E[X^{2}] - 2 \mu E[X] + E[\mu^{2}], \;\; \text{because E[X]=\mu \text{, \; E[\mu^2 \text{] = \mu^2, \\+& = & E[X^{2}] - 2 \mu E[X] + E[\mu^{2}], \;\; \text{because}\; E[X] = \mu \text{, \; E[\mu^2] = \mu^2, \\
 & = & E[X^{2}] - 2 \mu^{2} + \mu^{2}   \\ & = & E[X^{2}] - 2 \mu^{2} + \mu^{2}   \\
 & = & E[X^{2}] - \mu^{2} & = & E[X^{2}] - \mu^{2}
Line 392: Line 393:
 이므로 이므로
  
-\begin{eqnarray*+\begin{align
-E[X^2] & = Var[X] + \mu^2 \\  +E\left[X^2\right] & = Var\left[X\right] + \mu^2 \nonumber \\  
-& = \sigma^{2} + \mu^2 \;\;\; \dots\dots\dots\dots\dots (1) +& = \sigma^{2} + \mu^2 \\ 
-\end{eqnarray*}+\end{align}
  
 마찬가지로  마찬가지로 
- +\begin{align
-\begin{eqnarray*+Var \left[ \overline{X}\right] & =  \left[\overline{X}^2 \right] - \left[E(\overline{X})\right]^2 \nonumber \\ 
-Var[\overline{X}] & = E[\overline{X}^2] - [E(\overline{X})]^2 \\ +& = E\left[\overline{X}^{2}\right] - \mu^{2} \nonumber  
-& = E[\overline{X}^{2}] - \mu^{2} +\end{align}
-\end{eqnarray*}+
  
 따라서 따라서
-\begin{eqnarray*+\begin{align
-E[\overline{X}^{2}]  & = Var[\overline{X}] + \mu^2 \\  +E\left[\overline{X}^{2}\right]  & = Var\left[\overline{X}\right] + \mu^2 \nonumber \\  
-& = \frac {\sigma^{2}} {n} + \mu^{2} \;\;\; \dots\dots\dots\dots\dots (2) +& = \frac {\sigma^{2}} {n} + \mu^{2}  
-\end{eqnarray*}+\end{align}
  
-참고로 위에서 $Var[\overline{X}] = \dfrac {\sigma^{2}} {n} $ 에 해당하는 설명은 [[:mean and variance of the sample mean]] 문서를 볼 것.+참고로 위에서 $Var\left[\overline{X}\right] = \dfrac {\sigma^{2}} {n} $ 에 해당하는 설명은 [[:mean and variance of the sample mean]] 문서를 볼 것.
  
 ---- ----
Line 417: Line 417:
 X,Y are Independent variables. X,Y are Independent variables.
  
-\begin{eqnarray*} +\begin{align*} 
-E[aX] &=a E[X] \\ +E[aX] & = a E[X] \\ 
-E[X+Y] &=E[X] + E[Y] \\ +E[X+Y] & = E[X] + E[Y] \\ 
-Var[aX] &=a^{\tiny{2}} Var[X] \\ +Var[aX] & = a^{\tiny{2}} Var[X] \\ 
-Var[X+Y] &=Var[X] + Var[Y]   +Var[X+Y] & = Var[X] + Var[Y]   
-\end{eqnarray*}+\end{align*}
  
 </WRAP> </WRAP>
 ---- ----
 우리가 알고자 하는 것은 아래의 식이 population의 parameter인 $\sigma^{2}$ 의 값과 같은가이다. 우리가 알고자 하는 것은 아래의 식이 population의 parameter인 $\sigma^{2}$ 의 값과 같은가이다.
-\begin{eqnarray*} +\begin{align*} 
-E[s^{2}] & = E \left[\frac{\displaystyle\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}{n-1} \right] \dots\dots\dots (a) \\ +E[s^{2}] & = E \left[\frac{\displaystyle\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}{n-1} \right] \qquad 
-& = \sigma^{2}  +\cdot\cdot\cdot\cdot\cdot\cdot\cdot\cdot\cdot\cdot\cdot\cdot \;\(a)  \\ 
-\end{eqnarray*}+& = \sigma^{2}  
 +\end{align*}
  
 위의 식에서 일부만을 추출해서 먼저 보자. 위의 식에서 일부만을 추출해서 먼저 보자.
  
-\begin{eqnarray*} +\begin{align*} 
-E \left[\sum{(X_{i}-\overline{X})^{2}} \right] & = E \left[\sum(X_{i}^{2}- 2 X_{i} \overline{X} + \overline{X}^{2})\right] \\ +E \left[\sum{(X_{i}-\overline{X})^{2}} \right] & = E \left[\sum(X_{i}^{2}- 2 X_{i} \overline{X} + \overline{X}^{2})\right] \\ 
-& = E \left[\sum{X_{i}^{2}} - \sum{2X_{i}\overline{X} + \sum{\overline{X}^{2}} \right] \\ +& = E \left[ \sum{X_{i}^2} - \sum{2X_{i} \overline{X}} + \sum {\overline{X^2}}  \right]  \\ 
-& = E \left[\sum{X_{i}^{2}} - 2\overline{X}\sum{X_{i} + n{\overline{X}^{2}} \right] \\ +& = E \left[ \sum{X_{i}^2} - 2 \overline{X} \sum{X_{i}} + \sum{\overline{X^2}}  \right]  \\ 
-& = E \left[\sum{X_{i}^{2}} - 2\overline{X}\cdot n \overline{X} + n{\overline{X}^{2}} \right] \\ +& = E \left[ \sum{X_{i}^2} - 2 \overline{X} \sum{X_{i}} + n \overline{X^2} \right]  \\ 
-& = E \left[\sum{X_{i}^{2}} - n{\overline{X}^{2}} \right] \\ +& = E \left[ \sum{X_{i}^2} - 2 \overline{X} \cdot (n \overline{X}+ n \overline {X^2} \right] \\ 
-& = \sum{E(X_{i}^{2})} - E(n\overline{X}^{2})  \\ +& = E \left[ \sum{X_{i}^2} - n \overline{X}^2 \right] \\ 
-& = \sum{E(X_{i}^{2})} - n E(\overline{X}^{2})  \;\;\; \dots\dots\dots\dots\dots (3) +& = \sum {E\left(X_{i}^2\right)} - E\left(n\overline{X}^2\right)  \\ 
-\end{eqnarray*} +& = \sum {E\left(X_{i}^2\right)} - n E\left(\overline{X}^2\right)  \;\;\; \dots\dots\dots\dots\dots (3) 
- +\end{align*}
-한 편, 위의 (1), (2)에서 +
  
 +한 편, 위의 $(1), (2)$에서 
  
 <WRAP box> <WRAP box>
-\begin{eqnarray*} +\begin{align*} 
-E[X_{i}^{2}] & = \sigma^{2} + \mu^2 \;\;\; \dots\dots\dots\dots\dots (1) \\ +E\left[X_{i}^{2}\right] & = \sigma^{2} + \mu^2 \;\;\; \dots\dots\dots\dots\dots (1) \\ 
-E[\overline{X}^{2}] & = \dfrac {\sigma^{2}} {n} + \mu^{2} \;\;\; \dots\dots\dots\dots\dots (2) +E\left[\overline{X}^{2}\right] & = \dfrac {\sigma^{2}} {n} + \mu^{2} \;\;\; \dots\dots\dots\dots\dots (2) 
-\end{eqnarray*}+\end{align*}
 </WRAP> </WRAP>
  
-위의 (1), (2)를 (3)에 대입해보면+위의 $(1), (2)$를 $(3)$에 대입해보면
  
-\begin{eqnarray*} +\begin{align*} 
-E \left[\sum{(X_{i}-\overline{X})^{2}} \right] & = \sum{E(X_{i}^{2})} - n E(\overline{X}^{2})  \\ +E \left[\sum{(X_{i}-\overline{X})^{2}} \right] & = \sum{E\left(X_{i}^{2}\right)} - n E\left(\overline{X}^{2}\right)  \\ 
-& = \sum{(\sigma^{2} + \mu^{2})} - n (\dfrac{\sigma^2}{n} + \mu^2) \\ +& = \sum{\left(\sigma^{2} + \mu^{2}\right)} - n \left(\dfrac{\sigma^2}{n} + \mu^2\right) \\ 
-& = n\sigma^{2} + n\mu^{2} - \sigma^{2} - n\mu^{2} \\ +& = n\sigma^{2} + n\mu^{2} - \sigma^{2} - n\mu^{2} \\ 
-& = (n-1) \sigma^{2}  +& = \left(n-1\right) \sigma^{2}  
-\end{eqnarray*}+\end{align*}
  
 위는 식 (a)의 일부이므로 이를 온전한 식에 대입해보면,  위는 식 (a)의 일부이므로 이를 온전한 식에 대입해보면, 
Line 480: Line 481:
 \end{eqnarray*} \end{eqnarray*}
  
 +
 +----
 만약에 우리가 population의 variance를 구하듯이 n을 이용한다고 하면,  만약에 우리가 population의 variance를 구하듯이 n을 이용한다고 하면, 
  
Line 486: Line 489:
 & = & \dfrac{1}{n} E \left[\sum{(X_{i}-\overline{X})^{2}} \right] \\ & = & \dfrac{1}{n} E \left[\sum{(X_{i}-\overline{X})^{2}} \right] \\
 & = & \dfrac{1}{n} (n-1) \sigma^{2} \\ & = & \dfrac{1}{n} (n-1) \sigma^{2} \\
-& = & (\dfrac{n-1}{n}) \sigma^{2} \\+& = & \left(\dfrac{n-1}{n}\right) \sigma^{2} \\
 \end{eqnarray*} \end{eqnarray*}
  
 즉, 원래 $\sigma^2$ 값보다 조금 작은 값을 갖게 될 것이다 (이를 biased result라고 한다). 즉, 원래 $\sigma^2$ 값보다 조금 작은 값을 갖게 될 것이다 (이를 biased result라고 한다).
 +
 +
  
 {{tag>"research methods" "조사방법론" "표준편차" "n-1" "자유도" "degrees of freedom" "n-1" "표준오차"}} {{tag>"research methods" "조사방법론" "표준편차" "n-1" "자유도" "degrees of freedom" "n-1" "표준오차"}}
  
  
estimated_standard_deviation.1604567000.txt.gz · Last modified: 2020/11/05 18:03 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki