User Tools

Site Tools


central_limit_theorem

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
central_limit_theorem [2020/04/22 07:50] – [중심극한정리 (Central Limit Theorem)] hkimscilcentral_limit_theorem [2025/11/23 23:44] (current) – [e.g.,] hkimscil
Line 1: Line 1:
 ====== 중심극한정리 (Central Limit Theorem) ====== ====== 중심극한정리 (Central Limit Theorem) ======
 수학적으로 간단히 표현하면, 수학적으로 간단히 표현하면,
-$$\overline{X} \sim \displaystyle \text{N} \left(\mu, \dfrac{\sigma^{2}}{n} \right)$$ 혹은 +$\overline{X} \sim \displaystyle \text{N} \left(\mu, \dfrac{\sigma^{2}}{n} \right)$ 을 말한다.
-$$\overline{X} \sim \displaystyle \text{N} \left(\mu, \left(\dfrac{\sigma}{\sqrt{n}}\right)^{2} \right)$$+
  
 ===== 소개 ===== ===== 소개 =====
Line 30: Line 29:
   * 62.5 -- 77.5 사이에서 평균이 나타날 확률은 99% 일 것이다 라고 주장할 수 있다.   * 62.5 -- 77.5 사이에서 평균이 나타날 확률은 99% 일 것이다 라고 주장할 수 있다.
  
-{{:pasted/20200414-213151.png?500}}+{{:pasted/20200414-213151.png}}
  
 우리는 샘플의 사이즈가 커질 수록 (n의 크기가 커질 수록, 즉, 4,36, 100, 400, 900 과 같이), 그 샘플평균들의 SD값은 작아짐을 위의 그래프를 통해서 알았다. 그리고, 이는 [[:mean and variance of the sample mean]]이라는 문서를 통해서도 그것을 알수 있다 우리는 샘플의 사이즈가 커질 수록 (n의 크기가 커질 수록, 즉, 4,36, 100, 400, 900 과 같이), 그 샘플평균들의 SD값은 작아짐을 위의 그래프를 통해서 알았다. 그리고, 이는 [[:mean and variance of the sample mean]]이라는 문서를 통해서도 그것을 알수 있다
-  * n = 4 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{2} = 7.5$ +  * n = 4 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{2} = 7.5$ 
-  * n = 36 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{6} = 2.5$  +  * n = 36 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{6} = 2.5$  
-  * n = 100 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{10} = 1.5$ +  * n = 100 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{10} = 1.5$ 
-  * n = 400 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{20} = 0.75$ +  * n = 400 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{20} = 0.75$ 
-  * n = 900 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{30} = 0.5$+  * n = 900 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{30} = 0.5$
   * . . .    * . . . 
-  * n = 2500 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{50} = 0.3$ +  * n = 2500 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{50} = 0.3$ 
-  * n = 3600 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace {15}{60} = 0.25$+  * n = 3600 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{60} = 0.25$
  
-그런데, 각 단계에서 $\sigam_{\overline{X}} $의 차이값은+그런데, 각 단계에서 $\sigma_{\overline{X}} $의 차이값은
   * n = 4,    * n = 4, 
   * n = 36, 7.5 - 2.5 = 5   * n = 36, 7.5 - 2.5 = 5
Line 51: Line 50:
   * n = 3600, 0.3 - 0.25  = 0.05   * n = 3600, 0.3 - 0.25  = 0.05
  
-즉, 샘플의 숫자가 커질 수록 $\sigam_{\overline{X}} $ 의 단위는 작아지는데, 작아지는 정도가 (스케일이) 점차 줄어든다. 즉, 처음에는 5만큼으로 드라마틱하게 줄고, 다음은 1만큼, 다음은 3/4만큼, 다음은 1/4만큼, . . . . +즉, 샘플의 숫자가 커질 수록 $\sigma_{\overline{X}} $ 의 단위는 작아지는데, 작아지는 정도가 (스케일이) 점차 줄어든다. 즉, 처음에는 5만큼으로 드라마틱하게 줄고, 다음은 1만큼, 다음은 3/4만큼, 다음은 1/4만큼, . . . . 
  
 위의 이야기는 아래와 같이 정리할 수 있다.  위의 이야기는 아래와 같이 정리할 수 있다. 
  
-$p(\mu, \sigma)$ 인 분포에서 n = n인 샘플을 계속 취해서 그 샘플들의 평균을 모은 분포는+$\text{N} \left(\mu, \sigma \right)$ 인 분포에서 n = n인 샘플을 계속 취해서 그 샘플들의 평균을 모은 분포는
  
 __정규분포에 가까와 진다__. __정규분포에 가까와 진다__.
Line 61: Line 60:
   * sample을 취하는 population이 normal distribution을 이룬다   * sample을 취하는 population이 normal distribution을 이룬다
  
-__그 샘플분포의 평균은 모집단의 평균을 따른다__.+__그 샘플평균분포의 평균은 모집단의 평균을 따른다__.
   * "mean of sample means은 population의 mean값과 같다" 즉, 샘플평균들의 평균은 모집단의 평균값과 같아진다.   * "mean of sample means은 population의 mean값과 같다" 즉, 샘플평균들의 평균은 모집단의 평균값과 같아진다.
   * 위의 문장이 의미하는 것은 수 많은 샘플을 취했을 때, 그 샘플들의 평균은 실제 population의 평균값에 근사하게 된다는 것을 의미한다. (위의 이유에서, the mean of the distribution of sample means를 expected value of $ \overline{X}$ 라고 부른다.)    * 위의 문장이 의미하는 것은 수 많은 샘플을 취했을 때, 그 샘플들의 평균은 실제 population의 평균값에 근사하게 된다는 것을 의미한다. (위의 이유에서, the mean of the distribution of sample means를 expected value of $ \overline{X}$ 라고 부른다.) 
   * 이는 $E[\overline{X}] = \mu $ 라고 설명한 부분이다.   * 이는 $E[\overline{X}] = \mu $ 라고 설명한 부분이다.
  
-__Standard Error__  \\+__샘플평균분포의 분산은__ $\dfrac{\sigma^{2}}{n}$ __을 따른다__
 standard deviation of the distribution of the sample mean를 (샘플평균들의 표준편차를) 특별히  standard deviation of the distribution of the sample mean를 (샘플평균들의 표준편차를) 특별히 
-standard error of $ \overline{X}$ 라고 (샘플평균의 표준오차)부르는데 그 값은 $ \dfrac{\sigma}{\sqrt{n}}$를 이룬다.+standard error of $ \overline{X}$ 라고 (샘플평균의 표준오차)부르는데 그 값은 $ \dfrac{\sigma}{\sqrt{n}}$를 따르게 된다.
  
 [[Standard Error]] 또한 standard deviation 이므로 (즉, standard deviation of distribution of sample means), 각 샘플의 평균이 샘플들의 평균값(the mean of distribution of sample means)에서 얼마나 떨어져 있는 가를 나타내는 지표로 쓰인다. 다시 말하면, 이 특별한 standard deviation은 내가 샘플링을 했을 때, 그 __샘플의 평균값(the mean of an sample)이 모집단의 평균값(the mean of population)에서 얼마나 떨어져 있을 수 있는가__의 가능성(확율)을 나타내는 값이다. 즉, standard error = $ \sigma_{\overline{X}}$ = standard deviation distance between $ \overline{X}$ and $ \mu$ 라고 할 수 있다. 이 standard error 값에 영향을 주는 것은 두 가지가 있다.  [[Standard Error]] 또한 standard deviation 이므로 (즉, standard deviation of distribution of sample means), 각 샘플의 평균이 샘플들의 평균값(the mean of distribution of sample means)에서 얼마나 떨어져 있는 가를 나타내는 지표로 쓰인다. 다시 말하면, 이 특별한 standard deviation은 내가 샘플링을 했을 때, 그 __샘플의 평균값(the mean of an sample)이 모집단의 평균값(the mean of population)에서 얼마나 떨어져 있을 수 있는가__의 가능성(확율)을 나타내는 값이다. 즉, standard error = $ \sigma_{\overline{X}}$ = standard deviation distance between $ \overline{X}$ and $ \mu$ 라고 할 수 있다. 이 standard error 값에 영향을 주는 것은 두 가지가 있다. 
Line 93: Line 92:
 \end{eqnarray} \end{eqnarray}
  
 +즉, 이는 
 +$\overline{X} \sim \displaystyle \text{N} \left(\mu, \dfrac{\sigma^{2}}{n} \right)$ 를 말한다.
 ===== e.g., ===== ===== e.g., =====
 Central Limit Theorem이 사용되는 예를 들어보면 . . . . \\ Central Limit Theorem이 사용되는 예를 들어보면 . . . . \\
 McDonald 햄버거의 세계시장 공략을 위한 매니저의 역할을 가정해 볼 수 있다. McDonald 햄버거의 세계시장 공략을 위한 매니저의 역할을 가정해 볼 수 있다.
  
-<WRAP box 450px ><typo fs:250%; fc:red>Q</typo>  +<WRAP box><typo fs:250%; fc:red>Q</typo>  
 McDonald 본사의 총괄 매니저인 A는 감자튀김의 원료인 감자의 공급자가 일정 수준의 감자를 꾸준하게 공급해 줄 것을 요구하여 왔다. 공급자는 자사의 감자가 평균 200g이며, 표준편차 값이 15라고 주장하였다. 그러나, 웬일인지 요사이 감자 튀김의 매출이 떨어지게 되었는데. . . . A는 공급되는 감자의 품질검사를 실시하기로 한다. .  McDonald 본사의 총괄 매니저인 A는 감자튀김의 원료인 감자의 공급자가 일정 수준의 감자를 꾸준하게 공급해 줄 것을 요구하여 왔다. 공급자는 자사의 감자가 평균 200g이며, 표준편차 값이 15라고 주장하였다. 그러나, 웬일인지 요사이 감자 튀김의 매출이 떨어지게 되었는데. . . . A는 공급되는 감자의 품질검사를 실시하기로 한다. . 
 </WRAP> </WRAP>
  
-품질 검사를 위해서 모든 감자를 다 체크해 볼 수는 없는 일이다. 샘플을 이용해서 하는 수 밖에 없다는 생각에 우선 A는 공급사인 C사의 말이 사실이라고 가정을 해본다. A는 공급된 감자에서 900개의 감자를 샘플로 뽑아서 이 샘플의 특징([[Statistics]])을 살펴보, 이를 통해서 C사의 진실성에 대한 판단을 하기로 한다 (n = 900)+품질 검사를 위해서 모든 감자를 다 체크해 볼 수는 없는 일이다. 샘플을 이용해서 하는 수 밖에 없다. 샘플서 구한 평균값을 가지고 공급자의 말을 검증을 하려고 한다. 
  
-우선, A는 를 뽑기 전에 아래와 같은 을 한다.  +  * 샘플의 크기를 (size) 우선 먼저 정한다 (예를 들면n = 900). 
-  $ n=900$ 인 감자의 샘플을 계속 뽑아서, 각 샘플의 평균으로 분포를 만들어 본다면, 이 분포도는 정규분포를 이룰 것이고, +  * A는 자신이 검증하고자 하는 것을 설로 써본다. 이것을 연구가설이라고 (research hypothesis) 한다.  
-  샘플 평균들의 평균은 C사가 주장하는 원래 평균인 200g일 것이며,  +    * A가 뽑은 감자샘플은 공급자가 말하는 감자에서 나온것이 아닐 것이다.  
-  이 특별한 샘플평균 분포의 표준편차([[standard deviation]] 즉, [[standard error]] )는 $ \frac{\sigma}{\sqrt{n}}$ 일 것이다이를 직접 계산해 보면, $ n=900$ 이므로, $ \frac{15}{30}=0.5$ 이다. +    * 감자샘플 $\ne$ 모집단 혹은   
 +    * 감자샘플 $\not\subset$ 모집단 (에 속한 감자가 아닐 것이다) 
 +    * 감자샘플의 평균 $\ne$ 모집단의 평균  
 +    * n = 900 으로 정했으므로 샘플을 뽑아서 평균을 구해 보니 198g 이다.  
 +    * 이것으로 A의 가설은  
 +    * 198g $\ne$ 200g 이 되는 셈이다. 
 +  * 이제 A는 공급사인 C사의 말이 사실이라고 가정을 해본다. 이것을 영가설이라고 (null hypothesis) 한다. 
 +    * 이것을 가정하면 이제 아래가 사실임을 안다. 
 +    * 감자의 샘플을 (n=900) 계속 뽑아서, 각 샘플의 평균으로 모아서 분포를 만들어 본다면,  
 +      * 이 분포도는 정규분포를 이룰 것이고, $ \overline{X} \thicksim N( , ) $ 
 +      샘플 평균들의 평균은 C사가 주장하는 모집단의 평균인 200g일 것이며, $ \overline{X} \thicksim N(\mu, ) $ 
 +      이 샘플평균 분포의 표준편차는 (standard deviation 즉, standard error) $ \frac{\sigma}{\sqrt{n}} $ 일 것이다 $ \overline{X} \thicksim N(\mu, \frac{\sigma}{\sqrt{n}}) $ 
 +      * 이를 직접 계산해 보면, $ \frac{15}{\sqrt{900}} = \frac{15}{30} = 0.5$ 이다.  
 +    * 이것으로 샘플평균의 평균과 (mu) 표준편차값을 (se) 알게 되었으므로  
 +    * 95%의 신뢰구간은  mu +- 2*se 임을 구할 수 있다.  
 +    * 즉, 200 +- 2 * 0.5 
 +    * 199 - 201 (100번 샘플을 하면 95번은 그 평균이 199에서 201 사이일 것이다라는 뜻) 
 +  * 그런데 내가 뽑은 샘플의 평균은 198g이었다. 이것이 의미하는 것은 두가지일 수 있다. 
 +    * 첫째, 이 특정한 샘플은 위의 95% 확률에 걸리지 않고 5% 확률에 걸렸다. 그렇기 때문에 199 - 201 범위 밖에서 샘플의 평균이 나왔다. 그러나 이 확률은 5% 밖에 안된다. 즉 이 판단은 5%의 오류 가능성을 가지고 있다. 
 +    * 둘째, 이 샘플은 모집단에서 나온 것이 아니다. 이 샘플은 다른 집단에 (모집단의 평균이 200인 집단이 아닌 집단에) 속한 샘플이다. 이 주장은 위의 5% 오류가능성을 제외하고는 확실하다고 생각되는 판단이다.  이것은 두번째의 가정을 (영가설을) 부정하는 것이 된다. 
 +    * 그러나, 이렇게 생각하여도 위의 1번에서의 오류를 무시할 수는 없다. 즉, C사가 거짓말을 하고 있다고 확신하기에는 5%의 '유별난' 샘플링의 확률이 있다. 따라서, 5% 판단의 잘못을 염두에 두고 C사가 거짓말을 한다고 판단하는 것이 옳다. 
  
-는 900개짜리 샘플을 뽑았을 때, 나올수 있는 샘플 평균의 범위를 여준다.  +에서 구한 과정을 표준점로 바꿔서 생각해 면  
- +  * sd of sample means = 0.5 였고  
-A는 여기까지 가정을 한후에 샘플을 뽑아 보았다. 뽑은 결과, 그 평균이 198g 이 나왔다. 이제 A는 이 결과를 가지고 다음과 같이 생각할 수 있다.  +  * 내 샘플의 평균은 198  
- +  * 모집단의 평균은 200 이므로  
-[[Standard error]] 값이 .5 이므로 2 단위의 [[standard error]] 값을 사용하여 범위를 구하여도 199-201 이다이는 n=900인 샘플을 취한다고 가정할 때 100번의 샘플링을 한다고 가정면 95번 (95%) 은 이 범위에서 샘플의 평균이 나온다고 생각할 수 있다. 그런데지금 A가 취한 샘플의 평균은 198g이다. 이것이 의미는 것은 두 데 . . .  +  * 표준점수는 (198-200)/0.-4 
- +  * 그러나 A가 애초에 확자 는 95% 신뢰구간의 표준점는 -2+2 구간이다.  
-  - 100번의 95번에 걸리질 않아서 이번 샘플의 평균이 극단치를 졌다. 그러, 이렇게 될 확률은 5%정도 밖에 안된다. . . +  * -4 은 이 구간을 넘었으므로  
-  - C사가 거짓말을 고 있다. 애초 계약인 200g 에 못 미치는 감자를 공급하고 있다. 즉, A는 __C사가 거짓말을 하고 있지 않다__고 가정하고 정상적인 샘플링을 하였을 때 나타날 수 있는 샘플 평균의 범위를 그려 았는데 이번 평균은 그 범위를 벗어났니, 처음 생각인 A는 __C사가 거짓말을 하고 있지 않__는 생각을 __부정(혹은 기각) 할 수 있다__ . 러나, 렇게 생각하여도 위의 1번에서의 오류를 무시할 수는 없다즉, C사가 거짓말을 하고 있다고 확신기에는 5%의 '유별난' 샘플링의 률이 있다. 따라서, 5% 판단의 잘못을 염두에 두고 C사가 거짓말을 한다고 판단하는 것이 옳다. +  * 영가설을 부정고 연구설을 받아 들.  
 +  * 더욱 정확히는 -4 표준점수가 나올 확률은 pnorm(-4) = 0.00003167124  
 +  * 이 확률을 고 있다면 위의 신뢰구간을 정해서 판단기 다 
 +  * -4 점로 연구을 받아들인면 그 판단이 잘못일 확률이  0.00003167124 이고 이야기하는 것이 더 정하겠다.  
 +  * 위의 pnorm(-4) 는 pnorm(198200, 0.5) 처럼 구해도 된다. 
  
 +<WRAP box><typo fs:250%; fc:red>Q</typo>  
 +만약에 샘플 사이즈를 애초에 100개로 했고, 이 때 평균이 여전이 198g 이었다면 어떤 판단을 해야 할까?
 +</WRAP>
 +<code>
 +# se 값이 변화한다.
 +> 15/sqrt(100) 
 +[1] 1.5
 +> pnorm(198, 200, 1.5) 
 +[1] 0.09121122
 +</code>
  
central_limit_theorem.1587541833.txt.gz · Last modified: by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki