central_limit_theorem
Differences
This shows you the differences between two versions of the page.
| Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
| central_limit_theorem [2020/04/22 08:00] – hkimscil | central_limit_theorem [2025/11/23 23:44] (current) – [e.g.,] hkimscil | ||
|---|---|---|---|
| Line 1: | Line 1: | ||
| ====== 중심극한정리 (Central Limit Theorem) ====== | ====== 중심극한정리 (Central Limit Theorem) ====== | ||
| 수학적으로 간단히 표현하면, | 수학적으로 간단히 표현하면, | ||
| - | $\overline{X} \sim \displaystyle \text{N} \left(\mu, \dfrac{\sigma^{2}}{n} \right)$ 혹은 | + | $\overline{X} \sim \displaystyle \text{N} \left(\mu, \dfrac{\sigma^{2}}{n} \right)$ 을 말한다. |
| - | $\overline{X} \sim \displaystyle \text{N} \left(\mu, \left(\dfrac{\sigma}{\sqrt{n}}\right)^{2} \right)$ 을 말한다. | + | |
| ===== 소개 ===== | ===== 소개 ===== | ||
| Line 33: | Line 32: | ||
| 우리는 샘플의 사이즈가 커질 수록 (n의 크기가 커질 수록, 즉, 4,36, 100, 400, 900 과 같이), 그 샘플평균들의 SD값은 작아짐을 위의 그래프를 통해서 알았다. 그리고, 이는 [[:mean and variance of the sample mean]]이라는 문서를 통해서도 그것을 알수 있다 | 우리는 샘플의 사이즈가 커질 수록 (n의 크기가 커질 수록, 즉, 4,36, 100, 400, 900 과 같이), 그 샘플평균들의 SD값은 작아짐을 위의 그래프를 통해서 알았다. 그리고, 이는 [[:mean and variance of the sample mean]]이라는 문서를 통해서도 그것을 알수 있다 | ||
| - | * n = 4 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace | + | * n = 4 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{2} = 7.5$ |
| - | * n = 36 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace | + | * n = 36 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{6} = 2.5$ |
| - | * n = 100 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace | + | * n = 100 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{10} = 1.5$ |
| - | * n = 400 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace | + | * n = 400 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{20} = 0.75$ |
| - | * n = 900 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace | + | * n = 900 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{30} = 0.5$ |
| * . . . | * . . . | ||
| - | * n = 2500 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace | + | * n = 2500 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{50} = 0.3$ |
| - | * n = 3600 일 때, $\sigam_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrace | + | * n = 3600 일 때, $\sigma_{\overline{X}} = \dfrac{\sigma}{\sqrt{n}} = \dfrac {15}{60} = 0.25$ |
| - | 그런데, 각 단계에서 $\sigam_{\overline{X}} $의 차이값은 | + | 그런데, 각 단계에서 $\sigma_{\overline{X}} $의 차이값은 |
| * n = 4, | * n = 4, | ||
| * n = 36, 7.5 - 2.5 = 5 | * n = 36, 7.5 - 2.5 = 5 | ||
| Line 51: | Line 50: | ||
| * n = 3600, 0.3 - 0.25 = 0.05 | * n = 3600, 0.3 - 0.25 = 0.05 | ||
| - | 즉, 샘플의 숫자가 커질 수록 $\sigam_{\overline{X}} $ 의 단위는 작아지는데, | + | 즉, 샘플의 숫자가 커질 수록 $\sigma_{\overline{X}} $ 의 단위는 작아지는데, |
| 위의 이야기는 아래와 같이 정리할 수 있다. | 위의 이야기는 아래와 같이 정리할 수 있다. | ||
| Line 93: | Line 92: | ||
| \end{eqnarray} | \end{eqnarray} | ||
| + | 즉, 이는 | ||
| + | $\overline{X} \sim \displaystyle \text{N} \left(\mu, \dfrac{\sigma^{2}}{n} \right)$ 를 말한다. | ||
| ===== e.g., ===== | ===== e.g., ===== | ||
| Central Limit Theorem이 사용되는 예를 들어보면 . . . . \\ | Central Limit Theorem이 사용되는 예를 들어보면 . . . . \\ | ||
| McDonald 햄버거의 세계시장 공략을 위한 매니저의 역할을 가정해 볼 수 있다. | McDonald 햄버거의 세계시장 공략을 위한 매니저의 역할을 가정해 볼 수 있다. | ||
| - | <WRAP box 450px >< | + | <WRAP box>< |
| McDonald 본사의 총괄 매니저인 A는 감자튀김의 원료인 감자의 공급자가 일정 수준의 감자를 꾸준하게 공급해 줄 것을 요구하여 왔다. 공급자는 자사의 감자가 평균 200g이며, 표준편차 값이 15라고 주장하였다. 그러나, 웬일인지 요사이 감자 튀김의 매출이 떨어지게 되었는데. . . . A는 공급되는 감자의 품질검사를 실시하기로 한다. . | McDonald 본사의 총괄 매니저인 A는 감자튀김의 원료인 감자의 공급자가 일정 수준의 감자를 꾸준하게 공급해 줄 것을 요구하여 왔다. 공급자는 자사의 감자가 평균 200g이며, 표준편차 값이 15라고 주장하였다. 그러나, 웬일인지 요사이 감자 튀김의 매출이 떨어지게 되었는데. . . . A는 공급되는 감자의 품질검사를 실시하기로 한다. . | ||
| </ | </ | ||
| - | 품질 검사를 위해서 모든 감자를 다 체크해 볼 수는 없는 일이다. 샘플을 이용해서 하는 수 밖에 없다는 생각에 우선 A는 공급사인 C사의 말이 사실이라고 가정을 해본다. A는 공급된 감자에서 900개의 감자를 | + | 품질 검사를 위해서 모든 감자를 다 체크해 볼 수는 없는 일이다. 샘플을 이용해서 하는 수 밖에 없다. 샘플에서 구한 평균값을 가지고 공급자의 말을 검증을 하려고 |
| - | 우선, A는 감자를 뽑기 전에 아래와 같은 | + | * 샘플의 크기를 (size) |
| - | | + | * A는 자신이 검증하고자 하는 것을 |
| - | | + | * A가 뽑은 감자샘플은 공급자가 말하는 감자에서 나온것이 아닐 것이다. |
| - | | + | * 감자샘플 $\ne$ 모집단 혹은 |
| + | * 감자샘플 | ||
| + | * 감자샘플의 평균 $\ne$ 모집단의 평균 | ||
| + | * n = 900 으로 정했으므로 샘플을 뽑아서 평균을 구해 보니 198g 이다. | ||
| + | * 이것으로 A의 가설은 | ||
| + | * 198g $\ne$ 200g 이 되는 셈이다. | ||
| + | * 이제 A는 공급사인 C사의 말이 사실이라고 가정을 해본다. 이것을 영가설이라고 (null hypothesis) 한다. | ||
| + | * 이것을 가정하면 이제 아래가 사실임을 안다. | ||
| + | * 감자의 샘플을 | ||
| + | * 이 분포도는 정규분포를 이룰 것이고, | ||
| + | | ||
| + | | ||
| + | * 이를 직접 계산해 보면, $ \frac{15}{\sqrt{900}} = \frac{15}{30} = 0.5$ 이다. | ||
| + | * 이것으로 샘플평균의 평균과 (mu) 표준편차값을 (se) 알게 되었으므로 | ||
| + | * 95%의 신뢰구간은 | ||
| + | * 즉, 200 +- 2 * 0.5 | ||
| + | * 199 - 201 (100번 샘플을 하면 95번은 그 평균이 199에서 201 사이일 것이다라는 뜻) | ||
| + | * 그런데 내가 뽑은 샘플의 평균은 198g이었다. 이것이 의미하는 것은 두가지일 수 있다. | ||
| + | * 첫째, 이 특정한 샘플은 위의 95% 확률에 걸리지 않고 5% 확률에 걸렸다. 그렇기 때문에 199 - 201 범위 밖에서 샘플의 평균이 나왔다. 그러나 이 확률은 5% 밖에 안된다. 즉 이 판단은 5%의 오류 가능성을 가지고 있다. | ||
| + | * 둘째, 이 샘플은 모집단에서 나온 것이 아니다. 이 샘플은 다른 집단에 (모집단의 평균이 200인 집단이 아닌 집단에) 속한 샘플이다. 이 주장은 위의 5% 오류가능성을 제외하고는 확실하다고 생각되는 판단이다. | ||
| + | * 그러나, 이렇게 생각하여도 위의 1번에서의 오류를 무시할 수는 없다. 즉, C사가 거짓말을 하고 있다고 확신하기에는 5%의 ' | ||
| - | 위는 900개짜리 샘플을 뽑았을 때, 나올수 있는 샘플 평균의 범위를 | + | 위에서 구한 과정을 표준점수로 바꿔서 생각해 |
| - | + | * sd of sample means = 0.5 였고 | |
| - | A는 여기까지 가정을 한후에 | + | * 내 샘플의 평균은 198 |
| - | + | * 모집단의 | |
| - | [[Standard error]] 값이 .5 이므로 | + | * 표준점수는 (198-200)/0.5 = -4 |
| - | + | * 그러나 A가 애초에 확인하고자 하는 95% 신뢰구간의 표준점수는 -2, +2 구간이다. | |
| - | - 100번의 95번에 걸리질 않아서 이번 샘플의 평균이 극단치를 | + | * -4 은 이 구간을 넘었으므로 |
| - | | + | * 영가설을 부정하고 연구가설을 받아 들인다. |
| + | | ||
| + | | ||
| + | * -4 점으로 연구가설을 받아들인다면 그 판단이 잘못일 확률이 | ||
| + | * 위의 pnorm(-4) 는 pnorm(198, 200, 0.5) 처럼 구해도 된다. | ||
| + | <WRAP box>< | ||
| + | 만약에 샘플 사이즈를 애초에 100개로 했고, 이 때 평균이 여전이 198g 이었다면 어떤 판단을 해야 할까? | ||
| + | </ | ||
| + | < | ||
| + | # se 값이 변화한다. | ||
| + | > 15/ | ||
| + | [1] 1.5 | ||
| + | > pnorm(198, 200, 1.5) | ||
| + | [1] 0.09121122 | ||
| + | </ | ||
central_limit_theorem.1587542442.txt.gz · Last modified: by hkimscil
