Both sides previous revisionPrevious revisionNext revision | Previous revision |
sampling_distribution [2016/05/17 15:56] – hkimscil | sampling_distribution [2025/03/24 08:44] (current) – old revision restored (2016/05/17 15:23) hkimscil |
---|
Sample Distribution (표본분포)과 Sampling Distribution (표집분포)는 비록 비슷하게 들리겠지만 전혀 다른 의미를 갖는다. 전자는 //하나의 샘플에서 추출한 구성원에 대한 분포//를 말한 것이고, 후자는 //여러개의 샘플들의 평균에 대한 분포//를 말하는 것이다. 공통적인 점이 있다면 둘 다 모집단에 (population) 대한 샘플을 (sample) 의미한다는 것 -- 즉, 모집단의 특성을 (parameter) 추측 (inferring) 하기 위해서 구해진 집단이라는 것이다. | Sample Distribution (표본분포)과 Sampling Distribution (표집분포)는 비록 비슷하게 들리겠지만 전혀 다른 의미를 갖는다. 전자는 //하나의 샘플에서 추출한 구성원에 대한 분포//를 말한 것이고, 후자는 //여러개의 샘플들의 평균에 대한 분포//를 말하는 것이다. 공통적인 점이 있다면 둘 다 모집단에 (population) 대한 샘플을 (sample) 의미한다는 것 -- 즉, 모집단의 특성을 (parameter) 추측 (inferring) 하기 위해서 구해진 집단이라는 것이다. |
| |
<imgcaption fig01|population m=70 sd=15>{{ :nd_m70sd15.png?192|}}</imgcaption> Sample distribution이 population의 parameter와 동일한 statistics을 가질 확률은 그리 많지 않다. 가령, 우리나라 대학생의 communication apprehension 지수가 (index) 70이고 [[:Standard Deviation|standard deviation]]이 15라고 가정하면, 연구자가 하나의 샘플을 뽑았을 때, 그 샘플의 [[:Mean]]과 [[:standard deviation|standard deviation]]이 [[:population]]의 그것과 동일할 확률은 그리 크지 않을 것이다. 따라서 연구자는 Probability Sampling 방법을 통해서 모집단과 최대한 유사한 샘플을 뽑으려고 할 것이다. 그럼에도 불구하고 샘플의 평균은 모집단의 평균보다 클 수도 혹은 작을 수도 있다((이것을 연구자가 "**피할 수 없는 에러**" 혹은 "어쩔 수 없는 랜덤 에러"라고 하자)). | <imgcaption fig01|population m=70 sd=15>{{ :nd_m70sd15.png?300|}}</imgcaption> Sample distribution이 population의 parameter와 동일한 statistics을 가질 확률은 그리 많지 않다. 가령, 우리나라 대학생의 communication apprehension 지수가 (index) 70이고 [[:Standard Deviation|standard deviation]]이 15라고 가정하면, 연구자가 하나의 샘플을 뽑았을 때, 그 샘플의 [[:Mean]]과 [[:standard deviation|standard deviation]]이 [[:population]]의 그것과 동일할 확률은 그리 크지 않을 것이다. 따라서 연구자는 Probability Sampling 방법을 통해서 모집단과 최대한 유사한 샘플을 뽑으려고 할 것이다. 그럼에도 불구하고 샘플의 평균은 모집단의 평균보다 클 수도 혹은 작을 수도 있다((이것을 연구자가 "**피할 수 없는 에러**" 혹은 "어쩔 수 없는 랜덤 에러"라고 하자)). |
| |
위의 모집단은 $\mu=70, \;\; \sigma=15$ 의 특징을 갖는다. 이 모집단을 가지고 아래와 같은 가상의 실험을 한다고 생각해보자. | 위의 모집단은 $\mu=70, \;\; \sigma=15$ 의 특징을 갖는다. 이 모집단을 가지고 아래와 같은 가상의 실험을 한다고 생각해보자. |
의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까? | 의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까? |
| |
<imgcaption fig02|sampling distribution n=population>{{ :sampling_distribution_m70sd0.png?192}}</imgcaption> 위의 실험은 영락없이 우습게 들릴 수 있다. 왜냐하면, 모집단 전체의 구성원을 조사한다면, 그 모집단의 평균만이 계속 나오기 때문이다. 즉, 위의 방법에서 구한 평균값들의 집단은 모두 단일한 값인 70을 갖게 된다. 그렇다면, 이 평균들의 집단의 표준편차 즉 [[standard deviation]]값은 어떨까? 이 값은 0을 갖게 된다. | <imgcaption fig02|sampling distribution n=population>{{ :sampling_distribution_m70sd0.png?300}}</imgcaption> 위의 실험은 영락없이 우습게 들릴 수 있다. 왜냐하면, 모집단 전체의 구성원을 조사한다면, 그 모집단의 평균만이 계속 나오기 때문이다. 즉, 위의 방법에서 구한 평균값들의 집단은 모두 단일한 값인 70을 갖게 된다. 그렇다면, 이 평균들의 집단의 표준편차 즉 [[standard deviation]]값은 어떨까? 이 값은 0을 갖게 된다. |
| |
연구자는 위의 사실에서 다른 사람들에게 다음과 같이 이야기 할 수 있다. "만약에 당신이 N으로 이루어진 샘플을 뽑아서 평균을 낸다면, 그 평균값은 70일 확율이 100%입니다". 이와 같이 샘플들의 평균을 모아서 분포곡선을 그려보면, 그 샘플의 평균이 어떻게 나올 것인가를 알 수 있는 방법이 있게 된다. | 연구자는 위의 사실에서 다른 사람들에게 다음과 같이 이야기 할 수 있다. "만약에 당신이 N으로 이루어진 샘플을 뽑아서 평균을 낸다면, 그 평균값은 70일 확율이 100%입니다". 이와 같이 샘플들의 평균을 모아서 분포곡선을 그려보면, 그 샘플의 평균이 어떻게 나올 것인가를 알 수 있는 방법이 있게 된다. |
의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까? | 의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까? |
| |
<imgcaption fig03|sampling distribution n=4일 경우, m=70 sd=7.5>{{ :sampling_distribuiton_m70sd7.5.png?192|}}</imgcaption> 위의 경우가 n =1 인 경우와 다른 점은 샘플의 숫자이다 (n=4). n =4인 경우에 구하는 샘플의 평균값으로 나올 수 있는 최소의 값을 n = 1인 경우에 구할 수 있는 최소값과 비교하여 보자. 어떤 점수가 더 크게 나올 가능성이 많을까? 당연히 n = 4인 경우이다. n = 4인 경우에서 샘플의 평균이 n =1 인 경우의 최소값과 같기 위해서는 population의 최소값이 연속해서 4번 뽑혀야 하기때문이다. 이는 한 번만 뽑히는 경우보다 확률적으로 더 어렵다. 따라서, n = 4인 경우의 샘플평균들의 분포곡선의 최소값은 n = 1인 경우의 그것에 비하면 상대적으로 홀쭉한 모양을 갖게 될 것이다. 홀쭉하다 함은 즉 이 샘플평균 분포곡선의 표준편차는 n =1인 경우의 그것에 비하면 작다는 것을 의미한다. | <imgcaption fig03|sampling distribution n=4일 경우, m=70 sd=7.5>{{ :sampling_distribuiton_m70sd7.5.png?300|}}</imgcaption> 위의 경우가 n =1 인 경우와 다른 점은 샘플의 숫자이다 (n=4). n =4인 경우에 구하는 샘플의 평균값으로 나올 수 있는 최소의 값을 n = 1인 경우에 구할 수 있는 최소값과 비교하여 보자. 어떤 점수가 더 크게 나올 가능성이 많을까? 당연히 n = 4인 경우이다. n = 4인 경우에서 샘플의 평균이 n =1 인 경우의 최소값과 같기 위해서는 population의 최소값이 연속해서 4번 뽑혀야 하기때문이다. 이는 한 번만 뽑히는 경우보다 확률적으로 더 어렵다. 따라서, n = 4인 경우의 샘플평균들의 분포곡선의 최소값은 n = 1인 경우의 그것에 비하면 상대적으로 홀쭉한 모양을 갖게 될 것이다. 홀쭉하다 함은 즉 이 샘플평균 분포곡선의 표준편차는 n =1인 경우의 그것에 비하면 작다는 것을 의미한다. |
<WRAP clear /> | <WRAP clear /> |
그렇다면 n = 16일 경우에는 어떨까? | 그렇다면 n = 16일 경우에는 어떨까? |
<imgcaption fig04|sampling distribution n=25일 경우, m=70, sd=3>{{ :sampling_distribution_m60sd3.png?192|}}</imgcaption> | <imgcaption fig04|sampling distribution n=25일 경우, m=70, sd=3>{{ :sampling_distribution_m60sd3.png?300|}}</imgcaption> |
* n = 25인 경우는? | * n = 25인 경우는? |
* n = 36인 경우는? | * n = 36인 경우는? |
* n = 900인 경우? | * n = 900인 경우? |
* n = 1600인 경우? | * n = 1600인 경우? |
<WRAP clear /> | |
===== CLT ===== | ===== CLT ===== |
위에서 언급한 가상의 **샘플평균들의 분포**를 구한다면 그 분포곡선은 아래의 성질을 갖게 된다. | 위에서 언급한 가상의 샘플평균들의 분포를 구한다면 그 분포곡선은 아래의 성질을 갖게 된다. |
* $\mu_{\overline{\tiny{X}}} = \mu$ | * $\mu_{\overline{\tiny{X}}} = \mu$ |
* $\sigma_{\overline{X}} = \frac{\sigma}{\sqrt{n}}$ | * $\sigma_{\overline{X}} = \frac{\sigma}{\sqrt{n}}$ |
(sampling distribution은 [Central Limit Theorem] 을 이해하기 위해서 꼭 필요한 개념이다.) | (sampling distribution은 [Central Limit Theorem] 을 이해하기 위해서 꼭 필요한 개념이다.) |
| |
<imgcaption fig05|>{{ :sampling_distribution_m70sd1.5.png?192|}}</imgcaption> $\mu=70$ 이며 $\sigma=15$ 인 모집단의 경우에서 n = 100인 샘플을 뽑는다고 가정을 해보면, | $\mu=70$ 이며 $\sigma=15$ 인 모집단의 경우에서 n = 100인 샘플을 뽑는다고 가정을 해보면, |
| |
* $\mu_{\tiny\overline{X}} = \mu = 70$ | * $\mu_{\tiny\overline{X}} = \mu = 70$ |
* $\sigma_{\tiny\overline{X}} = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{100}} = 1.5$ | * $\sigma_{\tiny\overline{X}} = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{100}} = 1.5$ |
| |
| 아래는 읽지 마세요. |
====== English ====== | ====== English ====== |
I mentioned in the earlier article that the standard error is actually standard deviation of sampling distribution. I would feel safe when I say standard deviation since I covered the concept already. However, I thought you might feel uneasy about "sampling distribution," which may lead you all to a confusion in understanding standard error concept. If so, the article was not good enough. But, I mention about the concept (sampling distribution) implicitly without providing the definitions. So, I want to talk more about the concepts of "central tendency," "sampling distribution" and "standard error." | I mentioned in the earlier article that the standard error is actually standard deviation of sampling distribution. I would feel safe when I say standard deviation since I covered the concept already. However, I thought you might feel uneasy about "sampling distribution," which may lead you all to a confusion in understanding standard error concept. If so, the article was not good enough. But, I mention about the concept (sampling distribution) implicitly without providing the definitions. So, I want to talk more about the concepts of "central tendency," "sampling distribution" and "standard error." |