User Tools

Site Tools


sampling_distribution

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
sampling_distribution [2021/03/23 16:03] – [n = 4 인 경우] hkimscilsampling_distribution [2025/03/24 08:44] (current) – old revision restored (2016/05/17 15:23) hkimscil
Line 1: Line 1:
 ====== Sampling Distribtution, 표본분포 ====== ====== Sampling Distribtution, 표본분포 ======
-이 글을 읽고 [[:mean and variance of the sample mean]] 문서를 읽을 것. +Sample Distribution (표본분포)과 Sampling Distribution (표집분포)는 비록 비슷하게 들리겠지만 전혀 다른 의미를 갖는다. 전자는 //하나의 샘플에서 추출한 구성원에 대한 분포//를 말한 것이고, 후자는 //여러개의 샘플들의 평균에 대한 분포//를 말하는 것이다. 공통적인 점이 있다면 둘 다 모집단에 (population) 대한 샘플을 (sample) 의미한다는 것 -- 즉, 모집단의 특성을 (parameter) 추측 (inferring) 하기 위해서 구해진 집단이라는 것이다. 
-[[:sampling distribution in R]] +
-<imgcaption fig01|population m=70 sd=15>{{ :nd_m70sd15.png?192|}}</imgcaption> Sample Distribution (표본분포)과 Sampling Distribution (표집분포)는 비록 비슷하게 들리겠지만 전혀 다른 의미를 갖는다. 전자는 //하나의 샘플에서 추출한 구성원에 대한 분포//를 말한 것이고, 후자는 //여러개의 샘플들의 평균에 대한 분포//를 말하는 것이다. 공통적인 점이 있다면 둘 다 모집단에 (population) 대한 샘플을 (sample) 의미한다는 것 -- 즉, 모집단의 특성을 (parameter) 추측 (inferring) 하기 위해서 구해진 집단이라는 것이다. +
  
-Sample distribution이 population의 parameter와 동일한 statistics을 가질 확률은 그리 많지 않다. 가령, 우리나라 대학생의 communication apprehension 지수가 (index) 70이고 [[:Standard Deviation|standard deviation]]이 15라고 가정하면, 연구자가 하나의 샘플을 뽑았을 때, 그 샘플의 [[:Mean]]과 [[:standard deviation|standard deviation]]이 [[:population]]의 그것과 동일할 확률은 그리 크지 않을 것이다. 따라서 연구자는 Probability Sampling 방법을 통해서 모집단과 최대한 유사한 샘플을 뽑으려고 할 것이다. 그럼에도 불구하고 샘플의 평균은 모집단의 평균보다 클 수도 혹은 작을 수도 있다((이것을 연구자가 "**피할 수 없는 에러**" 혹은 "어쩔 수 없는 랜덤 에러"라고 하자)). +<imgcaption fig01|population m=70 sd=15>{{ :nd_m70sd15.png?300|}}</imgcaption> Sample distribution이 population의 parameter와 동일한 statistics을 가질 확률은 그리 많지 않다. 가령, 우리나라 대학생의 communication apprehension 지수가 (index) 70이고 [[:Standard Deviation|standard deviation]]이 15라고 가정하면, 연구자가 하나의 샘플을 뽑았을 때, 그 샘플의 [[:Mean]]과 [[:standard deviation|standard deviation]]이 [[:population]]의 그것과 동일할 확률은 그리 크지 않을 것이다. 따라서 연구자는 Probability Sampling 방법을 통해서 모집단과 최대한 유사한 샘플을 뽑으려고 할 것이다. 그럼에도 불구하고 샘플의 평균은 모집단의 평균보다 클 수도 혹은 작을 수도 있다((이것을 연구자가 "**피할 수 없는 에러**" 혹은 "어쩔 수 없는 랜덤 에러"라고 하자)). 
  
 위의 모집단은 $\mu=70, \;\; \sigma=15$ 의 특징을 갖는다. 이 모집단을 가지고 아래와 같은 가상의 실험을 한다고 생각해보자. 위의 모집단은 $\mu=70, \;\; \sigma=15$ 의 특징을 갖는다. 이 모집단을 가지고 아래와 같은 가상의 실험을 한다고 생각해보자.
Line 15: Line 13:
 의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까?  의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까? 
  
-<imgcaption fig02|sampling distribution n=population>{{ :sampling_distribution_m70sd0.png?192}}</imgcaption> 위의 실험은 영락없이 우습게 들릴 수 있다. 왜냐하면, 모집단 전체의 구성원을 조사한다면, 그 모집단의 평균만이 계속 나오기 때문이다. 즉, 위의 방법에서 구한 평균값들의 집단은 모두 단일한 값인 70을 갖게 된다. 그렇다면, 이 평균들의 집단의 표준편차 즉 [[standard deviation]]값은 어떨까? 이 값은 0을 갖게 된다. +<imgcaption fig02|sampling distribution n=population>{{ :sampling_distribution_m70sd0.png?300}}</imgcaption> 위의 실험은 영락없이 우습게 들릴 수 있다. 왜냐하면, 모집단 전체의 구성원을 조사한다면, 그 모집단의 평균만이 계속 나오기 때문이다. 즉, 위의 방법에서 구한 평균값들의 집단은 모두 단일한 값인 70을 갖게 된다. 그렇다면, 이 평균들의 집단의 표준편차 즉 [[standard deviation]]값은 어떨까? 이 값은 0을 갖게 된다. 
  
 연구자는 위의 사실에서 다른 사람들에게 다음과 같이 이야기 할 수 있다. "만약에 당신이 N으로 이루어진 샘플을 뽑아서 평균을 낸다면, 그 평균값은 70일 확율이 100%입니다". 이와 같이 샘플들의 평균을 모아서 분포곡선을 그려보면, 그 샘플의 평균이 어떻게 나올 것인가를 알 수 있는 방법이 있게 된다.  연구자는 위의 사실에서 다른 사람들에게 다음과 같이 이야기 할 수 있다. "만약에 당신이 N으로 이루어진 샘플을 뽑아서 평균을 낸다면, 그 평균값은 70일 확율이 100%입니다". 이와 같이 샘플들의 평균을 모아서 분포곡선을 그려보면, 그 샘플의 평균이 어떻게 나올 것인가를 알 수 있는 방법이 있게 된다. 
Line 32: Line 30:
 그렇다면 n = 4로 하여 샘플을 뽑는 경우는 어떨까? 그렇다면 n = 4로 하여 샘플을 뽑는 경우는 어떨까?
 ===== n = 4 인 경우 ===== ===== n = 4 인 경우 =====
-<imgcaption fig03|sampling distribution n=4일 경우, m=70 sd=7.5>{{ :sampling_distribuiton_m70sd7.5.png?192|}}</imgcaption> 이 모집단에서: +이 모집단에서: 
   - 샘플 구성원의 숫자가 4 인 샘플 (sample size, n = 4) 을 뽑아서 평균을 기록하고    - 샘플 구성원의 숫자가 4 인 샘플 (sample size, n = 4) 을 뽑아서 평균을 기록하고 
   - 다시 그 샘플을 모집단에 넣은 다음   - 다시 그 샘플을 모집단에 넣은 다음
Line 39: Line 37:
 의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까?  의 절차를 끝없이 (상상으로) 반복하여 그 평균값들의 분포를 (distribution of the sample means) 그린다면 어떻게 될까? 
  
-위의 경우가 n =1 인 경우와 다른 점은 샘플의 숫자이다 (n=4). n =4인 경우에 구하는 샘플의 평균값으로 나올 수 있는 최소의 값을 n = 1인 경우에 구할 수 있는 최소값과 비교하여 보자. 어떤 점수가 더 크게 나올 가능성이 많을까? 당연히 n = 4인 경우이다. n = 4인 경우에서 샘플의 평균이 n =1 인 경우의 최소값과 같기 위해서는 population의 최소값이 연속해서 4번 뽑혀야 하기때문이다. 이는 한 번만 뽑히는 경우보다 확률적으로 더 어렵다. 따라서, n = 4인 경우의 샘플평균들의 분포곡선의 최소값은 n = 1인 경우의 그것에 비하면 상대적으로 홀쭉한 모양을 갖게 될 것이다. 홀쭉하다 함은 즉 이 샘플평균 분포곡선의 표준편차는 n =1인 경우의 그것에 비하면 작다는 것을 의미한다. +<imgcaption fig03|sampling distribution n=4일 경우, m=70 sd=7.5>{{ :sampling_distribuiton_m70sd7.5.png?300|}}</imgcaption> 위의 경우가 n =1 인 경우와 다른 점은 샘플의 숫자이다 (n=4). n =4인 경우에 구하는 샘플의 평균값으로 나올 수 있는 최소의 값을 n = 1인 경우에 구할 수 있는 최소값과 비교하여 보자. 어떤 점수가 더 크게 나올 가능성이 많을까? 당연히 n = 4인 경우이다. n = 4인 경우에서 샘플의 평균이 n =1 인 경우의 최소값과 같기 위해서는 population의 최소값이 연속해서 4번 뽑혀야 하기때문이다. 이는 한 번만 뽑히는 경우보다 확률적으로 더 어렵다. 따라서, n = 4인 경우의 샘플평균들의 분포곡선의 최소값은 n = 1인 경우의 그것에 비하면 상대적으로 홀쭉한 모양을 갖게 될 것이다. 홀쭉하다 함은 즉 이 샘플평균 분포곡선의 표준편차는 n =1인 경우의 그것에 비하면 작다는 것을 의미한다. 
 <WRAP clear /> <WRAP clear />
 그렇다면 n = 16일 경우에는 어떨까? 그렇다면 n = 16일 경우에는 어떨까?
-<imgcaption fig04|sampling distribution n=25일 경우, m=70, sd=3>{{ :sampling_distribution_m60sd3.png?192|}}</imgcaption> +<imgcaption fig04|sampling distribution n=25일 경우, m=70, sd=3>{{ :sampling_distribution_m60sd3.png?300|}}</imgcaption> 
   * n = 25인 경우는?   * n = 25인 경우는?
   * n = 36인 경우는?   * n = 36인 경우는?
Line 49: Line 47:
   * n = 900인 경우?   * n = 900인 경우?
   * n = 1600인 경우?   * n = 1600인 경우?
-<WRAP clear /> 
- 
-===== in R ===== 
-<code> 
-s.size <- 4 
-#s.size <- 25  
-#s.size <- 64 
-#s.size <- 100 
-#s.size <- 400 
-p <- rnorm(1000000, mean=50, sd=10) 
-range <- seq(1:400) 
-s  <- rep (NA, length(range)) 
-for (i in range) { 
-    s[i] <- mean(sample(p, s.size)) 
-} 
-s.size 
-s.900 <- hist(s) 
-</code> 
  
 ===== CLT ===== ===== CLT =====
-위에서 언급한 가상의 **샘플평균들의 분포**를 구한다면 그 분포곡선은 아래의 성질을 갖게 된다.+위에서 언급한 가상의 샘플평균들의 분포를 구한다면 그 분포곡선은 아래의 성질을 갖게 된다. 
   * $\mu_{\overline{\tiny{X}}} = \mu$   * $\mu_{\overline{\tiny{X}}} = \mu$
   * $\sigma_{\overline{X}} = \frac{\sigma}{\sqrt{n}}$   * $\sigma_{\overline{X}} = \frac{\sigma}{\sqrt{n}}$
  
-(sampling distribution은 [[Central Limit Theorem]] 을 이해하기 위해서 꼭 필요한 개념이다.)+(sampling distribution은 [Central Limit Theorem] 을 이해하기 위해서 꼭 필요한 개념이다.)
  
-<imgcaption fig05|>{{ :sampling_distribution_m70sd1.5.png?192|}}</imgcaption> $\mu=70$ 이며 $\sigma=15$ 인 모집단의 경우에서 n = 100인 샘플을 뽑는다고 가정을 해보면, +$\mu=70$ 이며 $\sigma=15$ 인 모집단의 경우에서 n = 100인 샘플을 뽑는다고 가정을 해보면, 
  
   * $\mu_{\tiny\overline{X}} = \mu = 70$   * $\mu_{\tiny\overline{X}} = \mu = 70$
   * $\sigma_{\tiny\overline{X}} = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{100}} = 1.5$   * $\sigma_{\tiny\overline{X}} = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{100}} = 1.5$
  
 +아래는 읽지 마세요. 
 ====== English ====== ====== English ======
 I mentioned in the earlier article that the standard error is actually standard deviation of sampling distribution. I would feel safe when I say standard deviation since I covered the concept already. However, I thought you might feel uneasy about "sampling distribution," which may lead you all to a confusion in understanding standard error concept. If so, the article was not good enough. But, I mention about the concept (sampling distribution) implicitly without providing the definitions. So,  I want to talk more about the concepts of "central tendency,"  "sampling distribution" and "standard error." I mentioned in the earlier article that the standard error is actually standard deviation of sampling distribution. I would feel safe when I say standard deviation since I covered the concept already. However, I thought you might feel uneasy about "sampling distribution," which may lead you all to a confusion in understanding standard error concept. If so, the article was not good enough. But, I mention about the concept (sampling distribution) implicitly without providing the definitions. So,  I want to talk more about the concepts of "central tendency,"  "sampling distribution" and "standard error."
sampling_distribution.1616482991.txt.gz · Last modified: 2021/03/23 16:03 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki