c:mrm:2022:qs_from_stu
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
c:mrm:2022:qs_from_stu [2022/04/22 00:26] – hkimscil | c:mrm:2022:qs_from_stu [2022/04/23 18:20] (current) – hkimscil | ||
---|---|---|---|
Line 8: | Line 8: | ||
위 학생의 질문에서 앞부분, X = {3, 4, 3, 4, 6} 의 분산값을 구하기 위해서 SS를 n-1로 나눈다는 이야기는 맞습니다. 그러나, 뒤의 N(70, 15^2) 부분에 대한 이해는 약간 정리가 안되어 있습니다. 이를 설명해 보겠습니다. | 위 학생의 질문에서 앞부분, X = {3, 4, 3, 4, 6} 의 분산값을 구하기 위해서 SS를 n-1로 나눈다는 이야기는 맞습니다. 그러나, 뒤의 N(70, 15^2) 부분에 대한 이해는 약간 정리가 안되어 있습니다. 이를 설명해 보겠습니다. | ||
- | 위에서 N(70, 15^2)은 평균이 70이고 표준편차가 15인 (따라서 분산이 15^2인) 모집단을 (population) 의미하는 것입니다. 선생님은 이 모집단에서 n=100인 샘플을 구해 (샘플링을 하여서) 그 평균값을 기록하고, | + | 위에서 N(70, 15^2)은 평균이 70이고 표준편차가 15인 (따라서 분산이 15^2인) 모집단을 (population) 의미하는 것입니다. 선생님은 이 모집단에서 n=100인 샘플을 구해 (샘플링을 하여서) 그 평균값을 기록하고, |
$$ | $$ | ||
Line 16: | Line 16: | ||
위에서 | 위에서 | ||
* $\overline{X}$ 는 X bar 즉 평균을 의미하고 | * $\overline{X}$ 는 X bar 즉 평균을 의미하고 | ||
- | * $\sim $ 사인은 앞의 X bar 들의 집합을 의미합니다. | + | * $\sim $ 사인은 앞의 X bar 들의 집합을 의미합니다. |
- | * 이 집단에서의 평균 $\mu_{\overline{X}}$ 값은 $ 70 $ 이 되고 | + | * $\mu_{\overline{X}}$ 기호는 샘플평균들로 |
- | * ${\sigma_{\overline{X}}}^2 = \frac{\sigma^2}{n}$ | + | * $(\sigma_{\overline{X}})^2$ 기호는 샘플평균들의 분산값을 말합니다. |
- | * 위에서 | + | * 여기서 [[:Central Limit Theorem]] 이 말하는 것은 |
+ | * 이 평균집단의 평균 $\mu_{\overline{X}}$ 값은 | ||
+ | * 분산 값은 모집단 분산값을 샘플의 크기인 n으로 나누 값이 된다는 것입니다. 즉, ${\sigma_{\overline{X}}}^2 = \frac{\sigma^2}{n}$ 입니다. 위의 예에서는 $\frac {15^2} {100} $ 입니다. | ||
+ | * 그리고 이 평균들의 집합은 정상분포를 (Normal distribution) 이룬다는 것입니다. | ||
$$ | $$ | ||
\begin{eqnarray*} | \begin{eqnarray*} | ||
Line 57: | Line 59: | ||
# random sampling | # random sampling | ||
# n = 10, 100, 1000 등 정할 수 있습니다. | # n = 10, 100, 1000 등 정할 수 있습니다. | ||
- | # 아래는 | + | # 아래는 |
- | n <- 10 | + | n <- 100 |
# 모집단의 평균은 70, 표준편차는 15를 가정합니다 | # 모집단의 평균은 70, 표준편차는 15를 가정합니다 | ||
Line 75: | Line 77: | ||
# iter 번을 샘플링합니다 | # iter 번을 샘플링합니다 | ||
# 그리고 이를 iter 개의 NA로 채워서 means에 저장합니다. | # 그리고 이를 iter 개의 NA로 채워서 means에 저장합니다. | ||
- | iter <- 10000 | + | iter <- 1000000 |
means <- rep (NA, iter) | means <- rep (NA, iter) | ||
- | # 루프문을 통해서 위의 iter 개의 means[i]에 샘플의 (n=10) | + | # 루프문을 통해서 위의 iter 개의 means[i]에 |
- | # 평균을 구해서 저장합니다 | + | # 샘플의 (샘플 숫자 |
for(i in 1:iter){ | for(i in 1:iter){ | ||
means[i] = mean(rnorm(n, | means[i] = mean(rnorm(n, | ||
} | } | ||
- | # 이 천개의 샘플평균들의 집합의 평균 (m), | + | # 이 iter 개의 샘플평균들의 집합의 평균 (m), |
# 분산 (v1), 표준편차를 (sd1) 구해봅니다. | # 분산 (v1), 표준편차를 (sd1) 구해봅니다. | ||
m <- mean(means) | m <- mean(means) | ||
Line 91: | Line 93: | ||
# 위의 값은 sum((means - m)^2) # 을 (SS 부분) 구한 후 | # 위의 값은 sum((means - m)^2) # 을 (SS 부분) 구한 후 | ||
# iter - 1 값으로 (df 부분) 나눠주어서 구해도 됩니다. | # iter - 1 값으로 (df 부분) 나눠주어서 구해도 됩니다. | ||
+ | v1 | ||
sum((means - m)^2) / (iter - 1) | sum((means - m)^2) / (iter - 1) | ||
# 위의 값은 아래 sd(means) 와 같을 겁니다. | # 위의 값은 아래 sd(means) 와 같을 겁니다. | ||
+ | |||
sd1 <- sd(means) # 이 값이 평균분포의 표준편차값입니다. | sd1 <- sd(means) # 이 값이 평균분포의 표준편차값입니다. | ||
m | m | ||
Line 106: | Line 110: | ||
# 위에서 평균들의 집합이 무한대라면 (현재는 천이지만) | # 위에서 평균들의 집합이 무한대라면 (현재는 천이지만) | ||
# v1 과 se.sq 값은 같게 됩니다. | # v1 과 se.sq 값은 같게 됩니다. | ||
- | # 만명인 이 경우에도 두 값이 아주 비슷합니다. | + | # iter 번 샘플링을 한 경우에도 두 값이 아주 비슷합니다. |
</ | </ | ||
Line 116: | Line 120: | ||
> # random sampling | > # random sampling | ||
> # n = 10, 100, 1000 등 정할 수 있습니다. | > # n = 10, 100, 1000 등 정할 수 있습니다. | ||
- | > # 아래는 | + | > # 아래는 |
- | > n <- 10 | + | > n <- 100 |
> | > | ||
> # 모집단의 평균은 70, 표준편차는 15를 가정합니다 | > # 모집단의 평균은 70, 표준편차는 15를 가정합니다 | ||
Line 129: | Line 133: | ||
> # 평균을 알아봅니다. 이것이 어디에 쓰이지는 않습니다. | > # 평균을 알아봅니다. 이것이 어디에 쓰이지는 않습니다. | ||
> mean(s1) | > mean(s1) | ||
- | [1] 71.98304 | + | [1] 71.63331 |
> | > | ||
> | > | ||
Line 135: | Line 139: | ||
> # iter 번을 샘플링합니다 | > # iter 번을 샘플링합니다 | ||
> # 그리고 이를 iter 개의 NA로 채워서 means에 저장합니다. | > # 그리고 이를 iter 개의 NA로 채워서 means에 저장합니다. | ||
- | > iter <- 10000 | + | > iter <- 1000000 |
> means <- rep (NA, iter) | > means <- rep (NA, iter) | ||
> | > | ||
- | > # 루프문을 통해서 위의 iter 개의 means[i]에 샘플의 (n=10) | + | > # 루프문을 통해서 위의 iter 개의 means[i]에 |
- | > # 평균을 구해서 저장합니다 | + | > # 샘플의 (샘플 숫자 |
> for(i in 1:iter){ | > for(i in 1:iter){ | ||
+ | + | ||
+ } | + } | ||
> | > | ||
- | > # 이 천개의 샘플평균들의 집합의 평균 (m), | + | > # 이 iter 개의 샘플평균들의 집합의 평균 (m), |
> # 분산 (v1), 표준편차를 (sd1) 구해봅니다. | > # 분산 (v1), 표준편차를 (sd1) 구해봅니다. | ||
> m <- mean(means) | > m <- mean(means) | ||
Line 151: | Line 155: | ||
> # 위의 값은 sum((means - m)^2) # 을 (SS 부분) 구한 후 | > # 위의 값은 sum((means - m)^2) # 을 (SS 부분) 구한 후 | ||
> # iter - 1 값으로 (df 부분) 나눠주어서 구해도 됩니다. | > # iter - 1 값으로 (df 부분) 나눠주어서 구해도 됩니다. | ||
+ | > v1 | ||
+ | [1] 2.248648 | ||
> sum((means - m)^2) / (iter - 1) | > sum((means - m)^2) / (iter - 1) | ||
- | [1] 22.37809 | + | [1] 2.248648 |
> # 위의 값은 아래 sd(means) 와 같을 겁니다. | > # 위의 값은 아래 sd(means) 와 같을 겁니다. | ||
+ | > | ||
> sd1 <- sd(means) # 이 값이 평균분포의 표준편차값입니다. | > sd1 <- sd(means) # 이 값이 평균분포의 표준편차값입니다. | ||
> m | > m | ||
- | [1] 69.96614 | + | [1] 70.00091 |
> v1 | > v1 | ||
- | [1] 22.37809 | + | [1] 2.248648 |
> sd1 | > sd1 | ||
- | [1] 4.730549 | + | [1] 1.499549 |
> | > | ||
> # 아래는 평균들분포의 표준편차가 (표준오차) | > # 아래는 평균들분포의 표준편차가 (표준오차) | ||
Line 167: | Line 174: | ||
> se.sq <- (pop.sd^2) / n | > se.sq <- (pop.sd^2) / n | ||
> se.sq | > se.sq | ||
- | [1] 22.5 | + | [1] 2.25 |
> | > | ||
> # 위에서 평균들의 집합이 무한대라면 (현재는 천이지만) | > # 위에서 평균들의 집합이 무한대라면 (현재는 천이지만) | ||
> # v1 과 se.sq 값은 같게 됩니다. | > # v1 과 se.sq 값은 같게 됩니다. | ||
- | > # 만명인 이 경우에도 두 값이 아주 비슷합니다. | + | > # iter 번 샘플링을 한 경우에도 두 값이 아주 비슷합니다. |
- | > | + | > |
</ | </ | ||
c/mrm/2022/qs_from_stu.1650554787.txt.gz · Last modified: 2022/04/22 00:26 by hkimscil