r:sampling_distribution
Differences
This shows you the differences between two versions of the page.
| Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
| r:sampling_distribution [2026/03/22 23:22] – hkimscil | r:sampling_distribution [2026/03/24 10:17] (current) – hkimscil | ||
|---|---|---|---|
| Line 62: | Line 62: | ||
| </ | </ | ||
| </ | </ | ||
| - | pnorm | + | ===== pnorm ===== |
| + | |||
| <WRAP group> | <WRAP group> | ||
| <WRAP column half> | <WRAP column half> | ||
| Line 182: | Line 183: | ||
| </ | </ | ||
| </ | </ | ||
| - | z score, 표준점수 | + | ===== z score, 표준점수 |
| <WRAP group> | <WRAP group> | ||
| <WRAP column half> | <WRAP column half> | ||
| Line 260: | Line 262: | ||
| ---- | ---- | ||
| - | qnorm | + | |
| + | ===== qnorm ===== | ||
| <WRAP group> | <WRAP group> | ||
| <WRAP column half> | <WRAP column half> | ||
| Line 369: | Line 372: | ||
| </ | </ | ||
| </ | </ | ||
| - | |||
| ---- | ---- | ||
| - | distribution of sample means | + | |
| + | < | ||
| + | pnorm(110, 100, 10, lower.tail = F) | ||
| + | pnorm((110-100)/ | ||
| + | pnorm(1, lower.tail = F) | ||
| + | 1-pnorm(1) | ||
| + | pnorm(-1) | ||
| + | |||
| + | 1-(pnorm(-1)*2) | ||
| + | </ | ||
| + | ===== distribution of sample means ===== | ||
| + | |||
| 아래는 모두 같은 의미이다. | 아래는 모두 같은 의미이다. | ||
| * distribution of sample means | * distribution of sample means | ||
| Line 465: | Line 478: | ||
| < | < | ||
| > mean(means) | > mean(means) | ||
| - | [1] 99.99912 | + | [1] 100.0025 |
| > sd(means) | > sd(means) | ||
| - | [1] 3.164792 | + | [1] 3.167479 |
| > var(means) | > var(means) | ||
| - | [1] 10.01591 | + | [1] 10.03292 |
| </ | </ | ||
| * 위와 같다. 이 값은 샘플평균들의 평균이 무엇인가와 (mean(means)) | * 위와 같다. 이 값은 샘플평균들의 평균이 무엇인가와 (mean(means)) | ||
| Line 697: | Line 710: | ||
| </ | </ | ||
| </ | </ | ||
| + | |||
| + | ===== Hypothesis test ===== | ||
| <WRAP group> | <WRAP group> | ||
| Line 777: | Line 792: | ||
| < | < | ||
| - | > 2 * pnorm(m.sample.i.got, mean(p1), sd(means), lower.tail = F) | + | > (m.sample.i.got |
| - | [1] 0.13371 | + | |
| - | > (m.sample.i.got - mean(p1))/ | + | [1,] 1.494165 |
| - | [1] 1.499631 | + | > z.score <- (m.sample.i.got - mean(p1))/se.z |
| - | > z.score <- (m.sample.i.got - mean(p1))/sd(means) | + | |
| > pnorm(z.score, | > pnorm(z.score, | ||
| - | [1] 0.06685502 | + | [,1] |
| + | [1,] 0.06756624 | ||
| > 2 * pnorm(z.score, | > 2 * pnorm(z.score, | ||
| - | [1] 0.13371 | + | |
| - | > | + | [1,] 0.1351325 |
| </ | </ | ||
| * 위처럼 z score를 구해서 pnorm으로 probability를 보는 것을 z-test 라고 한다. | * 위처럼 z score를 구해서 pnorm으로 probability를 보는 것을 z-test 라고 한다. | ||
| Line 792: | Line 807: | ||
| </ | </ | ||
| ---- | ---- | ||
| - | Last one . . . Important | + | |
| <WRAP group> | <WRAP group> | ||
| <WRAP column half> | <WRAP column half> | ||
| Line 875: | Line 890: | ||
| 이 probability level이 어느정도나 작아야 이 샘플이 p1에서 나오지 않고 p2에서 나왔다고 판단할 수 있을까? 관습적으로 5/100를 기준으로 해서 이 범위보다 작게 되면 p1의 모집단에서 나온 샘플이 아닌 것으로 판단하게 된다. 이 논리에 따라서, (평균을 107.9235 값을 갖는)이 샘플은, p1에서 나오기 힘든 샘플이라고 판단 된다. | 이 probability level이 어느정도나 작아야 이 샘플이 p1에서 나오지 않고 p2에서 나왔다고 판단할 수 있을까? 관습적으로 5/100를 기준으로 해서 이 범위보다 작게 되면 p1의 모집단에서 나온 샘플이 아닌 것으로 판단하게 된다. 이 논리에 따라서, (평균을 107.9235 값을 갖는)이 샘플은, p1에서 나오기 힘든 샘플이라고 판단 된다. | ||
| + | |||
| + | * R에는 z-test 펑션이 없다. 현실에서는 전체 모집단의 평균을 알고 있는 경우는 많지만 표준편차까지 알고 있는 경우는 많지 않다. 그래서 많이 쓰이지 않는 편이다. | ||
| + | * 모집단의 평균과 표준편차를 알고 있다고 하면, 우리는 R에서 z test를 하는 절차는 | ||
| + | * n = n 일 경우의 샘플링분포에서 se 를 구한다 | ||
| + | * se = sigma / sqrt(n) | ||
| + | * 테스트할 점수의 z score를 구한다. | ||
| + | * diff = test.score - mean.of.population | ||
| + | * z.score = diff / se | ||
| + | * z score 보다 큰 점수나 -z score 보다 작은 점수가 나올 확률를 위의 샘플링 분포에 구한다. | ||
| + | * p.value = 2 * pnorm(z.score, | ||
| + | * z.score와 p.vallue로 테스트점수가 모집단에서 나왔는지 나올 수 없는지 (나오기 어려운지를) 판단한다. | ||
| {{: | {{: | ||
| Line 941: | Line 967: | ||
| <WRAP half column> | <WRAP half column> | ||
| [[:t-test]] 중에서 2번째 케이스 | [[:t-test]] 중에서 2번째 케이스 | ||
| + | * 모집단의 평균은 알지만 표준편차 정보는 없는 경우이다. | ||
| + | * 똑같은 논리로 생각을 해서 모집단의 샘플링분포를 (distribution of sample means) 머리에 두고 | ||
| + | * se값을 구한다. 이 때의 se 값은 | ||
| + | * '' | ||
| + | * sigma 대신에 s를 사용한 것에 주목 | ||
| + | * z.score에 해당하는 t.score를 구한다. | ||
| + | * 테스트점수와 모집단 평균의 차이를 구한 후 ('' | ||
| + | * se.cal 값으로 나눠준다. | ||
| + | * '' | ||
| + | * t.cal 값 이상, 반대편 점수의 이하가 나올 확률을 구한다. | ||
| + | * 이 때, 모집단의 표준편차를 사용해서 z.score를 구하지 않았으므로 | ||
| + | * 그리고, 이 probability는 샘플의 크기 n에 영향을 받으므로 n의 크기에 따라서 변화하는 probability distribution을 사용한다. | ||
| + | * p.value <- pt(t.score, df=n-1, lower.tail=F) * 2 | ||
| + | * t.cal과 p.value로 테스트점수가 나올 가능성을 판단하여 가설을 기각하거나 채택한다 (검증한다). | ||
| </ | </ | ||
| </ | </ | ||
| <WRAP group> | <WRAP group> | ||
| + | [[:types of error]] | ||
| + | [[: | ||
| + | |||
| <WRAP half column> | <WRAP half column> | ||
| < | < | ||
| Line 1016: | Line 1059: | ||
| </ | </ | ||
| - | ====== e.g.1 ====== | ||
| - | 위에서 p2의 parameter에 대해서 잘 모른다는 점에 주목하라. 그리고 아래 시나리오를 상상하라. | ||
| - | - 어느 한 모집단의 IQ 평균이 100 이고 표준편차가 10 임을 알고 있다. 확률과통계 교수는 머리가 좋아지는 약을 개발하여 이를 팔아보려고 하고 있다. 이를 위해서 확통교수는 25명의 학생에게 머리가 좋아지는 약을 복용하도록 한 후에 IQ를 측정하였다. 그런데, 그 IQ 평균이 106.45 이다. 이 점수를 가지고 약의 효과가 있는지 검증을 해보력고 한다. | ||
| - | - 똑 같은 경우이지만 모집단의 평균을 100으로 추정하고 있지 표준편차는 모르는 상태이다. 그런데, 25명에게 약을 복용시키고 IQ를 측정하니 점수가 105.50이 나왔고, 표준편차는 9.4였다. 이 점수로 약의 효과가 있었는지 검증을 하려 한다. | ||
| ====== R script and output ====== | ====== R script and output ====== | ||
| <tabbox rs01> | <tabbox rs01> | ||
| Line 2319: | Line 2358: | ||
| </ | </ | ||
| + | ====== exercise.1 ====== | ||
| + | 위에서 p2의 parameter에 대해서 잘 모른다는 점에 주목하라. 그리고 아래 시나리오를 상상하라. | ||
| + | |||
| + | - 어느 한 모집단의 IQ 평균이 100 이고 표준편차가 10 임을 알고 있다. 확률과통계 교수는 머리가 좋아지는 약을 개발하여 이를 팔아보려고 하고 있다. 이를 위해서 확통교수는 25명의 학생에게 머리가 좋아지는 약을 복용하도록 한 후에 IQ를 측정하였다. 그런데, 그 IQ 평균이 106.45 이다. 이 점수를 가지고 약의 효과가 있는지 검증을 해보력고 한다. | ||
| + | - 똑 같은 경우이지만 모집단의 평균을 100으로 추정하고 있지 표준편차는 모르는 상태이다. 그런데, 25명에게 약을 복용시키고 IQ를 측정하니 점수가 105.50이 나왔고, 표준편차는 9.4였다. 이 점수로 약의 효과가 있었는지 검증을 하려 한다. | ||
r/sampling_distribution.1774221749.txt.gz · Last modified: by hkimscil
