Differences

This shows you the differences between two versions of the page.

--- b:head_first_statistics:using_hypothesis_tests [2019/12/12 08:45] – [What if the sample size gets larger] hkimscil
+++ b:head_first_statistics:using_hypothesis_tests [2024/11/27 08:30] (current) – [What if the sample size gets larger] hkimscil
@@ Line 78: / Line 78: @@
 {{:b:head_first_statistics:pasted:20191209-111715.png}}
 We accept the claims of the drug company
-====== What if the sample size gets larger ======
-| Cured?  | yes  | no  |
-| Freq  | 110  | 40  |
-Null H : P = 0.9
-Alt H: P < 0.9
 <code>
-xp <- c(1:300)
+> ############
-plot(dbinom(xp, 150, .9), type = "hist", main = "X ~ B(150, .9)")
+> pbinom(11, 15, .9) # 11명 이하로 나은 수 있는 확률은  아래 점수와 같다
+[1] 0.05555563
+> pbinom(10, 15, .9)
+# 10명 이하라고 하면 그 때의 확률은 0.05보다
+# 작은 0.012 이고, 이것의 의미는 사건이 일어날
+# 확률이 (나을 확률이) 일어나기 극히 어려운 경우
+# 임을 말한다 (1/20보다 작은 확률이라는 뜻)
+[1] 0.01272048
+>
 </code>
+====== What if the sample size gets larger ======
-{{:b:head_first_statistics:pasted:20191212-081524.png}}
-<code>
-pbinom(110, 150, .9)
-</code>
-<code>
-> pbinom(110, 150, .9)
-[1] 5.785159e-09
-</code>
-textbook ----
 | Cured?  | yes  | no  |
 | Freq  | 80  | 20  |
@@ Line 112: / Line 100: @@
 이 때의 Distribution은 Binomial이므로
 $X \sim B(100, 0.9)$ 를 따를 것이고, 이 때의 $P(X \le 80)$ 경우를 살펴보고 이것이 critical value (alpha)인 .05를 기준으로 어디에 위치하는지를 살펴본다.
-그런데, 위를 손으로 계산하는 것은 무리이다. 참고로 R에서는
-<WRAP info>
-<code>
-> pbinom(80,100,.9)
-[1] 0.001978561
-</code>
-</WRAP>
   * np > 5, nq > 5, 인 경우에 해당하므로
@@ Line 129: / Line 107: @@
   * 또한 샘플의 크기가 비교적 작다면 t-distribution을 상정하고 그 값을 구한다.
-$X ~ N(90, np)$
+$X \sim B (100, .9)$ 에서,  $E(X) = np$, $V(X) = npq$일 것이다.
-$X ~ N(90, 9)$
+따라서, $E(X) = 90$, $V(X) = 9$ 이므로
-X =80 일 때의 Z score는
+$X \sim B (100, .9)$ 는 $X \sim N(np, npq)$, 즉, $X \sim N(90, 9)$ 를 따르는 분포를 보일 것이다.
+X = 80 이었으므로 이 지점의 Z score는
 \begin{eqnarray*}
 z & = & \dfrac{X-90}{sd} \\
@@ Line 144: / Line 124: @@
 z = -3.33 일 때의 Probability는 .0004이다. 이는 .05보다 훨씬 바깥 쪽에 위치하므로
 Null hypothesis를 부정한다.
+<code>
+> pnorm(-3.33, 0, 1)
+[1] 0.0004342299
+# 혹은
+> pnorm(80, 90, 3)
+[1] 0.0004290603
+</code>
-즉, 회사의 claim 인 90% cure를 받아들이지 못한다.
+그런데 보통은 (r을 사용하지 않을 경우에는) 위와 같은 계산이 어려우므로,
+z 점수가 .05일 경우의 점수를 찾아 본다. 이는 [[:z-table]]에서 찾아보거나 R에서 찾아 볼 수 있다.
+<code>
+> qnorm(0.05, 0, 1) # 왼쪽 부분 5%에 해당하는 z 값
+[1] -1.644854
+> # 혹은 원점수로 살펴보면
+> qnorm(0.05, 90, 3) # 왼쪽 부분 5%에 해당하는 원점수 값
+[1] 85.06544
+</code>
+이 때의 z 값은 -1.64 이므로
+  * 이 점수와 -3.33 을 비교한다.
+  * 혹은 85.06544 를 80 점과 비교한다.
+<del>위의 그림처럼 -3.33은 영가설 기각기준 왼 쪽에 존재하므로</del> -- > P(X < -1.64) = 0.05 라는 이야기인데, 내가 구한 z 값은 -3.33 이므로 이 0.05 구간 안에 존재한다. 즉, 80점의 평균을 얻을 확률이 아주 낮다는 (1/20보다 낮다는) 이야기이므로 영가설인, 샘플의 평균인 80점이 모집단의 평균에서 나왔다는 것을 (같을 것이라는 것을) 부정한다 (혹은 기각한다). 즉, 회사의 claim 인 90% cure를 받아들이지 못한다.
+다른 예: [[:hypothesis testing]]
+<WRAP box 60%>
+연구자는 조사방법론 수업을 듣는 전체 모집단 학생들의 평균(이런 종류의 테스트가 있다고 가정)이 얼마인지를 알고 있다(평균 = 50, stdev = 10).
+연구자는 wiki를 사용하여 한 학기의 수업을 한 후에 같은 종류의 테스트를 wiki사용자들에게 하여, 이들의 평균이 wiki를 사용하지 않는 평범한 학생들의 성적과 차이가 있음을 밝힌다면, 가설검증이 성공된다.
+</WRAP>
 ====== Error types ======
 [[:Types of error]]