User Tools

Site Tools


b:head_first_statistics:using_hypothesis_tests

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
b:head_first_statistics:using_hypothesis_tests [2019/12/10 10:32] – [Step 3: Determine the critical region] hkimscilb:head_first_statistics:using_hypothesis_tests [2024/11/27 08:30] (current) – [What if the sample size gets larger] hkimscil
Line 8: Line 8:
 <WRAP help> <WRAP help>
 If the drug cures 90% of people, how many people in the sample of 15 snorers would you expect to have been cured? What sort of distribution do you think this follows? If the drug cures 90% of people, how many people in the sample of 15 snorers would you expect to have been cured? What sort of distribution do you think this follows?
 +
 +A: 제약회사의 말이 맞다면 .9 (90%) 치료율을 보여야 하기 때문에, 15명의 .9인 13.5명, 이를 반올림한 14명이 치료되어야 한다. 그런데, 이번 샘플에서의 치료된 환자의 숫자는 11이었다. 이를 어떻게 해석하고 판단해야 하는가?
 </WRAP> </WRAP>
 +
 +
  
 X 는 B (15, 0.9)의 distribution 을 따른다. X 는 B (15, 0.9)의 distribution 을 따른다.
Line 21: Line 25:
 ===== Step 1: Decide on the hypothesis ===== ===== Step 1: Decide on the hypothesis =====
  
-Null H: P = .9 +Null Hypothesis $H_{0}: P = .9$ 
-Alt H: P < .9 or $P \ne .9$+  * 제약회사의 말이 맞다고 가정하는 것을 말한다. 즉, 치료율이 90%이다.  
 +Alternative Hypothesis $H_{1}: P < .9 $ 
 +  * 위의 말을 부정하는 것이다. 혹은 내가 진정 밝히고자하는 문제이라고 할 수 있다 -- "제약회사는 거짓말을 하고 있다." 
 +  * 이에 따라서 $H_{1}: P \le .9 $ 라고 보아도 된다 (two tale)
  
 ===== Step 2: Choose your test statistic ===== ===== Step 2: Choose your test statistic =====
Line 31: Line 38:
  
 {{:b:head_first_statistics:pasted:20191209-105225.png}} {{:b:head_first_statistics:pasted:20191209-105225.png}}
 +위의 그림에서: "그렇다면 어는 수준까지 (몇 명까지) 떨어져야 (치료된 사람이 적어야), 90%에 미치지 못한다고 하겠는가? 숫자상으로는 13.5명이지만 13명이라도 90%에 미치는 수준이라고 판단해야 할까?라고 생각한다면, 어디까지 떨어지면 90%가 아닌것을 확신할 수 있을까? 12명? 11명? 10명? 9명?
  
 +즉, 어느 지점에서 제약회사의 주장을 기각해야 할까?
 +
 +유의수준을 (confidence interval) 정하여 기각할 지점을 찾는다. 
 +
 +이를 5%로 정하면 (혹은 95%) --
 +
 +이번에 구한 치료된 11명이 이 5%에 해당되는 숫자인지 아니면 95%에 해당되는 숫자인지 본다. 
 <code> <code>
 xp <- c(1:30) xp <- c(1:30)
 plot(dbinom(xp, 15, .9), type = "hist") plot(dbinom(xp, 15, .9), type = "hist")
 </code> </code>
 +{{:b:head_first_statistics:pasted:20191212-081033.png}}
  
 To find the critical region, first decide on the __significance level__ To find the critical region, first decide on the __significance level__
Line 51: Line 67:
 $X \sim B(15, 0.9)$ 에서 $P(X \le 11)$은 무엇인지를 본다. $X \sim B(15, 0.9)$ 에서 $P(X \le 11)$은 무엇인지를 본다.
 <code> <code>
-pnorm(11, 15, 0.9)+pbinom(11, 15, 0.9)
 </code> </code>
  
Line 63: Line 79:
 We accept the claims of the drug company We accept the claims of the drug company
  
 +<code>
 +> ############
 +> pbinom(11, 15, .9) # 11명 이하로 나은 수 있는 확률은  아래 점수와 같다
 +[1] 0.05555563   
 +> pbinom(10, 15, .9) 
 +# 10명 이하라고 하면 그 때의 확률은 0.05보다  
 +# 작은 0.012 이고, 이것의 의미는 사건이 일어날 
 +# 확률이 (나을 확률이) 일어나기 극히 어려운 경우
 +# 임을 말한다 (1/20보다 작은 확률이라는 뜻)
 +[1] 0.01272048
 +
 +</code>
 ====== What if the sample size gets larger ====== ====== What if the sample size gets larger ======
 | Cured?  | yes  | no  | | Cured?  | yes  | no  |
Line 72: Line 100:
 이 때의 Distribution은 Binomial이므로  이 때의 Distribution은 Binomial이므로 
 $X \sim B(100, 0.9)$ 를 따를 것이고, 이 때의 $P(X \le 80)$ 경우를 살펴보고 이것이 critical value (alpha)인 .05를 기준으로 어디에 위치하는지를 살펴본다.  $X \sim B(100, 0.9)$ 를 따를 것이고, 이 때의 $P(X \le 80)$ 경우를 살펴보고 이것이 critical value (alpha)인 .05를 기준으로 어디에 위치하는지를 살펴본다. 
- 
-그런데, 위를 손으로 계산하는 것은 무리이다. 참고로 R에서는  
- 
-<WRAP info> 
-<code> 
-> pbinom(80,100,.9) 
-[1] 0.001978561 
-</code> 
-</WRAP> 
- 
  
   * np > 5, nq > 5, 인 경우에 해당하므로   * np > 5, nq > 5, 인 경우에 해당하므로
Line 89: Line 107:
   * 또한 샘플의 크기가 비교적 작다면 t-distribution을 상정하고 그 값을 구한다.    * 또한 샘플의 크기가 비교적 작다면 t-distribution을 상정하고 그 값을 구한다. 
  
-$X ~ N(90, np)$ +$X \sim B (100.9)$ 에서,  $E(X) = np$, $V(X= npq$일 것이다. 
-$X N(90, 9)$ +따라서, $E(X) = 90$, $V(X) = 9$ 이므로 
-X =80 일 때의 Z score는 + 
 +$X \sim B (100, .9)$ 는 $X \sim N(np, npq)$, 즉, $X \sim N(90, 9)$ 를 따르는 분포를 보일 것이다.  
 +X = 80 이었으므로 이 지점의 Z score는 
 \begin{eqnarray*} \begin{eqnarray*}
 z & = & \dfrac{X-90}{sd} \\ z & = & \dfrac{X-90}{sd} \\
Line 104: Line 124:
 z = -3.33 일 때의 Probability는 .0004이다. 이는 .05보다 훨씬 바깥 쪽에 위치하므로  z = -3.33 일 때의 Probability는 .0004이다. 이는 .05보다 훨씬 바깥 쪽에 위치하므로 
 Null hypothesis를 부정한다. Null hypothesis를 부정한다.
 +<code>
 +> pnorm(-3.33, 0, 1)
 +[1] 0.0004342299
 +# 혹은 
 +> pnorm(80, 90, 3)
 +[1] 0.0004290603
 +</code>
  
-즉, 회사의 claim 인 90% cure를 지 못한다. +그런데 보통은 (r을 용하지 않을 경우에는) 위와 같은 계산이 어려우므로,  
 +z 점수가 .05일 경우의 점수를 아 본다. 는 [[:z-table]]에서 찾아보거나 R에서 찾아 볼 수 있다.  
 +<code> 
 +> qnorm(0.05, 0, 1) # 왼쪽 부분 5%에 해당하는 z 값 
 +[1] -1.644854 
 +> # 혹은 원점수로 살펴보면 
 +> qnorm(0.05, 90, 3) # 왼쪽 부분 5%에 해당하는 원점수 값 
 +[1] 85.06544 
 +</code>
  
 +이 때의 z 값은 -1.64 이므로 
 +  * 이 점수와 -3.33 을 비교한다. 
 +  * 혹은 85.06544 를 80 점과 비교한다. 
 +<del>위의 그림처럼 -3.33은 영가설 기각기준 왼 쪽에 존재하므로</del> -- > P(X < -1.64) = 0.05 라는 이야기인데, 내가 구한 z 값은 -3.33 이므로 이 0.05 구간 안에 존재한다. 즉, 80점의 평균을 얻을 확률이 아주 낮다는 (1/20보다 낮다는) 이야기이므로 영가설인, 샘플의 평균인 80점이 모집단의 평균에서 나왔다는 것을 (같을 것이라는 것을) 부정한다 (혹은 기각한다). 즉, 회사의 claim 인 90% cure를 받아들이지 못한다. 
 +
 +다른 예: [[:hypothesis testing]]
 +<WRAP box 60%>
 +연구자는 조사방법론 수업을 듣는 전체 모집단 학생들의 평균(이런 종류의 테스트가 있다고 가정)이 얼마인지를 알고 있다(평균 = 50, stdev = 10).
 +
 +연구자는 wiki를 사용하여 한 학기의 수업을 한 후에 같은 종류의 테스트를 wiki사용자들에게 하여, 이들의 평균이 wiki를 사용하지 않는 평범한 학생들의 성적과 차이가 있음을 밝힌다면, 가설검증이 성공된다.
 +</WRAP>
 ====== Error types ====== ====== Error types ======
 [[:Types of error]] [[:Types of error]]
  
b/head_first_statistics/using_hypothesis_tests.1575941549.txt.gz · Last modified: 2019/12/10 10:32 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki