Differences

This shows you the differences between two versions of the page.

--- c:ma:anova_note [2024/09/19 07:58] – [ANOVA e.g.1] hkimscil
+++ c:ma:anova_note [2024/09/23 10:54] (current) – [ANOVA e.g.1] hkimscil
@@ Line 131: / Line 131: @@
 ====== ANOVA e.g.1 ======
 <code r>
-# ANOVA
 set.seed(1024)
-n <-80
+na <-50
-s1 <- round(rnorm(n, 5.6, 1),0)
+nb <- 50
-s2 <- round(rnorm(n, 5.9, 1),0)
+nc <- 50
-s3 <- round(rnorm(n, 6.5, 1),0)
+s1 <- round(rnorm(na, 11.6, 2),0)
+s2 <- round(rnorm(nb, 12.9, 2),0)
+s3 <- round(rnorm(nc, 13.4, 2),0)
 s1
 s2
 s3
-sam <- c(s1,s2,s3)
+sabc <- c(s1,s2,s3)
-sam
+sabc
-group <- c(rep("g1",n), rep("g2",n), rep("g3",n))
+group <- c(rep("g1",na), rep("g2",nb), rep("g3",nc))
 group
-sa <- data.frame(sam,group)
+sall <- data.frame(sabc, group)
-sa
+sall
-attach(sa)
+attach(sall)
-aov.sa <- aov(sam ~ group, data=sa)
+aov.sall <- aov(sabc ~ group, data=sall)
-summary(aov.sa)
+summary(aov.sall)
-uniqueN(sa, by = c("group"))
+df.total <- length(sabc) - 1
-nofg <- uniqueN(sa, by = c("group"))
+ss.total <- var(sabc)*df.total
-df.bet <- nofg - 1
+var.total <- var(sabc)
-# df.tot <- (3*n)-1
+df.total
-ss.tot <- var(sam)*df.tot
+ss.total
-var.tot <- var(sam)
+var.total
-df.tot
-ss.tot
+df.s1 <- na-1
-var.tot
+df.s2 <- nb-1
+df.s3 <- nc-1
-df.bet <- 3 - 1
-df.s1 <- n-1
-df.s2 <- n-1
-df.s3 <- n-1
 df.within <- df.s1+df.s2+df.s3
 df.within
@@ Line 178: / Line 177: @@
 ss.within
-mean.grand <- mean(sam)
+# for uniqueN function data.table required
+# install.packages("data.table")
+library(data.table)
+uniqueN(sall, by = c("group"))
+nofg <- uniqueN(sall, by = c("group"))
+nofg
+df.between <- nofg - 1
+df.between
+mean.grand <- mean(sabc)
 mean.s1 <- mean(s1)
 mean.s2 <- mean(s2)
@@ Line 187: / Line 196: @@
 mean.s3
-diff.g1 <- n * (mean.grand - mean.s1)^2
+error.g1 <- na * (mean.grand - mean.s1)^2
-diff.g2 <- n * (mean.grand - mean.s2)^2
+error.g2 <- nb * (mean.grand - mean.s2)^2
-diff.g3 <- n * (mean.grand - mean.s3)^2
+error.g3 <- nc * (mean.grand - mean.s3)^2
-diff.g1
+error.g1
-diff.g2
+error.g2
-diff.g3
+error.g3
-ss.bet <-  diff.g1 + diff.g2 + diff.g3
+ss.between <-  error.g1 + error.g2 + error.g3
-ss.bet
+ss.between
 # sumup
-ss.tot
+ss.total
-ss.bet
+ss.between
 ss.within
-ss.bet+ss.within
+ss.between + ss.within
+ss.total
-df.tot
+df.total
-df.bet
+df.between
 df.within
-df.bet + df.within
+df.between + df.within
-ms.bet <- ss.bet / df.bet
+ms.between <- ss.between / df.between
-ms.wit <- ss.within / df.within
+ms.within <- ss.within / df.within
-ms.bet
+ms.between
-ms.wit
+ms.within
-fvalue <- ms.bet/ms.wit
+fvalue <- ms.between/ms.within
 fvalue
-f.res <- aov(sam~group, data=sa)
+# fvalue에서 판단했을 때 그 판단이 잘못일 확률
+- pf(fvalue, df.between, df.within)
+f.res <- aov(sabc ~ group, data=sall)
 summary(f.res)
 # for regression
-r.res <- lm(sam~group, data=sa)
+r.res <- lm(sabc ~ group, data=sall)
 summary(r.res)
+anova(r.res)
 summary(r.res)$r.square
-ss.tot
+ss.total
-ss.bet
+ss.between
 ss.within
 # this is r.square value
-ss.bet/ss.tot
+ss.between/ss.total
+</code>
+<code>
+> set.seed(1024)
+> na <-50
+> nb <- 50
+> nc <- 50
+>
+> s1 <- round(rnorm(na, 11.6, 2),0)
+> s2 <- round(rnorm(nb, 12.9, 2),0)
+> s3 <- round(rnorm(nc, 13.4, 2),0)
+> s1
+ [1] 10 11  8 10 12  7 11 16 14 13  8  9 14 12 11 15  9 11 10  9 11 13 15 14 11 11 12 13 10 13 10 12
+[33] 14 11 14 11 14 11 10 11 11 14 10  9 14 13 10 10  7 13
+> s2
+ [1] 12 12 16 14 12 12 12 12 11 12 13 12 10 13 15 12 12 18 14 13 13 13 17 13 13 14 11 13 13 11 14 15
+[33] 11 12 10 14 13 12 14 15 13 10 10 17 12 14 14 16 13 12
+> s3
+ [1] 13 12 12 16 14 14  9 12 11 14 15 13  7 17 16 12 12 12  9 11 12 16 17 13 18 14 14 12 15 11 13 12
+[33] 13 10 14 10 15 10 11 14 10 14 14 13 13 13 11 11 12 11
+>
+> sabc <- c(s1,s2,s3)
+> sabc
+  [1] 10 11  8 10 12  7 11 16 14 13  8  9 14 12 11 15  9 11 10  9 11 13 15 14 11 11 12 13 10 13 10 12
+ [33] 14 11 14 11 14 11 10 11 11 14 10  9 14 13 10 10  7 13 12 12 16 14 12 12 12 12 11 12 13 12 10 13
+ [65] 15 12 12 18 14 13 13 13 17 13 13 14 11 13 13 11 14 15 11 12 10 14 13 12 14 15 13 10 10 17 12 14
+ [97] 14 16 13 12 13 12 12 16 14 14  9 12 11 14 15 13  7 17 16 12 12 12  9 11 12 16 17 13 18 14 14 12
+[129] 15 11 13 12 13 10 14 10 15 10 11 14 10 14 14 13 13 13 11 11 12 11
+> group <- c(rep("g1",na), rep("g2",nb), rep("g3",nc))
+> group
+  [1] "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1"
+ [20] "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1"
+ [39] "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g1" "g2" "g2" "g2" "g2" "g2" "g2" "g2"
+ [58] "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2"
+ [77] "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2" "g2"
+ [96] "g2" "g2" "g2" "g2" "g2" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3"
+[115] "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3"
+[134] "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3" "g3"
+>
+> sall <- data.frame(sabc, group)
+> sall
+    sabc group
+     10    g1
+     11    g1
+      8    g1
+     10    g1
+     12    g1
+      7    g1
+     11    g1
+     16    g1
+     14    g1
+    13    g1
+     8    g1
+     9    g1
+    14    g1
+    12    g1
+    11    g1
+    15    g1
+     9    g1
+    11    g1
+    10    g1
+     9    g1
+    11    g1
+    13    g1
+    15    g1
+    14    g1
+    11    g1
+    11    g1
+    12    g1
+    13    g1
+    10    g1
+    13    g1
+    10    g1
+    12    g1
+    14    g1
+    11    g1
+    14    g1
+    11    g1
+    14    g1
+    11    g1
+    10    g1
+    11    g1
+    11    g1
+    14    g1
+    10    g1
+     9    g1
+    14    g1
+    13    g1
+    10    g1
+    10    g1
+     7    g1
+    13    g1
+    12    g2
+    12    g2
+    16    g2
+    14    g2
+    12    g2
+    12    g2
+    12    g2
+    12    g2
+    11    g2
+    12    g2
+    13    g2
+    12    g2
+    10    g2
+    13    g2
+    15    g2
+    12    g2
+    12    g2
+    18    g2
+    14    g2
+    13    g2
+    13    g2
+    13    g2
+    17    g2
+    13    g2
+    13    g2
+    14    g2
+    11    g2
+    13    g2
+    13    g2
+    11    g2
+    14    g2
+    15    g2
+    11    g2
+    12    g2
+    10    g2
+    14    g2
+    13    g2
+    12    g2
+    14    g2
+    15    g2
+    13    g2
+    10    g2
+    10    g2
+    17    g2
+    12    g2
+    14    g2
+    14    g2
+    16    g2
+    13    g2
+   12    g2
+   13    g3
+   12    g3
+   12    g3
+   16    g3
+   14    g3
+   14    g3
+    9    g3
+   12    g3
+   11    g3
+   14    g3
+   15    g3
+   13    g3
+    7    g3
+   17    g3
+   16    g3
+   12    g3
+   12    g3
+   12    g3
+    9    g3
+   11    g3
+   12    g3
+   16    g3
+   17    g3
+   13    g3
+   18    g3
+   14    g3
+   14    g3
+   12    g3
+   15    g3
+   11    g3
+   13    g3
+   12    g3
+   13    g3
+   10    g3
+   14    g3
+   10    g3
+   15    g3
+   10    g3
+   11    g3
+   14    g3
+   10    g3
+   14    g3
+   14    g3
+   13    g3
+   13    g3
+   13    g3
+   11    g3
+   11    g3
+   12    g3
+   11    g3
+> attach(sall)
+The following objects are masked _by_ .GlobalEnv:
+    group, sabc
+> aov.sall <- aov(sabc ~ group, data=sall)
+> summary(aov.sall)
+             Df Sum Sq Mean Sq F value   Pr(>F)
+group         2   68.7   34.33   8.049 0.000482 ***
+Residuals   147  626.9    4.26
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+>
+> df.total <- length(sabc) - 1
+> ss.total <- var(sabc)*df.total
+> var.total <- var(sabc)
+> df.total
+[1] 149
+> ss.total
+[1] 695.5733
+> var.total
+[1] 4.668277
+>
+> df.s1 <- na-1
+> df.s2 <- nb-1
+> df.s3 <- nc-1
+>
+> df.within <- df.s1+df.s2+df.s3
+> df.within
+[1] 147
+>
+> ss.s1 <- var(s1)*df.s1
+> ss.s2 <- var(s2)*df.s2
+> ss.s3 <- var(s3)*df.s3
+> ss.s1
+[1] 222.32
+> ss.s2
+[1] 160.98
+> ss.s3
+[1] 243.62
+> ss.within <- ss.s1+ss.s2+ss.s3
+> ss.within
+[1] 626.92
+>
+>
+> # for uniqueN function data.table required
+> # install.packages("data.table")
+> library(data.table)
+data.table 1.14.8 using 8 threads (see ?getDTthreads).  Latest news: r-datatable.com
+> uniqueN(sall, by = c("group"))
+[1] 3
+> nofg <- uniqueN(sall, by = c("group"))
+> nofg
+[1] 3
+> df.between <- nofg - 1
+> df.between
+[1] 2
+>
+> mean.grand <- mean(sabc)
+> mean.s1 <- mean(s1)
+> mean.s2 <- mean(s2)
+> mean.s3 <- mean(s3)
+> mean.grand
+[1] 12.38667
+> mean.s1
+[1] 11.44
+> mean.s2
+[1] 12.98
+> mean.s3
+[1] 12.74
+>
+> error.g1 <- na * (mean.grand - mean.s1)^2
+> error.g2 <- nb * (mean.grand - mean.s2)^2
+> error.g3 <- nc * (mean.grand - mean.s3)^2
+>
+> error.g1
+[1] 44.80889
+> error.g2
+[1] 17.60222
+> error.g3
+[1] 6.242222
+>
+> ss.between <-  error.g1 + error.g2 + error.g3
+> ss.between
+[1] 68.65333
+>
+> # sumup
+> ss.total
+[1] 695.5733
+> ss.between
+[1] 68.65333
+> ss.within
+[1] 626.92
+> ss.between + ss.within
+[1] 695.5733
+> ss.total
+[1] 695.5733
+>
+> df.total
+[1] 149
+> df.between
+[1] 2
+> df.within
+[1] 147
+> df.between + df.within
+[1] 149
+>
+> ms.between <- ss.between / df.between
+> ms.within <- ss.within / df.within
+> ms.between
+[1] 34.32667
+> ms.within
+[1] 4.264762
+>
+> fvalue <- ms.between/ms.within
+> fvalue
+[1] 8.048906
+>
+> # fvalue에서 판단했을 때 그 판단이 잘못일 확률
+> 1 - pf(fvalue, df.between, df.within)
+[1] 0.0004818216
+>
+>
+> f.res <- aov(sabc ~ group, data=sall)
+> summary(f.res)
+             Df Sum Sq Mean Sq F value   Pr(>F)
+group         2   68.7   34.33   8.049 0.000482 ***
+Residuals   147  626.9    4.26
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+>
+> # for regression
+> r.res <- lm(sabc ~ group, data=sall)
+> summary(r.res)
+Call:
+lm(formula = sabc ~ group, data = sall)
+Residuals:
+   Min     1Q Median     3Q    Max
+ -5.74  -1.44  -0.21   1.26   5.26
+Coefficients:
+            Estimate Std. Error t value Pr(>|t|)
+(Intercept)  11.4400     0.2921  39.171  < 2e-16 ***
+groupg2       1.5400     0.4130   3.729 0.000274 ***
+groupg3       1.3000     0.4130   3.148 0.001994 **
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+Residual standard error: 2.065 on 147 degrees of freedom
+Multiple R-squared:  0.0987,	Adjusted R-squared:  0.08644
+F-statistic: 8.049 on 2 and 147 DF,  p-value: 0.0004818
+> anova(r.res)
+Analysis of Variance Table
+Response: sabc
+           Df Sum Sq Mean Sq F value    Pr(>F)
+group       2  68.65  34.327  8.0489 0.0004818 ***
+Residuals 147 626.92   4.265
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+> summary(r.res)$r.square
+[1] 0.09870035
+>
+> ss.total
+[1] 695.5733
+> ss.between
+[1] 68.65333
+> ss.within
+[1] 626.92
+>
+> # this is r.square value
+> ss.between/ss.total
+[1] 0.09870035
+>
 </code>
 ====== ANOVA e.g. 2 ======