This is an old revision of the document!
Qs from students

새힘학생 질문

set.seed(10)
n <- 10
s1 <- rnorm(n, mean = 100, sd = 10)
mean(s1) # r 펑션으로 평균구하기
sd(s1) # r 펑션으로 표준편차구하기

error <- s1-mean(s1)
error.sq <- error^2
sum.error.sq <- sum(error.sq) # 이 값이 ss 파트
df <- n-1 # 이 값이 df 값 
var.cal <- sum.error.sq/df # 실제 계산한 분산값
sd.cal <- sqrt(var.cal) # 실제 계산한 표준편차 값
sd.cal # 계산한 sd값 출력
sd.cal == sd(s1) # 같은 값인지 확인

# n이 아주 크다면 n 이나 n-1이나 차이가 없다
# 아래는 샘플의 크기가 일억인 경우
set.seed(10)
n <- 100000000
s1 <- rnorm(n, mean = 100, sd = 10)
mean(s1)
sd(s1) # 이것이 n-1로 구한 r 펑션에서의 sd값

error <- s1-mean(s1)
error.sq <- error^2
sum.error.sq <- sum(error.sq) # 분산값 구하기에서 SS 파트
df <- n-1 # df 파트
var.cal <- sum.error.sq/df # 계산해서 구한 분산값 
sd.cal <- sqrt(var.cal) # 계산해서 구한 표준편차값
sd.cal
sd.cal == sd(s1) # 동일함. 여기까지는 위의 예와 같음

# tweak 여기에 더하여 만약에 n-1 대신 n으로 나눠주면 어떻게 될까?
var.cal2 <- sum.error.sq/n
sd.cal2 <- sqrt(var.cal)
sd.cal2
sd.cal2 == sd(s1)