variance
= SS / df
SS = Sum of Sqaure (of (something))
something = error, residual, deviation score (ds), (X변인의) total
df = n - 1
Why n-1
$s^2 = \widehat{\sigma}$ 을 위해서 분산값을 사용하는데 $\text{SS}$ 값을 구할 때 샘플의 평균을 이용하면 그 값이 항상 최소값이 되어서 이를 만회하기 위해서 n-1을 쓴다
R에서
sum( (x-v)^2 ) / n
에서 v 값으로
mean(x)
값을 쓰면 최소값이 된다는 뜻이다.
위를 알아보기 위해서 v를 x 집합의 mean을 중심으로
mean(x)
값 좌우로 3*sd(x) 값만큼 범위를 정하여 0.1씩 증가시키면서
sum( (x-v)^2 ) / n
값을 구하여 SS값이 어떻게 변하는가를 본다.
이를 R에서 gradient descent 개념으로 구한다
수학적으로 증명한다
sd = standard deviation = sqrt(variance)
68, 95, 99%
sampling distribution
in r space or the distribution of sample means