Differences

This shows you the differences between two versions of the page.

--- regression [2023/05/23 23:53] – [Slope test] hkimscil
+++ regression [2026/05/26 22:23] (current) – [잔차의 (나머지의) 표준편차 (standard deviation of residual)] hkimscil
@@ Line 23: / Line 23: @@
 상관관계에서 살펴 본것처럼, 관측된 데이터는 최소자승 (Least Squared) 법을 이용하여 회귀식을 유도할 수 있는데, 이때의 절편과 기울기 값은 각각 다음과 같이 구할 수 있다:
+\begin{eqnarray*}
-$$b = \displaystyle \frac{SP}{SS_X}$$
+b & = & \displaystyle \frac{SP}{SS_X} \\
-$$a = \displaystyle \overline{Y} - b \overline{X} $$
+a & = & \displaystyle \overline{Y} - b \overline{X}
+\end{eqnarray*}
+참조: [[deriviation of a and b in a simple regression|리그레션에서 a와 b 구하기]]
 [{{:f03x1b.gif }}] 최소자승이 의미하는 것은 옆의 그림과 같다. regression line (회귀선)으로 X 값에 해당하는 Y 값을 예측할 수 있는데, 이때에는 실측값과 차이가 날 수 있다. 이 차이가 위의 그림에서 녹색선인데, 이 녹색선의 합이 최소값을 갖도록하는 것을 최소자승(least squared)법이라고 한다.
@@ Line 107: / Line 109: @@
 이 회귀공식은 X값의 범위에 속한 데이터들 중 각각의 X<sub>i</sub>에서 Y<sub>i</sub> 값을 대표하는 지점을 의미한다. 가령, X<sub>i</sub>가 1일때의 Y<sub>i</sub>값은 1.05를 기대치로 제시하고 있지만, 실제 관측된 Y값은 1이다. 만약에 X = 1에서의 데이터가 더 있다고 가정하고 (이 예의 경우에는 하나의 케이스 밖에 없지만) 이 때의 Y값은 2라고 한다고 해도, 예측치는 공식에 의해서 도출되는 1일 것이다. 첫 번째 케이스의 경우에는 - 0.05의 오차가 있었으며, 두 번째의 케이스는 0.95의 오차가 있었다고 하겠다 $(Y_i - \hat Y)$ . 그리고, 이는 __회귀곡선을 이용한 예측치가 갖는 오차__이다. 이를 residual error라고 표기한다. 각각의 Y<sub>i</sub> 에 대해서 residual error 를 구할 수 있는데, 이 오차의 제곱의 합을 SS<sub>res</sub> 라고 표현하게 된다. 이에 대한 자세한 설명은 아래에서 하도록 한다.
-========== 표준오차 잔여변량 (standard error residual) ==========
+========== 잔차의 (나머지의) 표준편차 (standard deviation of residual) ==========
 [{{ :r.predicted.unpredicted.err.yaxis.png?250|regression_line_01. 평균값만으로 Y값을 예측하는 경우}}]  regression_line_01 은 변인 X 와 Y 간의 관계를 (association) 나타내주는 그래프이다. 그리고, 이 그래프에서 $\overline{Y} = 30$ 이다. 이 데이터 중에서 X에 대한 정보가 없다고 가정하고, Y 관측치를 예측하려면 어떻게 해야 할까? 당연히 연구자는 자신이 가지고 있는 Y 변인 데이터의 중앙값인 평균 ( $\overline{Y}$ ) 을 사용하려고 할 것이다. 이 평균값으로 각 개인의 값(Y)을 예측한 한 후, 이 오차를 제곱하여 모두 더한 것이 바로 Sum of Square 값인 $SS$ 이다.
@@ Line 133: / Line 135: @@
 모든 케이스에 대한 총편차와 설명된 편차, 설명되지 않은 편차 값을 구해서 각각 더해 보면 그 합은 모두 0이 된다. 따라서, 각각의 총편차 값와 설명편차값, 설명되지 않은 편차 값을 제곱한 후 모두 더해 주면 위에서 소개한 것처럼 전체 Y 분산값을 구하기 위한 SS값이 된다. 이를 Sum of Square of Total deviations 혹은 Total variation이라고 하며, 아래와 같이 나타낼 수 있다.
-$$SS_{total} = \sum (Y_i-\overline{Y})^2$$
+\begin{eqnarray*}
+\text{SS}_{\text{total}} & = & \sum (Y_i-\overline{Y})^2 \\
+\end{eqnarray*}
 그리고 총편차는 설명된 편차와 설명되지 않은 편차의 합이므로:
+\begin{eqnarray*}
-$$SS_{explained} = \sum (\hat Y-\overline{Y})^2 = SS_{reg} $$
+\text{SS}_{\text{explained}} & = & \sum (\hat Y-\overline{Y})^2 = \text{SS}_{\text{reg}} \\
-$$SS_{unexplained} = \sum (Y_i-\hat {Y})^2 = SS_{res} $$
+\text{SS}_{\text{unexplained}} & = & \sum (Y_i-\hat {Y})^2 = \text{SS}_{\text{res}} \\
+\end{eqnarray*}
 을 합한 점수와 같다.
 따라서 $\text{Total variablity of Y = Explained variablility + Unexplained variability} $  라고 표현할 수 있다.
-$SS_{unexplained} = \sum (Y_i-\hat {Y})^2$ 의 값에 df 값인 (N-2) 을 나누어 준 후 루트를 씌워 준 값을 __추정치에 대한 표준 오차__라고 부르며
+$SS_{unexplained} = \sum (Y_i-\hat {Y})^2$ 의 값에 df 값인 (N-2) 을 나누어 준 후 루트를 씌워 준 값을 __나머지의 (잔차의) 표준 편차__라고 부르며 이 값을 제곱한 값을 __잔여 변량 (residual variance)__ 혹은 __오차 변량(error variance)__이라고 부른다. 많은 경우에 이를 residual standard error (RSE, 혹은 RMSE) 라고 부른다.
-이 값을 제곱한 값을 __잔여 변량 (residual variance)__ 혹은 __오차 변량(error variance)__이라고 부른다
+  * RSE residual standard error
+  * RMSE root mean square error
+  * standard deviation of the residual
 이에 대한 부연설명은 아래에서 다시 하도록 하겠다.
@@ Line 301: / Line 307: @@
 위의 표에서 (Anova table),
-| for SS   | for degrees of freedom   |
+| @grey: for SS   | @grey: for df    |
 | @white: white \\ = explained error (E) \\ = $SS{reg}$  | @lightblue: for regression \\ (number of variable -1) \\ = 1 (light blue) |
 | @orange: orange \\ = unexplained error (U) \\ = $SS{res}$  | @lightgreen: for residual \\ (number of case - number of variable) \\ = 8 (green) |
@@ Line 350: / Line 356: @@
 {{:acidity.sav}} \\
 {{:acidity.sps}} \\
+<file csv acidity.csv>
+stream	spec83	ph83
+Moss	6	6.30
+Orcutt	9	6.30
+Ellinwood	6	6.30
+Jacks	3	6.20
+Riceville	5	6.20
+Lyons	3	6.10
+Osgood	5	5.80
+Whetstone	4	5.70
+UpperKeyup	1	5.70
+West	7	5.70
+Boyce	4	5.60
+MormonHollow	4	5.50
+Lawrence	5	5.40
+Wilder	0	4.70
+Templeton	0	4.50
+</file>
+<code>
+df <- read.csv("http://commres.net/wiki/_export/code/regression?codeblock=3", sep = "\t")
+</code>
 <code>stream         spec83 ph83
@@ Line 741: / Line 769: @@
    * 기울기에 대한 표준오차는 (se) 아래와 같이 구한다
+standard error of b
+<wrap #standard_error_of_b />
 \begin{eqnarray*}
 \displaystyle s_{b_{1}} & = & \sqrt {\frac {MSE}{SS_{X}}} \\
@@ Line 761: / Line 791: @@
 \begin{eqnarray*}
-se_{\beta} & = & \frac {\sqrt{SSE/n-2}}{\sqrt{SSX}} \\
+\displaystyle s_{b_{1}} & = & \sqrt {\frac {\text{MSE}}{SS_{X}}} \\
-& = & \frac {\sqrt{1.1/3}}{\sqrt{10}}  \\
+& = & \displaystyle \sqrt { \frac{1}{n-2} * \frac{\text{SSE}}{SS_{X}}} \;\;\; \text{where n=5,  SSE=1.1,  & SSX=10} \\
-& = & 0.191485
+& = & \displaystyle \sqrt { \frac{1}{5-2} * \frac{1.1}{10}} \\
 \end{eqnarray*}
 그리고 b = 0.7
 따라서 t = b / se = 3.655631
-<code>x <- c(1, 2, 3, 4, 5)
-y <- c(1, 1, 2, 2, 4)
-mody <- lm(y ~ x)
-</code>
-<code>
-> x <- c(1, 2, 3, 4, 5)
-> y <- c(1, 1, 2, 2, 4)
-> mody <- lm(y ~ x)
-> summary(mody)
-Call:
-lm(formula = y ~ x)
-Residuals:
-          2          3          4          5
-.000e-01 -3.000e-01 -3.886e-16 -7.000e-01  6.000e-01
-Coefficients:
-            Estimate Std. Error t value Pr(>|t|)
-(Intercept)  -0.1000     0.6351  -0.157   0.8849
-x             0.7000     0.1915   3.656   0.0354 *
----
-Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
-Residual standard error: 0.6055 on 3 degrees of freedom
-Multiple R-squared:  0.8167,	Adjusted R-squared:  0.7556
-F-statistic: 13.36 on 1 and 3 DF,  p-value: 0.03535
->
-</code>
 ====== E.g., 4. Simple regression ======
 Another example of simple regression: from {{:elemapi.sav}} \\