Differences

This shows you the differences between two versions of the page.

--- regression [2024/09/29 16:13] – [E.g., Simple regression] hkimscil
+++ regression [2026/05/26 22:23] (current) – [잔차의 (나머지의) 표준편차 (standard deviation of residual)] hkimscil
@@ Line 109: / Line 109: @@
 이 회귀공식은 X값의 범위에 속한 데이터들 중 각각의 X<sub>i</sub>에서 Y<sub>i</sub> 값을 대표하는 지점을 의미한다. 가령, X<sub>i</sub>가 1일때의 Y<sub>i</sub>값은 1.05를 기대치로 제시하고 있지만, 실제 관측된 Y값은 1이다. 만약에 X = 1에서의 데이터가 더 있다고 가정하고 (이 예의 경우에는 하나의 케이스 밖에 없지만) 이 때의 Y값은 2라고 한다고 해도, 예측치는 공식에 의해서 도출되는 1일 것이다. 첫 번째 케이스의 경우에는 - 0.05의 오차가 있었으며, 두 번째의 케이스는 0.95의 오차가 있었다고 하겠다 $(Y_i - \hat Y)$ . 그리고, 이는 __회귀곡선을 이용한 예측치가 갖는 오차__이다. 이를 residual error라고 표기한다. 각각의 Y<sub>i</sub> 에 대해서 residual error 를 구할 수 있는데, 이 오차의 제곱의 합을 SS<sub>res</sub> 라고 표현하게 된다. 이에 대한 자세한 설명은 아래에서 하도록 한다.
-========== 표준오차 잔여변량 (standard error residual) ==========
+========== 잔차의 (나머지의) 표준편차 (standard deviation of residual) ==========
 [{{ :r.predicted.unpredicted.err.yaxis.png?250|regression_line_01. 평균값만으로 Y값을 예측하는 경우}}]  regression_line_01 은 변인 X 와 Y 간의 관계를 (association) 나타내주는 그래프이다. 그리고, 이 그래프에서 $\overline{Y} = 30$ 이다. 이 데이터 중에서 X에 대한 정보가 없다고 가정하고, Y 관측치를 예측하려면 어떻게 해야 할까? 당연히 연구자는 자신이 가지고 있는 Y 변인 데이터의 중앙값인 평균 ( $\overline{Y}$ ) 을 사용하려고 할 것이다. 이 평균값으로 각 개인의 값(Y)을 예측한 한 후, 이 오차를 제곱하여 모두 더한 것이 바로 Sum of Square 값인 $SS$ 이다.
@@ Line 135: / Line 135: @@
 모든 케이스에 대한 총편차와 설명된 편차, 설명되지 않은 편차 값을 구해서 각각 더해 보면 그 합은 모두 0이 된다. 따라서, 각각의 총편차 값와 설명편차값, 설명되지 않은 편차 값을 제곱한 후 모두 더해 주면 위에서 소개한 것처럼 전체 Y 분산값을 구하기 위한 SS값이 된다. 이를 Sum of Square of Total deviations 혹은 Total variation이라고 하며, 아래와 같이 나타낼 수 있다.
-$$SS_{total} = \sum (Y_i-\overline{Y})^2$$
+\begin{eqnarray*}
+\text{SS}_{\text{total}} & = & \sum (Y_i-\overline{Y})^2 \\
+\end{eqnarray*}
 그리고 총편차는 설명된 편차와 설명되지 않은 편차의 합이므로:
+\begin{eqnarray*}
-$$SS_{explained} = \sum (\hat Y-\overline{Y})^2 = SS_{reg} $$
+\text{SS}_{\text{explained}} & = & \sum (\hat Y-\overline{Y})^2 = \text{SS}_{\text{reg}} \\
-$$SS_{unexplained} = \sum (Y_i-\hat {Y})^2 = SS_{res} $$
+\text{SS}_{\text{unexplained}} & = & \sum (Y_i-\hat {Y})^2 = \text{SS}_{\text{res}} \\
+\end{eqnarray*}
 을 합한 점수와 같다.
 따라서 $\text{Total variablity of Y = Explained variablility + Unexplained variability} $  라고 표현할 수 있다.
-$SS_{unexplained} = \sum (Y_i-\hat {Y})^2$ 의 값에 df 값인 (N-2) 을 나누어 준 후 루트를 씌워 준 값을 __추정치에 대한 표준 오차__라고 부르며
+$SS_{unexplained} = \sum (Y_i-\hat {Y})^2$ 의 값에 df 값인 (N-2) 을 나누어 준 후 루트를 씌워 준 값을 __나머지의 (잔차의) 표준 편차__라고 부르며 이 값을 제곱한 값을 __잔여 변량 (residual variance)__ 혹은 __오차 변량(error variance)__이라고 부른다. 많은 경우에 이를 residual standard error (RSE, 혹은 RMSE) 라고 부른다.
-이 값을 제곱한 값을 __잔여 변량 (residual variance)__ 혹은 __오차 변량(error variance)__이라고 부른다
+  * RSE residual standard error
+  * RMSE root mean square error
+  * standard deviation of the residual
 이에 대한 부연설명은 아래에서 다시 하도록 하겠다.
@@ Line 765: / Line 769: @@
    * 기울기에 대한 표준오차는 (se) 아래와 같이 구한다
+standard error of b
+<wrap #standard_error_of_b />
 \begin{eqnarray*}
 \displaystyle s_{b_{1}} & = & \sqrt {\frac {MSE}{SS_{X}}} \\
@@ Line 785: / Line 791: @@
 \begin{eqnarray*}
-se_{\beta} & = & \frac {\sqrt{SSE/n-2}}{\sqrt{SSX}} \\
+\displaystyle s_{b_{1}} & = & \sqrt {\frac {\text{MSE}}{SS_{X}}} \\
-& = & \frac {\sqrt{1.1/3}}{\sqrt{10}}  \\
+& = & \displaystyle \sqrt { \frac{1}{n-2} * \frac{\text{SSE}}{SS_{X}}} \;\;\; \text{where n=5,  SSE=1.1,  & SSX=10} \\
-& = & 0.191485
+& = & \displaystyle \sqrt { \frac{1}{5-2} * \frac{1.1}{10}} \\
 \end{eqnarray*}
 그리고 b = 0.7
 따라서 t = b / se = 3.655631