User Tools

Site Tools


regression

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
regression [2024/09/29 16:13] – [E.g., Simple regression] hkimscilregression [2026/05/26 22:23] (current) – [잔차의 (나머지의) 표준편차 (standard deviation of residual)] hkimscil
Line 109: Line 109:
 이 회귀공식은 X값의 범위에 속한 데이터들 중 각각의 X<sub>i</sub>에서 Y<sub>i</sub> 값을 대표하는 지점을 의미한다. 가령, X<sub>i</sub>가 1일때의 Y<sub>i</sub>값은 1.05를 기대치로 제시하고 있지만, 실제 관측된 Y값은 1이다. 만약에 X = 1에서의 데이터가 더 있다고 가정하고 (이 예의 경우에는 하나의 케이스 밖에 없지만) 이 때의 Y값은 2라고 한다고 해도, 예측치는 공식에 의해서 도출되는 1일 것이다. 첫 번째 케이스의 경우에는 - 0.05의 오차가 있었으며, 두 번째의 케이스는 0.95의 오차가 있었다고 하겠다 $(Y_i - \hat Y)$ . 그리고, 이는 __회귀곡선을 이용한 예측치가 갖는 오차__이다. 이를 residual error라고 표기한다. 각각의 Y<sub>i</sub> 에 대해서 residual error 를 구할 수 있는데, 이 오차의 제곱의 합을 SS<sub>res</sub> 라고 표현하게 된다. 이에 대한 자세한 설명은 아래에서 하도록 한다. 이 회귀공식은 X값의 범위에 속한 데이터들 중 각각의 X<sub>i</sub>에서 Y<sub>i</sub> 값을 대표하는 지점을 의미한다. 가령, X<sub>i</sub>가 1일때의 Y<sub>i</sub>값은 1.05를 기대치로 제시하고 있지만, 실제 관측된 Y값은 1이다. 만약에 X = 1에서의 데이터가 더 있다고 가정하고 (이 예의 경우에는 하나의 케이스 밖에 없지만) 이 때의 Y값은 2라고 한다고 해도, 예측치는 공식에 의해서 도출되는 1일 것이다. 첫 번째 케이스의 경우에는 - 0.05의 오차가 있었으며, 두 번째의 케이스는 0.95의 오차가 있었다고 하겠다 $(Y_i - \hat Y)$ . 그리고, 이는 __회귀곡선을 이용한 예측치가 갖는 오차__이다. 이를 residual error라고 표기한다. 각각의 Y<sub>i</sub> 에 대해서 residual error 를 구할 수 있는데, 이 오차의 제곱의 합을 SS<sub>res</sub> 라고 표현하게 된다. 이에 대한 자세한 설명은 아래에서 하도록 한다.
  
-========== 표준차 잔여변량 (standard error residual) ==========+========== 잔차의 (나머지의) 표준차 (standard deviation of residual) ==========
 [{{ :r.predicted.unpredicted.err.yaxis.png?250|regression_line_01. 평균값만으로 Y값을 예측하는 경우}}]  regression_line_01 은 변인 X 와 Y 간의 관계를 (association) 나타내주는 그래프이다. 그리고, 이 그래프에서 $\overline{Y} = 30$ 이다. 이 데이터 중에서 X에 대한 정보가 없다고 가정하고, Y 관측치를 예측하려면 어떻게 해야 할까? 당연히 연구자는 자신이 가지고 있는 Y 변인 데이터의 중앙값인 평균 ( $\overline{Y}$ ) 을 사용하려고 할 것이다. 이 평균값으로 각 개인의 값(Y)을 예측한 한 후, 이 오차를 제곱하여 모두 더한 것이 바로 Sum of Square 값인 $SS$ 이다. [{{ :r.predicted.unpredicted.err.yaxis.png?250|regression_line_01. 평균값만으로 Y값을 예측하는 경우}}]  regression_line_01 은 변인 X 와 Y 간의 관계를 (association) 나타내주는 그래프이다. 그리고, 이 그래프에서 $\overline{Y} = 30$ 이다. 이 데이터 중에서 X에 대한 정보가 없다고 가정하고, Y 관측치를 예측하려면 어떻게 해야 할까? 당연히 연구자는 자신이 가지고 있는 Y 변인 데이터의 중앙값인 평균 ( $\overline{Y}$ ) 을 사용하려고 할 것이다. 이 평균값으로 각 개인의 값(Y)을 예측한 한 후, 이 오차를 제곱하여 모두 더한 것이 바로 Sum of Square 값인 $SS$ 이다.
  
Line 135: Line 135:
 모든 케이스에 대한 총편차와 설명된 편차, 설명되지 않은 편차 값을 구해서 각각 더해 보면 그 합은 모두 0이 된다. 따라서, 각각의 총편차 값와 설명편차값, 설명되지 않은 편차 값을 제곱한 후 모두 더해 주면 위에서 소개한 것처럼 전체 Y 분산값을 구하기 위한 SS값이 된다. 이를 Sum of Square of Total deviations 혹은 Total variation이라고 하며, 아래와 같이 나타낼 수 있다.  모든 케이스에 대한 총편차와 설명된 편차, 설명되지 않은 편차 값을 구해서 각각 더해 보면 그 합은 모두 0이 된다. 따라서, 각각의 총편차 값와 설명편차값, 설명되지 않은 편차 값을 제곱한 후 모두 더해 주면 위에서 소개한 것처럼 전체 Y 분산값을 구하기 위한 SS값이 된다. 이를 Sum of Square of Total deviations 혹은 Total variation이라고 하며, 아래와 같이 나타낼 수 있다. 
  
-$$SS_{total} = \sum (Y_i-\overline{Y})^2$$  +\begin{eqnarray*} 
 +\text{SS}_{\text{total}} & \sum (Y_i-\overline{Y})^2 \\   
 +\end{eqnarray*}
  
 그리고 총편차는 설명된 편차와 설명되지 않은 편차의 합이므로: 그리고 총편차는 설명된 편차와 설명되지 않은 편차의 합이므로:
- +\begin{eqnarray*} 
-$$SS_{explained} = \sum (\hat Y-\overline{Y})^2 = SS_{reg} $$   +\text{SS}_{\text{explained}} & \sum (\hat Y-\overline{Y})^2 = \text{SS}_{\text{reg}} \\ 
-$$SS_{unexplained} = \sum (Y_i-\hat {Y})^2 = SS_{res} $$   +\text{SS}_{\text{unexplained}} & \sum (Y_i-\hat {Y})^2 = \text{SS}_{\text{res}} \\ 
 +\end{eqnarray*}
 을 합한 점수와 같다. 을 합한 점수와 같다.
  
 따라서 $\text{Total variablity of Y = Explained variablility + Unexplained variability} $  라고 표현할 수 있다. 따라서 $\text{Total variablity of Y = Explained variablility + Unexplained variability} $  라고 표현할 수 있다.
  
-$SS_{unexplained} = \sum (Y_i-\hat {Y})^2$ 의 값에 df 값인 (N-2) 을 나누어 준 후 루트를 씌워 준 값을 __추정치에 대한 표준 차__라고 부르며  +$SS_{unexplained} = \sum (Y_i-\hat {Y})^2$ 의 값에 df 값인 (N-2) 을 나누어 준 후 루트를 씌워 준 값을 __나머지의 (잔차의) 표준 차__라고 부르며 이 값을 제곱한 값을 __잔여 변량 (residual variance)__ 혹은 __오차 변량(error variance)__이라고 부른다. 많은 경우에 이를 residual standard error (RSE, 혹은 RMSE) 라고 부른다.  
-이 값을 제곱한 값을 __잔여 변량 (residual variance)__ 혹은 __오차 변량(error variance)__이라고 부른다 +  * RSE residual standard error  
 +  * RMSE root mean square error  
 +  * standard deviation of the residual 
 이에 대한 부연설명은 아래에서 다시 하도록 하겠다. 이에 대한 부연설명은 아래에서 다시 하도록 하겠다.
  
Line 765: Line 769:
    * 기울기에 대한 표준오차는 (se) 아래와 같이 구한다    * 기울기에 대한 표준오차는 (se) 아래와 같이 구한다
  
 +standard error of b 
 +<wrap #standard_error_of_b />
 \begin{eqnarray*} \begin{eqnarray*}
 \displaystyle s_{b_{1}} & = & \sqrt {\frac {MSE}{SS_{X}}} \\ \displaystyle s_{b_{1}} & = & \sqrt {\frac {MSE}{SS_{X}}} \\
Line 785: Line 791:
  
 \begin{eqnarray*} \begin{eqnarray*}
-se_{\beta} & = & \frac {\sqrt{SSE/n-2}}{\sqrt{SSX}} \\ +\displaystyle s_{b_{1}} & = & \sqrt {\frac {\text{MSE}}{SS_{X}}} \\ 
-& = & \frac {\sqrt{1.1/3}}{\sqrt{10}}  \\ +& = & \displaystyle \sqrt { \frac{1}{n-2* \frac{\text{SSE}}{SS_{X}}} \;\;\; \text{where n=5,  SSE=1.1,  & SSX=10} \\  
-& = & 0.191485 +& = & \displaystyle \sqrt { \frac{1}{5-2} * \frac{1.1}{10}} \\ 
 \end{eqnarray*} \end{eqnarray*}
 +
 그리고 b = 0.7 그리고 b = 0.7
 따라서 t = b / se = 3.655631 따라서 t = b / se = 3.655631
regression.1727626399.txt.gz · Last modified: by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki