r:dummy_variable
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
r:dummy_variable [2023/06/02 01:01] – [해석] hkimscil | r:dummy_variable [2023/06/07 08:49] (current) – [output] hkimscil | ||
---|---|---|---|
Line 38: | Line 38: | ||
2 = 47-80 | 2 = 47-80 | ||
3 = 81-100 | 3 = 81-100 | ||
- | | + | |
+ | </ | ||
+ | * pct (%) of emer (emergency) credentials: | ||
+ | * pct (%) of full credentials: | ||
위의 각각의 변인 yr_rnd 그리고 mealcat 을 독립변인으로 하고 종속변인을 api00 으로 하여 simple regression을 한다. 그리고 이후 이 둘을 모두 이용하여 multiple regression을 한다. 즉, | 위의 각각의 변인 yr_rnd 그리고 mealcat 을 독립변인으로 하고 종속변인을 api00 으로 하여 simple regression을 한다. 그리고 이후 이 둘을 모두 이용하여 multiple regression을 한다. 즉, | ||
+ | |||
- '' | - '' | ||
- '' | - '' | ||
- '' | - '' | ||
- '' | - '' | ||
+ | |||
위에서 마지막 두 분석은 interaction을 포함하고 하지 않는 차이이다. 특히 마지막은 아래와 같은 효과를 갖는다 | 위에서 마지막 두 분석은 interaction을 포함하고 하지 않는 차이이다. 특히 마지막은 아래와 같은 효과를 갖는다 | ||
* '' | * '' | ||
- | **__첫번째 분석: | + | ===== mod1 <- lm(api00 ~ yr_rnd, data = datavar) ===== |
분석에 앞서 '' | 분석에 앞서 '' | ||
Line 154: | Line 160: | ||
회귀분석의 예측식은 (regression model) 다음과 같다. | 회귀분석의 예측식은 (regression model) 다음과 같다. | ||
'' | '' | ||
+ | * yr_rndno_break: | ||
+ | * y hat = 684.54 - 160.51 * (1) | ||
+ | * y hat = 524.03 | ||
+ | * yr_rndbreak: | ||
+ | * y hat = 684.54 - 160.51 * (0) | ||
+ | * y hat = 684.54 | ||
+ | |||
위 회귀식에서 r은 | 위 회귀식에서 r은 | ||
'' | '' | ||
Line 182: | Line 195: | ||
</ | </ | ||
- | __**두 번째 분석: | + | ===== mod2 <- lm(api00 ~ mealcat, data = datavar) ===== |
+ | |||
< | < | ||
Line 213: | Line 227: | ||
< | < | ||
y hat = 805.718 - 166.324*mealcat47-80 - 301.338*mealcat81-100 | y hat = 805.718 - 166.324*mealcat47-80 - 301.338*mealcat81-100 | ||
+ | mealcat0-46 (mg1 으로 대체) | ||
+ | mealcat47-80 (mg2 으로 대체) | ||
+ | maelcat81-100 (mg3 으로 대체) | ||
</ | </ | ||
이에 대한 해석도 앞에서의 것과 마찬가지이다. | 이에 대한 해석도 앞에서의 것과 마찬가지이다. | ||
- | * mealcat47-80 의 경우, | + | * y hat = 805.718 |
- | | + | * mg1 = 1, mg2 = 0, mg3 = 0 일 경우 |
- | * mealcat81-100 | + | * y hat = 805.718 - 166.324*(0) - 301.338*(0) |
- | * 분석결과에는 없는 나머지 하나 즉 | + | * y hat = 805.718 |
- | * mealcat0-46 | + | * mg1 = 0, mg2 = 1, mg3 = 0 일 경우 |
- | * '' | + | * y hat = 805.718 - 166.324*(1) - 301.338*(0) |
- | * mealcat81-100 의 경우에는 | + | * y hat = 805.718 - 166.324 |
- | * mealcat81-100 | + | * y hat = 639.394 |
- | * '' | + | * mg1 = 0, mg2 = 0, mg3 = 1 일 경우 |
- | * mealcat0-41 의 경우에는 나머지 둘인 | + | * y hat = 805.718 |
- | * mealcat47-80 | + | * y hat = 805.718 |
- | * mealcat81-100 = 0 이므로 회귀식은 | + | * y hat = 504.38 |
- | * '' | + | |
- | * 즉, 무료급식의 퍼센티지가 높을 수로 api점수가 낮음을 알 수 있다. 이렇게 무료급식 퍼센티지를 독립변인으로 종속변인인 api00점수를 (학력점수) 봤을 때, 그 설명력이 통계학적으로 유효한가는 regression output에서 (summary(mod2)) | + | * 즉, 무료급식의 퍼센티지가 높을 수록 api점수가 낮음을 알 수 있다. 이렇게 무료급식 퍼센티지를 독립변인으로 종속변인인 api00점수를 (학력점수) 봤을 때, 그 설명력이 통계학적으로 유효한가는 regression output에서 (summary(mod2)) |
* F-value 와 p-value를 가지고 판단한다. | * F-value 와 p-value를 가지고 판단한다. | ||
* (F (2, 397) = 611.1; p-value < 2.2e-16) | * (F (2, 397) = 611.1; p-value < 2.2e-16) | ||
Line 238: | Line 255: | ||
* 0.7548 즉, 75.48% 를 독립변인이 종속변인을 설명한다 (상당한 크기임을 알 수 있다). | * 0.7548 즉, 75.48% 를 독립변인이 종속변인을 설명한다 (상당한 크기임을 알 수 있다). | ||
- | ====== | + | ===== mod3 ← lm(api00 ~ yr_rnd + mealcat, data = datavar) |
< | < | ||
> mod3 <- lm(api00 ~ yr_rnd + mealcat, data=datavar) | > mod3 <- lm(api00 ~ yr_rnd + mealcat, data=datavar) | ||
Line 285: | Line 303: | ||
^ ^ mealcat0-46 | ^ ^ mealcat0-46 | ||
- | | yr_rndbreak | + | | yr_rndbreak |
+ | yr_rndno_break = 0 | ||
+ | mealcat0-46 = 1 | ||
mealcat47-80 = 0 | mealcat47-80 = 0 | ||
mealcat81-100 = 0 경우 | mealcat81-100 = 0 경우 | ||
'' | '' | ||
- | </ | + | </ |
+ | yr_rndno_break = 0 | ||
mealcat0-46 = 0 | mealcat0-46 = 0 | ||
+ | mealcat47-80 = 1 | ||
mealcat81-100 = 0 경우 | mealcat81-100 = 0 경우 | ||
- | '' | + | '' |
- | </ | + | </ |
+ | yr_rndno_break = 0 | ||
mealcat0-46 = 0 | mealcat0-46 = 0 | ||
- | mealcat47-80 = 0 경우 | + | mealcat47-80 = 0 |
- | '' | + | mealcat81-100 = 1 경우 |
+ | '' | ||
</ | </ | ||
| yr_rndno_break | | yr_rndno_break | ||
+ | yr_rndno_break = 1 | ||
+ | mealcat0-46 = 1 | ||
mealcat47-80 = 0 | mealcat47-80 = 0 | ||
mealcat81-100 = 0 경우 | mealcat81-100 = 0 경우 | ||
- | '' | + | '' |
</ | </ | ||
+ | yr_rndno_break = 1 | ||
mealcat0-46 = 0 | mealcat0-46 = 0 | ||
- | mealcat81-100 = 0 경우 | + | mealcat47-80 = 1 |
- | '' | + | mealcat81-100 = 0 경우 |
- | </ | + | '' |
+ | </ | ||
+ | yr_rndno_break = 1 | ||
mealcat0-46 = 0 | mealcat0-46 = 0 | ||
- | mealcat47-80 = 0 경우 | + | mealcat47-80 = 0 |
- | '' | + | mealcat81-100 = 1 경우 |
+ | '' | ||
</ | </ | ||
- | ====== | + | |
+ | ===== mod4 ← lm(api00 ~ yr_rnd * mealcat, data = datavar) | ||
< | < | ||
> mod4 <- lm(api00 ~ yr_rnd + mealcat + yr_rnd: | > mod4 <- lm(api00 ~ yr_rnd + mealcat + yr_rnd: | ||
Line 460: | Line 492: | ||
</ | </ | ||
마지막 두 케이스를 보면 no_break학교 중에서 밀카테고리 2와 3에서 떨어지는 정도가 어느 정도 완화되는 경향을 보이지만 통계학적으로 significant하지는 않다. | 마지막 두 케이스를 보면 no_break학교 중에서 밀카테고리 2와 3에서 떨어지는 정도가 어느 정도 완화되는 경향을 보이지만 통계학적으로 significant하지는 않다. | ||
+ | [[:r:dummy variables with significant interaction|다른 예]] | ||
+ | |||
+ | < | ||
+ | > summ(mod4) | ||
+ | MODEL INFO: | ||
+ | Observations: | ||
+ | Dependent Variable: api00 | ||
+ | Type: OLS linear regression | ||
+ | |||
+ | MODEL FIT: | ||
+ | F(5,394) = 261.61, p = 0.00 | ||
+ | R² = 0.77 | ||
+ | Adj. R² = 0.77 | ||
+ | |||
+ | Standard errors: OLS | ||
+ | -------------------------------------------------------------------- | ||
+ | Est. S.E. t val. p | ||
+ | ---------------------------------- --------- ------- -------- ------ | ||
+ | (Intercept) | ||
+ | yr_rndno_break | ||
+ | mealcat47-80 | ||
+ | mealcat81-100 | ||
+ | yr_rndno_break: | ||
+ | yr_rndno_break: | ||
+ | -------------------------------------------------------------------- | ||
+ | > | ||
+ | </ | ||
+ | < | ||
+ | cat_plot(mod4, | ||
+ | cat_plot(mod4, | ||
+ | </ | ||
+ | {{: | ||
+ | {{: | ||
+ | |||
+ | < | ||
+ | cat_plot(mod4, | ||
+ | cat_plot(mod4, | ||
+ | cat_plot(mod4, | ||
+ | </ | ||
+ | {{: | ||
+ | {{: | ||
+ | {{: | ||
+ | |||
====== continus + categorical variables ====== | ====== continus + categorical variables ====== | ||
< | < | ||
Line 676: | Line 751: | ||
</ | </ | ||
{{: | {{: | ||
+ | < | ||
+ | > interact_plot(mod6, | ||
+ | </ | ||
+ | {{: |
r/dummy_variable.1685635276.txt.gz · Last modified: 2023/06/02 01:01 by hkimscil