Differences

This shows you the differences between two versions of the page.

--- estimated_standard_deviation [2025/09/05 22:21] – [output] hkimscil
+++ estimated_standard_deviation [2025/09/30 15:19] (current) – [직관적 이해] hkimscil
@@ Line 25: / Line 25: @@
 이를 그림으로도 설명할 수 있다. 아래에서 녹색의 세로선은 모집단의 평균값이고, 붉은색의 세로선은 3개로 이루어진 샘플의 평균값이다. 그리고 녹색 가로선은 3개의 샘플요소와 모집단평균과의 ($\mu$) 차이값들이고, 적색가로선은 3개의 샘플요소와 샘플평균과의 ($\overline{X}$) 차이값이다. 이 차이값들을 모아서 길이를 비교한 것이 그래프의 하단이다. 적색가로선 세개의 합이 녹색가로선 세개의 합보다 작다. 이는 샘플평균을 사용했을 때와 모집단의 평균을 사용했을 때를 비교하는 것이지만 모집단 평균외에 다른 값을 썼어도 마찬가지이다.
-{{:pasted:20200412-002825.png?500}}
+<code>
+> m.p1 <- 12
+> s1 <- c(6, 9, 15)
+> hist(s1)
+> s1
+[1]  6  9 15
+> abline(v=s1, lwd=3, lty=2)
+> abline(v=10, lwd=3, lty=1, col="red")
+> abline(v=12, lwd=3, lty=1, col="green")
+>
+> m.s1 <- mean(s1)
+> m.p1 <- 12
+> abs(s1-m.s1)
+[1] 4 1 5
+> abs(s1-m.p1)
+[1] 6 3 3
+>
+</code>
+{{:pasted:20250930-150655.png?800}}
+붉은 선 s1 평균 (10)
+초록 선 모집단 평균 12 (혹은 그냥 12 가치라고 해도 됨)
+세개 검은 선은 각각 6, 9, 15
+붉은 선에서 세개 검은 선까지의 길이는 4, 1, 5가 되고 이를 더하면 10
+초록 선에서 세개 검은 선까지의 길이는 6, 3, 3이 되고 이를 더하면 12
 ====== 실험적, R에서 시뮬레이션으로 이해 ======
@@ Line 465: / Line 491: @@
 tail(vs)
-plot(msrs)
+plot(vs, msrs, type='b')
-plot(vs)
 # scaled
@@ Line 477: / Line 502: @@
 v.orig <- (v*sd(x))+mean(x)
 v.orig
+plot(vs.orig, msrs, type='b')
 </code>
@@ Line 528: / Line 555: @@
   * gradient function과
   * learning_rate 값이다.
-gradient 펑션은 dy/dv 의 연쇄 미분식인 ([[:chain rules]]) -2(x-v) / n = -2 mean(res) 값을 구하는 것이다. 이렇게 구한 값에 learning_rate값을 곱한후, 이것을 먼저 사용한 v값에서 (빨간색 지점) 빼 주어 다음 v값으로 (녹색지점) 사용하려고 한다. 이 녹색지점에서의 v값을 사용했을 때의 gradient값을 구한 후 다시 이값에 learning_rate인 0.1을 곱하여 그 다음 v값을 구하여 사용한다. 이렇게 구하는 v값들은 0.1씩 곱해주는 효과때문에 오른 쪽으로 옮겨가는 지점이 "<fc #ff0000>**점진적으로 줄어들게 되고**</fc>" 이 지점이 msr의 최소값이 되는 지점으로 가게 된다.
+gradient 펑션은 dy/dv 의 연쇄 미분식인 ([[:chain rules]]) -2(x-v) / n = -2 mean(res) 값을 구하는 것이다. 이렇게 구한 값에 learning_rate값을 곱한후, 이것을 먼저 사용한 v값에서 (빨간색 지점) 빼 주어 다음 v값으로 (녹색지점) 사용하려고 한다. 이 녹색지점에서의 v값을 사용했을 때의 gradient값을 구한 후 다시 이값에 learning_rate인 0.1을 곱하여 그다음 스텝의 값을 얻고, 이 값을 바로 전의 v값에서 빼 준 값을 그 다음 v값으로 사용한다. 이렇게 구하는 v값들은 0.1씩 곱해주는 효과때문에 오른 쪽으로 옮겨가는 지점이 "<fc #ff0000>**점진적으로 줄어들게 되고**</fc>" 이 지점이 msr의 최소값이 되는 지점으로 가게 된다.
 {{:pasted:20250905-202627.png}}
@@ Line 669: / Line 696: @@
 > v.orig
 [1] 50
+>
+> plot(vs.orig, msrs, type='b')
 >
 >
@@ Line 676: / Line 705: @@
 <WRAP half column>
 comment
+{{:pasted:20250905-231742.png}}
+만약에 처음에 구한 랜덤 v값이 평균의 오른 쪽에있었더라면, 아래 그림과 같이 평균에 접근했을 것이다.
+{{:pasted:20250905-231513.png}}
 </WRAP>
 </WRAP>
@@ Line 799: / Line 832: @@
 \end{eqnarray*}
-즉, 원래 $\sigma^2$ 값보다 조금 작은 값을 갖게 될 것이다 (이를 biased result라고 한다).
+즉, 원래 $\sigma^2$ 값보다 조금 작은 값을 갖게 될 것이다 (이를 biased result라고 한다). 따라서 샘플을 취한 후에 모집단의 분산을 추정할 때에는 n 대신에 n-1을 사용하는 것이 맞다. 그렇다면 모집단의 분산을 구할 때는 n으로 (N으로) 나누어 주면 된다고 생각된다. 그러나 일반적으로 모집단의 분산을 구할 때에도 N-1로 나누어 구하게 된다. 이유는 모집단의 경우에 N이 충분히 큰 경우인데 이 때에는 N으로 나누어 주나, N-1로 나누어주나 큰 차이가 없기 때문이다. 따라서, R에서 분산을 구하는 var(x)에는 x의 성격에 상관없이 SS를 n-1로 나누어 분산을 구하게 된다.