728x90

유도식 12.1 정리

유도식 12.1은 다음과 같습니다:

\[
E(h; \mathcal{D}) = P_{x \sim \mathcal{D}}(h(x) \neq y)
\]

이를 통해 \( E(h; \mathcal{D}) \)를 정의하고 정리해보겠습니다.

정리

  1. **정의에 따라, 일반화 오차 \( E(h; \mathcal{D}) \)는 가설 \( h \)가 데이터 분포 \( \mathcal{D} \)로부터 샘플링된 입력 \( x \)에 대해 실제 레이블 \( y \)와 일치하지 않는 확률을 의미합니다:**

\[
E(h; \mathcal{D}) = P_{x \sim \mathcal{D}}(h(x) \neq y)
\]

  1. **데이터 세트 \( D \)가 독립적이고 동일한 분포(i.i.d.)에서 샘플링된 경우, 경험 오차 \( \hat{E}(h; \mathcal{D}) \)는 다음과 같이 정의됩니다:**

\[
\hat{E}(h; \mathcal{D}) = \frac{1}{m} \sum_{i=1}^{m} \mathbf{1}(h(x_i) \neq y_i)
\]

여기서 \( \mathbf{1} \)은 지시 함수(indicator function)로, \( h(x_i) \)가 \( y_i \)와 일치하지 않으면 1, 일치하면 0의 값을 가집니다.

  1. **큰 수의 법칙에 따라, 샘플 크기 \( m \)이 커질수록 경험 오차는 일반화 오차에 수렴합니다:**

\[
\hat{E}(h; \mathcal{D}) \rightarrow E(h; \mathcal{D}) \quad \text{as } m \rightarrow \infty
\]

  1. **따라서, 유도식 12.1을 다시 정리하면 다음과 같은 결론에 도달합니다:**

\[
E(h; \mathcal{D}) = P_{x \sim \mathcal{D}}(h(x) \neq y)
\]

이는 가설 \( h \)가 주어진 데이터 분포 \( \mathcal{D} \)에 대해 얼마나 잘 일반화하는지를 나타내는 지표입니다.

 

+ Recent posts