728x90

보조 정리 12.1 증명

보조 정리 12.1의 내용은 다음과 같습니다:

\[
E(h; \mathcal{D}) = P_{x \sim \mathcal{D}}(h(x) \neq y)
\]

이를 증명해보겠습니다.

증명

  1. **정의에 따라 일반화 오차는 다음과 같이 정의됩니다:**

    \[
    E(h; \mathcal{D}) = P_{x \sim \mathcal{D}}(h(x) \neq y)
    \]

  2. **경험 오차는 다음과 같이 정의됩니다:**

    \[
    \hat{E}(h; \mathcal{D}) = \frac{1}{m} \sum_{i=1}^{m} \mathbf{1}(h(x_i) \neq y_i)
    \]

    여기서 \( \mathbf{1} \)은 지시 함수(indicator function)로, 조건이 참일 때 1, 거짓일 때 0의 값을 갖습니다.

  3. **확률적 관점에서 일반화 오차와 경험 오차의 차이는 데이터를 무작위로 샘플링한 결과로 나타날 수 있습니다. 이는 크게 두 가지 요소로 설명될 수 있습니다:**

    • **샘플의 크기 \( m \):** 샘플의 크기가 클수록, 경험 오차는 일반화 오차에 가까워집니다.
    • **샘플링 분포 \( \mathcal{D} \):** 샘플이 독립적이고 동일한 분포(i.i.d.)에서 추출된 경우, 경험 오차는 일반화 오차의 좋은 추정치가 됩니다.
  4. **독립적이고 동일한 분포(i.i.d.)에서 샘플링된 경우, 큰 수의 법칙에 따라 경험 오차는 일반화 오차로 수렴합니다:**

    \[
    \hat{E}(h; \mathcal{D}) \rightarrow E(h; \mathcal{D}) \quad \text{(as \( m \rightarrow \infty \))}
    \]

  5. **이를 바탕으로, 다음이 성립함을 보일 수 있습니다:**

    \[
    \hat{E}(h; \mathcal{D}) = \frac{1}{m} \sum_{i=1}^{m} \mathbf{1}(h(x_i) \neq y_i) \rightarrow P_{x \sim \mathcal{D}}(h(x) \neq y) = E(h; \mathcal{D})
    \]

따라서, 보조 정리 12.1은 증명되었습니다.

+ Recent posts