728x90

4.2 ‘최소 훈련 오차’를 사용하여 의사결정 트리 분할의 기준으로 삼을 때 빠질 수 있는 함정에 대해 분석하라.

 

참고 답안:

만약 최소훈련오차를 의사결정 트리 분할의 기준으로 사용한다면 훈련 데이터와 실제 데이터 사이에 (거의 대부분의 상황에서)일정한 편차(bias)가 존재할 것이기 때문에, 이렇게 얻어진 의사결정 트리는 과적합 상황을 일으켜 테스트 데이터에 대한 일반화 성능이 하락하게 될것이다. 

 

 

이 문제에 대해 아직 명확한 답을 찾진 못했습니다. '과적합'때문이라는 의견이 대부분이긴 하지만, 이에 대한 구체적인 증명은 찾지 못해서요. 개인적으로는 의사결정 트리는 information gain을 사용하던 지니인덱스를 사용하던 과적합 되기 쉬운 것으로 생각되서요. 

혹시 해당 부분에 대해 좋은 해답을 가지고 계시다면 댓글로 달아주세요~ 다른 분들과 함께 공유했으면 좋겠습니다:)

 

+ Recent posts