728x90
문제:
UCI 데이터 세트에서 4개의 데이터 세트를 선택하여, 위에서 언급한 세 가지 알고리즘이 생성한 가지치기를 하지 않은, 사전 가지치기를 한, 사후 가지치기를 한 의사결정 트리들에 대해 비교를 진행하고 통계적 유의미성을 검증하라.
UCI 데이터 세트 중 Wine Data Set 사용. 대략 180개의 데이터, 12개의 특성, 3가지 레이블(3가지 주종)이 있음. 랜덤 샘플링으로 140:40 으로 split함.
ID3 의사결정 트리:
CART(가지치기 없음):
CART(사전 가지치기):
CART(사후 가지치기):
사후 가지치기가 사전 가지치기보다 과적합 현상이 일어나기 쉬움을 알 수 있음.
'단단한 머신러닝' 카테고리의 다른 글
[단단한 머신러닝 - 연습문제 참고 답안]Chapter4 - 의사결정 트리 4.9 (0) | 2021.08.23 |
---|---|
[단단한 머신러닝 - 연습문제 참고 답안]Chapter4 - 의사결정 트리 4.6 (Code 부분) (0) | 2021.08.23 |
[단단한 머신러닝 - 연습문제 참고 답안]Chapter4 - 의사결정 트리 4.3~4.5 (0) | 2021.04.17 |
[단단한 머신러닝 - 연습문제 참고 답안]Chapter4 - 의사결정 트리 4.2 (0) | 2021.04.17 |
[단단한 머신러닝 - 연습문제 참고 답안]Chapter4 - 의사결정 트리 4.1 (1) | 2021.04.17 |