728x90

 

문제:

UCI 데이터 세트에서 4개의 데이터 세트를 선택하여, 위에서 언급한 세 가지 알고리즘이 생성한 가지치기를 하지 않은, 사전 가지치기를 한, 사후 가지치기를 한 의사결정 트리들에 대해 비교를 진행하고 통계적 유의미성을 검증하라.

 

UCI 데이터 세트 중 Wine Data Set 사용. 대략 180개의 데이터, 12개의 특성, 3가지 레이블(3가지 주종)이 있음. 랜덤 샘플링으로 140:40 으로 split함.

 

ID3 의사결정 트리:

 

CART(가지치기 없음):

CART(사전 가지치기):

 

CART(사후 가지치기):

 

사후 가지치기가 사전 가지치기보다 과적합 현상이 일어나기 쉬움을 알 수 있음.

 

+ Recent posts