728x90
속성의 중요성을 고려하는 다른 개선 알고리즘을 구상하면 다음과 같을 수 있습니다:
Entropy-Based Feature Selection 알고리즘:
1. 데이터셋의 각 속성에 대한 엔트로피를 계산합니다. 엔트로피는 데이터의 불확실성을 측정하는 방법으로, 낮은 엔트로피는 예측 가능성이 높은 것을 의미하며, 높은 엔트로피는 예측이 어려운 것을 의미합니다.
2. 각 속성을 기준으로 데이터를 분할합니다. 그 후, 이 분할에 대한 정보 이득(전체 엔트로피와 분할 후 엔트로피의 차이)을 계산합니다.
3. 가장 높은 정보 이득을 가진 속성을 최상위 노드로 선택합니다. 이렇게 선택된 속성은 클래스 분류에 가장 중요하다고 간주됩니다.
4. 데이터셋을 선택된 속성에 따라 분할하고, 각 하위 데이터셋에 대해 위의 과정을 반복합니다. 이 과정을 모든 속성이 사용되거나, 모든 데이터 포인트가 동일한 클래스에 속할 때까지 반복합니다.
5. 마지막으로, 각 속성의 중요도는 그들이 트리에서 얼마나 높은 위치에 있는지(즉, 얼마나 일찍 선택되는지)에 따라 결정됩니다.
이 알고리즘은 Relief 알고리즘과는 달리 각 속성을 개별적으로 고려하는 대신, 그들이 전체적으로 클래스 분류에 어떤 영향을 미치는지를 고려합니다. 이 방식은 특히 속성 간의 상호 작용이 중요하지 않은 문제에 적합합니다.
'단단한 머신러닝' 카테고리의 다른 글
[단단한 머신러닝 - 연습문제 참고 답안]Chapter11 - 특성 선택과 희소 학습 11.5 (0) | 2023.07.15 |
---|---|
[단단한 머신러닝 - 연습문제 참고 답안]Chapter11 - 특성 선택과 희소 학습 11.4 (0) | 2023.07.15 |
[단단한 머신러닝 - 연습문제 참고 답안]Chapter11 - 특성 선택과 희소 학습 11.2 (0) | 2023.07.15 |
[단단한 머신러닝 - 연습문제 참고 답안]Chapter11 - 특성 선택과 희소 학습 11.1 (0) | 2023.07.15 |
[단단한 머신러닝 - 연습문제 참고 답안]Chapter9 - 클러스터링 9.5 (0) | 2022.01.23 |