728x90

2.1 1,000개의 샘플을 포함하는 데이터 세트 중 500개의 양성 샘플과 500개의 음성 샘플이 있다. 70%의 샘플을 포함하는 훈련 세트와 30%의 샘플을 포함하는 테스트 세트로 나누어 홀드아웃 방법으로 평가하려고 하는데, 모두 몇 가지 종류의 분할 방법이 있는지 계산해 보아라.

$$(C_{150}^{500})^2$$ 

 

2.2 100개의 샘플이 있는 데이터 세트에서 음성과 양성 샘플은 각각 절반씩이다. 만약 학습 알고리즘이 생성한 모델이 새로운 샘플을 훈련 샘플 수가 비교적 많은 클래스로 예측한다면, 10-fold 교차 검증법과 Leave-one-out을
사용하여 오차율에 대해 평가한 결과를 설명하라.

10-fold 교차 검증법: 기대 오차율은 50% (훈련셋의 양성/음성 샘플 비율이 늘 같기 때문에 양성/음성으로 판단할 확률도 같다)

Leave-one-out 검증법: 기대 오차율은 100% (검증셋으로 분리된 샘플이 양성이라면, 훈련셋의 음성 샘플이 하나 더 많기 때문에 검증셋 샘플을 음성으로 예측하게 됨)

 

2.3 만약 학습기 A의 F1 스코어가 학습기 B보다 높다면, A의 BEP값이 B보다 높은지에 대해 분석하라.

BEP는 'precision = recall'일 시의 값이다. 그림 2.3의 학습기 C의 BEP가 0.64라고 한다면, BEP에 기반해 학습기 A가 B보다 뛰어나다고 판단할 수 있다.

$$F1 = 2PR/P+R = 2*TP/ 총 샘플수 + TP - TN$$

 

2.4 참 양성률(TPR), 거짓 양성률(FPR) 그리고 정밀도(P), 재현율(R) 사이의 관계에 대해 기술하라.

재현율: R = TP/(TP+FN)

정밀도: P = TP/(TP+FP)

TPR: 재현율과 동일함

FPR: FP/(TN+FP) , 즉 모든 음성샘플 중 양성으로 예측된 비율을 뜻함.

(응용 관점에서) P와 R은 P-R 곡선으로 응용 가능하고, TPR과 FPR은 ROC곡선으로 응용 가능함

 

2.5 식 2.22를 증명하라.

생략

 

2.6 오차율과 ROC 곡선의 관계에 대해 기술하라.

오차율은 임곗값이 고정된 상화에서 얻어지는 것이고, ROC곡선은 임계값이 샘플 예측값에 따라 변화하는 상황에서 얻어지는 것이다. ROC곡선상의 각 점은 각기 다른 오차율에 대응한다.

 

2.7 ‘임의의 ROC 곡선은 이에 대응하는 비용 곡선을 가지고 있다’를 증명하라.

정의에 의해 TPR과 FPR은 0에서 1로 상승하고, FNR은 1에서 0으로 내려감을 알 수 있다.

각 ROC곡선은 하나의 비용 곡선에 대응하는데, 첫번째 비용곡선(혹은 선)은 (0,0),(1,1)이고 마지막 비용 곡선은 (0,1),(1,0)이기 때문에 모든 비용곡선은 '공동영역'을 갖게되고, 해당 영역이 바로 총 기대 비용이 된다. 그리고 해당 영역의 경계가 바로 비용 곡선이고 (0,1)에서 (1,0)에 이르게 된다.

한정적인 샘플 수가 있는 경우, 비용곡선에 기반해 ROC곡선을 반환할 수 없지만, 이론상으로 만약 무한대의 샘플이 있다면 ROC는 하나의 곡선이 되고, 비용곡선 또한 곡선이 되며 각 점의 접선을 통해 TPR과 FNR을 얻을 수 있다.

 

2.8 Min-max 정규화와 z-score 정규화는 자주 사용되는 정규화 방법이다. x 와 x′로 각각 변수가 정규화된 전후의 값을 나타내고, xmin과 xmax로 정규화 전의 최솟값과 최댓값을, x′min과 x′max로 정규화 후의 최솟값과 최댓값을, x ̄ 와 𝜎x로 각각 정규화 전의 평균과 표준편차를 나타낸다면, min-max정규화와 z-score 정규화는 각각 식 2.43과 2.44처럼 나타낼 수 있다. 그렇다면 두 가지 방법의 장단점을 비교하라.

 

Min-max 정규화 장점: 1)계산이 간단하다; 2) 새로운 샘플에 대해, 새로운 샘플이 원래의 최대값보다 커거나 최소값보다 작지만 않다면 새로운 정규화값을 계산하지 않아도 된다. 반면 단점은 이상치의 영향을 받는다는 점이다.

 

z-score 정규화는 이상치에 robust하다는 장점이 있다. 반면 계산 비용이 조금 더 든다는 점과 새로운 샘플이 들어올 때 마다 다시 계산해야한다는 단점이 존재한다.

 

2.9 카이제곱 검정 과정을 기술하라.

책 내용 참조.

2.10 프리드먼 검정에서 식 2.34와 식 2.35의 차이를 기술하라.

생략

+ Recent posts