728x90

728x90

2.1 1,000개의 샘플을 포함하는 데이터 세트 중 500개의 양성 샘플과 500개의 음성 샘플이 있다. 70%의 샘플을 포함하는 훈련 세트와 30%의 샘플을 포함하는 테스트 세트로 나누어 홀드아웃 방법으로 평가하려고 하는데, 모두 몇 가지 종류의 분할 방법이 있는지 계산해 보아라.

$$(C_{150}^{500})^2$$ 

 

2.2 100개의 샘플이 있는 데이터 세트에서 음성과 양성 샘플은 각각 절반씩이다. 만약 학습 알고리즘이 생성한 모델이 새로운 샘플을 훈련 샘플 수가 비교적 많은 클래스로 예측한다면, 10-fold 교차 검증법과 Leave-one-out을
사용하여 오차율에 대해 평가한 결과를 설명하라.

10-fold 교차 검증법: 기대 오차율은 50% (훈련셋의 양성/음성 샘플 비율이 늘 같기 때문에 양성/음성으로 판단할 확률도 같다)

Leave-one-out 검증법: 기대 오차율은 100% (검증셋으로 분리된 샘플이 양성이라면, 훈련셋의 음성 샘플이 하나 더 많기 때문에 검증셋 샘플을 음성으로 예측하게 됨)

 

2.3 만약 학습기 A의 F1 스코어가 학습기 B보다 높다면, A의 BEP값이 B보다 높은지에 대해 분석하라.

BEP는 'precision = recall'일 시의 값이다. 그림 2.3의 학습기 C의 BEP가 0.64라고 한다면, BEP에 기반해 학습기 A가 B보다 뛰어나다고 판단할 수 있다.

$$F1 = 2PR/P+R = 2*TP/ 총 샘플수 + TP - TN$$

 

2.4 참 양성률(TPR), 거짓 양성률(FPR) 그리고 정밀도(P), 재현율(R) 사이의 관계에 대해 기술하라.

재현율: R = TP/(TP+FN)

정밀도: P = TP/(TP+FP)

TPR: 재현율과 동일함

FPR: FP/(TN+FP) , 즉 모든 음성샘플 중 양성으로 예측된 비율을 뜻함.

(응용 관점에서) P와 R은 P-R 곡선으로 응용 가능하고, TPR과 FPR은 ROC곡선으로 응용 가능함

 

2.5 식 2.22를 증명하라.

생략

 

2.6 오차율과 ROC 곡선의 관계에 대해 기술하라.

오차율은 임곗값이 고정된 상화에서 얻어지는 것이고, ROC곡선은 임계값이 샘플 예측값에 따라 변화하는 상황에서 얻어지는 것이다. ROC곡선상의 각 점은 각기 다른 오차율에 대응한다.

 

2.7 ‘임의의 ROC 곡선은 이에 대응하는 비용 곡선을 가지고 있다’를 증명하라.

정의에 의해 TPR과 FPR은 0에서 1로 상승하고, FNR은 1에서 0으로 내려감을 알 수 있다.

각 ROC곡선은 하나의 비용 곡선에 대응하는데, 첫번째 비용곡선(혹은 선)은 (0,0),(1,1)이고 마지막 비용 곡선은 (0,1),(1,0)이기 때문에 모든 비용곡선은 '공동영역'을 갖게되고, 해당 영역이 바로 총 기대 비용이 된다. 그리고 해당 영역의 경계가 바로 비용 곡선이고 (0,1)에서 (1,0)에 이르게 된다.

한정적인 샘플 수가 있는 경우, 비용곡선에 기반해 ROC곡선을 반환할 수 없지만, 이론상으로 만약 무한대의 샘플이 있다면 ROC는 하나의 곡선이 되고, 비용곡선 또한 곡선이 되며 각 점의 접선을 통해 TPR과 FNR을 얻을 수 있다.

 

2.8 Min-max 정규화와 z-score 정규화는 자주 사용되는 정규화 방법이다. x 와 x′로 각각 변수가 정규화된 전후의 값을 나타내고, xmin과 xmax로 정규화 전의 최솟값과 최댓값을, x′min과 x′max로 정규화 후의 최솟값과 최댓값을, x ̄ 와 𝜎x로 각각 정규화 전의 평균과 표준편차를 나타낸다면, min-max정규화와 z-score 정규화는 각각 식 2.43과 2.44처럼 나타낼 수 있다. 그렇다면 두 가지 방법의 장단점을 비교하라.

 

Min-max 정규화 장점: 1)계산이 간단하다; 2) 새로운 샘플에 대해, 새로운 샘플이 원래의 최대값보다 커거나 최소값보다 작지만 않다면 새로운 정규화값을 계산하지 않아도 된다. 반면 단점은 이상치의 영향을 받는다는 점이다.

 

z-score 정규화는 이상치에 robust하다는 장점이 있다. 반면 계산 비용이 조금 더 든다는 점과 새로운 샘플이 들어올 때 마다 다시 계산해야한다는 단점이 존재한다.

 

2.9 카이제곱 검정 과정을 기술하라.

책 내용 참조.

2.10 프리드먼 검정에서 식 2.34와 식 2.35의 차이를 기술하라.

생략

728x90

1.1

총 7개 버전의 공간이 존재

Hint. 총 3가지 상황으로 나눠 생각해볼 수 있다.

 

 

1.2

2^18 - 1

= 262,143 개

 

참고 코드:

github.com/datakim/datakim.github.io/blob/master/chapter1_2

 

 

1.3

일반적으로 두 개의 샘플이 비슷한 속성을 가질수록 동일한 클래스(class)에 속할 확률이 높아집니다. 만약 동일한 속성을 가졌지만 다른 클래스로 분류되는 샘플이 있다면, 일부 정보 손실을 감수하고 두 샘플 중 양성 샘플만 남기거나 모든 샘플을 제거합니다.

 

 

1.4

증명을 하기 전에 다음과 같은 보조 정리(lemma)가 필요합니다.

보조 정리: 이진 분류 문제에서 임의의 성능 척도는 l이고, l(h(x)=f(x))+l(h(x)≠f(x))=A 이며, A는 상수이다.

증명: 이진 분류 문제에서 임이의 성능 척도의 정확도 점수와 오차울 점수는 고정되어 있다.

즉,

l(0,0)=l(1,1),l(0,1)=l(1,0) 이며,

따라서

l(0,0)+l(0,1)=l(1,1)+l(1,0)

이다.

l(0,0)+l(0,1)=l(1,1)+l(1,0)=A 와 같이 설정하면,

l(h(x)=f(x))+l(h(x)≠f(x))=A 을 얻는다.

공짜 점심 정리에 대해 증명해보자.

위 식은 결과와 학습 알고리즘 εa는 무관하다는 것을 설명하며, '공짜 점심은 없다'는 여전히 성립합니다.

 

 

1.5

개방형 문제 (정해진 답은 없다)

ex. 검색결과를 보여줄때 유저의 흥미에 맞는 순서대로 노출한다.

728x90

중국 인공지능 분야 초베스트셀러! <Machine Learning>

2월 28일 출간예정인 '단단한 머신러닝'의 역자 블로그 입니다.

각 챕터마다 연습문제가 포함되어 있는데, 원서에서도 해답은 원래 제공되지 않습니다.

하지만 워낙 유명한 책이고 많은 중국 대학교에서 교재로 사용되고 있는만큼, 관련된 학습 자료들이 많습니다. 

따라서 중국 온라인 사이트나 인공지능 커뮤니티에 올라와있는 해답을 종합하고 정리해 순차적으로 업데이트할 예정입니다. 출판 전에 해답지를 제공했다면 좋았겠지만, 개인적으로 작업할 시간이 부족해 그러지 못한 점 양해 부탁드립니다.

업데이트 속도가 기대에 미치지 못하더라도 양해 부탁드리며, 개인 메일 data.manyo@gmail.com으로 문의주시면 우선적으로 답변드리겠습니다.

감사합니다.

 

소개 링크: https://jpub.tistory.com/1010

 

50만 부가 판매된 중국의 인공지능 서적!

인공지능 관련 서적에 관해 잠깐 이야기를 해볼까요? 일반 개발 분야에서는 이제 우리도 예전에 비해 좋은 책들을 많이 펴내고 있는 것 같습니다. 예전에 서점에 가보면 (나이티를 내면 안 되는

jpub.tistory.com

 

update. 2021.04.12

늦은감이 있지만, 많은 분들의 꾸준한 요청으로 인해 순차적으로 업데이트를 하고있습니다. 

업데이트 속도가 기대에 미치지 못하더라도 양해 부탁드립니다.

다수의 대학에서 교재로 채택이 되었다는 소식을 들었는데,

책을 사랑해주시는 독자 여러분께 감사의 말씀드립니다. 

+ Recent posts