728x90

데이터 분석 중에서 탐색적 분석(EDA), 그리고 피처 선택 (feature selection)에 대한 내용을 Google Cloud 팀에서 문서 형식으로 정리한 것 입니다. 기초적인 내용이지만 데이터 분석을 시작하는 분들에겐 유용할 듯 하여 공유합니다.

 

exploratory data analysis for feature selection in machine learning.pdf
0.67MB

728x90

10.1 k최근접 분류기의 코드를 작성하고, 수박 데이터 세트 3.0𝛼상에서 그들의 분류 경계와 의사결정 트리 분류 경계의 차이를 비교해 보아라.

 

#!/usr/bin/python
# -*- coding:utf-8 -*-
import numpy as np
import matplotlib.pyplot as plt

from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

file1 = open('c:\quant\watermelon.csv','r')
data = [line.strip('\n').split(',') for line in file1]
data = np.array(data)
#X = [[float(raw[-7]),float(raw[-6]),float(raw[-5]),float(raw[-4]),float(raw[-3]), float(raw[-2])] for raw in data[1:,1:-1]]

X = [[float(raw[-3]), float(raw[-2])] for raw in data[1:]]
y = [1 if raw[-1]=='1' else 0 for raw in data[1:]]
X = np.array(X)
y = np.array(y)

print(__doc__)

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn import neighbors, datasets

n_neighbors = 5

# import some data to play with
iris = datasets.load_iris()
#X = iris.data[:, :2]  # we only take the first two features. We could
                      # avoid this ugly slicing by using a two-dim dataset
#y = iris.target

h = .02  # step size in the mesh

# Create color maps
cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF'])
cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])

for weights in ['uniform', 'distance']:
    # we create an instance of Neighbours Classifier and fit the data.
    clf = neighbors.KNeighborsClassifier(n_neighbors, weights=weights)
    clf.fit(X, y)

    # Plot the decision boundary. For that, we will assign a color to each
    # point in the mesh [x_min, m_max]x[y_min, y_max].
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

    # Put the result into a color plot
    Z = Z.reshape(xx.shape)
    plt.figure()
    plt.pcolormesh(xx, yy, Z, cmap=cmap_light)

    # Plot also the training points
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold)
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.title("3-Class classification (k = %i, weights = '%s')"
              % (n_neighbors, weights))

plt.show()


출처:https://blog.csdn.net/icefire_tyh/article/details/52243773

 

 

 

728x90

머신러닝 논문 중에 코드를 함께 공개한 논문들도 있지만 그렇지 않은 논문들도 있다.

 

유명 논문 중 (혹은 사람들이 많이 찾는 논문 중) GitHub코드가 함께 있는 논문들을 보기 좋게 리스트업 해놓은 사이트가 있는데, 바로 paper with code이다.

 

paper with code 메인화면

 

예를 들어, Pix2Seq: A Language Modeling Framework for Object Detection이란 논문을 클릭해보면,

 

이렇게 논문과 논문에 사용된 데이터를 받을 수 있도록 해놓았으며, 추가로 결과까지 요약되어 있다.

 

예전에 ML논문 리서치할 때 혼자서 정리하던 것을... 누군가는 다른 사람들을 위해 이렇게 정리해 놓았다는 사실이...

스스로를 부끄럽게 만든다.

 

https://paperswithcode.com/

 

Papers with Code - The latest in Machine Learning

Papers With Code highlights trending Machine Learning research and the code to implement it.

paperswithcode.com

 

물론 모든 논문이 다 있는 것은 아니지만... ML연구 하시는 분들께는 아주 훌륭한 사이트가 아닐까 싶다. 

 

728x90

 

데이터 엔지니어는 아니지만...

어떤 개념이 있는지 살펴보긴 괜찮은 자료인듯 하다.

 

big data engineering interview questions & answers.pdf
1.50MB

728x90

실무 면접에서 받았던 질문인데, 

비지도학습을 실무에서 많이 사용해보지 않아서 당황했었다. 

실루엣 계수 정도만 생각이 나서 ㅠ_ㅠ

 

http://www.yes24.com/Product/Goods/90626736?OzSrank=4 

 

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집 - YES24

『데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집』은 간단한 내용부터 복잡한 내용까지, 로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까

www.yes24.com

책 chapter5에 4번 문제에 자세한 설명이 나와있었다.

 

glassdoor 검색해도 가끔 나오는 문제이니...면접 뿐만 아니라 실무 활용을 위해서도 익혀두자!

728x90

 

 

 

sql practice.pdf
0.50MB

책이긴 하지만

위 그림처럼 exercise 후에 (answer)로 바로 넘어갈 수 있어서 e-book으로 보기 편하다.

 

기본적인 내용이 많긴하지만 문제를 계속 풀어보고 싶다면 참고하는 것도 나쁘지 않을듯 하다~

728x90

기본 개념임에도 불구하고 면접때 질문을 받으면 생각나지 않는 경우가 많다..

단순히 생각나지 않다기 보다는 개념을 100%이해하지 못 했거나 

다른 사람에게 잘 전달할 정도로 의사표현이나 커뮤니케이션 능력이 좋지 못한 이유도 있겠지만 ㅠ_ㅠ

 

https://sites.google.com/view/datascience-cheat-sheets

 

www.cheatsheets.aqeel-anwar.com

Cheat Sheets for Machine Learning and Data Science

sites.google.com

 

실무에서 이런걸 외우고 할일은 없겠지만,

 

실제로 면접 때 많은 질문을 받았던 내용을 정리한 것 같아서 한번 훑고 갈만하다.

 

 

 

 

 

이런 식으로 기본 개념이 한 페이지에 정리되어 있어서 보기 편하다.

 

 

 

 

 

이렇게 면접 준비 팁도 친절하게 써있다.

 

사실 대부분 경력직을 뽑기 때문에

이전 경력과 관련해 technical questions을 물어보는 형태로 진행되는 경우가 많은데,

자신이 했던 프로젝트와 관련된 ML/DL 개념들을 한번 다시 살펴보고 가는 것이 좋을 듯하다.

 

프로젝트를 하면서 치열하게 고민했다면 자연스럽게 터득하게 되겠지만,

프로젝트 '완료'에 목표를 두고 너무 빠르게 달려왔다면 관련해서 어떤 개념들이 있는지,

다른 해결 방법들이 있는지, 혹은 왜 그 방법을 썼는지에 대한 질문에 대해 답하지 못할 가능성이 높다.

 

 

728x90

아마존이나 리프트, 에어비앤비, 도어대시(doordash) 같은 곳에서 적용하고 있는 ML/DL 기술을 알고 싶다면그들의 기술 블로그를 찾아보는 것이 가장 좋은 방법이다.

 

Amazon의 Applied scientist 분이 정리해둔 Github이 있어 공유한다.

 

예측 문제, 추천 시스템, 검색과 랭킹, 컴퓨터 비전 등 다양한 논문과 블로그 주소가 링크되어 있다.

 

목차

 

예전 페이퍼나 글도 있지만 찾기 편하게 잘 해놓음 ㅠ

이런 식으로 회사도 tag되어 있어서 찾기 편하다!

 

https://github.com/eugeneyan/applied-ml

 

GitHub - eugeneyan/applied-ml: 📚 Papers & tech blogs by companies sharing their work on data science & machine learning in pr

📚 Papers & tech blogs by companies sharing their work on data science & machine learning in production. - GitHub - eugeneyan/applied-ml: 📚 Papers & tech blogs by companies sharing their...

github.com

 

 

728x90

 

데이터 사이언티스트가 연봉이 높은 직군에 속한다지만,

아직 한국에서는 진짜 탑대학 박사급 + 실리콘밸리 출신 아니면 미국만큼의 수준은 아닌듯 하다.

 

그럼 중국은 어떨까?

중국에도 링크드인이 있고, 한국의 원티드나 사람인같은 구직사이트가 있는데 대표적인 것이 Liepin 이다.

특이한 것은 대부분 포지션의 salary range가 표기되어 있다는 점인데...(협의라고 써있는 포지션은 매우 높거나 매우 낮거나 둘 중 하나...)

 

궁금해서 상하이에 있는 쿠팡 직무를 찾아봤다.

아래는 fraud detection 팀의 데이터 사이언티스트 포지션이다.

 

50k - 80k 라고 나와있는데, 저건 월급이다.

옆에 13(한자)는 1년에 13개월치 월급을 준다는 말이다. 보너스 개념...

씬(xin)으로 읽는데, 13씬이면 13개월치 월급을, 14씬이면 14개월치 월급을 준다는 뜻이다.

보통 외국계는 13씬이 많다고 들었다. 물론 저게 보너스의 전부는 아니다^^;;

 

일단 오늘 환율로...1위안이 179원이다.

대략 180이라고 치면, 

한달에 5만위안 - 8만위안을 받고,

원화로 900만원 - 1,400만원 이다.

 

경력 요구사항이 5-10년이니,

5년차의 경우에 보수적으로라도 월 900만원 받는....-_-!

 

물론 실수령액은 전체 금액에 따라 달라지겠지만...세금 수준은 어떤식으로 받느냐에 따라 다르다.

예전에 중국에서 근무할때는 집값 보조 명목으로 일부가 나와서 세금을 받는 것 만큼 많이 내진 않았다.

 

 

그럼 연봉은 얼마인가,

인센 제외하더라도 1억이 넘는다.

 

국내에서 5년차 데이터 사이언티스트가 1억을 받는곳이 많으려나...?

 

이 글을 올리는 이유는,

혹시 본인이 국내 외국계 기업에 같은 포지션으로 지원한다면

연봉 협상하는데 있어서 어느정도 참고는 가능하기에 작성했다.

 

당연히 나라마다 연봉수준이 다르겠지만...

상하이나 베이징은 서울과 생활수준이 크게 차이나지 않기 때문에 어느정도 참조는 가능하다고 생각한다.

 

728x90

식 6.52

참조:

+ Recent posts