'데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집' 카테고리의 글 목록

728x90

<데이터 사이언티스트: 21세기 가장 섹시한 직업> 이라는 컬럼은 수많은 데이터 관련 책에서 인용이 가장 많이 된 컬럼일 것 이다. 그것도 제목만.

Data Scientist: The Sexiest Job of the 21st Century

Back in the 1990s, computer engineer and Wall Street “quant” were the hot occupations in business. Today data scientists are the hires firms are competing to make. As companies wrestle with unprecedented volumes and types of information, demand for the

hbr.org

이 컬럼이 나온 시기가 2012년인데, 10년이 흐른 지금 컬럼의 저자인 Thomas H.Davenport 와 DJ Patil가 하버드 비즈니스 리뷰에 <데이터 사이언티스트는 여전히 21세기 가장 섹시한 직업인가? Is Data Scientist Still the Sexiest Job of the 21st Century?> 라는 컬럼을 기고했다.

Is Data Scientist Still the Sexiest Job of the 21st Century?

Ten years ago, the authors posited that being a data scientist was the “sexiest job of the 21st century.” A decade later, does the claim stand up? The job has grown in popularity and is generally well-paid, and the field is projected to experience more

hbr.org

원문은 하단을 참고하길 바라며,

바쁜 독자를 위해 간단히 요약해보겠다.

결론. 데이터 사이언티스트라는 직업은 크고 작게 변화하고 있다.

제도화 (institutionalized, 혹은 일상화라고 번역하고 싶다) 되고 있고;
데이터 사이언티스트라는 직업의 범위(scope)이 재정의 되고 있으며;
데이터 사이언스를 둘러싼 기술들에 많은 변화가 생겼으며;
관련된 non-tech 전문가들의 중요성이 커지고 있다.

조금 더 자세히 그의 주장을 살펴보자.

1) 일상화가 된 데이터 사이언티스트 (better institutionalized)

2012년엔 인공지능 스타트업에서도 기초 기능만 했다.

-지금은 은행, 보험회사, 유통회사 뿐만 아니라 정부 기관에도 데이터 사이언스 조직이 있다.

-원인은 양질의 데이터 사이언스 교육이 증가했기 때문.

주관적인 생각을 더해 정리하자면, 데이터 사이언티스트가 인공지능 관련 필드에서만 활약하는 것이 아닌, IT기업부터 일반 제조, 그리고 정부까지 곳곳에 침투해 많은 역할을 하고 있다는 것이다. 실제로 링크드인에 ‘데이터 사이언티스트’라고 검색만 해봐도 정말 다양한 기관과 회사에서 데이터 사이언티스트를 채용하는 것을 확인할 수 있다. 특히 최근 2-4년 사이에 엄청난 붐이었다. 지금도 물론 많이 뽑고 있지만, 아래 설명할 내용처럼 그 직업의 범위가 재정의되고 있는 중이다.

2) 재정의되는 데이터 사이언티스트의 역할 (Data Scientists in Relation to Other Roles)

-데이터 사이언티스트가 다른 많은 역할을 할것이라고 예상했지만, 현실은 데이터 사이언스와 관련된 많은 다른 역할들이 생겼고, 어떤 것들은 데이터 사이언스보다 인기가 높음. (ex. 데이터 엔지니어, data product manager 등)

-늘어나는 데이터 양과 복잡해지는 시스템

-모델을 만들어서 deploy하는 경우가 많이 없음, 아직 실무에서 AI를 적용하기에 용이한 곳이 많지 않다. (즉 역할이 더 분화되고 세분화된 역할을 잘하는 인재들이 많아져야 한다)

개인적인 생각으로는 2012년의 데이터 사이언티스트는 지금의 ML or DL research scientist (리서치 사이언티스트)에 가까운 것 같다.

개인적으로는 다음과 같이 분류해야 한다고 생각한다.

[1] 머신러닝 or 딥러닝 리서치 사이언티스트

알고리즘 연구에 초점을 맞춘 데이터 사이언티스트라고 할 수 있겠다. 그리고 리서치 사이언티스트는 컴퓨터 비전, NLP 등 전문 분야의 연구원으로 분류되고 있는 추세다.

[2] Applied data scientist (데이터 사이언티스트)

1번과 비슷하지만 보다 더 비즈니스적이고 practical한 부분에 초점을 맞추고 있는 데이터 사이언티스트이며, 앞으로는 이러한 부류가 흔히 말하는 ‘데이터 사이언티스트’로 정의되지 않을까 싶다.

Applied data scientist 라는 용어는 한 2년전부터 보이기 시작했고, 업계에서 완전히 통용되는 용어는 아니나, 1번과 구별하기 위해서 사용하기 좋은 것 같다.

Meta의 데이터사이언티스트인 Deepak Chopra는 그의 블로그에서 applied data scientist 에 대해 다음과 같이 정의하고 있다.

Applied data scientist는 간단히 말해, 비즈니스에 적용할 수 있는 솔루션을 제공할 목적으로 이론적 개념 프레임워크와 알고리즘을 데이터에 적용하며 데이터(즉, 데이터 과학)에 대해 공부하는 사람(

An Applied Data Scientist, simply put, is someone who studies the data (i.e. data science) with the aim of providing actionable solutions to business problems by applying theoretical conceptual frameworks and algorithms on the underlying data.) 그리고 비즈니스 문제를 풀기 위해 데이터를 정제하고, 분석하고, 모델링해 의미있는 인사이트를 도출하는 사람 (Someone who processes, analyzes, models and interprets data of any kind to drive meaningful insights and help solve business problem)이라고 정의한다.

여기서 중요한 것은 정제, 분석, 모델링이다. 즉…데이터 정제 뿐만 아니라 분석, 모델링까지 모두 할 줄 알아야한다. 여기서 많이 오해하는 부분이 ‘정제(process)’인데, 단순히 준비된 데이터를 pre-processing하는 과정만 말하는 것이 아니라, 간단한 데이터 파이프라인 설계부터 해서 원천 데이터(raw data)를 자유자재로 가공해 원하는 분석환경으로 이동시킬 수 있어야 한다. 사실 회사마다 분석환경도 다르고 데이터 저장 아키텍처가 다르기 때문에, 경험이 적은 주니어일수록 이 부분에 약한 것이 사실이다. 따라서 이 부분을 채우려면 실무자 강의를 듣거나 기존에 블로그에 올렸던 강의를 들어보길 추천한다.

모델링된 데이터를 실제 서비스에 적용하는 방법에 대한 내용을 담은 강의 (feat. 데이터 사이언티스트가 알아야할 MLOps) - CS 329s

모델링된 데이터를 실제 서비스에 적용하는 방법에 대한 내용을 담은 강의 (feat. 데이터 사이언

https://stanford-cs329s.github.io/syllabus.html CS 329S | Syllabus stanford-cs329s.github.io 실무 경험이 없거나 적은 주니어 데이터 사이언티스트가 가장 많이 궁금해하고 알고 싶어하는 부분은 바로 본인..

data-manyo.tistory.com

데이터 사이언티스트가 알아야할 CS지식 - Missing Semester (feat. MIT 무료 강좌, 한글 자료 제공)

Missing Semester, 우리말로 번역하면 잃어버린, 혹은 누락된 학기라는 뜻인데, 정규과정에서 잘 다루진 않지만 필요한 내용을 모은 강의이다. MIT에서 진행한 강의이며, 데이터 분석이나 데이터 사이

data-manyo.tistory.com

[3] 데이터 엔지니어

데이터 엔지니어의 역할도 굉장히 동적으로 변화하고 있다. 그 이유는 아래서 나오는 요인인 ‘chages in technology’ 현상과 연관이 깊다. 데이터 양도 많아지고, 비즈니스가 복잡해지면서 만든 모델을 관리하거나 데이터 파이프라인을 잘 관리할 수 있는 역할이 필요해졌다. 특히 큰 기업같은 경우는 데이터 보안 문제도 매우 중요하기 때문에 아키텍처 설계부터 보안관리까지 전문영역이 늘어나고 있다.

MLOps라는 직무가 새롭게 뜨고 있는 것만 봐도 그렇다. 지금까지의 데이터 엔지니어의 역할은 데이터 파이프라인을 잘 설계해 분석을 쉽게 만들어주는 것이었다면, 클라우드 리소스 관리, 데이터 정합성 관리, ML 모델 배포 및 관리 등 계속해서 확장되고 세분화 될 것이다.

사실 이러한 작업이 잘 되는 조직의 데이터 분석 및 활용 능력이 높아지기 때문에, 기업들은 많은 시행착오를 거쳐 지금은 매우 중요한 역할임을 인식하게 되었고, 현재 수요가 가장 많은 직군이 아닌가 생각한다. 컬럼에서도 밝혔듯이 오히려 데이터 사이언티스트보다 인기가 높다.

[4] 데이터 분석가 (or 비즈니스 분석가)

Data Analyst와 Business Analyst를 혼용하는 곳이 많은데, 사실 나는 같은 의미라고 생각한다. 기업에서 데이터 분석을 왜 하는가? 비즈니스를 위해서다. 다만 최근에는 ‘무엇을 분석하는가’에 대한 부분이 전문화되고 세분화되고 있다. 대표적인 것이 HR data analyst 일 것이다. Human resource 부서의 데이터만 전문적으로 분석하는 직종인데, 대이직 시대가 되고 재택근무가 활성화되면서 각광받고 있다.

가장 궁금해할 부분은 ‘데이터 분석가’와 ‘데이터 사이언티스트’의 차이인데, 현실적으로 많은 기업에서 데이터 분석가의 업무는 sql을 활용한 쿼리 추출 및 지표 관리가 주를 차지한다. 데이터 사이언티스트도 분석을하고 sql을 사용한다. 하지만 대부분 모델링 기반 새로운 프로덕트 생성을 위한 데이터 분석을 진행하거나, ML이나 DL 기반의 프로젝트를 만들기 위해 과제 발굴 작업 단계에서의 데이터 분석을 많이 진행한다. 반면 데이터 분석가 혹은 비즈니스 분석가는 daily로 봐야하는 지표나 전사에 공유되야 하는 중요한 비즈니스 지표들을 발굴하고 모니터링하는 작업을 많이 한다.

이제 다시 컬럼으로 돌아가 세 번째 변화를 살펴보자.

3) 기술의 변화 (changes in technology)

AutoML같은 기술로 인해 많은 부분이 자동화 됨.
그로 인해 회사들은 ‘시티즌 데이터 사이언티스트’를 키우려는 추세

-비즈니스 환경이 달라져서 배치한 모델을 계속해서 모니터링할 필요성을 느낌. MLOps가 뜬 이유.

-2012년에 비해 coding 스킬이 중요하지 않아졌다 → 좋은 package, library로 인해 하드코딩 작업의 필요성이 줄어듬

너무나도 당연하지만 AI기술, 그리고 AI를 지탱하는 많은 인프라 기술들이 큰 발전을 거듭했다. 위에서 언급한 것처럼 데이터 엔지니어의 중요성이 커지고 있으며 데이터 엔지니어라는 직무 또한 계속해서 세분화되고 있다. 코딩이 필요없어질만큼 많은 부분이 자동화되고 있으며, 이에 따라 데이터 과학 지식을 겸비한 일반 ‘시티즌 데이터 사이언티스트’ 를 양성하고자 하는 움직임도 보인다.

사실 아직 coding이 필요없어질 정도는 아니지만, 비즈니스에 ML을 적용하며 생각할 수 있는 기능 대부분은 이미 라이브러리화 되어 제공되고 있는 것이 사실이다. 특히 클라우드 사업자들은 경쟁에서 이기기 위해 더 편하고 좋은 기능을 내놓으려 혈안이 되어 있고, 이에 따라 소비자들은 AI를 비즈니스에 적용하는 허들이 계속해서 낮아지는 것을 목격할 수 밖에 없다.

4) 데이터 과학의 윤리(The Ethics of Data Science)

첫 컬럼을 쓸때와 가장 달라진 부분은 바로 데이터 과학에 대한 윤리 문제가 부각되고 있다는 점이다. 책임감 있는 AI, 데이터 투명화 등의 주제가 큰 이슈로 떠올랐는데, 따라서 테크가 아닌 non-tech분야, 즉 법률이나 윤리 부분의 전문가들의 중요성이 커지는 추세라고 한다.

다시 한 번 결론이다.

결론. 데이터 사이언티스트라는 직업은 크고 작게 변화하고 있다.

제도화 (institutionalized, 혹은 일상화라고 번역하고 싶다) 되고 있고;
데이터 사이언티스트라는 직업의 범위(scope)이 재정의 되고 있으며;
데이터 사이언스를 둘러싼 기술들에 많은 변화가 생겼으며;
관련된 non-tech 전문가들의 중요성이 커지고 있다.

데이터 사이언티스트는 여전히 가장 섹시한 직업인가?

사실 컬럼 제목에 대한 직접적인 답은 내용에 없다. 그들의 처음 주장하던 시기와 비슷한 부분도 있고 변화한 부분도 있다고 주장하고 있을 뿐이다. 애초에 'sexy'라는 단어에 포커스를 둔 컬럼이 아니었는데, 데이터와 AI에 대한 관심때문에 많이 인용되다보니 내용보다는 sexy라는 단어에 초점이 맞춰져있던 것같다...

sexy라는 개념이 아무래도 주관적인 것이니 정답은 없을 것이다...

개인적으로는 sexy는 모르겠고 가장 유망한 직업 중 하나이며, 계속해서 동적으로 그 역할(role) 자체가 세분화되고 변화하는 직업이라고 생각한다.

저작자표시 비영리 변경금지 (새창열림)

'데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집' 카테고리의 다른 글

데이터 사이언티스트/데이터 분석가/데이터 엔지니어 인터뷰 정보 제공 사이트 (0)	2022.03.18
[실전 데이터사이언티스트 면접 문제] 클러스터링 알고리즘 평가 (0)	2021.09.07
데이터 사이언티스트 면접을 위한 치트시트 (Cheat Sheets for Machine Learning and Data Science) (0)	2021.08.26
머신러닝 딥러닝 인터뷰 문제 150+ (0)	2021.08.23
데이터 사이언티스트 면접 문제 한 눈에 살펴 보기 (0)	2021.03.28

728x90

기업의 데이터 사이언티스트/ 데이터 분석가/ 데이터 엔지니어 등의 인터뷰 가이드라인을 제공하는 사이트가 있어서 추천드려요.

https://www.interviewquery.com/companies

Company Interview Guides

A comprehensive list of companies you can interview at.

www.interviewquery.com

수많은 회사 로고 중에 원하는 회사를 클릭하면,

위 그림처럼 data관련 직군 리스트가 뜨게 됩니다. 여기서 이 항목은 회사마다 다릅니다.

위 그림은 Google의 예시입니다.

제조 회사인 나이키를 살펴보죠.

제공하는 정보는

1) overview ; 2)급여 수준; 3)인터뷰 프로세스 분석 내용; 4)인터뷰 문제 (유료...); 5)관련 커뮤니티 내용과 opening된 job들...

인터뷰 프로세스를 분석해서 어느 부분에 focus하고 있는지 한 눈에 알 수 있습니다.

물론 hiring manager마다 다를 수는 있지만,

회사 특성에 따라 focus하는 부분이 다른 것 같아요.

아무래도 data scientist가 커버해야하는 지식 범위가 너무 넓고,

회사마다 사용하는 tool이 다를 수도 있기 때문에 인터뷰 준비하기가 어려운데,

이 정도의 정보만 있어도 준비하는데 도움이 많이 되실거에요.

물론 저도 프리미엄 서비스를 써보지 않았기 때문에...

수집된 데이터의 유효성은 파악하진 못했습니다!

그리고 해외 기업에 초점이 맞춰져 있긴해서 국내 기업을 준비하시는 분들에겐 큰 도움이 안될 수도 있지만,

(국내, 국외의)글로벌 기업을 준비하는 분들에겐 좋은 자료일 것 같습니다.

저작자표시 비영리 변경금지 (새창열림)

'데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집' 카테고리의 다른 글

데이터 사이언티스트는 여전히 21세기 가장 섹시한 직업인가? (feat. 데이터 사이언티스트, 데이터 엔지니어, 데이터 분석가 차이) (2)	2022.07.28
[실전 데이터사이언티스트 면접 문제] 클러스터링 알고리즘 평가 (0)	2021.09.07
데이터 사이언티스트 면접을 위한 치트시트 (Cheat Sheets for Machine Learning and Data Science) (0)	2021.08.26
머신러닝 딥러닝 인터뷰 문제 150+ (0)	2021.08.23
데이터 사이언티스트 면접 문제 한 눈에 살펴 보기 (0)	2021.03.28

728x90

실무 면접에서 받았던 질문인데,

비지도학습을 실무에서 많이 사용해보지 않아서 당황했었다.

실루엣 계수 정도만 생각이 나서 ㅠ_ㅠ

http://www.yes24.com/Product/Goods/90626736?OzSrank=4

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집 - YES24

『데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집』은 간단한 내용부터 복잡한 내용까지, 로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까

www.yes24.com

책 chapter5에 4번 문제에 자세한 설명이 나와있었다.

glassdoor 검색해도 가끔 나오는 문제이니...면접 뿐만 아니라 실무 활용을 위해서도 익혀두자!

저작자표시 비영리 변경금지 (새창열림)

'데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집' 카테고리의 다른 글

데이터 사이언티스트는 여전히 21세기 가장 섹시한 직업인가? (feat. 데이터 사이언티스트, 데이터 엔지니어, 데이터 분석가 차이) (2)	2022.07.28
데이터 사이언티스트/데이터 분석가/데이터 엔지니어 인터뷰 정보 제공 사이트 (0)	2022.03.18
데이터 사이언티스트 면접을 위한 치트시트 (Cheat Sheets for Machine Learning and Data Science) (0)	2021.08.26
머신러닝 딥러닝 인터뷰 문제 150+ (0)	2021.08.23
데이터 사이언티스트 면접 문제 한 눈에 살펴 보기 (0)	2021.03.28

728x90

기본 개념임에도 불구하고 면접때 질문을 받으면 생각나지 않는 경우가 많다..

단순히 생각나지 않다기 보다는 개념을 100%이해하지 못 했거나

다른 사람에게 잘 전달할 정도로 의사표현이나 커뮤니케이션 능력이 좋지 못한 이유도 있겠지만 ㅠ_ㅠ

https://sites.google.com/view/datascience-cheat-sheets

www.cheatsheets.aqeel-anwar.com

Cheat Sheets for Machine Learning and Data Science

sites.google.com

실무에서 이런걸 외우고 할일은 없겠지만,

실제로 면접 때 많은 질문을 받았던 내용을 정리한 것 같아서 한번 훑고 갈만하다.

이런 식으로 기본 개념이 한 페이지에 정리되어 있어서 보기 편하다.

이렇게 면접 준비 팁도 친절하게 써있다.

사실 대부분 경력직을 뽑기 때문에

이전 경력과 관련해 technical questions을 물어보는 형태로 진행되는 경우가 많은데,

자신이 했던 프로젝트와 관련된 ML/DL 개념들을 한번 다시 살펴보고 가는 것이 좋을 듯하다.

프로젝트를 하면서 치열하게 고민했다면 자연스럽게 터득하게 되겠지만,

프로젝트 '완료'에 목표를 두고 너무 빠르게 달려왔다면 관련해서 어떤 개념들이 있는지,

다른 해결 방법들이 있는지, 혹은 왜 그 방법을 썼는지에 대한 질문에 대해 답하지 못할 가능성이 높다.

저작자표시 비영리 변경금지 (새창열림)

'데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집' 카테고리의 다른 글

데이터 사이언티스트/데이터 분석가/데이터 엔지니어 인터뷰 정보 제공 사이트 (0)	2022.03.18
[실전 데이터사이언티스트 면접 문제] 클러스터링 알고리즘 평가 (0)	2021.09.07
머신러닝 딥러닝 인터뷰 문제 150+ (0)	2021.08.23
데이터 사이언티스트 면접 문제 한 눈에 살펴 보기 (0)	2021.03.28
데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집 (0)	2021.03.28

728x90

링크드인에서 찾은 자료인데,

모든 문제가 와닿지(?)는 않지만...

좋은 문제들도 있어서 공유해요.

인터뷰 준비하지 않더라도

심심할때 하나씩 생각해보는 것도 나쁘지 않을 것 같네요.

250+ ML DL Inteview Questions.pdf

0.07MB

해답은 갖고있지 않아요~ ㅠ_ㅠ

1. How you can define Machine Learning?
2. What do you understand Labelled training dataset?
3. What are 2 most common supervised ML tasks you have performed so far?
4. What kind of Machine learning algorithm would you used to walk robot in various unknown area?
5. What kind of ML algo you can use to segment your user into multiple groups?
6. What type of learning algo realised on similarity measure to make a prediction?
7. What is an online learning system?
8. What is out of core learning?
9. Can you name couple of ml challenges that you have faced?
10. Can you please give 1 example of hyperparameter tuning wrt some classification algorithm?
11. What is out of bag evaluation?
What do you understand by hard & soft voting classifier?
13. Let’s suppose your ML algorithm is taking 5 min time to train, How will you bring down time to 5 second for
training? (Hint: Distributed Computation)
14. Let’s Suppose I have trained 5 diff model with same training dataset & all of them have achieved 95%
precision. Is there any chance that you can combine all these models to get better result? If yes, How? If no,
Why?
15. What do you understand by Gradient decent? How will you explain Gradient decent to a kid?
Can you please explain diff between regression & classification?
Explain a clustering algorithm of your choice.
How you can explain ML, DL, NLP, Computer vision & reinforcement learning with example in your own
terms?
19. How you can explain semi-supervised ML in your own way with example?
20. What is difference between abstraction & generalization in your own word.
21. What are the steps that you have followed in your last project to prepare the dataset?
In your last project what steps were involved in model selection procedure?
23. If I give you 2 columns of any dataset, what will be the steps will be involved to check the relationship
between those 2 columns?
24. Can you please explain 5 diff kind of strategies at least to handle missing values in dataset?
25. What kind of diff. issues you have faced wrt your raw data? At least mention 5 issues.
What is your strategy to handle categorical dataset? Explain with example.
27. How do you define a model in terms of machine learning or in your own word?
28. What do you understand by k fold validation & in what situation you have used k fold cross validation?
What is meaning of bootstrap sampling? explain me in your own word.
What do you understand by underfitting & overfitting of model with example?

What is diff between cross validation and bootstrapping?
What do you understand by silhouette coefficient?
What is the advantage of using ROC Score?
34. Explain me complete approach to evaluate your regression model
Give me example of lazy learner and eagar learner algorithms example.
What do you understand by holdout method?
What is diff between predictive modelling and descriptive modelling.
How you have derived a feature for model building in your last project?
Explain 5 different encoding techniques.
How do you define some features are not important for ML model? What strategy will you follow
What is difference between Euclidian distance and Manhattan distance. Explain in simple words.
What do you understand by feature selection, transformation, engineering and EDA & What are the steps
that you have performed in each of these in detail with example.
What is difference between single values decomposition (SVD) and PCA? (hint: SVD is one of the way to do
PCA)
What kind of feature transformations you have done in your last project?
45. Have you taken any external feature in any of project from any 3rd party data? If yes, explain that scenario.
If your model is overfitted, what you will do next?
Explain me bias variance trade-off.
What steps would you take to improve accuracy of your model? At-least mention 5 approach. And justify
why would you choose those approach
Explain process of feature engineering in context of text categorization.
Explain vectorization and hamming distance.
Can you please explain chain rule and its use?
What is difference between correlation and covariance?
What are the sampling techniques you have used in your project?
Have you ever used Hypothesis testing in your last project, if yes, explain How?
In which case you will use naïve Bayes classifier and decision tree separately?
What is the adv & disadvantage of naïve Bayes classifier, explain
In case of numerical data what is naïve Bayes classification equation you will use?
Give me scenario where I will be able to use a boosting classifier and regressor?
In case of Bayesian classifier what exactly it tries to learn. Define its learning procedure.
Give me a situation where I will be able to use SVM instead of Logistic regression.
What do you understand by rbf kernel in SVM?
Give me 2 scenarios where AI can be used to increase revenue of travel industry.
What do you understand by leaf node in decision tree?
What is information gain & Entropy in decision tree?
Give disadvantages of using Decision tree
List some of the features of random forest.
How can you avoid overfitting in decision tree?
Explain polynomial regression in your own way.
Explain learning mechanism of linear regression.
What is the cost function in logistic regression?
What is the error function in linear regression?
What is the use of implementing OLS technique wrt dataset?
Explain dendrogram in your own way.
How do you measure quality of clusters in DBSCAN?
How do you evaluate DBSCAN algorithm?
What do you understand by market basket analysis?
Explain centroid formation technique in K Means algorithm.
Have you ever used SVM regression in any of your project, If yes, Why?
Explain the concept of GINI Impurity.
Let’s suppose I have given you dataset with 100 column how you will be able to control growth of decision
tree?
If you are using Ada-boost algorithm & if it is giving you underfitted result What is the hyperparameter tuning
you will do?
Explain gradient boosting algorithm.
Can we use PCA to reduce dimensionality of highly non-linear data.
How do you evaluate performance of PCA.
Have you ever used multiple dimensionality techniques in any project? if yes, give reason. If no, where can
we use it?
What do you understand by curse of dimensionality explain with help of example
What is the difference between anomaly detection and novelty detection
Explain gaussian mixture model.
Give me list of 10 activation functions with explanation
Explain neural network in terms of mathematical function
Can you please corelate a biological neuron and artificial neuron?
Give list of cost functions you heard of, with explanation.
Can I solve problem of classification with tabular data in neural network?
What do you understand by backword propagation in neural network?
Why do we need neural network instead of straight forward mathematical equation?
What are the different weight initialization techniques you have used?
Can you visualize a neural network? if yes provide name of software we can use?
How will you explain training of neural network?
Can you please explain difference between sigmoid & tanh function.
100. Explain disadvantage of using RELU function.
101. How do you select no. of layers & no. of neurons in neural network?
102. Have you ever designed any Neural network architecture by yourself?
103. Can you please explain SWISS Function?
104. What is learning rate in laymen way and how do you control learning rate?
105. What is diff between batch, minibatch & stochastic gradient decent.
106. What do you understand by batch size while training Neural N/w with example
107. Explain 5 best optimizer you know with mathematical explanation.
108. Can you build Neural network without using any library? If yes, prove it.
109. What is use of biases in neural network?
110. How do you do hyper-parameter tuning for neural network
111. What kind of regularization you used wrt neural network.
112. What are the libraries you have used for neural network implementation?
113. What do you understand by custom layer and a custom model?
114. How do you implement differentiation using TensorFlow or Pytorch library?
115. What is meaning of epoch in simple terms?
116. What do you understand by a TensorFlow record?

117. Explain the technique for doing data augmentation in deep learning
118. List down diff CNN network you heard of.
119. List down a names of object detection algorithm you know
120. What is difference between object detection and classification?
121. List down major tasks we perform in CNN.
122. List down algorithms for segmentation
123. Which algorithm you can use to track a football in football match.
124. If I give you a satellite image data, so which algo you will use to identify image from those image data
125. Which algorithm you will use for PCB fault detection.
126. What do you understand by pretrained model?
127. Explain different types of transfer learning.
128. Explain me where your CNN network will fail with example. And where we can use RNN network.
129. Which GPU you have been using to train your object detection model?
130. How much data set you have used for this model, what was epoch, time and accuracy of the model
131. What kind of optimization you have done for training object detection model
132. How do you evaluate your object detection model?
133. List down algorithm for object tracking
134. What do you understand by FPS (frame per second)?
135. Can you please explain 2D & 3D convolution?
136. What do you understand by batch normalization?
137. Which algorithm you use for detecting handwriting detection?
138. Explain me SoftMax function.
139. What is disadvantage of using RNN?
140. List down at least 5 RNN?
141. Explain architectural diagram of LSTM, Also list Adv & dis adv
142. Explain architectural diagram of BI LSTM, Also list Adv & dis adv
143. Explain architectural diagram of stacked LSTM. Also list Adv & dis adv
144. What do you understand by TF-IDF
145. How you will be able to create a Word 2 vector of your own
146. List down at least 5 vectorization technique.
147. What is difference between RNN and Encoder-Decoder.
148. What do you understand by attention mechanism and what is use of it
149. Have you read a research paper Attention you all need? If not, then why you are claiming you know NLP
150. What do you understand by multi headed attention? explain

저작자표시 비영리 변경금지 (새창열림)

'데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집' 카테고리의 다른 글

데이터 사이언티스트/데이터 분석가/데이터 엔지니어 인터뷰 정보 제공 사이트 (0)	2022.03.18
[실전 데이터사이언티스트 면접 문제] 클러스터링 알고리즘 평가 (0)	2021.09.07
데이터 사이언티스트 면접을 위한 치트시트 (Cheat Sheets for Machine Learning and Data Science) (0)	2021.08.26
데이터 사이언티스트 면접 문제 한 눈에 살펴 보기 (0)	2021.03.28
데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집 (0)	2021.03.28

728x90

넷플릭스(Netflix)에 맞서기 위해 디즈니에서 인수한 OTT 플랫폼 훌루(Hulu)!

Hulu의 데이터 사이언티스트 & 데이터 엔지니어들이 모여서 만든 데이터 사이언티스트 & 데이터 엔지니어를 위한 인터뷰 가이드서 <데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집>의 목차를 살펴볼게요.

sample 파일은

https://jpub.tistory.com/attachment/cfile25.uf@9989694A5EF1BDCE0EC2E4.pdf

여기서 다운로드 받아 주세요^^

인터뷰 문답집이지만 사실 데이터 사이언스 개념을 정리하기 위한 서적입니다.

혹시 관련해서 궁금하신 부분이 있다면 문의는 언제든 환영합니다:)

저작자표시 비영리 변경금지 (새창열림)

'데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집' 카테고리의 다른 글

데이터 사이언티스트/데이터 분석가/데이터 엔지니어 인터뷰 정보 제공 사이트 (0)	2022.03.18
[실전 데이터사이언티스트 면접 문제] 클러스터링 알고리즘 평가 (0)	2021.09.07
데이터 사이언티스트 면접을 위한 치트시트 (Cheat Sheets for Machine Learning and Data Science) (0)	2021.08.26
머신러닝 딥러닝 인터뷰 문제 150+ (0)	2021.08.23
데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집 (0)	2021.03.28

728x90

jpub.tistory.com/1057

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집

로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지! ■ 도서구매 사이트(가나다순) [교보문고] [도서11번가] [반디앤루니스] [알라딘] [영풍문고] [예스

jpub.tistory.com

저작자표시 비영리 변경금지 (새창열림)

'데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집' 카테고리의 다른 글

데이터 사이언티스트/데이터 분석가/데이터 엔지니어 인터뷰 정보 제공 사이트 (0)	2022.03.18
[실전 데이터사이언티스트 면접 문제] 클러스터링 알고리즘 평가 (0)	2021.09.07
데이터 사이언티스트 면접을 위한 치트시트 (Cheat Sheets for Machine Learning and Data Science) (0)	2021.08.26
머신러닝 딥러닝 인터뷰 문제 150+ (0)	2021.08.23
데이터 사이언티스트 면접 문제 한 눈에 살펴 보기 (0)	2021.03.28

DataManyo