Data Scientist Training

기술분야 Cloudera 신청하기
교육일정 2018-03-19~2018-03-22 교육 기간 4 일
교육 금액 2,394,000원 쿠폰등록시 0매
접수파일
이벤트&프로모션
과정 설명
본 과정은 Apache Spark 2 및 Hadoop 에코 시스템의 주요 구성 요소를 사용하여 데이터 과학 및 기계 학습 워크 플로우를 대규모로 다루는 과정입니다. 본 과정은 실제 비즈니스 문제를 해결하기 위해 데이터 과학 및 기계 학습 방법의 사용을 강조합니다. 허구의 기술 회사의 시나리오와 데이터 세트를 사용하여 학생들은 중요한 비즈니스 의사 결정을 지원하고 비즈니스를 변화시키는 데이터 제품을 개발하기 위한 통찰력을 기를 수 있는 과정입니다. 자료는 일련의 간략한 강의, 상호 작용 시연, 광범위한 실습 및 토론을 제공합니다. Apache Spark 데모 및 연습은 Cloudera Data Science Workbench (CDSW) 환경을 사용하여 Python (PySpark) 및 R (sparklyr)에서 수행됩니다.
수강 대상
- 데이터 과학 및 기계 학습에 대한 지식이있는 데이터 엔지니어 및 개발자
과정 소개
• 규모의 데이터 과학 및 기계 학습 개요
• 하둡 생태계 개요
• Hue를 사용하여 HDFS 데이터 및 Hive 테이블 작업
• Cloudera Data Science Workbench 소개
• Apache Spark 2 개요
• 데이터 읽기 및 쓰기
• 데이터 품질 검사
• 데이터 정리 및 변환
• 데이터 요약 및 그룹화
• 데이터 결합, 분할 및 변형
• 데이터 탐색
• Spark 응용 프로그램 구성, 모니터링 및 문제 해결
• Spark MLlib에서의 기계 학습 개요
• 피쳐 추출, 변형 및 선택
• 회귀 모델 작성 및 평가
• 분류 모델 구축 및 평가
• 클러스터링 모델 작성 및 평가
• 모델의 교차 검증 및 하이퍼 파라미터 조정
• 빌딩 기계 학습 파이프 라인
• 기계 학습 모델 배포
선수과정
- Python 또는 R에 대한 기본적인 지식과 데이터 탐구 및 분석, 통계 또는 기계 학습 모델 개발 경험이 있어야합니다. 하둡 또는 스파크에 대한 지식은 필요하지 않습니다.
교육 장소
한국글로벌널리지 교육센터

[찾아오시는 길]
서울특별시 강남구 테헤란로 222 도원빌딩 3층~4층

[교육장 약도]