회사이미지

Global Vendors Training

Home > Global Vendors Training > 전체교육일정

Cloudera

Developer Training For Spark and Hadoop

교육일정
교육기간
4일
교육금액
2,394,000원(면세)
Cloudera전체일정보기 수강신청

교육개요

"본 과정은 Spark, Hive, Flume, Sqoop, Impala 및 Hadoop 에코시스템 툴들과 최신 기술들을 적용하여 아파치 하둡 클러스터 및 프로세스로 데이터를 가져 오는 방법에 대해 핵심 개념들을 학습합니다. 수강자들은 어떤 툴이 해당 상황에 가장 적합한지에 대해 배우고, 이러한 툴들에 대해 직접적인 개발 실무 경험을 쌓게 될 것입니다.
본 과정에서는 다음의 내용들을 자세히 학습합니다.



교육목표

"- Hadoop Cluster 안에서 데이터를 분산, 저장, 처리하는 방법
- 데이터를 흡수시키기 위해 Sqoop과 Flume을 사용하는 방법
- Apache Spark으로 분산된 데이터를 처리하는 방법
- Impala와 Hive 안에서 테이블로 구조화 된 데이터를 모델링 하는 방법
- 서로 다른 데이터 사용 패턴 중에서 최적의 데이터 저장 포맷을 선택하는 방법
- 데이터 저장을 위한 모범 사례



수강대상

"프로그래밍 경험이 있는 개발자 또는 엔지니어



선수과목

"- Scala 또는 Python 프로그램 언어에 대한 기본지식
- 리눅스 명령어 기본지식
- SQL 기본지식



강의내용

"Module1. Hadoop과 Hadoop 에코시스템에 대한 개요
? 전통적인 대규모 시스템에 관한 문제들
? 하둡 (Hadoop)
? Hadoop 에코시스템

Module2. Hadoop 아키텍처 와 HDFS
? Cluster 상에서 분산처리
? Storage: HDFS Architecture / Storage: HDFS를 사용하기
? 리소스 관리: YARN Architecture / 리소스 관리: YARN을 사용하기

Module3. Apache Sqoop 를 이용해 관계형 데이터 불러오기
? Sqoop 개요 및 기본적인 가져오기와 내보내기
? 결과 제한 (Limiting Results), Sqoop의 성능 향상 & Sqoop 2

Module4. Impala 와 Hive의 개요
? Impala 와 Hive의 소개, Impala 와 Hive를 사용하는 이유
? Hive를 전통적인 데이터베이스에 비교
? Hive 사용 사례

Module5. Impala 와 Hive를 이용하여 데이터 관리 및 모델링
? 데이터 저장 개요 및 테이터베이스와 테이블 생성
? 테이블에 데이터 로딩, HCatalog, Impala Metadata Caching

Module6. 데이터 포맷
? 파일 포맷 선택하기, Hadoop 툴이 지원하는 파일 포맷
? Avro Schemas, Avro를 Hive 와 Sqoop 과 함께 사용하기
? Avro 스키마 Evolution, 압축

Module7. 데이터 분할
? 분할의 개요
? Impala 와 Hive에서 데이터 분할

Module8. Apache Flume를 이용한 Data Capturing
? Apache Flume이란? Flume 아키텍처 기본
? Flume Sources, Flume Sinks, Flume 채널, Flume 설정

Module9. Spark 기초
? Apache Spark 정의, Spark Shell 사용
? RDDs (Resilient Distributed Datasets), Spark 내에서의 기능적 프로그래밍

Module10. Spark에서의 RDD 활용
? RDDs 들에 대한 정밀한 분석, Key-Value Pair RDDs
? MapReduce, 기타 Pair RDD 운영

Module11. Spark 어플리케이션 작성 및 배포
? Spark Applications과 Spark Shell을 비교
? SparkContext 생성
? Spark Application 만들기 (Scala and Java)
? Spark Application 실행
? The Spark Application Web UI
? Spark 속성 구성하기
? 로깅(Logging)

Module12. Spark를 이용한 병렬 프로그래밍
? 복습: Cluster에서의 Spark
? RDD 분할
? 파일 기반의 RDD 분할
? HDFS 와 데이터 지역성
? 병렬작업의 실행
? 단계 및 작업

Module13. Spark Caching 과 Persistence
? RDD Lineage
? Caching 개요
? Distributed Persistence

Module14. Spark 데이터 처리에 있어서의 일반적인 패턴
? 일반적인 Spark 사용 예시
? Spark에서의 반복적인 알고리즘들
? 그래프 처리 및 분석
? 기계 학습(Machine Learning)
? 사례: k-means

Module15. 미리보기: Spark SQL
? Spark SQL 과 SQL 문맥
? DataFrames 생성
? DataFrames 에 대한 질의 및 변형
? DataFrames 저장
? Impala 와 Spark SQL 비교



기타

교육비 면세