Developer Training for Spark and Hadoop

기술분야 Cloudera 신청하기
교육일정 2017-03-27~2017-03-30 교육 기간 4 일
교육 금액 2,790,000원 쿠폰등록시 0매
접수파일
이벤트&프로모션
List Price : 3,990,000원(USD3,195) -> 특별 판매가 2,790,000원 으로 진행되고 있습니다.
과정 설명
본 과정은 Spark, Hive, Flume, Sqoop, Impala 및 Hadoop 에코시스템 툴들과 최신 기술들을 적용하여 아파치 하둡 클러스터 및 프로세스로 데이터를 가져 오는 방법에 대해 핵심 개념들을 학습합니다. 수강자들은 어떤 툴이 해당 상황에 가장 적합한지에 대해 배우고, 이러한 툴들에 대해 직접적인 개발 실무 경험을 쌓게 될 것입니다.
본 과정에서는 다음의 내용들을 자세히 학습합니다.

- Hadoop Cluster 안에서 데이터를 분산, 저장, 처리하는 방법
- 데이터를 흡수시키기 위해 Sqoop과 Flume을 사용하는 방법
- Apache Spark으로 분산된 데이터를 처리하는 방법
- Impala와 Hive 안에서 테이블로 구조화 된 데이터를 모델링 하는 방법
- 서로 다른 데이터 사용 패턴 중에서 최적의 데이터 저장 포맷을 선택하는 방법
- 데이터 저장을 위한 모범 사례
수강 대상
- 프로그래밍 경험이 있는 개발자 또는 엔지니어
과정 소개

Module1. HadoopHadoop 에코시스템에 대한 개요

전통적인 대규모 시스템에 관한 문제들

하둡 (Hadoop)

Hadoop 에코시스템

Module2. Hadoop 아키텍처 와 HDFS

Cluster 상에서 분산처리

Storage: HDFS Architecture

Storage: HDFS를 사용하기

리소스 관리: YARN Architecture

리소스 관리: YARN을 사용하기

Module3. Apache Sqoop 를 이용해 관계형 데이터 불러오기

Sqoop 개요

기본적인 가져오기와 내보내기

결과 제한 (Limiting Results)

Sqoop의 성능 향상

Sqoop 2

Module4. Impala Hive의 개요

Impala Hive의 소개

Impala Hive를 사용하는 이유

Hive를 전통적인 데이터베이스에 비교

Hive 사용 사례

Module5. Impala Hive를 이용하여 데이터 관리 및 모델링

데이터 저장 개요

테이터베이스와 테이블 생성

테이블에 데이터 로딩

HCatalog

Impala Metadata Caching

Module6. 데이터 포맷

파일 포맷 선택하기

Hadoop 툴이 지원하는 파일 포맷

Avro Schemas

AvroHive Sqoop 과 함께 사용하기

Avro 스키마 Evolution

압축

Module7. 데이터 분할

분할의 개요

Impala Hive에서 데이터 분할

Module8. Apache Flume를 이용한 Data Capturing

Apache Flume이란

Flume 아키텍처 기본

Flume Sources

Flume Sinks

Flume 채널

Flume 설정

Module9. Spark 기초

Apache Spark 정의

Spark Shell 사용

RDDs (Resilient Distributed Datasets)

Spark 내에서의 기능적 프로그래밍

Module10. Spark에서의 RDD 활용

RDDs 들에 대한 정밀한 분석

Key-Value Pair RDDs

MapReduce

기타 Pair RDD 운영

Module11. Spark 어플리케이션 작성 및 배포

Spark ApplicationsSpark Shell을 비교

SparkContext 생성

Spark Application 만들기 (Scala and Java)

Spark Application 실행

The Spark Application Web UI

Spark 속성 구성하기

로깅(Logging)

Module12. Spark를 이용한 병렬 프로그래밍

복습: Cluster에서의 Spark

RDD 분할

파일 기반의 RDD 분할

HDFS 와 데이터 지역성

병렬작업의 실행

단계 및 작업

Module13. Spark Caching Persistence

RDD Lineage

Caching 개요

Distributed Persistence

Module14. Spark 데이터 처리에 있어서의 일반적인 패턴

일반적인 Spark 사용 예시

Spark에서의 반복적인 알고리즘들

그래프 처리 및 분석

기계 학습(Machine Learning)

사례: k-means

Module15. 미리보기: Spark SQL

Spark SQL SQL 문맥

DataFrames 생성

DataFrames 에 대한 질의 및 변형

DataFrames 저장

Impala Spark SQL 비교

선수과정
- Scala 또는 Python 프로그램 언어에 대한 기본지식
- 리눅스 명령어 기본지식
- SQL 기본지식
교육 장소
한국글로벌널리지 교육센터

[찾아오시는 길]
서울특별시 강남구 역삼동 721-13 재송빌딩 3층 (폭스바겐 역삼전시장 3F)

[교육장 약도]