Data Analyst Training

기술분야 Cloudera 신청하기
교육일정 2017-08-28~2017-08-31 교육 기간 4 일
교육 금액 2,394,000원 쿠폰등록시 0매
접수파일
이벤트&프로모션
List Price : 3,990,000원(USD3,195) -> 특별 판매가 2,790,000원 으로 진행되고 있습니다.
과정 설명
본 과정은 Apache Pig, Hive, Cloudera Impala에 초점을 맞추어 빅데이터에 기존의 데이터를 분석하고 비즈니스 인텔리전스 기술을 적용하는 방법을 학습합니다. Cloudera 는 데이터 전문가들이 Java 프로그래밍 전문 지식 없이 SQL과 익숙한 스크립트 언어들로 복잡한 데이터 세트를 액세스하고 조작, 변환, 분석하는 데에 필요한 도구들을 제공합니다.
본 과정에서는 다음의 내용들을 자세히 학습합니다.

- Pig, Hive, Impala가 데이터 수집, 저장, 분석을 위해 제공하는 기능
- 기본적인 Apache Hadoop과 data ETL(extract, transform, load), ingestion, 그리고 Hadoop 도구 사용 및 처리
- Pig, Hive, Impala가 일반적인 분석작업의 생산성을 개선하는 방법
- 가치 있는 사업 통찰력을 얻기 위해 다양한 데이터세트를 결합
- 데이터세트에 실시간으로 복잡한 쿼리를 수행
수강 대상
- 데이터 분석가, 비즈니스 인텔리전스 스페셜리스트, 개발자, 시스템 아키텍트, 데이터베이스 관리자
과정 소개

Module1. Hadoop 기본

Hadoop에 대한 동기부여

Hadoop 개요

데이터 저장소: HDFS

분산 데이터 처리: YARN, MapReduce, Spark

데이터 처리 및 분석: Pig, Hive, Impala

데이터 통합: Sqoop

기타 Hadoop 데이터 도구들

실습 시나리오 설명

Module2. Pig 개요

Pig란 무엇인가

Pig의 기능

Pig 실제 사례

Pig와 상호작용

Module3. Pig를 이용한 기본적인 데이터 분석

Pig Latin Syntax

데이터 로딩

단순 데이터 유형

필드 정의

데이터 출력

스키마 보기

데이터 분류 및 정렬

일반적으로 사용되는 기능

Module4. Pig를 이용해 복잡한 데이터 처리

저장소 포맷

복합/중첩된 데이터 유형

Grouping

복잡한 데이터에 대한 내장함수

Iterating Grouped Data

Module5. Pig를 활용한 다중 데이터 집합작업

데이터 세트 결합에 필요한 기술

Pig에서 데이터 세트 결합

작업 설정

데이터 세트 분할

Module6. Pig 장애해결 및 최적화

Pig 장애해결

Logging

HadoopWeb UI 사용

Data Sampling and Debugging

성능 개요

실행계획의 이해

Pig Job들의 성능 개선을 위한 팁

Module7. Hive Impala 개요

Hive란 무엇인가?

Impala란 무엇인가

Schema 와 데이터 저장소

Hive를 전통적인 데이터베이스와 비교하기

Hive 실제 사례

Module8. Hive ImpalaQuerying 하기

Databases Tables

기본적인 Hive Impala Query 언어 구문

데이터 종류

Hive Impala Query 구문 사이의 차이점

Hue 를 사용해서 쿼리 실행

Impala Shell 사용

Module9. 데이터 관리

데이터 저장소

데이터 베이스와 테이블 생성

데이터 로딩

데이터베이스 및 테이블 변경

Views를 사용해 Query 단순화

Query 결과 저장

Module10. 데이터 저장 및 성능

파티션 테이블

정확한 파일 포맷 선택

메타데이터 관리

데이터 접근 통제

Module11. Hive Impala를 사용해 관계형 데이터 분석

데이터 세트 결합

일반적인 내장 함수(functions)

Aggregation and Windowing

Module12. Impala 작업

Impala 쿼리 실행 방법

사용자 정의 함수와 Impala 확장

Impala 성능 개선

Module13. Hive로 복잡한 텍스트나 데이터를 분석

Hive에서의 복잡한 값

Hive의 정규 표현식 사용

심리 분석 및 N-Grams

결론

Module14. Hive 최적화

쿼리 성능에 대해 이해

작업 실행계획을 제어

Bucketing

인덱싱 데이터

Module15. Hive 확장

SerDes

사용자 지정 스크립트로 데이터 변형

사용자 정의 함수

매개 변수화 된 쿼리

Module16. 작업을 위한 최적의 도구 선택

MapReduce, Pig, Hive, Impala, 관계형 데이터베이스 비교

어떤 도구(Tool)를 선택해야 할까

선수과정
- SQL에 대한 지식
- Linux 기본
- Bash scripting, Perl, Python, Ruby 등 기초적인 스크립트 언어능력
교육 장소
한국글로벌널리지 교육센터

[찾아오시는 길]
서울특별시 강남구 역삼동 721-13 재송빌딩 3층 (폭스바겐 역삼전시장 3F)

[교육장 약도]