Data Analyst Training
기술분야 | Cloudera | 신청하기 | |
교육일정 | 2018-06-11~2018-06-14 | 교육 기간 | 4 일 |
교육 금액 | 2,394,000원 | 쿠폰등록시 | 0매 |
접수파일 |
이벤트&프로모션 |
과정 설명 |
본 과정은 Apache Pig, Hive, Cloudera Impala에 초점을 맞추어 빅데이터에 기존의 데이터를 분석하고 비즈니스 인텔리전스 기술을 적용하는 방법을 학습합니다. Cloudera 는 데이터 전문가들이 Java 프로그래밍 전문 지식 없이 SQL과 익숙한 스크립트 언어들로 복잡한 데이터 세트를 액세스하고 조작, 변환, 분석하는 데에 필요한 도구들을 제공합니다. 본 과정에서는 다음의 내용들을 자세히 학습합니다. - Pig, Hive, Impala가 데이터 수집, 저장, 분석을 위해 제공하는 기능 - 기본적인 Apache Hadoop과 data ETL(extract, transform, load), ingestion, 그리고 Hadoop 도구 사용 및 처리 - Pig, Hive, Impala가 일반적인 분석작업의 생산성을 개선하는 방법 - 가치 있는 사업 통찰력을 얻기 위해 다양한 데이터세트를 결합 - 데이터세트에 실시간으로 복잡한 쿼리를 수행 |
수강 대상 |
- 데이터 분석가, 비즈니스 인텔리전스 스페셜리스트, 개발자, 시스템 아키텍트, 데이터베이스 관리자 |
과정 소개 |
Module1. Hadoop 기본 • Hadoop에 대한 동기부여 • Hadoop 개요 • 데이터 저장소: HDFS • 분산 데이터 처리: YARN, MapReduce, Spark • 데이터 처리 및 분석: Pig, Hive, Impala • 데이터 통합: Sqoop • 기타 Hadoop 데이터 도구들 • 실습 시나리오 설명 Module2. Pig 개요 • Pig란 무엇인가 • Pig의 기능 • Pig 실제 사례 • Pig와 상호작용 Module3. Pig를 이용한 기본적인 데이터 분석 • Pig Latin Syntax • 데이터 로딩 • 단순 데이터 유형 • 필드 정의 • 데이터 출력 • 스키마 보기 • 데이터 분류 및 정렬 • 일반적으로 사용되는 기능 Module4. Pig를 이용해 복잡한 데이터 처리 • 저장소 포맷 • 복합/중첩된 데이터 유형 • Grouping • 복잡한 데이터에 대한 내장함수 • Iterating Grouped Data Module5. Pig를 활용한 다중 데이터 집합작업 • 데이터 세트 결합에 필요한 기술 • Pig에서 데이터 세트 결합 • 작업 설정 • 데이터 세트 분할 Module6. Pig 장애해결 및 최적화 • Pig 장애해결 • Logging • Hadoop의 Web UI 사용 • Data Sampling and Debugging • 성능 개요 • 실행계획의 이해 • Pig Job들의 성능 개선을 위한 팁 Module7. Hive 와 Impala 개요 • Hive란 무엇인가? • Impala란 무엇인가 • Schema 와 데이터 저장소 • Hive를 전통적인 데이터베이스와 비교하기 • Hive 실제 사례 Module8. Hive 와 Impala로 Querying 하기 • Databases 및 Tables • 기본적인 Hive 와 Impala Query 언어 구문 • 데이터 종류 • Hive 와 Impala Query 구문 사이의 차이점 • Hue 를 사용해서 쿼리 실행 • Impala Shell 사용 Module9. 데이터 관리 • 데이터 저장소 • 데이터 베이스와 테이블 생성 • 데이터 로딩 • 데이터베이스 및 테이블 변경 • Views를 사용해 Query 단순화 • Query 결과 저장 Module10. 데이터 저장 및 성능 • 파티션 테이블 • 정확한 파일 포맷 선택 • 메타데이터 관리 • 데이터 접근 통제 Module11. Hive 와 Impala를 사용해 관계형 데이터 분석 • 데이터 세트 결합 • 일반적인 내장 함수(functions) • Aggregation and Windowing Module12. Impala 작업 • Impala 쿼리 실행 방법 • 사용자 정의 함수와 Impala 확장 • Impala 성능 개선 Module13. Hive로 복잡한 텍스트나 데이터를 분석 • Hive에서의 복잡한 값 • Hive의 정규 표현식 사용 • 심리 분석 및 N-Grams • 결론 Module14. Hive 최적화 • 쿼리 성능에 대해 이해 • 작업 실행계획을 제어 • Bucketing • 인덱싱 데이터 Module15. Hive 확장 • SerDes • 사용자 지정 스크립트로 데이터 변형 • 사용자 정의 함수 • 매개 변수화 된 쿼리 Module16. 작업을 위한 최적의 도구 선택 • MapReduce, Pig, Hive, Impala, 관계형 데이터베이스 비교 • 어떤 도구(Tool)를 선택해야 할까 |
선수과정 |
- SQL에 대한 지식 - Linux 기본 - Bash scripting, Perl, Python, Ruby 등 기초적인 스크립트 언어능력 |
교육 장소 |
한국글로벌널리지 교육센터 [찾아오시는 길] 서울특별시 강남구 테헤란로 222 도원빌딩 3층~4층 [교육장 약도] ![]() |