HD Insight를 활용한 하둡, 스파크 엔지니어링

기술분야 Microsoft
교육일정 교육 기간 5 일
교육 금액 0원 쿠폰등록시 0매
접수파일
이벤트&프로모션
과정 설명
수강 대상
과정 소개
커리큘럼
1일차 모듈 1 : HDInsight 시작하기

• 빅 데이터란 무엇인가?
• Hadoop 소개
• MapReduce 함수로 작업하기
• HDInsight 소개


모듈 2 : HDInsight 클러스터 구성하기

• HDInsight 클러스터 유형 식별
• Azure 포털을 사용하여 HDInsight 클러스터 관리
• Azure PowerShell을 사용하여 HDInsight 클러스터 관리


모듈 3 : 사용자에게 리소스를 액세스할 수 있도록 권한 부여하기

• 비 도메인 조인 클러스터
• 도메인에 참여한 HDInsight 클러스터 구성
• 도메인에 참여한 HDInsight 클러스터를 관리
2일차 모듈 4 : HDInsight에 데이터 적재

• HDInsight 처리를 위한 데이터 저장
• 데이터적재 도구 사용
• 저장된 데이터의 가치 극대화


모듈 5 : HDInsight 문제 해결

• HDInsight 로그 분석
• YARN 로그
• 힙 덤프
• 운영 관리 제품군


모듈 6 : 배치 솔루션 구현

• 아파치 하이브 스토리지
• Hive 및 Pig를 사용한 HDInsight 데이터 쿼리
• HDInsight 운영
3일차 모듈 7 : Spark를 활용한 ETL 솔루션 설계

• Spark란 무엇인가?
• Spark를 위한 ETL
• Spark 성능


모듈 8 : Spark SQL을 이용한 데이터 분석

• 반복적인 대화형 쿼리 구현
• 탐색 데이터 분석 수행
4일차 모듈 9 : Hive와 Phoenix로 데이터 분석

• 인터렉티브 하이브로 빅 데이터에 대한 인터랙티브 쿼리 구현
• 하이브를 사용하여 데이터 탐색 분석 수행
• Apache Phoenix를 사용한 대화식 처리 수행


모듈 10 : 스트림 분석
• 스트림 분석
• 스트림 분석을 통한 스트리밍 데이터 처리
• 스트림 분석 작업 관리


모듈 11 : Kafka 및 HBase로 스트리밍 솔루션 구현

• Kafka 클러스터 구축 및 배포
• Kafka 클러스터를 사용한 데이터를 게시, 소비 및 처리
• HBase를 사용한 데이터 저장 및 쿼리
5일차 모듈 12 : Apache Storm으로 실시간 빅데이터 처리 솔루션 개발

• Long term data 유지
• Storm을 활용한 데이터 스트리밍
• Storm 토폴로지 만들기
• Apache Storm 구성


모듈 13 : Spark Streaming 응용 프로그램 만들기

• Spark Streaming 작업
• Spark Structured Streaming 응용 프로그램 만들기
• 지속성 및 시각화 
교육 장소
온라인 강의