一、培訓簡述
全面掌握大數據的理論基礎和實現原理,通過具體的實操和練習讓學員全面實戰大數據。通過此次課程培訓,可使學習者獲得如下收益:
徹底理解Hadoop、Spark和Flink為代表的大數據處理引擎的運行機制和原理,包括:
MapReduce
Spark Core
Flink Runtime
掌握Hadoop生態體系的海量數據存儲架構(原理、安裝、使用),包括:
分布式文件系統HDFS
NoSQL數據庫HBase
數據分析引擎:Hive
掌握Spark生態體系架構(原理、安裝、使用),包括:
Spark Core、Spark SQL、Spark Streaming
Spark Shell、Spark集群、RDD
掌握Spark、Hadoop、Flink協同工作,能夠通過Spark、Hadoop和Flink輕松應對大數據的業務需求;
掌握Flink生態體系架構(原理、安裝、使用),包括:
Flink Standalone與Flink on Yarn
Flink DataSet與Flink DataStream
Flink Table & SQL。
二、培訓特色
PPT+教材+參考資料
提供配套的實驗環境
場景+案例+模擬環境,動手實踐
手把手解決問題+解決問題經驗分享。
三、培訓收益
掌握基于大數據的體系架構、管理、部署,以及相應組件的原理和應用場景。
讓學員具備部署基于企業大數據平臺環境的能力。
四、培訓時長
共計3天,每天6課時
五、培訓大綱
第一天(Hadoop核心原理) |
章 |
節 |
學習目標 |
應用案例 |
第一章:實驗環境的準備 |
|
準備實驗環境 |
|
第二章:大數據背景知識與起源 |
- Hadoop部分各章概述
- 實驗環境簡介與準備
- 幾個基本概念
- Google的低成本思想
- Google的思想論文之一:GFS
- Google的思想論文之二:MapReduce
- Google的思想論文之三:BigTable
|
理解并掌握大數據的底層原理 |
基于Hadoop的大數據離線計算平臺整體架構 |
第三章:搭建Hadoop環境 |
- Hadoop的目錄結構
- 搭建Hadoop的本地模式
- 搭建Hadoop的偽分布模式
- 免密碼登錄的原理和配置
- 搭建Hadoop的全分布環境
|
安裝和配置Hadoop環境 |
第四章:Hadoop的體系架構 |
- Hadoop體系結構概述
- HDFS的體系結構
- Yarn的體系結構
- Yarn的體系結構和任務的調度
- Yarn的資源分配方式
- HBase的體系結構簡介
- 主從結構的單點故障問題及解決方案
|
理解并掌握Hadoop的體系架構 |
基于HDFS搭建電商大數據平臺的數據倉庫 |
第五章:HDFS |
- HDFS概述
- 操作HDFS
- 通過Web Console操作HDFS
- 通過命令行操作HDFS
- 使用Java API創建目錄和權限問題
- 使用Java API上傳和下載數據
- 使用Java API獲取文件信息
- HDFS的原理剖析
- HDFS上傳數據的過程和原理
- HDFS下載數據的過程和原理
- HDFS的高級功能
- HDFS的回收站
- HDFS的快照
- HDFS的安全模式和權限
- HDFS的配額
- HDFS的集群簡介
- HDFS的底層原理
- HDFS底層原理之一:代理對象
- HDFS底層原理之二:什么是RPC?
|
掌握HDFS |