模塊七:新一代大數據處理引擎Flink |
章 |
節 |
練習 |
學習目標與案例 |
第3章:Flink的體系架構與部署 |
- Flink簡介
- Flink的體系架構
- Flink的安裝與部署
- Flink的分布式緩存
- 對比:Flink、Storm和Spark Streaming
|
安裝與部署Flink環境 |
掌握Flink的體系架構與生態圈組件 |
第4章:Flink on Yarn的實現 |
- 什么是Yarn?與Yarn的體系架構
- 部署Yarn
- Flink on Yarn的兩種模式
- Flink on Yarn兩種模式的區別
|
部署Flink on Yarn |
理解并掌握Flink on Yarn的兩種模式的特點 |
第5章:Flink HA的實現 |
- 什么是HA?為什么需要HA?
- 大數據分布式協調框架ZooKeeper
- 什么是ZooKeeper
- 搭建ZooKeeper環境
- ZooKeeper的特性
- 實現分布式鎖
- 部署Flink HA高可用架構環境
|
部署Flink HA環境 |
什么是HA?Flink HA的架構 |
第6章:Flink開發入門 |
- Flink批處理開發
- Java版本WordCount
- Scala版本WordCount
- Flink流處理開發
- Java版本WordCount
- Scala版本WordCount
- 使用Flink Scala Shell
- Flink的并行度分析
|
搭建Flink開發環境并開發應用程序 |
掌握基本的Flink API編程 |
第7章:Flink DataSet API開發 |
- Map、FlatMap與MapPartition
- Filter與Distinct
- Join操作
- 笛卡爾積
- First-N
- 外鏈接操作
|
基于DataSet API開發Flink離線計算應用 |
掌握常用的Flink DataSet API算子的作用 |
第8章:Flink DataStreaming API開發 |
- DataSources
- 基本的數據源示例
- 自定義數據源
- 內置的Connector
- DataStream Transformation 轉換操作
- Data Sinks
- 集成Flink與Kafka
|
基于DataSet Stream開發Flink離線計算應用 |
掌握常用的Flink DataStream API算子的作用 |
第9章:狀態管理和恢復 |
- 狀態:State
- Keyed State
- Operator State
- 檢查點:Checkpoint
- 檢查點的配置:
- state backend存儲模式
- 修改State Backend的兩種方式
- 示例
- Restart Strategies(重啟策略)
|
開發應用進行Flink的有狀態計算 |
理解并掌握Flink的狀態管理機制 |
第10章:Window和Time |
- 窗口:Window
- Time Window示例
- Count Window示例
- Time:時間
- WaterMark:水位線
- Watermark的原理
- Watermark的三種使用情況
- 設置Watermark的核心代碼
- 窗口的allowedLateness
|
|
什么是Flink的窗口操作 |
第11章:Flink Table & SQL |
- Flink Table & SQL簡介
- 開發Flink Table & SQL程序
- 使用Flink SQL Client
|
使用Flink SQL分析處理數據 |
掌握Flink的數據分析模塊 |
|
|
|
|
|