一、培訓簡述
Apache Flink(下簡稱Flink)項目是大數據處理領域最近冉冉升起的一顆新星,其不同于其他大數據項目的諸多特性吸引了越來越多人的關注。Apache Flink 是一個分布式大數據處理引擎,可對有限數據流和無限數據流進行有狀態計算??刹渴鹪诟鞣N集群環境,對各種大小的數據規模進行快速計算。
本次課程將深入分析Flink的一些關鍵技術與特性,希望能夠通過課程的學習對Flink的體系架構和生態圈組件有更加深入的了解,對其他大數據系統開發者也能有所裨益。本課程結合MapReduce、Spark及Storm等大數據處理框架,同時結合業務場景來幫著學員熟悉大數據流處理與批處理的基本概念。
本課程主要包含以下方面內容:
- 了解Flink大數據架構,互聯網企業大數據應用
- 深度了解Flink DataSet API
- 深度了解DataStream API
- 集成Kafka與Flink
- 熟悉Table API
- 熟悉Flink ML
- 熟悉Flink優化與基于大數據的體系架構
二、培訓特色
- PPT+教材+參考資料,理論講解
- 提供配套的實驗環境
- 場景+案例+模擬環境,動手實踐
- 手把手解決問題+解決問題經驗分享
三、培訓收益
- 掌握基于Flink的大數據的體系架構、管理、部署。
- 讓學員具備部署基于Flink的企業大數據平臺環境的能力。
四、培訓時長
共計 3天,每天6課時
五、培訓大綱
第一天:Flink基礎 |
章 |
節 |
練習 |
學習目標 |
第1章:Scala編程語言 |
- Scala語言基礎
- Scala語言的面向對象
- Scala語言的函數式編程
- Scala中的集合
- Scala語言的高級特性
|
編程Scala程序 |
掌握Scala編程語言 |
第2章:常見的大數據計算引擎及其架構 |
- 大數據離線計算引擎
- MapReduce
- Spark Core
- Flink DataSet
- 大數據實時計算引擎
- Storm
- Spark Streaming
- Flink DataStream
|
|
掌握不同的大數據計算引擎的架構特點 |
第3章:Flink的體系架構與部署 |
- Flink簡介
- Flink的體系架構
- Flink的安裝與部署
- Flink的分布式緩存
- 對比:Flink、Storm和Spark Streaming
|
安裝與部署Flink環境 |
掌握Flink的體系架構與生態圈組件 |
第4章:Flink on Yarn的實現 |
- 什么是Yarn?與Yarn的體系架構
- 部署Yarn
- Flink on Yarn的兩種模式
- Flink on Yarn兩種模式的區別
|
部署Flink on Yarn |
理解并掌握Flink on Yarn的兩種模式的特點 |
第5章:Flink HA的實現 |
- 什么是HA?為什么需要HA?
- 大數據分布式協調框架ZooKeeper
- 什么是ZooKeeper
- 搭建ZooKeeper環境
- ZooKeeper的特性
- 實現分布式鎖
- 部署Flink HA高可用架構環境
|
部署Flink HA環境 |
什么是HA?Flink HA的架構 |
第6章:Flink開發入門 |
- Flink批處理開發
- Java版本WordCount
- Scala版本WordCount
- Flink流處理開發
- Java版本WordCount
- Scala版本WordCount
- 使用Flink Scala Shell
- Flink的并行度分析
|
搭建Flink開發環境并開發應用程序 |
掌握基本的Flink API編程 |
第7章:集成Kafka |
- 大數據流式計算的典型架構
- Kafka的體系結構和環境部署
- Kafka核心原理解析
- 集成Flink與Kafka
|
集成Kakfa與Flink |
掌握大數據實時計算的架構與集成 |