培訓背景
大數據平臺技術已經給新興互聯網企業(如電子商務網站、搜索引擎、社交網站、互聯網廣告服務提供商等)、銀行金融證券企業、電信運營商行業、高端裝備制造企業、IT基礎設施提供商等帶來了巨大的商業機遇,大數據平臺在整個企業的價值增值鏈中發揮著至關重要的決定性作用。
培訓收益
1.讓學員充分掌握大數據處理平臺(Hadoop和內存型實時計算Spark)技術架構、以及平臺的安裝部署、運維配置、應用開發實戰技能,熟悉國內外主流的大數據處理解決方案、以及大數據應用案例;
2.本課程強調主流的大數據關鍵技術與大數據處理平臺及其在不同行業中企業的實際應用,立足于實際的行業應用需求,旨在讓企業學員能夠掌握大數據平臺技術及應用如何落地,以及基于大數據平臺的應用程序開發,以及大數據集群的運維技術,讓學員掌握業界主流的大數據平臺的應用和部署,并且結合當前(移動)互聯網環境下產生的大規模結構化與非結構化數據管理以及分析處理需求,詳細講解有機地集成大數據平臺各個功能組件(大數據收集、大數據存儲、大數據管理、大數據挖掘、大數據分析和大數據可視化組件)設計大數據項目,并分享大數據項目應用實施案例;
3.讓學員掌握主流大數據Hadoop平臺和Spark實時處理平臺的技術架構和實際應用,并用結合實際的生產系統案例進行教學,講解利用Hadoop+Spark對行業大數據進行存儲管理和分析挖掘的技術應用,掌握基于Hadoop大數據平臺的數據挖掘和數據倉庫分布式系統平臺應用,以及主流的大數據平臺產品剖析;
4.讓學員掌握業界最流行的Hadoop與Spark大數據平臺,深入講解Hadoop生態系統組件,包括HDFS,MapReduce,HIVE,HBase,Mahout,Spark,GraphX,MLib,Shark,ElasticSearch等大數據存儲管理、大型數據倉庫、大數據查詢與搜索、大數據分析挖掘與分布式處理技術的實踐應用;
5.引導學員利用Hadoop大數據技術解決企業中存在的問題,掌握運用Hadoop開展大數據項目解決方案思路;
6.本課程采用技術原理與項目實戰相結合的方式進行教學,在講授原理的過程中,穿插實際的系統操作,講師精心準備實際的應用案例供學員動手訓練。
培訓特色
本次培訓從案例分析與行業應用穿插;專家精彩內容解析、學員專題討論、分組研究;通過全面知識理解、專題技能演示和實踐引導學員掌握課程內容。
課程大綱
時間 | 授課內容 | 現場實戰訓練說明 |
---|---|---|
第一天 |
1.大數據技術的發展歷程和應用背景、大數據產業鏈概況,以及大數據技術在通信運營商、互聯網金融業、網上銀行、電子商務、零售業、制造業、電子政務、移動互聯網、教育信息化等行業中的應用實踐; 2.解析目前業界主流的標準化大數據平臺Hadoop+Spark平臺架構,重點講解它們在大數據存儲、管理、分析處理方面的應用方案,以及在大數據離線分析、近線分析、實時在線分析處理方面的優化組合方案及其優勢; 3.Hadoop大數據平臺的生態系統組件、平臺架構以及工作原理,以及不同發行版本的Hadoop比較; 4.HDFS的技術原理及應用實戰,核心關鍵技術、設計精髓、基本工作原理、系統架構、文件存儲模式、數據壓縮、工作機制、存儲擴容與吞吐性能擴展; 5.WebHDFS應用實踐; 6.大數據平臺中的并行計算處理與函數式編程技術原理,以及數據并行技術—MapReduce技術的工作機制、工作原理、作業調度、性能調優和大數據處理架構,以及MapReduce技術的發展趨勢; 7.Hadoop MapReduce和Yarn并行處理平臺的系統架構、核心功能模塊、MapReduce編程應用開發實踐、MapReduce程序Debug調試與任務調度技術; 8.常見的Hadoop平臺故障錯誤分析策略以及監控工具詳解,云文件存儲系統狀態以及海量作業執行狀態監控與故障解決經驗介紹; |
1.VMware環境下部署配置CentOS虛擬機集群模擬真實的物理集群; 2.在CentOS虛擬集群上部署ClouderaHadoop集群平臺、配置管理、部署HUE監控系統; 3.基于HDFS實現大規模在線文件存儲程序; 4.基于Hadoop MapReduce實現網頁數據統計程序; |
第二天 |
9.目前業界行業云數據中心的大規模非結構化數據管理技術實現與平臺應用,以及SQL、NoSQL和NewSQL關鍵技術詳解,系統平臺技術概述以及適合的應用場景; 10.Hadoop半結構化與非結構化大數據管理系統HBase集群的應用及其發展趨勢,HBase半結構化大數據管理集群管理、運維監控、性能優化、負載均衡,以及與Hadoop核心組件HDFS和MapReduce的數據協同操作應用; 11.HBase數據模型,HBase數據表、列族設計,以及數據的讀Get、寫Put、掃描Scan、刪除Delete操作;HBase數據模型的特殊屬性:版本、元數據管理、Join查詢、計數器、原子操作、ACID事務處理、行鎖、自動分區技術、HMaster與HRegionServer工作機制與調優; 12.HBase表結構設計,半結構化數據的模式創建、行鍵的設計、列族定義方法,以及HBase應用表結構設計; 13.利用HBase的原生Java客戶端的開發包進行創建表、刪除表、插入數據、查詢數據、刪除數據和過濾查詢;使用Thrift和REST客戶端API操作HBase數據庫,利用MapReduce批量操作HBase表的技術; 14.HBase集群運維管理工具應用,包括:文件檢測修復、文件查看工具、WAL日志查看、壓縮測試工具、數據遷移、數據導入與導出、日志回放工具,以及HBase性能指標度量以及HBase性能優化技術; 15.大型數據倉庫HIVE集群的技術原理及應用,Hive文件與記錄存儲格式、HiveServer2原理與應用部署、Hive大數據統計分析技術、Hive功能操作實踐,以及云計算數據中心的Hive大型數據倉庫集群在BAT公司和通信運營商中的案例分析; 16.HIVE大數據倉庫應用案例; 17.HBase和數據倉庫HIVE的框架整合技術及其應用; |
5. ClouderaManager軟件部署與 配置; 6.部署HBase大數據管理系統,配置、參數調優、性能監控, HBase數據表操作,以及項目應用開發實踐; 7.配置部署HIVE數據倉庫集群,以及性能調優實戰; 8.基于給定的實驗數據集加載至HIVE以及HBase中,并且根據實驗要求設計實現應用程序; |
第三天 |
18.HadoopKerberos安全機制原理,訪問控制配置、認證機制,以及實踐操作部署; 19.Hadoop集群的更新升級應用與操作步驟; 20.基于Hadoop+Mahout大數據分析挖掘處理平臺技術架構,以及大數據挖掘在互聯網電商和電信行業中的應用案例分析; 21.Mahout大數據協同過濾分析、頻繁模式挖掘分析、聚類分析、分類分析、推薦分析的應用程序開發實現; 22.大數據分析引擎Apache Flink的工作原理、核心技術架構、安裝部署和應用配置; 23.Storm大數據實時流數據處理平臺的技術原理、集群架構、安裝部署、程序開發及其實際應用案例分析; 24.Spark大數據實時處理平臺的技術原理、集群架構及其在大型互聯網公司和運營商企業中的應用實踐案例; 25.Spark分布式集群的安裝部署,Spark分布式實時處理框架及工作原理,以及Spark集群的平臺架構及其生態系統組件剖析,SparkSQL應用技巧; 26.VMware虛擬化集群管理軟件,以及Hadoop+ HBase + HIVE + Storm +Spark的大數據平臺集成解決方案的應用實踐案例分享; 27.基于真實的互聯網數據和實驗指導手冊在講師的引導下完成實際的項目案例,鞏固學過的大數據平臺技術知識以及應用技能。 |
9.結合云計算與大數據平臺實現一個真實的互聯網行業數據搜索系統,以及搜索日志分析與推薦系統應用案例,構建一個Hadoop, MapReduce, Storm, HBase, HIVE, Spark, Mahout的大數據平臺集成解決方案。 |