說起大數據,很多人模棱兩可,對于大數據的核心技術不清楚,其實,從大數據的生命周期來看,大數據采集、大數據預處理、大數據存儲、大數據分析4部分共同組成了大數據生命周期里最核心的技術,簡單地說,就是如何拿數據,算數據,賣數據。
1、大數據采集
數據庫采集:流行的有Sqoop和ETL,傳統的關系型數據庫MySQL和Oracle 也依然充當著許多企業的數據存儲方式。當然了,目前對于開源的Kettle和Talend本身,也集成了大數據集成內容,可實現hdfs,hbase和主流Nosq數據庫之間的數據同步和集成。
網絡數據采集:一種借助網絡爬蟲或網站公開API,從網頁獲取非結構化或半結構化數據,并將其統一結構化為本地數據的數據采集方式。
文件采集:包括實時文件采集和處理技術flume、基于ELK的日志采集和增量采集等等。
2、大數據預處理
數據清理:指利用ETL等清洗工具,對有遺漏數據(缺少感興趣的屬性)、噪音數據(數據中存在著錯誤、或偏離期望值的數據)、不一致數據進行處理。
數據集成:是指將不同數據源中的數據,合并存放到統一數據庫的,存儲方法,著重解決三個問題:模式匹配、數據冗余、數據值沖突檢測與處理。
數據轉換:是指對所抽取出來的數據中存在的不一致,進行處理的過程。它同時包含了~數據清洗的工作,即根據業務規則對異常數據進行清洗,以保證后續分析結果準確性
數據規約:是指在最大限度保持數據原貌的基礎上,最大限度精簡數據量,以得到較小數據集的操作,包括:數據方聚集、維規約、數據壓縮、數值規約、概念分層等。
3、大數據存儲
(1)基于MPP架構的新型數據庫集群
(2)基于Hadoop的技術擴展和封裝
(3)大數據一體機
4、大數據分析挖掘
從可視化分析、數據挖掘算法、預測性分析、語義引擎、數據質量管理等方面,對雜亂無章的數據,進行萃取、提煉和分析的過程。
關注中培偉業,了解更多相關信息。